diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,8739 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 5437,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0009196247930844216,
+      "grad_norm": 4.087223679622462,
+      "learning_rate": 9.191176470588236e-07,
+      "loss": 1.3446,
+      "mean_token_accuracy": 0.6661458969116211,
+      "step": 5
+    },
+    {
+      "epoch": 0.0018392495861688431,
+      "grad_norm": 3.3376471514991324,
+      "learning_rate": 1.8382352941176471e-06,
+      "loss": 1.2534,
+      "mean_token_accuracy": 0.6856188654899598,
+      "step": 10
+    },
+    {
+      "epoch": 0.0027588743792532648,
+      "grad_norm": 3.1883807133419646,
+      "learning_rate": 2.7573529411764708e-06,
+      "loss": 1.2495,
+      "mean_token_accuracy": 0.6844112038612366,
+      "step": 15
+    },
+    {
+      "epoch": 0.0036784991723376862,
+      "grad_norm": 2.5757356327081826,
+      "learning_rate": 3.6764705882352942e-06,
+      "loss": 1.1962,
+      "mean_token_accuracy": 0.6918170928955079,
+      "step": 20
+    },
+    {
+      "epoch": 0.004598123965422108,
+      "grad_norm": 2.3971194855376092,
+      "learning_rate": 4.595588235294118e-06,
+      "loss": 1.2274,
+      "mean_token_accuracy": 0.6844529986381531,
+      "step": 25
+    },
+    {
+      "epoch": 0.0055177487585065296,
+      "grad_norm": 2.00434532423879,
+      "learning_rate": 5.5147058823529415e-06,
+      "loss": 1.1506,
+      "mean_token_accuracy": 0.697660756111145,
+      "step": 30
+    },
+    {
+      "epoch": 0.006437373551590951,
+      "grad_norm": 2.0663662496595543,
+      "learning_rate": 6.433823529411764e-06,
+      "loss": 1.1278,
+      "mean_token_accuracy": 0.6973050832748413,
+      "step": 35
+    },
+    {
+      "epoch": 0.0073569983446753725,
+      "grad_norm": 1.9519049901829761,
+      "learning_rate": 7.3529411764705884e-06,
+      "loss": 1.102,
+      "mean_token_accuracy": 0.7046478033065796,
+      "step": 40
+    },
+    {
+      "epoch": 0.008276623137759793,
+      "grad_norm": 1.8451875842176761,
+      "learning_rate": 8.272058823529413e-06,
+      "loss": 1.125,
+      "mean_token_accuracy": 0.6951346158981323,
+      "step": 45
+    },
+    {
+      "epoch": 0.009196247930844215,
+      "grad_norm": 2.000034845742239,
+      "learning_rate": 9.191176470588236e-06,
+      "loss": 1.0295,
+      "mean_token_accuracy": 0.7154734015464783,
+      "step": 50
+    },
+    {
+      "epoch": 0.010115872723928637,
+      "grad_norm": 1.621484821283711,
+      "learning_rate": 1.011029411764706e-05,
+      "loss": 1.0762,
+      "mean_token_accuracy": 0.706468117237091,
+      "step": 55
+    },
+    {
+      "epoch": 0.011035497517013059,
+      "grad_norm": 1.753826025706781,
+      "learning_rate": 1.1029411764705883e-05,
+      "loss": 1.0394,
+      "mean_token_accuracy": 0.7156139016151428,
+      "step": 60
+    },
+    {
+      "epoch": 0.011955122310097481,
+      "grad_norm": 1.6505676536191385,
+      "learning_rate": 1.1948529411764707e-05,
+      "loss": 1.0338,
+      "mean_token_accuracy": 0.7132004976272583,
+      "step": 65
+    },
+    {
+      "epoch": 0.012874747103181901,
+      "grad_norm": 1.8513933357249144,
+      "learning_rate": 1.2867647058823528e-05,
+      "loss": 0.9804,
+      "mean_token_accuracy": 0.7274341702461242,
+      "step": 70
+    },
+    {
+      "epoch": 0.013794371896266323,
+      "grad_norm": 2.4070230665851993,
+      "learning_rate": 1.3786764705882355e-05,
+      "loss": 1.0398,
+      "mean_token_accuracy": 0.7116599082946777,
+      "step": 75
+    },
+    {
+      "epoch": 0.014713996689350745,
+      "grad_norm": 1.798866895809756,
+      "learning_rate": 1.4705882352941177e-05,
+      "loss": 0.9922,
+      "mean_token_accuracy": 0.720504081249237,
+      "step": 80
+    },
+    {
+      "epoch": 0.015633621482435165,
+      "grad_norm": 1.709611126629724,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.9938,
+      "mean_token_accuracy": 0.7247263193130493,
+      "step": 85
+    },
+    {
+      "epoch": 0.016553246275519587,
+      "grad_norm": 1.7626425485303618,
+      "learning_rate": 1.6544117647058825e-05,
+      "loss": 1.0122,
+      "mean_token_accuracy": 0.717292582988739,
+      "step": 90
+    },
+    {
+      "epoch": 0.01747287106860401,
+      "grad_norm": 2.036503882503329,
+      "learning_rate": 1.7463235294117647e-05,
+      "loss": 1.0109,
+      "mean_token_accuracy": 0.7172105073928833,
+      "step": 95
+    },
+    {
+      "epoch": 0.01839249586168843,
+      "grad_norm": 1.927409741133158,
+      "learning_rate": 1.8382352941176472e-05,
+      "loss": 1.0434,
+      "mean_token_accuracy": 0.7078547954559327,
+      "step": 100
+    },
+    {
+      "epoch": 0.019312120654772853,
+      "grad_norm": 2.079665033278075,
+      "learning_rate": 1.9301470588235298e-05,
+      "loss": 0.9959,
+      "mean_token_accuracy": 0.7182355523109436,
+      "step": 105
+    },
+    {
+      "epoch": 0.020231745447857274,
+      "grad_norm": 1.8479982769163703,
+      "learning_rate": 2.022058823529412e-05,
+      "loss": 1.0194,
+      "mean_token_accuracy": 0.7173629522323608,
+      "step": 110
+    },
+    {
+      "epoch": 0.021151370240941696,
+      "grad_norm": 1.831806807070413,
+      "learning_rate": 2.113970588235294e-05,
+      "loss": 0.9569,
+      "mean_token_accuracy": 0.7312556385993958,
+      "step": 115
+    },
+    {
+      "epoch": 0.022070995034026118,
+      "grad_norm": 1.7952413093248756,
+      "learning_rate": 2.2058823529411766e-05,
+      "loss": 1.0149,
+      "mean_token_accuracy": 0.7192024111747741,
+      "step": 120
+    },
+    {
+      "epoch": 0.02299061982711054,
+      "grad_norm": 1.6441769080980864,
+      "learning_rate": 2.2977941176470588e-05,
+      "loss": 0.9668,
+      "mean_token_accuracy": 0.7280102610588074,
+      "step": 125
+    },
+    {
+      "epoch": 0.023910244620194962,
+      "grad_norm": 1.7182187182460715,
+      "learning_rate": 2.3897058823529413e-05,
+      "loss": 1.025,
+      "mean_token_accuracy": 0.7164386153221131,
+      "step": 130
+    },
+    {
+      "epoch": 0.02482986941327938,
+      "grad_norm": 1.7665031820505241,
+      "learning_rate": 2.4816176470588238e-05,
+      "loss": 0.9879,
+      "mean_token_accuracy": 0.7216517567634583,
+      "step": 135
+    },
+    {
+      "epoch": 0.025749494206363802,
+      "grad_norm": 1.65781753659198,
+      "learning_rate": 2.5735294117647057e-05,
+      "loss": 1.0204,
+      "mean_token_accuracy": 0.7183511853218079,
+      "step": 140
+    },
+    {
+      "epoch": 0.026669118999448224,
+      "grad_norm": 1.5947996494100198,
+      "learning_rate": 2.6654411764705882e-05,
+      "loss": 0.9915,
+      "mean_token_accuracy": 0.7210009098052979,
+      "step": 145
+    },
+    {
+      "epoch": 0.027588743792532646,
+      "grad_norm": 1.6195741488866147,
+      "learning_rate": 2.757352941176471e-05,
+      "loss": 0.9609,
+      "mean_token_accuracy": 0.7290344476699829,
+      "step": 150
+    },
+    {
+      "epoch": 0.028508368585617068,
+      "grad_norm": 1.700795937176488,
+      "learning_rate": 2.849264705882353e-05,
+      "loss": 1.0017,
+      "mean_token_accuracy": 0.7190845251083374,
+      "step": 155
+    },
+    {
+      "epoch": 0.02942799337870149,
+      "grad_norm": 1.6626957868958252,
+      "learning_rate": 2.9411764705882354e-05,
+      "loss": 0.9801,
+      "mean_token_accuracy": 0.7264268517494201,
+      "step": 160
+    },
+    {
+      "epoch": 0.03034761817178591,
+      "grad_norm": 1.646176772035618,
+      "learning_rate": 3.0330882352941176e-05,
+      "loss": 0.9819,
+      "mean_token_accuracy": 0.7258347868919373,
+      "step": 165
+    },
+    {
+      "epoch": 0.03126724296487033,
+      "grad_norm": 1.7051406597026453,
+      "learning_rate": 3.125e-05,
+      "loss": 1.0021,
+      "mean_token_accuracy": 0.7193678379058838,
+      "step": 170
+    },
+    {
+      "epoch": 0.032186867757954755,
+      "grad_norm": 1.6583599673202631,
+      "learning_rate": 3.2169117647058826e-05,
+      "loss": 0.9863,
+      "mean_token_accuracy": 0.7218608260154724,
+      "step": 175
+    },
+    {
+      "epoch": 0.033106492551039174,
+      "grad_norm": 1.6811054631655953,
+      "learning_rate": 3.308823529411765e-05,
+      "loss": 0.9776,
+      "mean_token_accuracy": 0.7252245903015136,
+      "step": 180
+    },
+    {
+      "epoch": 0.0340261173441236,
+      "grad_norm": 1.6005295960642778,
+      "learning_rate": 3.4007352941176476e-05,
+      "loss": 0.952,
+      "mean_token_accuracy": 0.7300998091697692,
+      "step": 185
+    },
+    {
+      "epoch": 0.03494574213720802,
+      "grad_norm": 1.884741061084924,
+      "learning_rate": 3.4926470588235294e-05,
+      "loss": 1.0216,
+      "mean_token_accuracy": 0.7144460439682007,
+      "step": 190
+    },
+    {
+      "epoch": 0.03586536693029244,
+      "grad_norm": 1.61333499821342,
+      "learning_rate": 3.584558823529412e-05,
+      "loss": 1.0067,
+      "mean_token_accuracy": 0.7160724878311158,
+      "step": 195
+    },
+    {
+      "epoch": 0.03678499172337686,
+      "grad_norm": 1.592957572722435,
+      "learning_rate": 3.6764705882352945e-05,
+      "loss": 0.9367,
+      "mean_token_accuracy": 0.7348474979400634,
+      "step": 200
+    },
+    {
+      "epoch": 0.03770461651646129,
+      "grad_norm": 1.7666690880786284,
+      "learning_rate": 3.768382352941176e-05,
+      "loss": 0.9545,
+      "mean_token_accuracy": 0.7297826528549194,
+      "step": 205
+    },
+    {
+      "epoch": 0.038624241309545705,
+      "grad_norm": 1.5696177739032589,
+      "learning_rate": 3.8602941176470595e-05,
+      "loss": 1.0076,
+      "mean_token_accuracy": 0.7160616636276245,
+      "step": 210
+    },
+    {
+      "epoch": 0.039543866102630124,
+      "grad_norm": 1.5375849975431441,
+      "learning_rate": 3.952205882352941e-05,
+      "loss": 1.0082,
+      "mean_token_accuracy": 0.7139402985572815,
+      "step": 215
+    },
+    {
+      "epoch": 0.04046349089571455,
+      "grad_norm": 1.6613621558577687,
+      "learning_rate": 4.044117647058824e-05,
+      "loss": 1.0047,
+      "mean_token_accuracy": 0.7157810091972351,
+      "step": 220
+    },
+    {
+      "epoch": 0.04138311568879897,
+      "grad_norm": 1.6712866586887962,
+      "learning_rate": 4.136029411764706e-05,
+      "loss": 0.9841,
+      "mean_token_accuracy": 0.7261144757270813,
+      "step": 225
+    },
+    {
+      "epoch": 0.04230274048188339,
+      "grad_norm": 1.5868739813391535,
+      "learning_rate": 4.227941176470588e-05,
+      "loss": 1.0063,
+      "mean_token_accuracy": 0.7146228194236756,
+      "step": 230
+    },
+    {
+      "epoch": 0.04322236527496781,
+      "grad_norm": 1.4745940440239442,
+      "learning_rate": 4.319852941176471e-05,
+      "loss": 0.9895,
+      "mean_token_accuracy": 0.7205227255821228,
+      "step": 235
+    },
+    {
+      "epoch": 0.044141990068052236,
+      "grad_norm": 1.565812920746474,
+      "learning_rate": 4.411764705882353e-05,
+      "loss": 0.9883,
+      "mean_token_accuracy": 0.7221224546432495,
+      "step": 240
+    },
+    {
+      "epoch": 0.045061614861136655,
+      "grad_norm": 1.579279007990175,
+      "learning_rate": 4.503676470588236e-05,
+      "loss": 1.0339,
+      "mean_token_accuracy": 0.7140692472457886,
+      "step": 245
+    },
+    {
+      "epoch": 0.04598123965422108,
+      "grad_norm": 1.550674625710887,
+      "learning_rate": 4.5955882352941176e-05,
+      "loss": 1.009,
+      "mean_token_accuracy": 0.717827045917511,
+      "step": 250
+    },
+    {
+      "epoch": 0.0469008644473055,
+      "grad_norm": 1.494069442893164,
+      "learning_rate": 4.6875e-05,
+      "loss": 1.0163,
+      "mean_token_accuracy": 0.7157993316650391,
+      "step": 255
+    },
+    {
+      "epoch": 0.047820489240389924,
+      "grad_norm": 1.585433590429472,
+      "learning_rate": 4.7794117647058826e-05,
+      "loss": 0.9662,
+      "mean_token_accuracy": 0.7260660767555237,
+      "step": 260
+    },
+    {
+      "epoch": 0.04874011403347434,
+      "grad_norm": 1.5561077784742092,
+      "learning_rate": 4.871323529411765e-05,
+      "loss": 1.0521,
+      "mean_token_accuracy": 0.7059531569480896,
+      "step": 265
+    },
+    {
+      "epoch": 0.04965973882655876,
+      "grad_norm": 1.3842507274813078,
+      "learning_rate": 4.9632352941176476e-05,
+      "loss": 0.96,
+      "mean_token_accuracy": 0.7317641496658325,
+      "step": 270
+    },
+    {
+      "epoch": 0.050579363619643186,
+      "grad_norm": 1.4379239878799341,
+      "learning_rate": 4.999996254118754e-05,
+      "loss": 0.972,
+      "mean_token_accuracy": 0.7297493696212769,
+      "step": 275
+    },
+    {
+      "epoch": 0.051498988412727605,
+      "grad_norm": 1.3761784967587591,
+      "learning_rate": 4.999973362667417e-05,
+      "loss": 0.9844,
+      "mean_token_accuracy": 0.724224853515625,
+      "step": 280
+    },
+    {
+      "epoch": 0.05241861320581203,
+      "grad_norm": 1.4249636066532947,
+      "learning_rate": 4.999929661021346e-05,
+      "loss": 0.9974,
+      "mean_token_accuracy": 0.7186186075210571,
+      "step": 285
+    },
+    {
+      "epoch": 0.05333823799889645,
+      "grad_norm": 1.6467747117004,
+      "learning_rate": 4.9998651495847435e-05,
+      "loss": 1.0296,
+      "mean_token_accuracy": 0.7110173583030701,
+      "step": 290
+    },
+    {
+      "epoch": 0.054257862791980874,
+      "grad_norm": 1.3761801455599358,
+      "learning_rate": 4.9997798289542816e-05,
+      "loss": 1.0209,
+      "mean_token_accuracy": 0.7124481081962586,
+      "step": 295
+    },
+    {
+      "epoch": 0.05517748758506529,
+      "grad_norm": 1.4585308096786376,
+      "learning_rate": 4.9996736999190965e-05,
+      "loss": 1.0248,
+      "mean_token_accuracy": 0.7100600242614746,
+      "step": 300
+    },
+    {
+      "epoch": 0.05609711237814972,
+      "grad_norm": 1.4301378065367794,
+      "learning_rate": 4.999546763460785e-05,
+      "loss": 0.9864,
+      "mean_token_accuracy": 0.7253738522529602,
+      "step": 305
+    },
+    {
+      "epoch": 0.057016737171234136,
+      "grad_norm": 1.4586102770676173,
+      "learning_rate": 4.999399020753393e-05,
+      "loss": 0.9541,
+      "mean_token_accuracy": 0.7308779239654541,
+      "step": 310
+    },
+    {
+      "epoch": 0.05793636196431856,
+      "grad_norm": 1.5007400960218442,
+      "learning_rate": 4.999230473163406e-05,
+      "loss": 1.0123,
+      "mean_token_accuracy": 0.7142405152320862,
+      "step": 315
+    },
+    {
+      "epoch": 0.05885598675740298,
+      "grad_norm": 1.4247385882584611,
+      "learning_rate": 4.999041122249735e-05,
+      "loss": 1.0097,
+      "mean_token_accuracy": 0.7164065957069397,
+      "step": 320
+    },
+    {
+      "epoch": 0.0597756115504874,
+      "grad_norm": 1.4338281584111965,
+      "learning_rate": 4.9988309697637025e-05,
+      "loss": 1.0381,
+      "mean_token_accuracy": 0.7093045115470886,
+      "step": 325
+    },
+    {
+      "epoch": 0.06069523634357182,
+      "grad_norm": 1.3206321897141915,
+      "learning_rate": 4.9986000176490264e-05,
+      "loss": 1.0378,
+      "mean_token_accuracy": 0.7081658363342285,
+      "step": 330
+    },
+    {
+      "epoch": 0.06161486113665624,
+      "grad_norm": 1.4771390057019052,
+      "learning_rate": 4.998348268041803e-05,
+      "loss": 1.0473,
+      "mean_token_accuracy": 0.7044042825698853,
+      "step": 335
+    },
+    {
+      "epoch": 0.06253448592974066,
+      "grad_norm": 1.410427294901373,
+      "learning_rate": 4.9980757232704836e-05,
+      "loss": 1.0476,
+      "mean_token_accuracy": 0.7044672727584839,
+      "step": 340
+    },
+    {
+      "epoch": 0.06345411072282509,
+      "grad_norm": 1.293731368317575,
+      "learning_rate": 4.997782385855862e-05,
+      "loss": 0.9809,
+      "mean_token_accuracy": 0.7207650065422058,
+      "step": 345
+    },
+    {
+      "epoch": 0.06437373551590951,
+      "grad_norm": 1.373213488697433,
+      "learning_rate": 4.9974682585110375e-05,
+      "loss": 1.0238,
+      "mean_token_accuracy": 0.713714337348938,
+      "step": 350
+    },
+    {
+      "epoch": 0.06529336030899394,
+      "grad_norm": 1.4173612737543944,
+      "learning_rate": 4.997133344141402e-05,
+      "loss": 0.9995,
+      "mean_token_accuracy": 0.7182128310203553,
+      "step": 355
+    },
+    {
+      "epoch": 0.06621298510207835,
+      "grad_norm": 1.4208487527297817,
+      "learning_rate": 4.9967776458446067e-05,
+      "loss": 1.0247,
+      "mean_token_accuracy": 0.7120985150337219,
+      "step": 360
+    },
+    {
+      "epoch": 0.06713260989516277,
+      "grad_norm": 1.3468936690832556,
+      "learning_rate": 4.996401166910535e-05,
+      "loss": 1.0257,
+      "mean_token_accuracy": 0.711448609828949,
+      "step": 365
+    },
+    {
+      "epoch": 0.0680522346882472,
+      "grad_norm": 1.3418384776624692,
+      "learning_rate": 4.996003910821273e-05,
+      "loss": 0.9908,
+      "mean_token_accuracy": 0.7198069810867309,
+      "step": 370
+    },
+    {
+      "epoch": 0.06897185948133161,
+      "grad_norm": 1.2757020291626893,
+      "learning_rate": 4.995585881251076e-05,
+      "loss": 1.0029,
+      "mean_token_accuracy": 0.7165916681289672,
+      "step": 375
+    },
+    {
+      "epoch": 0.06989148427441604,
+      "grad_norm": 1.2215136508098425,
+      "learning_rate": 4.995147082066335e-05,
+      "loss": 1.0071,
+      "mean_token_accuracy": 0.7161303281784057,
+      "step": 380
+    },
+    {
+      "epoch": 0.07081110906750046,
+      "grad_norm": 1.5100364277085054,
+      "learning_rate": 4.9946875173255405e-05,
+      "loss": 0.9808,
+      "mean_token_accuracy": 0.7223702430725097,
+      "step": 385
+    },
+    {
+      "epoch": 0.07173073386058489,
+      "grad_norm": 1.3193074150499653,
+      "learning_rate": 4.9942071912792463e-05,
+      "loss": 0.9692,
+      "mean_token_accuracy": 0.7253165245056152,
+      "step": 390
+    },
+    {
+      "epoch": 0.0726503586536693,
+      "grad_norm": 1.360795639773644,
+      "learning_rate": 4.9937061083700286e-05,
+      "loss": 0.9248,
+      "mean_token_accuracy": 0.738149356842041,
+      "step": 395
+    },
+    {
+      "epoch": 0.07356998344675372,
+      "grad_norm": 1.3934617241628962,
+      "learning_rate": 4.993184273232445e-05,
+      "loss": 1.0174,
+      "mean_token_accuracy": 0.7140317440032959,
+      "step": 400
+    },
+    {
+      "epoch": 0.07448960823983815,
+      "grad_norm": 1.3755761090465115,
+      "learning_rate": 4.9926416906929954e-05,
+      "loss": 0.9371,
+      "mean_token_accuracy": 0.7347567915916443,
+      "step": 405
+    },
+    {
+      "epoch": 0.07540923303292257,
+      "grad_norm": 1.3123084901189321,
+      "learning_rate": 4.9920783657700685e-05,
+      "loss": 1.0494,
+      "mean_token_accuracy": 0.7046082258224488,
+      "step": 410
+    },
+    {
+      "epoch": 0.07632885782600698,
+      "grad_norm": 1.26236320940822,
+      "learning_rate": 4.9914943036739075e-05,
+      "loss": 0.9813,
+      "mean_token_accuracy": 0.7248732924461365,
+      "step": 415
+    },
+    {
+      "epoch": 0.07724848261909141,
+      "grad_norm": 1.4072657383382854,
+      "learning_rate": 4.99088950980655e-05,
+      "loss": 1.0041,
+      "mean_token_accuracy": 0.7161918520927429,
+      "step": 420
+    },
+    {
+      "epoch": 0.07816810741217584,
+      "grad_norm": 1.4142932157820918,
+      "learning_rate": 4.9902639897617876e-05,
+      "loss": 1.0343,
+      "mean_token_accuracy": 0.7073235511779785,
+      "step": 425
+    },
+    {
+      "epoch": 0.07908773220526025,
+      "grad_norm": 1.2620775477382082,
+      "learning_rate": 4.9896177493251065e-05,
+      "loss": 0.9773,
+      "mean_token_accuracy": 0.724228036403656,
+      "step": 430
+    },
+    {
+      "epoch": 0.08000735699834467,
+      "grad_norm": 1.2299977431090294,
+      "learning_rate": 4.9889507944736405e-05,
+      "loss": 0.9921,
+      "mean_token_accuracy": 0.7193984985351562,
+      "step": 435
+    },
+    {
+      "epoch": 0.0809269817914291,
+      "grad_norm": 1.272005618491772,
+      "learning_rate": 4.9882631313761116e-05,
+      "loss": 1.0266,
+      "mean_token_accuracy": 0.7106949806213378,
+      "step": 440
+    },
+    {
+      "epoch": 0.08184660658451352,
+      "grad_norm": 1.3368998742271194,
+      "learning_rate": 4.9875547663927744e-05,
+      "loss": 0.9945,
+      "mean_token_accuracy": 0.7178430318832397,
+      "step": 445
+    },
+    {
+      "epoch": 0.08276623137759793,
+      "grad_norm": 1.2395804635484349,
+      "learning_rate": 4.986825706075357e-05,
+      "loss": 0.9614,
+      "mean_token_accuracy": 0.7270126938819885,
+      "step": 450
+    },
+    {
+      "epoch": 0.08368585617068236,
+      "grad_norm": 1.2355105682399337,
+      "learning_rate": 4.9860759571669987e-05,
+      "loss": 1.017,
+      "mean_token_accuracy": 0.7113536357879638,
+      "step": 455
+    },
+    {
+      "epoch": 0.08460548096376679,
+      "grad_norm": 1.2769471363849882,
+      "learning_rate": 4.985305526602192e-05,
+      "loss": 0.9841,
+      "mean_token_accuracy": 0.7207873582839965,
+      "step": 460
+    },
+    {
+      "epoch": 0.08552510575685121,
+      "grad_norm": 1.3105851965485462,
+      "learning_rate": 4.984514421506715e-05,
+      "loss": 1.0238,
+      "mean_token_accuracy": 0.7113570213317871,
+      "step": 465
+    },
+    {
+      "epoch": 0.08644473054993562,
+      "grad_norm": 1.2226583029739935,
+      "learning_rate": 4.983702649197565e-05,
+      "loss": 1.0026,
+      "mean_token_accuracy": 0.7175478458404541,
+      "step": 470
+    },
+    {
+      "epoch": 0.08736435534302005,
+      "grad_norm": 1.3032963672614144,
+      "learning_rate": 4.982870217182893e-05,
+      "loss": 1.0102,
+      "mean_token_accuracy": 0.7142111778259277,
+      "step": 475
+    },
+    {
+      "epoch": 0.08828398013610447,
+      "grad_norm": 1.276533355049304,
+      "learning_rate": 4.9820171331619343e-05,
+      "loss": 1.0175,
+      "mean_token_accuracy": 0.7140154242515564,
+      "step": 480
+    },
+    {
+      "epoch": 0.08920360492918888,
+      "grad_norm": 1.3275369586760475,
+      "learning_rate": 4.981143405024936e-05,
+      "loss": 0.9664,
+      "mean_token_accuracy": 0.7251969814300537,
+      "step": 485
+    },
+    {
+      "epoch": 0.09012322972227331,
+      "grad_norm": 1.322475452296982,
+      "learning_rate": 4.980249040853081e-05,
+      "loss": 0.9572,
+      "mean_token_accuracy": 0.7284212589263916,
+      "step": 490
+    },
+    {
+      "epoch": 0.09104285451535774,
+      "grad_norm": 1.2219967426964762,
+      "learning_rate": 4.979334048918422e-05,
+      "loss": 1.0265,
+      "mean_token_accuracy": 0.7094637989997864,
+      "step": 495
+    },
+    {
+      "epoch": 0.09196247930844216,
+      "grad_norm": 1.2500649142513325,
+      "learning_rate": 4.978398437683797e-05,
+      "loss": 0.9429,
+      "mean_token_accuracy": 0.7309910893440247,
+      "step": 500
+    },
+    {
+      "epoch": 0.09288210410152657,
+      "grad_norm": 1.2382649121413325,
+      "learning_rate": 4.977442215802753e-05,
+      "loss": 1.0142,
+      "mean_token_accuracy": 0.7163145303726196,
+      "step": 505
+    },
+    {
+      "epoch": 0.093801728894611,
+      "grad_norm": 1.2494735942714719,
+      "learning_rate": 4.976465392119467e-05,
+      "loss": 0.9711,
+      "mean_token_accuracy": 0.7253948450088501,
+      "step": 510
+    },
+    {
+      "epoch": 0.09472135368769542,
+      "grad_norm": 1.1320102641208292,
+      "learning_rate": 4.9754679756686654e-05,
+      "loss": 0.9754,
+      "mean_token_accuracy": 0.7240365982055664,
+      "step": 515
+    },
+    {
+      "epoch": 0.09564097848077985,
+      "grad_norm": 1.2636397583226155,
+      "learning_rate": 4.974449975675538e-05,
+      "loss": 0.9683,
+      "mean_token_accuracy": 0.7268050789833069,
+      "step": 520
+    },
+    {
+      "epoch": 0.09656060327386426,
+      "grad_norm": 1.2638605012202537,
+      "learning_rate": 4.9734114015556506e-05,
+      "loss": 0.994,
+      "mean_token_accuracy": 0.7192271828651429,
+      "step": 525
+    },
+    {
+      "epoch": 0.09748022806694868,
+      "grad_norm": 1.3539672940723328,
+      "learning_rate": 4.972352262914867e-05,
+      "loss": 1.0219,
+      "mean_token_accuracy": 0.712011969089508,
+      "step": 530
+    },
+    {
+      "epoch": 0.09839985286003311,
+      "grad_norm": 1.2622022574950933,
+      "learning_rate": 4.971272569549246e-05,
+      "loss": 0.9993,
+      "mean_token_accuracy": 0.717021644115448,
+      "step": 535
+    },
+    {
+      "epoch": 0.09931947765311752,
+      "grad_norm": 1.2498621609285703,
+      "learning_rate": 4.970172331444968e-05,
+      "loss": 0.9869,
+      "mean_token_accuracy": 0.7201068043708801,
+      "step": 540
+    },
+    {
+      "epoch": 0.10023910244620195,
+      "grad_norm": 1.2563183037951813,
+      "learning_rate": 4.969051558778226e-05,
+      "loss": 1.0328,
+      "mean_token_accuracy": 0.7072706580162048,
+      "step": 545
+    },
+    {
+      "epoch": 0.10115872723928637,
+      "grad_norm": 1.1583096373701225,
+      "learning_rate": 4.967910261915142e-05,
+      "loss": 1.0073,
+      "mean_token_accuracy": 0.7176116108894348,
+      "step": 550
+    },
+    {
+      "epoch": 0.1020783520323708,
+      "grad_norm": 1.2337310449325847,
+      "learning_rate": 4.966748451411668e-05,
+      "loss": 1.0075,
+      "mean_token_accuracy": 0.7166797518730164,
+      "step": 555
+    },
+    {
+      "epoch": 0.10299797682545521,
+      "grad_norm": 1.187463601840395,
+      "learning_rate": 4.9655661380134874e-05,
+      "loss": 0.9978,
+      "mean_token_accuracy": 0.7187446594238281,
+      "step": 560
+    },
+    {
+      "epoch": 0.10391760161853963,
+      "grad_norm": 1.1950175317081544,
+      "learning_rate": 4.964363332655918e-05,
+      "loss": 1.0127,
+      "mean_token_accuracy": 0.7141183018684387,
+      "step": 565
+    },
+    {
+      "epoch": 0.10483722641162406,
+      "grad_norm": 1.1797983108141703,
+      "learning_rate": 4.9631400464638074e-05,
+      "loss": 1.0058,
+      "mean_token_accuracy": 0.7147095799446106,
+      "step": 570
+    },
+    {
+      "epoch": 0.10575685120470849,
+      "grad_norm": 1.3194739883489515,
+      "learning_rate": 4.961896290751434e-05,
+      "loss": 1.0125,
+      "mean_token_accuracy": 0.7156966686248779,
+      "step": 575
+    },
+    {
+      "epoch": 0.1066764759977929,
+      "grad_norm": 1.232197096442626,
+      "learning_rate": 4.960632077022402e-05,
+      "loss": 1.0096,
+      "mean_token_accuracy": 0.7136348843574524,
+      "step": 580
+    },
+    {
+      "epoch": 0.10759610079087732,
+      "grad_norm": 1.1109964489025674,
+      "learning_rate": 4.959347416969529e-05,
+      "loss": 0.9782,
+      "mean_token_accuracy": 0.7218139052391053,
+      "step": 585
+    },
+    {
+      "epoch": 0.10851572558396175,
+      "grad_norm": 1.1118328480221105,
+      "learning_rate": 4.958042322474747e-05,
+      "loss": 0.9138,
+      "mean_token_accuracy": 0.7406689524650574,
+      "step": 590
+    },
+    {
+      "epoch": 0.10943535037704616,
+      "grad_norm": 1.1550688598895895,
+      "learning_rate": 4.956716805608984e-05,
+      "loss": 1.0123,
+      "mean_token_accuracy": 0.7150320529937744,
+      "step": 595
+    },
+    {
+      "epoch": 0.11035497517013058,
+      "grad_norm": 1.2400379075265455,
+      "learning_rate": 4.955370878632058e-05,
+      "loss": 0.9642,
+      "mean_token_accuracy": 0.7274539470672607,
+      "step": 600
+    },
+    {
+      "epoch": 0.11127459996321501,
+      "grad_norm": 1.1266451881904362,
+      "learning_rate": 4.954004553992564e-05,
+      "loss": 0.9597,
+      "mean_token_accuracy": 0.7269688129425049,
+      "step": 605
+    },
+    {
+      "epoch": 0.11219422475629943,
+      "grad_norm": 1.195410688726218,
+      "learning_rate": 4.952617844327753e-05,
+      "loss": 0.9667,
+      "mean_token_accuracy": 0.7273669600486755,
+      "step": 610
+    },
+    {
+      "epoch": 0.11311384954938385,
+      "grad_norm": 1.2168436664941074,
+      "learning_rate": 4.951210762463421e-05,
+      "loss": 0.981,
+      "mean_token_accuracy": 0.7224032163619996,
+      "step": 615
+    },
+    {
+      "epoch": 0.11403347434246827,
+      "grad_norm": 1.1158577605300688,
+      "learning_rate": 4.949783321413787e-05,
+      "loss": 1.0133,
+      "mean_token_accuracy": 0.7140767455101014,
+      "step": 620
+    },
+    {
+      "epoch": 0.1149530991355527,
+      "grad_norm": 1.2227500677211205,
+      "learning_rate": 4.948335534381375e-05,
+      "loss": 1.0178,
+      "mean_token_accuracy": 0.7107774257659912,
+      "step": 625
+    },
+    {
+      "epoch": 0.11587272392863712,
+      "grad_norm": 1.1733820093333545,
+      "learning_rate": 4.9468674147568906e-05,
+      "loss": 0.9496,
+      "mean_token_accuracy": 0.7264823913574219,
+      "step": 630
+    },
+    {
+      "epoch": 0.11679234872172153,
+      "grad_norm": 1.1456005644666878,
+      "learning_rate": 4.945378976119096e-05,
+      "loss": 1.0301,
+      "mean_token_accuracy": 0.7111668229103089,
+      "step": 635
+    },
+    {
+      "epoch": 0.11771197351480596,
+      "grad_norm": 1.176194033859284,
+      "learning_rate": 4.943870232234688e-05,
+      "loss": 0.9904,
+      "mean_token_accuracy": 0.7183448076248169,
+      "step": 640
+    },
+    {
+      "epoch": 0.11863159830789038,
+      "grad_norm": 1.1767555657667275,
+      "learning_rate": 4.9423411970581656e-05,
+      "loss": 0.9565,
+      "mean_token_accuracy": 0.7282203912734986,
+      "step": 645
+    },
+    {
+      "epoch": 0.1195512231009748,
+      "grad_norm": 1.1593918150017006,
+      "learning_rate": 4.940791884731706e-05,
+      "loss": 0.9629,
+      "mean_token_accuracy": 0.7265506267547608,
+      "step": 650
+    },
+    {
+      "epoch": 0.12047084789405922,
+      "grad_norm": 1.1809244906539653,
+      "learning_rate": 4.939222309585029e-05,
+      "loss": 0.9506,
+      "mean_token_accuracy": 0.7299855709075928,
+      "step": 655
+    },
+    {
+      "epoch": 0.12139047268714365,
+      "grad_norm": 1.187342482868558,
+      "learning_rate": 4.93763248613527e-05,
+      "loss": 0.9873,
+      "mean_token_accuracy": 0.7208028793334961,
+      "step": 660
+    },
+    {
+      "epoch": 0.12231009748022807,
+      "grad_norm": 1.1643370561641233,
+      "learning_rate": 4.936022429086841e-05,
+      "loss": 1.019,
+      "mean_token_accuracy": 0.7111838817596435,
+      "step": 665
+    },
+    {
+      "epoch": 0.12322972227331248,
+      "grad_norm": 1.1548281507110767,
+      "learning_rate": 4.9343921533312955e-05,
+      "loss": 0.949,
+      "mean_token_accuracy": 0.7271883249282837,
+      "step": 670
+    },
+    {
+      "epoch": 0.12414934706639691,
+      "grad_norm": 1.1323282418083014,
+      "learning_rate": 4.9327416739471935e-05,
+      "loss": 0.9269,
+      "mean_token_accuracy": 0.737087082862854,
+      "step": 675
+    },
+    {
+      "epoch": 0.12506897185948132,
+      "grad_norm": 1.2363897419233494,
+      "learning_rate": 4.9310710061999575e-05,
+      "loss": 1.0061,
+      "mean_token_accuracy": 0.714658522605896,
+      "step": 680
+    },
+    {
+      "epoch": 0.12598859665256576,
+      "grad_norm": 1.15808211817011,
+      "learning_rate": 4.9293801655417366e-05,
+      "loss": 0.9426,
+      "mean_token_accuracy": 0.7324698209762573,
+      "step": 685
+    },
+    {
+      "epoch": 0.12690822144565017,
+      "grad_norm": 1.168156282468429,
+      "learning_rate": 4.927669167611259e-05,
+      "loss": 0.9516,
+      "mean_token_accuracy": 0.726858627796173,
+      "step": 690
+    },
+    {
+      "epoch": 0.12782784623873458,
+      "grad_norm": 1.1708412963628498,
+      "learning_rate": 4.92593802823369e-05,
+      "loss": 0.9565,
+      "mean_token_accuracy": 0.7281310319900512,
+      "step": 695
+    },
+    {
+      "epoch": 0.12874747103181902,
+      "grad_norm": 1.150205433303024,
+      "learning_rate": 4.924186763420486e-05,
+      "loss": 0.9966,
+      "mean_token_accuracy": 0.7196317195892334,
+      "step": 700
+    },
+    {
+      "epoch": 0.12966709582490343,
+      "grad_norm": 1.1412449351652514,
+      "learning_rate": 4.922415389369243e-05,
+      "loss": 0.9393,
+      "mean_token_accuracy": 0.7308167576789856,
+      "step": 705
+    },
+    {
+      "epoch": 0.13058672061798787,
+      "grad_norm": 1.2590368311590696,
+      "learning_rate": 4.9206239224635486e-05,
+      "loss": 0.9961,
+      "mean_token_accuracy": 0.7167337894439697,
+      "step": 710
+    },
+    {
+      "epoch": 0.13150634541107228,
+      "grad_norm": 1.1862573902159457,
+      "learning_rate": 4.9188123792728344e-05,
+      "loss": 0.9991,
+      "mean_token_accuracy": 0.71655353307724,
+      "step": 715
+    },
+    {
+      "epoch": 0.1324259702041567,
+      "grad_norm": 1.1728642333915622,
+      "learning_rate": 4.916980776552218e-05,
+      "loss": 0.9354,
+      "mean_token_accuracy": 0.734131133556366,
+      "step": 720
+    },
+    {
+      "epoch": 0.13334559499724113,
+      "grad_norm": 1.208191683152181,
+      "learning_rate": 4.915129131242345e-05,
+      "loss": 0.9578,
+      "mean_token_accuracy": 0.7278777837753296,
+      "step": 725
+    },
+    {
+      "epoch": 0.13426521979032555,
+      "grad_norm": 1.138309077411327,
+      "learning_rate": 4.913257460469243e-05,
+      "loss": 0.9448,
+      "mean_token_accuracy": 0.7303597450256347,
+      "step": 730
+    },
+    {
+      "epoch": 0.13518484458340996,
+      "grad_norm": 1.1410024150973699,
+      "learning_rate": 4.911365781544153e-05,
+      "loss": 0.9765,
+      "mean_token_accuracy": 0.7208934783935547,
+      "step": 735
+    },
+    {
+      "epoch": 0.1361044693764944,
+      "grad_norm": 1.135207319109893,
+      "learning_rate": 4.9094541119633756e-05,
+      "loss": 0.9625,
+      "mean_token_accuracy": 0.7279266119003296,
+      "step": 740
+    },
+    {
+      "epoch": 0.1370240941695788,
+      "grad_norm": 1.1470179542343784,
+      "learning_rate": 4.907522469408103e-05,
+      "loss": 1.0099,
+      "mean_token_accuracy": 0.7129136681556701,
+      "step": 745
+    },
+    {
+      "epoch": 0.13794371896266322,
+      "grad_norm": 1.1186516076443083,
+      "learning_rate": 4.905570871744262e-05,
+      "loss": 0.9492,
+      "mean_token_accuracy": 0.7295220971107483,
+      "step": 750
+    },
+    {
+      "epoch": 0.13886334375574766,
+      "grad_norm": 1.188235501807293,
+      "learning_rate": 4.903599337022345e-05,
+      "loss": 0.9158,
+      "mean_token_accuracy": 0.7392297148704529,
+      "step": 755
+    },
+    {
+      "epoch": 0.13978296854883207,
+      "grad_norm": 1.156585568722138,
+      "learning_rate": 4.9016078834772436e-05,
+      "loss": 1.0069,
+      "mean_token_accuracy": 0.7133058428764343,
+      "step": 760
+    },
+    {
+      "epoch": 0.1407025933419165,
+      "grad_norm": 1.0550430464679208,
+      "learning_rate": 4.899596529528083e-05,
+      "loss": 0.9804,
+      "mean_token_accuracy": 0.7237313628196717,
+      "step": 765
+    },
+    {
+      "epoch": 0.14162221813500092,
+      "grad_norm": 1.0828080346302627,
+      "learning_rate": 4.897565293778045e-05,
+      "loss": 0.9398,
+      "mean_token_accuracy": 0.7297361016273498,
+      "step": 770
+    },
+    {
+      "epoch": 0.14254184292808533,
+      "grad_norm": 1.0748821988518662,
+      "learning_rate": 4.895514195014201e-05,
+      "loss": 0.9512,
+      "mean_token_accuracy": 0.727254593372345,
+      "step": 775
+    },
+    {
+      "epoch": 0.14346146772116977,
+      "grad_norm": 1.1000801031665166,
+      "learning_rate": 4.893443252207339e-05,
+      "loss": 0.96,
+      "mean_token_accuracy": 0.7277865290641785,
+      "step": 780
+    },
+    {
+      "epoch": 0.14438109251425418,
+      "grad_norm": 1.1979288214254857,
+      "learning_rate": 4.891352484511783e-05,
+      "loss": 0.9904,
+      "mean_token_accuracy": 0.7203876137733459,
+      "step": 785
+    },
+    {
+      "epoch": 0.1453007173073386,
+      "grad_norm": 1.0336978471065938,
+      "learning_rate": 4.889241911265224e-05,
+      "loss": 0.9512,
+      "mean_token_accuracy": 0.7298694252967834,
+      "step": 790
+    },
+    {
+      "epoch": 0.14622034210042303,
+      "grad_norm": 1.093196247221492,
+      "learning_rate": 4.887111551988531e-05,
+      "loss": 1.0404,
+      "mean_token_accuracy": 0.7045328140258789,
+      "step": 795
+    },
+    {
+      "epoch": 0.14713996689350745,
+      "grad_norm": 1.224732532168464,
+      "learning_rate": 4.884961426385578e-05,
+      "loss": 1.0189,
+      "mean_token_accuracy": 0.7101276278495788,
+      "step": 800
+    },
+    {
+      "epoch": 0.14805959168659186,
+      "grad_norm": 1.1751595598375444,
+      "learning_rate": 4.8827915543430604e-05,
+      "loss": 0.9166,
+      "mean_token_accuracy": 0.7369141817092896,
+      "step": 805
+    },
+    {
+      "epoch": 0.1489792164796763,
+      "grad_norm": 1.0711984590567727,
+      "learning_rate": 4.880601955930308e-05,
+      "loss": 0.9528,
+      "mean_token_accuracy": 0.7275946021080018,
+      "step": 810
+    },
+    {
+      "epoch": 0.1498988412727607,
+      "grad_norm": 1.1523849563074238,
+      "learning_rate": 4.878392651399103e-05,
+      "loss": 0.9724,
+      "mean_token_accuracy": 0.72748943567276,
+      "step": 815
+    },
+    {
+      "epoch": 0.15081846606584515,
+      "grad_norm": 1.1385592224893888,
+      "learning_rate": 4.8761636611834906e-05,
+      "loss": 0.9423,
+      "mean_token_accuracy": 0.7338582873344421,
+      "step": 820
+    },
+    {
+      "epoch": 0.15173809085892956,
+      "grad_norm": 1.171019568482894,
+      "learning_rate": 4.873915005899591e-05,
+      "loss": 0.9823,
+      "mean_token_accuracy": 0.7215001463890076,
+      "step": 825
+    },
+    {
+      "epoch": 0.15265771565201397,
+      "grad_norm": 1.1181637038875023,
+      "learning_rate": 4.871646706345407e-05,
+      "loss": 0.9696,
+      "mean_token_accuracy": 0.7244228839874267,
+      "step": 830
+    },
+    {
+      "epoch": 0.1535773404450984,
+      "grad_norm": 1.140111709793846,
+      "learning_rate": 4.869358783500634e-05,
+      "loss": 0.9691,
+      "mean_token_accuracy": 0.7219241619110107,
+      "step": 835
+    },
+    {
+      "epoch": 0.15449696523818282,
+      "grad_norm": 1.1035668632214553,
+      "learning_rate": 4.867051258526466e-05,
+      "loss": 0.9216,
+      "mean_token_accuracy": 0.7362164258956909,
+      "step": 840
+    },
+    {
+      "epoch": 0.15541659003126723,
+      "grad_norm": 1.0632498704772437,
+      "learning_rate": 4.864724152765396e-05,
+      "loss": 0.9319,
+      "mean_token_accuracy": 0.7335481762886047,
+      "step": 845
+    },
+    {
+      "epoch": 0.15633621482435167,
+      "grad_norm": 1.1360641167900578,
+      "learning_rate": 4.8623774877410235e-05,
+      "loss": 0.998,
+      "mean_token_accuracy": 0.7165634036064148,
+      "step": 850
+    },
+    {
+      "epoch": 0.15725583961743608,
+      "grad_norm": 1.1574648839544697,
+      "learning_rate": 4.860011285157852e-05,
+      "loss": 0.9983,
+      "mean_token_accuracy": 0.7154228448867798,
+      "step": 855
+    },
+    {
+      "epoch": 0.1581754644105205,
+      "grad_norm": 1.1103379240939366,
+      "learning_rate": 4.857625566901091e-05,
+      "loss": 0.9606,
+      "mean_token_accuracy": 0.7255040884017945,
+      "step": 860
+    },
+    {
+      "epoch": 0.15909508920360493,
+      "grad_norm": 1.3478355454379694,
+      "learning_rate": 4.85522035503645e-05,
+      "loss": 0.9643,
+      "mean_token_accuracy": 0.7249020457267761,
+      "step": 865
+    },
+    {
+      "epoch": 0.16001471399668935,
+      "grad_norm": 1.129020628766503,
+      "learning_rate": 4.852795671809941e-05,
+      "loss": 0.9341,
+      "mean_token_accuracy": 0.7329063415527344,
+      "step": 870
+    },
+    {
+      "epoch": 0.16093433878977378,
+      "grad_norm": 1.1322677948976352,
+      "learning_rate": 4.850351539647661e-05,
+      "loss": 0.9977,
+      "mean_token_accuracy": 0.7172942876815795,
+      "step": 875
+    },
+    {
+      "epoch": 0.1618539635828582,
+      "grad_norm": 1.120014190171844,
+      "learning_rate": 4.8478879811555986e-05,
+      "loss": 0.9283,
+      "mean_token_accuracy": 0.7341889500617981,
+      "step": 880
+    },
+    {
+      "epoch": 0.1627735883759426,
+      "grad_norm": 1.1336097713701254,
+      "learning_rate": 4.845405019119414e-05,
+      "loss": 1.0008,
+      "mean_token_accuracy": 0.7151533484458923,
+      "step": 885
+    },
+    {
+      "epoch": 0.16369321316902705,
+      "grad_norm": 0.9922793909516228,
+      "learning_rate": 4.842902676504235e-05,
+      "loss": 0.9039,
+      "mean_token_accuracy": 0.7395052313804626,
+      "step": 890
+    },
+    {
+      "epoch": 0.16461283796211146,
+      "grad_norm": 1.2309806920357915,
+      "learning_rate": 4.840380976454441e-05,
+      "loss": 0.9143,
+      "mean_token_accuracy": 0.7372842311859131,
+      "step": 895
+    },
+    {
+      "epoch": 0.16553246275519587,
+      "grad_norm": 1.058725560363019,
+      "learning_rate": 4.837839942293449e-05,
+      "loss": 1.0122,
+      "mean_token_accuracy": 0.7113693952560425,
+      "step": 900
+    },
+    {
+      "epoch": 0.1664520875482803,
+      "grad_norm": 1.1050666066281727,
+      "learning_rate": 4.835279597523501e-05,
+      "loss": 0.9691,
+      "mean_token_accuracy": 0.7241552948951722,
+      "step": 905
+    },
+    {
+      "epoch": 0.16737171234136472,
+      "grad_norm": 1.1281645078253164,
+      "learning_rate": 4.832699965825443e-05,
+      "loss": 0.9783,
+      "mean_token_accuracy": 0.7210159540176392,
+      "step": 910
+    },
+    {
+      "epoch": 0.16829133713444913,
+      "grad_norm": 1.1049918709083206,
+      "learning_rate": 4.830101071058506e-05,
+      "loss": 0.9529,
+      "mean_token_accuracy": 0.726420772075653,
+      "step": 915
+    },
+    {
+      "epoch": 0.16921096192753357,
+      "grad_norm": 1.1589903082257091,
+      "learning_rate": 4.82748293726009e-05,
+      "loss": 1.0162,
+      "mean_token_accuracy": 0.7134600043296814,
+      "step": 920
+    },
+    {
+      "epoch": 0.17013058672061798,
+      "grad_norm": 1.0648743038360364,
+      "learning_rate": 4.824845588645538e-05,
+      "loss": 0.931,
+      "mean_token_accuracy": 0.7355116486549378,
+      "step": 925
+    },
+    {
+      "epoch": 0.17105021151370242,
+      "grad_norm": 1.0563630156850699,
+      "learning_rate": 4.822189049607909e-05,
+      "loss": 0.9303,
+      "mean_token_accuracy": 0.7332427501678467,
+      "step": 930
+    },
+    {
+      "epoch": 0.17196983630678683,
+      "grad_norm": 1.0946637430016075,
+      "learning_rate": 4.819513344717759e-05,
+      "loss": 0.9805,
+      "mean_token_accuracy": 0.7218296766281128,
+      "step": 935
+    },
+    {
+      "epoch": 0.17288946109987124,
+      "grad_norm": 1.218450386345206,
+      "learning_rate": 4.8168184987229104e-05,
+      "loss": 1.0025,
+      "mean_token_accuracy": 0.7138312220573425,
+      "step": 940
+    },
+    {
+      "epoch": 0.17380908589295568,
+      "grad_norm": 1.1265660437743932,
+      "learning_rate": 4.814104536548222e-05,
+      "loss": 0.9901,
+      "mean_token_accuracy": 0.7183592796325684,
+      "step": 945
+    },
+    {
+      "epoch": 0.1747287106860401,
+      "grad_norm": 1.1519197604777511,
+      "learning_rate": 4.811371483295361e-05,
+      "loss": 0.9677,
+      "mean_token_accuracy": 0.723106038570404,
+      "step": 950
+    },
+    {
+      "epoch": 0.1756483354791245,
+      "grad_norm": 1.0668603888469903,
+      "learning_rate": 4.808619364242569e-05,
+      "loss": 0.9428,
+      "mean_token_accuracy": 0.7298098564147949,
+      "step": 955
+    },
+    {
+      "epoch": 0.17656796027220895,
+      "grad_norm": 1.0617094358031158,
+      "learning_rate": 4.805848204844427e-05,
+      "loss": 0.9794,
+      "mean_token_accuracy": 0.7198897957801819,
+      "step": 960
+    },
+    {
+      "epoch": 0.17748758506529336,
+      "grad_norm": 1.1638181916029056,
+      "learning_rate": 4.803058030731627e-05,
+      "loss": 1.0356,
+      "mean_token_accuracy": 0.7055891275405883,
+      "step": 965
+    },
+    {
+      "epoch": 0.17840720985837777,
+      "grad_norm": 1.0804274338945197,
+      "learning_rate": 4.800248867710724e-05,
+      "loss": 0.9551,
+      "mean_token_accuracy": 0.7267025232315063,
+      "step": 970
+    },
+    {
+      "epoch": 0.1793268346514622,
+      "grad_norm": 1.1002302515677742,
+      "learning_rate": 4.797420741763906e-05,
+      "loss": 0.9513,
+      "mean_token_accuracy": 0.727520763874054,
+      "step": 975
+    },
+    {
+      "epoch": 0.18024645944454662,
+      "grad_norm": 1.0807257658531308,
+      "learning_rate": 4.794573679048751e-05,
+      "loss": 0.9667,
+      "mean_token_accuracy": 0.7254797458648682,
+      "step": 980
+    },
+    {
+      "epoch": 0.18116608423763106,
+      "grad_norm": 1.1423934429361384,
+      "learning_rate": 4.791707705897982e-05,
+      "loss": 0.9289,
+      "mean_token_accuracy": 0.7316087126731873,
+      "step": 985
+    },
+    {
+      "epoch": 0.18208570903071547,
+      "grad_norm": 1.0732201976252709,
+      "learning_rate": 4.7888228488192294e-05,
+      "loss": 0.9826,
+      "mean_token_accuracy": 0.7205982804298401,
+      "step": 990
+    },
+    {
+      "epoch": 0.18300533382379988,
+      "grad_norm": 1.0026696776201605,
+      "learning_rate": 4.7859191344947804e-05,
+      "loss": 0.9289,
+      "mean_token_accuracy": 0.7336562752723694,
+      "step": 995
+    },
+    {
+      "epoch": 0.18392495861688432,
+      "grad_norm": 1.138379913644609,
+      "learning_rate": 4.782996589781337e-05,
+      "loss": 0.9497,
+      "mean_token_accuracy": 0.729135024547577,
+      "step": 1000
+    },
+    {
+      "epoch": 0.18484458340996873,
+      "grad_norm": 1.107580666472087,
+      "learning_rate": 4.780055241709762e-05,
+      "loss": 0.9048,
+      "mean_token_accuracy": 0.7381602048873901,
+      "step": 1005
+    },
+    {
+      "epoch": 0.18576420820305314,
+      "grad_norm": 1.0667620674465943,
+      "learning_rate": 4.7770951174848335e-05,
+      "loss": 0.9742,
+      "mean_token_accuracy": 0.7205707669258118,
+      "step": 1010
+    },
+    {
+      "epoch": 0.18668383299613758,
+      "grad_norm": 1.0940019385189808,
+      "learning_rate": 4.774116244484993e-05,
+      "loss": 0.9857,
+      "mean_token_accuracy": 0.718968415260315,
+      "step": 1015
+    },
+    {
+      "epoch": 0.187603457789222,
+      "grad_norm": 1.0279044112611866,
+      "learning_rate": 4.7711186502620894e-05,
+      "loss": 1.0084,
+      "mean_token_accuracy": 0.7144084692001342,
+      "step": 1020
+    },
+    {
+      "epoch": 0.1885230825823064,
+      "grad_norm": 1.0751882464256728,
+      "learning_rate": 4.768102362541126e-05,
+      "loss": 0.9353,
+      "mean_token_accuracy": 0.7318849921226501,
+      "step": 1025
+    },
+    {
+      "epoch": 0.18944270737539085,
+      "grad_norm": 1.1701748750390102,
+      "learning_rate": 4.765067409220004e-05,
+      "loss": 0.957,
+      "mean_token_accuracy": 0.7275319814682006,
+      "step": 1030
+    },
+    {
+      "epoch": 0.19036233216847526,
+      "grad_norm": 1.0512353267451773,
+      "learning_rate": 4.762013818369266e-05,
+      "loss": 0.9367,
+      "mean_token_accuracy": 0.7317106485366821,
+      "step": 1035
+    },
+    {
+      "epoch": 0.1912819569615597,
+      "grad_norm": 1.1085851412035923,
+      "learning_rate": 4.7589416182318305e-05,
+      "loss": 0.9416,
+      "mean_token_accuracy": 0.7324359536170959,
+      "step": 1040
+    },
+    {
+      "epoch": 0.1922015817546441,
+      "grad_norm": 1.094731274119514,
+      "learning_rate": 4.755850837222739e-05,
+      "loss": 0.9474,
+      "mean_token_accuracy": 0.7309187650680542,
+      "step": 1045
+    },
+    {
+      "epoch": 0.19312120654772852,
+      "grad_norm": 1.0610610405848808,
+      "learning_rate": 4.7527415039288874e-05,
+      "loss": 0.9638,
+      "mean_token_accuracy": 0.7251871824264526,
+      "step": 1050
+    },
+    {
+      "epoch": 0.19404083134081296,
+      "grad_norm": 1.0919916417692772,
+      "learning_rate": 4.749613647108764e-05,
+      "loss": 1.0008,
+      "mean_token_accuracy": 0.7152180433273315,
+      "step": 1055
+    },
+    {
+      "epoch": 0.19496045613389737,
+      "grad_norm": 1.0847298297852,
+      "learning_rate": 4.7464672956921814e-05,
+      "loss": 0.9366,
+      "mean_token_accuracy": 0.7313546657562255,
+      "step": 1060
+    },
+    {
+      "epoch": 0.19588008092698178,
+      "grad_norm": 1.0912787695821449,
+      "learning_rate": 4.743302478780011e-05,
+      "loss": 0.945,
+      "mean_token_accuracy": 0.728658664226532,
+      "step": 1065
+    },
+    {
+      "epoch": 0.19679970572006622,
+      "grad_norm": 1.052195400658314,
+      "learning_rate": 4.7401192256439144e-05,
+      "loss": 0.9793,
+      "mean_token_accuracy": 0.7213846921920777,
+      "step": 1070
+    },
+    {
+      "epoch": 0.19771933051315063,
+      "grad_norm": 1.1107870405998106,
+      "learning_rate": 4.736917565726069e-05,
+      "loss": 0.9313,
+      "mean_token_accuracy": 0.735443937778473,
+      "step": 1075
+    },
+    {
+      "epoch": 0.19863895530623504,
+      "grad_norm": 1.1399365300090571,
+      "learning_rate": 4.7336975286389e-05,
+      "loss": 0.9717,
+      "mean_token_accuracy": 0.7237229943275452,
+      "step": 1080
+    },
+    {
+      "epoch": 0.19955858009931948,
+      "grad_norm": 1.0983682734144682,
+      "learning_rate": 4.730459144164802e-05,
+      "loss": 0.9306,
+      "mean_token_accuracy": 0.733622133731842,
+      "step": 1085
+    },
+    {
+      "epoch": 0.2004782048924039,
+      "grad_norm": 1.1053704101564246,
+      "learning_rate": 4.727202442255871e-05,
+      "loss": 0.9936,
+      "mean_token_accuracy": 0.718384611606598,
+      "step": 1090
+    },
+    {
+      "epoch": 0.20139782968548833,
+      "grad_norm": 1.0858488860538602,
+      "learning_rate": 4.723927453033619e-05,
+      "loss": 0.9548,
+      "mean_token_accuracy": 0.7286873102188111,
+      "step": 1095
+    },
+    {
+      "epoch": 0.20231745447857274,
+      "grad_norm": 1.0232898856111519,
+      "learning_rate": 4.720634206788697e-05,
+      "loss": 0.9804,
+      "mean_token_accuracy": 0.7218252301216126,
+      "step": 1100
+    },
+    {
+      "epoch": 0.20323707927165716,
+      "grad_norm": 1.1548447631409977,
+      "learning_rate": 4.717322733980622e-05,
+      "loss": 0.931,
+      "mean_token_accuracy": 0.7311301946640014,
+      "step": 1105
+    },
+    {
+      "epoch": 0.2041567040647416,
+      "grad_norm": 1.1168183831474872,
+      "learning_rate": 4.713993065237486e-05,
+      "loss": 0.9718,
+      "mean_token_accuracy": 0.7235833764076233,
+      "step": 1110
+    },
+    {
+      "epoch": 0.205076328857826,
+      "grad_norm": 1.1111836320920656,
+      "learning_rate": 4.710645231355678e-05,
+      "loss": 0.9855,
+      "mean_token_accuracy": 0.7195135593414307,
+      "step": 1115
+    },
+    {
+      "epoch": 0.20599595365091042,
+      "grad_norm": 1.0024638729648838,
+      "learning_rate": 4.707279263299598e-05,
+      "loss": 0.9729,
+      "mean_token_accuracy": 0.7219846963882446,
+      "step": 1120
+    },
+    {
+      "epoch": 0.20691557844399486,
+      "grad_norm": 1.0121762272601764,
+      "learning_rate": 4.703895192201372e-05,
+      "loss": 0.9459,
+      "mean_token_accuracy": 0.7269375443458557,
+      "step": 1125
+    },
+    {
+      "epoch": 0.20783520323707927,
+      "grad_norm": 1.0470465876428376,
+      "learning_rate": 4.7004930493605573e-05,
+      "loss": 1.0105,
+      "mean_token_accuracy": 0.7086774349212647,
+      "step": 1130
+    },
+    {
+      "epoch": 0.20875482803016368,
+      "grad_norm": 1.0632837126367782,
+      "learning_rate": 4.697072866243866e-05,
+      "loss": 0.9412,
+      "mean_token_accuracy": 0.7307331085205078,
+      "step": 1135
+    },
+    {
+      "epoch": 0.20967445282324812,
+      "grad_norm": 1.0768863946202714,
+      "learning_rate": 4.69363467448486e-05,
+      "loss": 0.9674,
+      "mean_token_accuracy": 0.7221316814422607,
+      "step": 1140
+    },
+    {
+      "epoch": 0.21059407761633253,
+      "grad_norm": 1.1181930167961487,
+      "learning_rate": 4.6901785058836675e-05,
+      "loss": 0.955,
+      "mean_token_accuracy": 0.725222361087799,
+      "step": 1145
+    },
+    {
+      "epoch": 0.21151370240941697,
+      "grad_norm": 1.0688002319746086,
+      "learning_rate": 4.686704392406685e-05,
+      "loss": 0.9687,
+      "mean_token_accuracy": 0.7218108892440795,
+      "step": 1150
+    },
+    {
+      "epoch": 0.21243332720250138,
+      "grad_norm": 1.1052965038670703,
+      "learning_rate": 4.6832123661862835e-05,
+      "loss": 0.9516,
+      "mean_token_accuracy": 0.7287932515144349,
+      "step": 1155
+    },
+    {
+      "epoch": 0.2133529519955858,
+      "grad_norm": 1.0349887525202925,
+      "learning_rate": 4.6797024595205104e-05,
+      "loss": 0.9599,
+      "mean_token_accuracy": 0.7228366494178772,
+      "step": 1160
+    },
+    {
+      "epoch": 0.21427257678867023,
+      "grad_norm": 1.052123043795087,
+      "learning_rate": 4.6761747048727907e-05,
+      "loss": 0.9833,
+      "mean_token_accuracy": 0.714729118347168,
+      "step": 1165
+    },
+    {
+      "epoch": 0.21519220158175464,
+      "grad_norm": 1.0646750046566955,
+      "learning_rate": 4.672629134871625e-05,
+      "loss": 0.98,
+      "mean_token_accuracy": 0.7194055676460266,
+      "step": 1170
+    },
+    {
+      "epoch": 0.21611182637483906,
+      "grad_norm": 1.072675922430035,
+      "learning_rate": 4.669065782310294e-05,
+      "loss": 0.9661,
+      "mean_token_accuracy": 0.7228956103324891,
+      "step": 1175
+    },
+    {
+      "epoch": 0.2170314511679235,
+      "grad_norm": 1.0475965649186345,
+      "learning_rate": 4.665484680146546e-05,
+      "loss": 0.9168,
+      "mean_token_accuracy": 0.7354954957962037,
+      "step": 1180
+    },
+    {
+      "epoch": 0.2179510759610079,
+      "grad_norm": 1.0183550500547607,
+      "learning_rate": 4.6618858615023e-05,
+      "loss": 0.9268,
+      "mean_token_accuracy": 0.731166672706604,
+      "step": 1185
+    },
+    {
+      "epoch": 0.21887070075409232,
+      "grad_norm": 1.0894438583208028,
+      "learning_rate": 4.658269359663336e-05,
+      "loss": 0.9134,
+      "mean_token_accuracy": 0.7400953650474549,
+      "step": 1190
+    },
+    {
+      "epoch": 0.21979032554717676,
+      "grad_norm": 0.9962620966267176,
+      "learning_rate": 4.6546352080789854e-05,
+      "loss": 0.9472,
+      "mean_token_accuracy": 0.7283522963523865,
+      "step": 1195
+    },
+    {
+      "epoch": 0.22070995034026117,
+      "grad_norm": 1.0767144498287804,
+      "learning_rate": 4.650983440361825e-05,
+      "loss": 0.9798,
+      "mean_token_accuracy": 0.7208079814910888,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2216295751333456,
+      "grad_norm": 1.0451151540293229,
+      "learning_rate": 4.6473140902873666e-05,
+      "loss": 0.9735,
+      "mean_token_accuracy": 0.7223762154579163,
+      "step": 1205
+    },
+    {
+      "epoch": 0.22254919992643002,
+      "grad_norm": 0.9904423090265289,
+      "learning_rate": 4.643627191793737e-05,
+      "loss": 0.9416,
+      "mean_token_accuracy": 0.7333443641662598,
+      "step": 1210
+    },
+    {
+      "epoch": 0.22346882471951443,
+      "grad_norm": 1.0324822073086444,
+      "learning_rate": 4.639922778981377e-05,
+      "loss": 0.9096,
+      "mean_token_accuracy": 0.7366245865821839,
+      "step": 1215
+    },
+    {
+      "epoch": 0.22438844951259887,
+      "grad_norm": 1.00961392870682,
+      "learning_rate": 4.636200886112714e-05,
+      "loss": 0.9647,
+      "mean_token_accuracy": 0.7272518515586853,
+      "step": 1220
+    },
+    {
+      "epoch": 0.22530807430568328,
+      "grad_norm": 1.041598639678359,
+      "learning_rate": 4.63246154761185e-05,
+      "loss": 0.982,
+      "mean_token_accuracy": 0.7185810923576355,
+      "step": 1225
+    },
+    {
+      "epoch": 0.2262276990987677,
+      "grad_norm": 1.0574278162856792,
+      "learning_rate": 4.628704798064247e-05,
+      "loss": 0.9442,
+      "mean_token_accuracy": 0.7297179222106933,
+      "step": 1230
+    },
+    {
+      "epoch": 0.22714732389185213,
+      "grad_norm": 1.060076765820854,
+      "learning_rate": 4.624930672216399e-05,
+      "loss": 0.9614,
+      "mean_token_accuracy": 0.7244118571281433,
+      "step": 1235
+    },
+    {
+      "epoch": 0.22806694868493654,
+      "grad_norm": 1.0123003105589568,
+      "learning_rate": 4.621139204975516e-05,
+      "loss": 0.9169,
+      "mean_token_accuracy": 0.7362489700317383,
+      "step": 1240
+    },
+    {
+      "epoch": 0.22898657347802095,
+      "grad_norm": 1.1490153575204947,
+      "learning_rate": 4.617330431409201e-05,
+      "loss": 0.9929,
+      "mean_token_accuracy": 0.7166203141212464,
+      "step": 1245
+    },
+    {
+      "epoch": 0.2299061982711054,
+      "grad_norm": 1.0270625785191527,
+      "learning_rate": 4.6135043867451255e-05,
+      "loss": 0.9325,
+      "mean_token_accuracy": 0.7311270833015442,
+      "step": 1250
+    },
+    {
+      "epoch": 0.2308258230641898,
+      "grad_norm": 1.030694744170465,
+      "learning_rate": 4.609661106370701e-05,
+      "loss": 0.9228,
+      "mean_token_accuracy": 0.7355565190315246,
+      "step": 1255
+    },
+    {
+      "epoch": 0.23174544785727424,
+      "grad_norm": 1.0190672056189127,
+      "learning_rate": 4.605800625832753e-05,
+      "loss": 0.9577,
+      "mean_token_accuracy": 0.7273682594299317,
+      "step": 1260
+    },
+    {
+      "epoch": 0.23266507265035866,
+      "grad_norm": 1.025832787786935,
+      "learning_rate": 4.6019229808371945e-05,
+      "loss": 0.9291,
+      "mean_token_accuracy": 0.7325186491012573,
+      "step": 1265
+    },
+    {
+      "epoch": 0.23358469744344307,
+      "grad_norm": 1.0254402284447273,
+      "learning_rate": 4.598028207248693e-05,
+      "loss": 0.9681,
+      "mean_token_accuracy": 0.7215327501296998,
+      "step": 1270
+    },
+    {
+      "epoch": 0.2345043222365275,
+      "grad_norm": 1.043519079594266,
+      "learning_rate": 4.5941163410903406e-05,
+      "loss": 0.9565,
+      "mean_token_accuracy": 0.7248036026954651,
+      "step": 1275
+    },
+    {
+      "epoch": 0.23542394702961192,
+      "grad_norm": 0.9811685630848649,
+      "learning_rate": 4.590187418543321e-05,
+      "loss": 0.9204,
+      "mean_token_accuracy": 0.7338666915893555,
+      "step": 1280
+    },
+    {
+      "epoch": 0.23634357182269633,
+      "grad_norm": 1.0355767679745649,
+      "learning_rate": 4.586241475946571e-05,
+      "loss": 0.9824,
+      "mean_token_accuracy": 0.7212961316108704,
+      "step": 1285
+    },
+    {
+      "epoch": 0.23726319661578077,
+      "grad_norm": 0.9995187864598916,
+      "learning_rate": 4.582278549796448e-05,
+      "loss": 0.914,
+      "mean_token_accuracy": 0.7355898737907409,
+      "step": 1290
+    },
+    {
+      "epoch": 0.23818282140886518,
+      "grad_norm": 1.0163621938165361,
+      "learning_rate": 4.5782986767463946e-05,
+      "loss": 0.9614,
+      "mean_token_accuracy": 0.7241615772247314,
+      "step": 1295
+    },
+    {
+      "epoch": 0.2391024462019496,
+      "grad_norm": 1.0913821743861445,
+      "learning_rate": 4.574301893606594e-05,
+      "loss": 0.8839,
+      "mean_token_accuracy": 0.7434832811355591,
+      "step": 1300
+    },
+    {
+      "epoch": 0.24002207099503403,
+      "grad_norm": 1.0399223484753735,
+      "learning_rate": 4.570288237343632e-05,
+      "loss": 0.9104,
+      "mean_token_accuracy": 0.7378169417381286,
+      "step": 1305
+    },
+    {
+      "epoch": 0.24094169578811844,
+      "grad_norm": 1.011671028641558,
+      "learning_rate": 4.5662577450801576e-05,
+      "loss": 0.9595,
+      "mean_token_accuracy": 0.7230379819869995,
+      "step": 1310
+    },
+    {
+      "epoch": 0.24186132058120288,
+      "grad_norm": 1.008990928095214,
+      "learning_rate": 4.562210454094535e-05,
+      "loss": 0.9363,
+      "mean_token_accuracy": 0.7295035600662232,
+      "step": 1315
+    },
+    {
+      "epoch": 0.2427809453742873,
+      "grad_norm": 1.059357744292348,
+      "learning_rate": 4.558146401820502e-05,
+      "loss": 0.9569,
+      "mean_token_accuracy": 0.7264422059059144,
+      "step": 1320
+    },
+    {
+      "epoch": 0.2437005701673717,
+      "grad_norm": 1.0224904321964083,
+      "learning_rate": 4.554065625846825e-05,
+      "loss": 0.9838,
+      "mean_token_accuracy": 0.7178040146827698,
+      "step": 1325
+    },
+    {
+      "epoch": 0.24462019496045614,
+      "grad_norm": 1.0737296876090594,
+      "learning_rate": 4.549968163916946e-05,
+      "loss": 0.976,
+      "mean_token_accuracy": 0.7180652141571044,
+      "step": 1330
+    },
+    {
+      "epoch": 0.24553981975354056,
+      "grad_norm": 1.0129242243093401,
+      "learning_rate": 4.545854053928639e-05,
+      "loss": 0.9394,
+      "mean_token_accuracy": 0.7314478039741517,
+      "step": 1335
+    },
+    {
+      "epoch": 0.24645944454662497,
+      "grad_norm": 0.9860304727584566,
+      "learning_rate": 4.541723333933657e-05,
+      "loss": 0.9595,
+      "mean_token_accuracy": 0.7271197676658631,
+      "step": 1340
+    },
+    {
+      "epoch": 0.2473790693397094,
+      "grad_norm": 1.0235437508308431,
+      "learning_rate": 4.5375760421373796e-05,
+      "loss": 0.9888,
+      "mean_token_accuracy": 0.7178149104118348,
+      "step": 1345
+    },
+    {
+      "epoch": 0.24829869413279382,
+      "grad_norm": 1.076473129213084,
+      "learning_rate": 4.533412216898461e-05,
+      "loss": 0.9374,
+      "mean_token_accuracy": 0.7287054538726807,
+      "step": 1350
+    },
+    {
+      "epoch": 0.24921831892587823,
+      "grad_norm": 1.027000741915809,
+      "learning_rate": 4.529231896728474e-05,
+      "loss": 0.9098,
+      "mean_token_accuracy": 0.7352772355079651,
+      "step": 1355
+    },
+    {
+      "epoch": 0.25013794371896264,
+      "grad_norm": 1.0980991489181584,
+      "learning_rate": 4.525035120291557e-05,
+      "loss": 0.9613,
+      "mean_token_accuracy": 0.7250553727149963,
+      "step": 1360
+    },
+    {
+      "epoch": 0.2510575685120471,
+      "grad_norm": 1.0105378261394609,
+      "learning_rate": 4.520821926404049e-05,
+      "loss": 0.9232,
+      "mean_token_accuracy": 0.7339854836463928,
+      "step": 1365
+    },
+    {
+      "epoch": 0.2519771933051315,
+      "grad_norm": 1.0465671126237865,
+      "learning_rate": 4.516592354034138e-05,
+      "loss": 0.9578,
+      "mean_token_accuracy": 0.7243474960327149,
+      "step": 1370
+    },
+    {
+      "epoch": 0.2528968180982159,
+      "grad_norm": 1.0721948067984564,
+      "learning_rate": 4.512346442301501e-05,
+      "loss": 0.9305,
+      "mean_token_accuracy": 0.7290533304214477,
+      "step": 1375
+    },
+    {
+      "epoch": 0.25381644289130034,
+      "grad_norm": 1.083352961545848,
+      "learning_rate": 4.5080842304769345e-05,
+      "loss": 0.9338,
+      "mean_token_accuracy": 0.733627998828888,
+      "step": 1380
+    },
+    {
+      "epoch": 0.2547360676843848,
+      "grad_norm": 0.979913773136715,
+      "learning_rate": 4.503805757981997e-05,
+      "loss": 0.9012,
+      "mean_token_accuracy": 0.7409675002098084,
+      "step": 1385
+    },
+    {
+      "epoch": 0.25565569247746917,
+      "grad_norm": 1.1174510417210128,
+      "learning_rate": 4.499511064388645e-05,
+      "loss": 0.8754,
+      "mean_token_accuracy": 0.7447872519493103,
+      "step": 1390
+    },
+    {
+      "epoch": 0.2565753172705536,
+      "grad_norm": 1.0562227070300527,
+      "learning_rate": 4.495200189418864e-05,
+      "loss": 0.9505,
+      "mean_token_accuracy": 0.7265227913856507,
+      "step": 1395
+    },
+    {
+      "epoch": 0.25749494206363804,
+      "grad_norm": 1.0550543313489833,
+      "learning_rate": 4.490873172944303e-05,
+      "loss": 0.9096,
+      "mean_token_accuracy": 0.7342225193977356,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2584145668567225,
+      "grad_norm": 1.0844914008772555,
+      "learning_rate": 4.486530054985905e-05,
+      "loss": 0.9643,
+      "mean_token_accuracy": 0.7227702975273133,
+      "step": 1405
+    },
+    {
+      "epoch": 0.25933419164980687,
+      "grad_norm": 1.11030675175993,
+      "learning_rate": 4.482170875713536e-05,
+      "loss": 0.98,
+      "mean_token_accuracy": 0.7210663437843323,
+      "step": 1410
+    },
+    {
+      "epoch": 0.2602538164428913,
+      "grad_norm": 1.0678730599548856,
+      "learning_rate": 4.477795675445616e-05,
+      "loss": 0.9248,
+      "mean_token_accuracy": 0.7327564835548401,
+      "step": 1415
+    },
+    {
+      "epoch": 0.26117344123597575,
+      "grad_norm": 0.9866628204231362,
+      "learning_rate": 4.473404494648744e-05,
+      "loss": 0.9216,
+      "mean_token_accuracy": 0.7343960881233216,
+      "step": 1420
+    },
+    {
+      "epoch": 0.26209306602906013,
+      "grad_norm": 0.9895263110250994,
+      "learning_rate": 4.4689973739373244e-05,
+      "loss": 0.9123,
+      "mean_token_accuracy": 0.7354090452194214,
+      "step": 1425
+    },
+    {
+      "epoch": 0.26301269082214457,
+      "grad_norm": 0.9560958289104061,
+      "learning_rate": 4.46457435407319e-05,
+      "loss": 0.9494,
+      "mean_token_accuracy": 0.725600802898407,
+      "step": 1430
+    },
+    {
+      "epoch": 0.263932315615229,
+      "grad_norm": 1.0418751893863187,
+      "learning_rate": 4.460135475965227e-05,
+      "loss": 0.887,
+      "mean_token_accuracy": 0.744392192363739,
+      "step": 1435
+    },
+    {
+      "epoch": 0.2648519404083134,
+      "grad_norm": 1.0270767884123133,
+      "learning_rate": 4.455680780668997e-05,
+      "loss": 0.98,
+      "mean_token_accuracy": 0.717594051361084,
+      "step": 1440
+    },
+    {
+      "epoch": 0.26577156520139783,
+      "grad_norm": 1.0194372684867639,
+      "learning_rate": 4.4512103093863555e-05,
+      "loss": 0.9145,
+      "mean_token_accuracy": 0.7369788885116577,
+      "step": 1445
+    },
+    {
+      "epoch": 0.26669118999448227,
+      "grad_norm": 1.0981284825838393,
+      "learning_rate": 4.44672410346507e-05,
+      "loss": 0.9519,
+      "mean_token_accuracy": 0.7260895729064941,
+      "step": 1450
+    },
+    {
+      "epoch": 0.26761081478756665,
+      "grad_norm": 1.0207625075556366,
+      "learning_rate": 4.442222204398441e-05,
+      "loss": 0.9555,
+      "mean_token_accuracy": 0.7227967500686645,
+      "step": 1455
+    },
+    {
+      "epoch": 0.2685304395806511,
+      "grad_norm": 0.98393868791661,
+      "learning_rate": 4.437704653824915e-05,
+      "loss": 0.8831,
+      "mean_token_accuracy": 0.7438354253768921,
+      "step": 1460
+    },
+    {
+      "epoch": 0.26945006437373553,
+      "grad_norm": 0.9817630950075087,
+      "learning_rate": 4.433171493527701e-05,
+      "loss": 0.9404,
+      "mean_token_accuracy": 0.728731095790863,
+      "step": 1465
+    },
+    {
+      "epoch": 0.2703696891668199,
+      "grad_norm": 1.0298652072064594,
+      "learning_rate": 4.428622765434383e-05,
+      "loss": 0.9136,
+      "mean_token_accuracy": 0.7356218695640564,
+      "step": 1470
+    },
+    {
+      "epoch": 0.27128931395990435,
+      "grad_norm": 0.981553092264934,
+      "learning_rate": 4.4240585116165334e-05,
+      "loss": 0.8555,
+      "mean_token_accuracy": 0.753374171257019,
+      "step": 1475
+    },
+    {
+      "epoch": 0.2722089387529888,
+      "grad_norm": 1.172918257192198,
+      "learning_rate": 4.419478774289325e-05,
+      "loss": 0.998,
+      "mean_token_accuracy": 0.713919198513031,
+      "step": 1480
+    },
+    {
+      "epoch": 0.2731285635460732,
+      "grad_norm": 1.003409782978005,
+      "learning_rate": 4.414883595811136e-05,
+      "loss": 0.8782,
+      "mean_token_accuracy": 0.7452871680259705,
+      "step": 1485
+    },
+    {
+      "epoch": 0.2740481883391576,
+      "grad_norm": 1.0316918646250515,
+      "learning_rate": 4.410273018683163e-05,
+      "loss": 0.9242,
+      "mean_token_accuracy": 0.7311699628829956,
+      "step": 1490
+    },
+    {
+      "epoch": 0.27496781313224206,
+      "grad_norm": 0.978003437149563,
+      "learning_rate": 4.405647085549025e-05,
+      "loss": 0.9241,
+      "mean_token_accuracy": 0.7328976273536683,
+      "step": 1495
+    },
+    {
+      "epoch": 0.27588743792532644,
+      "grad_norm": 1.0070406181231344,
+      "learning_rate": 4.40100583919437e-05,
+      "loss": 0.9001,
+      "mean_token_accuracy": 0.7395057559013367,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2768070627184109,
+      "grad_norm": 0.9873878935159346,
+      "learning_rate": 4.3963493225464817e-05,
+      "loss": 0.9258,
+      "mean_token_accuracy": 0.7336387634277344,
+      "step": 1505
+    },
+    {
+      "epoch": 0.2777266875114953,
+      "grad_norm": 0.9521695030248521,
+      "learning_rate": 4.3916775786738754e-05,
+      "loss": 0.914,
+      "mean_token_accuracy": 0.7378314137458801,
+      "step": 1510
+    },
+    {
+      "epoch": 0.27864631230457976,
+      "grad_norm": 0.9502896850196428,
+      "learning_rate": 4.3869906507859096e-05,
+      "loss": 0.8987,
+      "mean_token_accuracy": 0.7417943596839904,
+      "step": 1515
+    },
+    {
+      "epoch": 0.27956593709766414,
+      "grad_norm": 0.991426828614557,
+      "learning_rate": 4.382288582232376e-05,
+      "loss": 0.9106,
+      "mean_token_accuracy": 0.7390964746475219,
+      "step": 1520
+    },
+    {
+      "epoch": 0.2804855618907486,
+      "grad_norm": 1.0581857743606324,
+      "learning_rate": 4.377571416503108e-05,
+      "loss": 0.9179,
+      "mean_token_accuracy": 0.7379998922348022,
+      "step": 1525
+    },
+    {
+      "epoch": 0.281405186683833,
+      "grad_norm": 0.9872377385823925,
+      "learning_rate": 4.372839197227571e-05,
+      "loss": 0.8848,
+      "mean_token_accuracy": 0.7446985721588135,
+      "step": 1530
+    },
+    {
+      "epoch": 0.2823248114769174,
+      "grad_norm": 1.0976151495403408,
+      "learning_rate": 4.368091968174463e-05,
+      "loss": 0.9632,
+      "mean_token_accuracy": 0.723613953590393,
+      "step": 1535
+    },
+    {
+      "epoch": 0.28324443627000184,
+      "grad_norm": 1.013680671037777,
+      "learning_rate": 4.363329773251309e-05,
+      "loss": 0.866,
+      "mean_token_accuracy": 0.750942587852478,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2841640610630863,
+      "grad_norm": 1.1182733077200029,
+      "learning_rate": 4.3585526565040543e-05,
+      "loss": 0.9995,
+      "mean_token_accuracy": 0.7137303233146668,
+      "step": 1545
+    },
+    {
+      "epoch": 0.28508368585617067,
+      "grad_norm": 0.9779737007515391,
+      "learning_rate": 4.353760662116658e-05,
+      "loss": 0.9369,
+      "mean_token_accuracy": 0.7336580872535705,
+      "step": 1550
+    },
+    {
+      "epoch": 0.2860033106492551,
+      "grad_norm": 1.0260468281394197,
+      "learning_rate": 4.348953834410683e-05,
+      "loss": 0.9678,
+      "mean_token_accuracy": 0.7206373929977417,
+      "step": 1555
+    },
+    {
+      "epoch": 0.28692293544233954,
+      "grad_norm": 1.0263096637333005,
+      "learning_rate": 4.3441322178448856e-05,
+      "loss": 0.9572,
+      "mean_token_accuracy": 0.7260561943054199,
+      "step": 1560
+    },
+    {
+      "epoch": 0.2878425602354239,
+      "grad_norm": 0.9619383230028783,
+      "learning_rate": 4.339295857014809e-05,
+      "loss": 0.9501,
+      "mean_token_accuracy": 0.7264659523963928,
+      "step": 1565
+    },
+    {
+      "epoch": 0.28876218502850837,
+      "grad_norm": 0.9946060524217067,
+      "learning_rate": 4.3344447966523634e-05,
+      "loss": 0.9887,
+      "mean_token_accuracy": 0.7160560727119446,
+      "step": 1570
+    },
+    {
+      "epoch": 0.2896818098215928,
+      "grad_norm": 1.0275376139203307,
+      "learning_rate": 4.3295790816254195e-05,
+      "loss": 0.9262,
+      "mean_token_accuracy": 0.734666109085083,
+      "step": 1575
+    },
+    {
+      "epoch": 0.2906014346146772,
+      "grad_norm": 1.1276042923218728,
+      "learning_rate": 4.324698756937388e-05,
+      "loss": 0.9378,
+      "mean_token_accuracy": 0.7300173878669739,
+      "step": 1580
+    },
+    {
+      "epoch": 0.29152105940776163,
+      "grad_norm": 0.9552400868458645,
+      "learning_rate": 4.319803867726807e-05,
+      "loss": 0.8879,
+      "mean_token_accuracy": 0.7425481796264648,
+      "step": 1585
+    },
+    {
+      "epoch": 0.29244068420084607,
+      "grad_norm": 0.9486514468425481,
+      "learning_rate": 4.3148944592669234e-05,
+      "loss": 0.9613,
+      "mean_token_accuracy": 0.7219538450241089,
+      "step": 1590
+    },
+    {
+      "epoch": 0.29336030899393045,
+      "grad_norm": 0.9567962674802902,
+      "learning_rate": 4.30997057696527e-05,
+      "loss": 0.8741,
+      "mean_token_accuracy": 0.7477473855018616,
+      "step": 1595
+    },
+    {
+      "epoch": 0.2942799337870149,
+      "grad_norm": 0.9667609260469084,
+      "learning_rate": 4.3050322663632564e-05,
+      "loss": 0.9568,
+      "mean_token_accuracy": 0.7255883097648621,
+      "step": 1600
+    },
+    {
+      "epoch": 0.29519955858009933,
+      "grad_norm": 0.9920073647296315,
+      "learning_rate": 4.3000795731357333e-05,
+      "loss": 0.9237,
+      "mean_token_accuracy": 0.7383288621902466,
+      "step": 1605
+    },
+    {
+      "epoch": 0.2961191833731837,
+      "grad_norm": 1.0604465170326072,
+      "learning_rate": 4.295112543090584e-05,
+      "loss": 0.9609,
+      "mean_token_accuracy": 0.7225096940994262,
+      "step": 1610
+    },
+    {
+      "epoch": 0.29703880816626815,
+      "grad_norm": 1.0688037490276023,
+      "learning_rate": 4.290131222168289e-05,
+      "loss": 1.0008,
+      "mean_token_accuracy": 0.7138909697532654,
+      "step": 1615
+    },
+    {
+      "epoch": 0.2979584329593526,
+      "grad_norm": 1.143629206489082,
+      "learning_rate": 4.2851356564415086e-05,
+      "loss": 0.9867,
+      "mean_token_accuracy": 0.7165561437606811,
+      "step": 1620
+    },
+    {
+      "epoch": 0.29887805775243703,
+      "grad_norm": 1.0438745750713756,
+      "learning_rate": 4.280125892114656e-05,
+      "loss": 0.9434,
+      "mean_token_accuracy": 0.7298865675926208,
+      "step": 1625
+    },
+    {
+      "epoch": 0.2997976825455214,
+      "grad_norm": 1.0251559106803514,
+      "learning_rate": 4.2751019755234664e-05,
+      "loss": 0.935,
+      "mean_token_accuracy": 0.7299148678779602,
+      "step": 1630
+    },
+    {
+      "epoch": 0.30071730733860585,
+      "grad_norm": 0.9900961445552091,
+      "learning_rate": 4.27006395313457e-05,
+      "loss": 0.9963,
+      "mean_token_accuracy": 0.7131295561790466,
+      "step": 1635
+    },
+    {
+      "epoch": 0.3016369321316903,
+      "grad_norm": 1.040210108998438,
+      "learning_rate": 4.265011871545066e-05,
+      "loss": 0.9412,
+      "mean_token_accuracy": 0.7279941439628601,
+      "step": 1640
+    },
+    {
+      "epoch": 0.3025565569247747,
+      "grad_norm": 1.0262950854145634,
+      "learning_rate": 4.259945777482085e-05,
+      "loss": 0.9239,
+      "mean_token_accuracy": 0.7327239632606506,
+      "step": 1645
+    },
+    {
+      "epoch": 0.3034761817178591,
+      "grad_norm": 0.9969469234100081,
+      "learning_rate": 4.25486571780236e-05,
+      "loss": 0.9462,
+      "mean_token_accuracy": 0.7269651889801025,
+      "step": 1650
+    },
+    {
+      "epoch": 0.30439580651094356,
+      "grad_norm": 1.0021703198417462,
+      "learning_rate": 4.249771739491795e-05,
+      "loss": 0.9003,
+      "mean_token_accuracy": 0.7421126961708069,
+      "step": 1655
+    },
+    {
+      "epoch": 0.30531543130402794,
+      "grad_norm": 1.0255704189414308,
+      "learning_rate": 4.24466388966503e-05,
+      "loss": 0.9249,
+      "mean_token_accuracy": 0.7345858454704285,
+      "step": 1660
+    },
+    {
+      "epoch": 0.3062350560971124,
+      "grad_norm": 0.9438771845720968,
+      "learning_rate": 4.239542215565e-05,
+      "loss": 0.9749,
+      "mean_token_accuracy": 0.7182752847671509,
+      "step": 1665
+    },
+    {
+      "epoch": 0.3071546808901968,
+      "grad_norm": 0.9878451650581643,
+      "learning_rate": 4.2344067645625036e-05,
+      "loss": 0.9455,
+      "mean_token_accuracy": 0.7264060854911805,
+      "step": 1670
+    },
+    {
+      "epoch": 0.3080743056832812,
+      "grad_norm": 1.1287364443586523,
+      "learning_rate": 4.229257584155765e-05,
+      "loss": 0.9218,
+      "mean_token_accuracy": 0.7332573175430298,
+      "step": 1675
+    },
+    {
+      "epoch": 0.30899393047636564,
+      "grad_norm": 0.971666072350275,
+      "learning_rate": 4.2240947219699895e-05,
+      "loss": 0.8756,
+      "mean_token_accuracy": 0.7459922909736634,
+      "step": 1680
+    },
+    {
+      "epoch": 0.3099135552694501,
+      "grad_norm": 0.9593974583897734,
+      "learning_rate": 4.2189182257569285e-05,
+      "loss": 0.9329,
+      "mean_token_accuracy": 0.730040967464447,
+      "step": 1685
+    },
+    {
+      "epoch": 0.31083318006253446,
+      "grad_norm": 0.943158273064518,
+      "learning_rate": 4.213728143394436e-05,
+      "loss": 0.8839,
+      "mean_token_accuracy": 0.7458212971687317,
+      "step": 1690
+    },
+    {
+      "epoch": 0.3117528048556189,
+      "grad_norm": 1.050902490407755,
+      "learning_rate": 4.208524522886022e-05,
+      "loss": 0.9443,
+      "mean_token_accuracy": 0.7311147809028625,
+      "step": 1695
+    },
+    {
+      "epoch": 0.31267242964870334,
+      "grad_norm": 1.0074348860409519,
+      "learning_rate": 4.203307412360418e-05,
+      "loss": 0.9201,
+      "mean_token_accuracy": 0.7326057314872741,
+      "step": 1700
+    },
+    {
+      "epoch": 0.3135920544417877,
+      "grad_norm": 1.0039288385867127,
+      "learning_rate": 4.1980768600711194e-05,
+      "loss": 0.9169,
+      "mean_token_accuracy": 0.736884355545044,
+      "step": 1705
+    },
+    {
+      "epoch": 0.31451167923487217,
+      "grad_norm": 0.9456279018137994,
+      "learning_rate": 4.1928329143959506e-05,
+      "loss": 0.9198,
+      "mean_token_accuracy": 0.7341038465499878,
+      "step": 1710
+    },
+    {
+      "epoch": 0.3154313040279566,
+      "grad_norm": 0.969219875361889,
+      "learning_rate": 4.18757562383661e-05,
+      "loss": 0.9586,
+      "mean_token_accuracy": 0.7229322910308837,
+      "step": 1715
+    },
+    {
+      "epoch": 0.316350928821041,
+      "grad_norm": 0.9823553221239351,
+      "learning_rate": 4.182305037018224e-05,
+      "loss": 0.8674,
+      "mean_token_accuracy": 0.7455045938491821,
+      "step": 1720
+    },
+    {
+      "epoch": 0.31727055361412543,
+      "grad_norm": 0.9614849491835867,
+      "learning_rate": 4.1770212026888974e-05,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7393216609954834,
+      "step": 1725
+    },
+    {
+      "epoch": 0.31819017840720987,
+      "grad_norm": 1.0298443865011644,
+      "learning_rate": 4.1717241697192636e-05,
+      "loss": 0.9046,
+      "mean_token_accuracy": 0.7390219569206238,
+      "step": 1730
+    },
+    {
+      "epoch": 0.3191098032002943,
+      "grad_norm": 0.9675044814332657,
+      "learning_rate": 4.166413987102031e-05,
+      "loss": 0.9014,
+      "mean_token_accuracy": 0.7412125468254089,
+      "step": 1735
+    },
+    {
+      "epoch": 0.3200294279933787,
+      "grad_norm": 0.9558901216962499,
+      "learning_rate": 4.161090703951528e-05,
+      "loss": 0.8915,
+      "mean_token_accuracy": 0.7442119359970093,
+      "step": 1740
+    },
+    {
+      "epoch": 0.32094905278646313,
+      "grad_norm": 1.0231471726772243,
+      "learning_rate": 4.155754369503254e-05,
+      "loss": 0.9508,
+      "mean_token_accuracy": 0.7272051572799683,
+      "step": 1745
+    },
+    {
+      "epoch": 0.32186867757954757,
+      "grad_norm": 0.971225693001968,
+      "learning_rate": 4.1504050331134186e-05,
+      "loss": 0.9271,
+      "mean_token_accuracy": 0.7334083676338196,
+      "step": 1750
+    },
+    {
+      "epoch": 0.32278830237263195,
+      "grad_norm": 0.9487975621871125,
+      "learning_rate": 4.1450427442584885e-05,
+      "loss": 0.9231,
+      "mean_token_accuracy": 0.7330006003379822,
+      "step": 1755
+    },
+    {
+      "epoch": 0.3237079271657164,
+      "grad_norm": 1.080234485746019,
+      "learning_rate": 4.13966755253473e-05,
+      "loss": 0.8934,
+      "mean_token_accuracy": 0.7371908903121949,
+      "step": 1760
+    },
+    {
+      "epoch": 0.32462755195880083,
+      "grad_norm": 1.0042744657060512,
+      "learning_rate": 4.134279507657746e-05,
+      "loss": 0.9357,
+      "mean_token_accuracy": 0.7307947874069214,
+      "step": 1765
+    },
+    {
+      "epoch": 0.3255471767518852,
+      "grad_norm": 1.0167454318885076,
+      "learning_rate": 4.1288786594620224e-05,
+      "loss": 0.9522,
+      "mean_token_accuracy": 0.7250777244567871,
+      "step": 1770
+    },
+    {
+      "epoch": 0.32646680154496965,
+      "grad_norm": 1.0378785371682158,
+      "learning_rate": 4.123465057900463e-05,
+      "loss": 0.8991,
+      "mean_token_accuracy": 0.7383182883262634,
+      "step": 1775
+    },
+    {
+      "epoch": 0.3273864263380541,
+      "grad_norm": 0.975574798117687,
+      "learning_rate": 4.118038753043927e-05,
+      "loss": 0.8962,
+      "mean_token_accuracy": 0.7391498327255249,
+      "step": 1780
+    },
+    {
+      "epoch": 0.3283060511311385,
+      "grad_norm": 0.9785593634297269,
+      "learning_rate": 4.112599795080771e-05,
+      "loss": 0.8976,
+      "mean_token_accuracy": 0.7406945347785949,
+      "step": 1785
+    },
+    {
+      "epoch": 0.3292256759242229,
+      "grad_norm": 0.9506069452238485,
+      "learning_rate": 4.107148234316378e-05,
+      "loss": 0.9792,
+      "mean_token_accuracy": 0.7183930397033691,
+      "step": 1790
+    },
+    {
+      "epoch": 0.33014530071730736,
+      "grad_norm": 0.9568388159915644,
+      "learning_rate": 4.101684121172696e-05,
+      "loss": 0.9445,
+      "mean_token_accuracy": 0.7280240654945374,
+      "step": 1795
+    },
+    {
+      "epoch": 0.33106492551039174,
+      "grad_norm": 1.022357456314008,
+      "learning_rate": 4.096207506187773e-05,
+      "loss": 0.9394,
+      "mean_token_accuracy": 0.7300898432731628,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3319845503034762,
+      "grad_norm": 0.993312074550177,
+      "learning_rate": 4.090718440015285e-05,
+      "loss": 0.8857,
+      "mean_token_accuracy": 0.7397880554199219,
+      "step": 1805
+    },
+    {
+      "epoch": 0.3329041750965606,
+      "grad_norm": 0.9393217165901138,
+      "learning_rate": 4.0852169734240715e-05,
+      "loss": 0.9055,
+      "mean_token_accuracy": 0.7397056937217712,
+      "step": 1810
+    },
+    {
+      "epoch": 0.333823799889645,
+      "grad_norm": 1.0286146516865022,
+      "learning_rate": 4.0797031572976644e-05,
+      "loss": 0.9486,
+      "mean_token_accuracy": 0.7270653247833252,
+      "step": 1815
+    },
+    {
+      "epoch": 0.33474342468272944,
+      "grad_norm": 1.0433673618214743,
+      "learning_rate": 4.074177042633818e-05,
+      "loss": 0.8654,
+      "mean_token_accuracy": 0.7493741869926452,
+      "step": 1820
+    },
+    {
+      "epoch": 0.3356630494758139,
+      "grad_norm": 0.9978374983290279,
+      "learning_rate": 4.068638680544035e-05,
+      "loss": 0.9434,
+      "mean_token_accuracy": 0.7284141898155212,
+      "step": 1825
+    },
+    {
+      "epoch": 0.33658267426889826,
+      "grad_norm": 0.9268570875914646,
+      "learning_rate": 4.063088122253096e-05,
+      "loss": 0.9323,
+      "mean_token_accuracy": 0.7292568445205688,
+      "step": 1830
+    },
+    {
+      "epoch": 0.3375022990619827,
+      "grad_norm": 1.0098370277606412,
+      "learning_rate": 4.05752541909859e-05,
+      "loss": 0.8831,
+      "mean_token_accuracy": 0.7427129149436951,
+      "step": 1835
+    },
+    {
+      "epoch": 0.33842192385506714,
+      "grad_norm": 0.9840521255378257,
+      "learning_rate": 4.0519506225304266e-05,
+      "loss": 0.9129,
+      "mean_token_accuracy": 0.7376075983047485,
+      "step": 1840
+    },
+    {
+      "epoch": 0.3393415486481516,
+      "grad_norm": 0.9706147022595509,
+      "learning_rate": 4.046363784110375e-05,
+      "loss": 0.8867,
+      "mean_token_accuracy": 0.7421358585357666,
+      "step": 1845
+    },
+    {
+      "epoch": 0.34026117344123596,
+      "grad_norm": 1.0544553608523015,
+      "learning_rate": 4.040764955511577e-05,
+      "loss": 0.9404,
+      "mean_token_accuracy": 0.7300120830535889,
+      "step": 1850
+    },
+    {
+      "epoch": 0.3411807982343204,
+      "grad_norm": 0.9771051625951763,
+      "learning_rate": 4.035154188518076e-05,
+      "loss": 0.92,
+      "mean_token_accuracy": 0.7353024840354919,
+      "step": 1855
+    },
+    {
+      "epoch": 0.34210042302740484,
+      "grad_norm": 0.9612601058837731,
+      "learning_rate": 4.02953153502433e-05,
+      "loss": 0.8822,
+      "mean_token_accuracy": 0.7446259975433349,
+      "step": 1860
+    },
+    {
+      "epoch": 0.3430200478204892,
+      "grad_norm": 1.0790844365415948,
+      "learning_rate": 4.0238970470347404e-05,
+      "loss": 0.9243,
+      "mean_token_accuracy": 0.7315137147903442,
+      "step": 1865
+    },
+    {
+      "epoch": 0.34393967261357367,
+      "grad_norm": 0.9988868690440261,
+      "learning_rate": 4.018250776663164e-05,
+      "loss": 0.8875,
+      "mean_token_accuracy": 0.7421119809150696,
+      "step": 1870
+    },
+    {
+      "epoch": 0.3448592974066581,
+      "grad_norm": 1.0571095915292046,
+      "learning_rate": 4.012592776132435e-05,
+      "loss": 0.9273,
+      "mean_token_accuracy": 0.731085193157196,
+      "step": 1875
+    },
+    {
+      "epoch": 0.3457789221997425,
+      "grad_norm": 1.135743652086019,
+      "learning_rate": 4.0069230977738826e-05,
+      "loss": 0.9534,
+      "mean_token_accuracy": 0.7248372554779052,
+      "step": 1880
+    },
+    {
+      "epoch": 0.34669854699282693,
+      "grad_norm": 0.9715071563775657,
+      "learning_rate": 4.001241794026842e-05,
+      "loss": 0.94,
+      "mean_token_accuracy": 0.731473171710968,
+      "step": 1885
+    },
+    {
+      "epoch": 0.34761817178591137,
+      "grad_norm": 0.9942342778662301,
+      "learning_rate": 3.9955489174381746e-05,
+      "loss": 0.9329,
+      "mean_token_accuracy": 0.7310616850852967,
+      "step": 1890
+    },
+    {
+      "epoch": 0.34853779657899575,
+      "grad_norm": 1.0075175249825896,
+      "learning_rate": 3.989844520661779e-05,
+      "loss": 0.9438,
+      "mean_token_accuracy": 0.7262274742126464,
+      "step": 1895
+    },
+    {
+      "epoch": 0.3494574213720802,
+      "grad_norm": 0.9753954477573876,
+      "learning_rate": 3.984128656458106e-05,
+      "loss": 0.9702,
+      "mean_token_accuracy": 0.7193968415260314,
+      "step": 1900
+    },
+    {
+      "epoch": 0.35037704616516463,
+      "grad_norm": 1.0133558076382343,
+      "learning_rate": 3.978401377693669e-05,
+      "loss": 0.873,
+      "mean_token_accuracy": 0.7490906119346619,
+      "step": 1905
+    },
+    {
+      "epoch": 0.351296670958249,
+      "grad_norm": 1.0343688728685794,
+      "learning_rate": 3.9726627373405544e-05,
+      "loss": 0.9308,
+      "mean_token_accuracy": 0.7297749042510986,
+      "step": 1910
+    },
+    {
+      "epoch": 0.35221629575133345,
+      "grad_norm": 0.9695668089988693,
+      "learning_rate": 3.966912788475937e-05,
+      "loss": 0.9028,
+      "mean_token_accuracy": 0.7381954431533814,
+      "step": 1915
+    },
+    {
+      "epoch": 0.3531359205444179,
+      "grad_norm": 0.9832664588504738,
+      "learning_rate": 3.961151584281581e-05,
+      "loss": 0.8815,
+      "mean_token_accuracy": 0.7429476737976074,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3540555453375023,
+      "grad_norm": 0.963687599953708,
+      "learning_rate": 3.955379178043352e-05,
+      "loss": 0.9823,
+      "mean_token_accuracy": 0.7177613019943238,
+      "step": 1925
+    },
+    {
+      "epoch": 0.3549751701305867,
+      "grad_norm": 0.9479437389842555,
+      "learning_rate": 3.9495956231507266e-05,
+      "loss": 0.9274,
+      "mean_token_accuracy": 0.7312801122665405,
+      "step": 1930
+    },
+    {
+      "epoch": 0.35589479492367115,
+      "grad_norm": 0.938691928481946,
+      "learning_rate": 3.943800973096296e-05,
+      "loss": 0.9017,
+      "mean_token_accuracy": 0.7394131779670715,
+      "step": 1935
+    },
+    {
+      "epoch": 0.35681441971675554,
+      "grad_norm": 0.967769246759337,
+      "learning_rate": 3.937995281475269e-05,
+      "loss": 0.9216,
+      "mean_token_accuracy": 0.7352214097976685,
+      "step": 1940
+    },
+    {
+      "epoch": 0.35773404450984,
+      "grad_norm": 0.9613349378582403,
+      "learning_rate": 3.932178601984982e-05,
+      "loss": 0.8861,
+      "mean_token_accuracy": 0.7429886102676392,
+      "step": 1945
+    },
+    {
+      "epoch": 0.3586536693029244,
+      "grad_norm": 0.9739202222729397,
+      "learning_rate": 3.926350988424397e-05,
+      "loss": 0.8628,
+      "mean_token_accuracy": 0.7480137705802917,
+      "step": 1950
+    },
+    {
+      "epoch": 0.35957329409600886,
+      "grad_norm": 1.00417983410191,
+      "learning_rate": 3.920512494693607e-05,
+      "loss": 0.879,
+      "mean_token_accuracy": 0.7440518856048584,
+      "step": 1955
+    },
+    {
+      "epoch": 0.36049291888909324,
+      "grad_norm": 1.0098406374163094,
+      "learning_rate": 3.9146631747933366e-05,
+      "loss": 0.8329,
+      "mean_token_accuracy": 0.759476363658905,
+      "step": 1960
+    },
+    {
+      "epoch": 0.3614125436821777,
+      "grad_norm": 0.9962046099940254,
+      "learning_rate": 3.908803082824441e-05,
+      "loss": 0.8369,
+      "mean_token_accuracy": 0.7543352007865906,
+      "step": 1965
+    },
+    {
+      "epoch": 0.3623321684752621,
+      "grad_norm": 1.0229275697874085,
+      "learning_rate": 3.9029322729874104e-05,
+      "loss": 0.9319,
+      "mean_token_accuracy": 0.7315138220787049,
+      "step": 1970
+    },
+    {
+      "epoch": 0.3632517932683465,
+      "grad_norm": 0.9131833883898176,
+      "learning_rate": 3.8970507995818636e-05,
+      "loss": 0.8373,
+      "mean_token_accuracy": 0.754296875,
+      "step": 1975
+    },
+    {
+      "epoch": 0.36417141806143094,
+      "grad_norm": 0.9558351857573911,
+      "learning_rate": 3.891158717006046e-05,
+      "loss": 0.892,
+      "mean_token_accuracy": 0.7430965900421143,
+      "step": 1980
+    },
+    {
+      "epoch": 0.3650910428545154,
+      "grad_norm": 0.9446973659937214,
+      "learning_rate": 3.885256079756331e-05,
+      "loss": 0.9394,
+      "mean_token_accuracy": 0.7250162839889527,
+      "step": 1985
+    },
+    {
+      "epoch": 0.36601066764759976,
+      "grad_norm": 0.9202948815573198,
+      "learning_rate": 3.879342942426711e-05,
+      "loss": 0.9124,
+      "mean_token_accuracy": 0.7363432049751282,
+      "step": 1990
+    },
+    {
+      "epoch": 0.3669302924406842,
+      "grad_norm": 0.9507433703052857,
+      "learning_rate": 3.8734193597082964e-05,
+      "loss": 0.9265,
+      "mean_token_accuracy": 0.7309059858322143,
+      "step": 1995
+    },
+    {
+      "epoch": 0.36784991723376864,
+      "grad_norm": 0.9721403940210892,
+      "learning_rate": 3.867485386388806e-05,
+      "loss": 0.9368,
+      "mean_token_accuracy": 0.7331580281257629,
+      "step": 2000
+    },
+    {
+      "epoch": 0.368769542026853,
+      "grad_norm": 0.9405505899400793,
+      "learning_rate": 3.8615410773520635e-05,
+      "loss": 0.9138,
+      "mean_token_accuracy": 0.7358463048934937,
+      "step": 2005
+    },
+    {
+      "epoch": 0.36968916681993746,
+      "grad_norm": 0.963025470188593,
+      "learning_rate": 3.8555864875774885e-05,
+      "loss": 0.9019,
+      "mean_token_accuracy": 0.7384212732315063,
+      "step": 2010
+    },
+    {
+      "epoch": 0.3706087916130219,
+      "grad_norm": 0.9907971594256944,
+      "learning_rate": 3.849621672139588e-05,
+      "loss": 0.8763,
+      "mean_token_accuracy": 0.7444020867347717,
+      "step": 2015
+    },
+    {
+      "epoch": 0.3715284164061063,
+      "grad_norm": 0.981696155165083,
+      "learning_rate": 3.843646686207445e-05,
+      "loss": 0.9202,
+      "mean_token_accuracy": 0.7325111865997315,
+      "step": 2020
+    },
+    {
+      "epoch": 0.3724480411991907,
+      "grad_norm": 0.990078628199776,
+      "learning_rate": 3.837661585044211e-05,
+      "loss": 0.9045,
+      "mean_token_accuracy": 0.7379343152046204,
+      "step": 2025
+    },
+    {
+      "epoch": 0.37336766599227517,
+      "grad_norm": 0.9302652014201332,
+      "learning_rate": 3.831666424006598e-05,
+      "loss": 0.9145,
+      "mean_token_accuracy": 0.7369246363639832,
+      "step": 2030
+    },
+    {
+      "epoch": 0.37428729078535955,
+      "grad_norm": 1.0127134327540788,
+      "learning_rate": 3.825661258544358e-05,
+      "loss": 0.8949,
+      "mean_token_accuracy": 0.740783178806305,
+      "step": 2035
+    },
+    {
+      "epoch": 0.375206915578444,
+      "grad_norm": 0.9456025309406082,
+      "learning_rate": 3.819646144199777e-05,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.749360203742981,
+      "step": 2040
+    },
+    {
+      "epoch": 0.37612654037152843,
+      "grad_norm": 0.9458510607283644,
+      "learning_rate": 3.813621136607157e-05,
+      "loss": 0.9212,
+      "mean_token_accuracy": 0.7321518301963806,
+      "step": 2045
+    },
+    {
+      "epoch": 0.3770461651646128,
+      "grad_norm": 0.995792214246869,
+      "learning_rate": 3.8075862914923074e-05,
+      "loss": 0.9529,
+      "mean_token_accuracy": 0.7222961544990539,
+      "step": 2050
+    },
+    {
+      "epoch": 0.37796578995769725,
+      "grad_norm": 0.931780686224964,
+      "learning_rate": 3.801541664672021e-05,
+      "loss": 0.9068,
+      "mean_token_accuracy": 0.7373356938362121,
+      "step": 2055
+    },
+    {
+      "epoch": 0.3788854147507817,
+      "grad_norm": 1.032699719779323,
+      "learning_rate": 3.795487312053566e-05,
+      "loss": 0.8428,
+      "mean_token_accuracy": 0.754009485244751,
+      "step": 2060
+    },
+    {
+      "epoch": 0.37980503954386613,
+      "grad_norm": 1.0082536583803767,
+      "learning_rate": 3.789423289634163e-05,
+      "loss": 0.8877,
+      "mean_token_accuracy": 0.7419803261756897,
+      "step": 2065
+    },
+    {
+      "epoch": 0.3807246643369505,
+      "grad_norm": 0.9922794484448726,
+      "learning_rate": 3.783349653500472e-05,
+      "loss": 0.9549,
+      "mean_token_accuracy": 0.7244602799415588,
+      "step": 2070
+    },
+    {
+      "epoch": 0.38164428913003495,
+      "grad_norm": 0.9289765959162268,
+      "learning_rate": 3.777266459828067e-05,
+      "loss": 0.9049,
+      "mean_token_accuracy": 0.7346539378166199,
+      "step": 2075
+    },
+    {
+      "epoch": 0.3825639139231194,
+      "grad_norm": 0.9418822148176986,
+      "learning_rate": 3.7711737648809255e-05,
+      "loss": 0.8631,
+      "mean_token_accuracy": 0.7498388290405273,
+      "step": 2080
+    },
+    {
+      "epoch": 0.3834835387162038,
+      "grad_norm": 0.9739714347813362,
+      "learning_rate": 3.765071625010899e-05,
+      "loss": 0.8642,
+      "mean_token_accuracy": 0.7496488690376282,
+      "step": 2085
+    },
+    {
+      "epoch": 0.3844031635092882,
+      "grad_norm": 0.9876318304111896,
+      "learning_rate": 3.758960096657197e-05,
+      "loss": 0.9409,
+      "mean_token_accuracy": 0.7231215476989746,
+      "step": 2090
+    },
+    {
+      "epoch": 0.38532278830237265,
+      "grad_norm": 0.9391298182307426,
+      "learning_rate": 3.752839236345866e-05,
+      "loss": 0.9321,
+      "mean_token_accuracy": 0.7299721479415894,
+      "step": 2095
+    },
+    {
+      "epoch": 0.38624241309545704,
+      "grad_norm": 0.9975883406823954,
+      "learning_rate": 3.746709100689263e-05,
+      "loss": 0.9119,
+      "mean_token_accuracy": 0.7372664332389831,
+      "step": 2100
+    },
+    {
+      "epoch": 0.3871620378885415,
+      "grad_norm": 0.9585598143365737,
+      "learning_rate": 3.740569746385531e-05,
+      "loss": 0.9511,
+      "mean_token_accuracy": 0.7252285242080688,
+      "step": 2105
+    },
+    {
+      "epoch": 0.3880816626816259,
+      "grad_norm": 0.9708930878655039,
+      "learning_rate": 3.7344212302180807e-05,
+      "loss": 0.9021,
+      "mean_token_accuracy": 0.7373741269111633,
+      "step": 2110
+    },
+    {
+      "epoch": 0.3890012874747103,
+      "grad_norm": 0.9842480657825518,
+      "learning_rate": 3.7282636090550613e-05,
+      "loss": 0.9155,
+      "mean_token_accuracy": 0.7346144676208496,
+      "step": 2115
+    },
+    {
+      "epoch": 0.38992091226779474,
+      "grad_norm": 1.010319909401371,
+      "learning_rate": 3.722096939848833e-05,
+      "loss": 0.8251,
+      "mean_token_accuracy": 0.7569172263145447,
+      "step": 2120
+    },
+    {
+      "epoch": 0.3908405370608792,
+      "grad_norm": 1.0232782350312868,
+      "learning_rate": 3.7159212796354425e-05,
+      "loss": 0.9061,
+      "mean_token_accuracy": 0.7363372683525086,
+      "step": 2125
+    },
+    {
+      "epoch": 0.39176016185396356,
+      "grad_norm": 0.9853933308782586,
+      "learning_rate": 3.7097366855340974e-05,
+      "loss": 0.9281,
+      "mean_token_accuracy": 0.7297635912895203,
+      "step": 2130
+    },
+    {
+      "epoch": 0.392679786647048,
+      "grad_norm": 1.0085562594833883,
+      "learning_rate": 3.703543214746632e-05,
+      "loss": 0.9345,
+      "mean_token_accuracy": 0.7267664670944214,
+      "step": 2135
+    },
+    {
+      "epoch": 0.39359941144013244,
+      "grad_norm": 0.9907065624349415,
+      "learning_rate": 3.6973409245569846e-05,
+      "loss": 0.9017,
+      "mean_token_accuracy": 0.7393394112586975,
+      "step": 2140
+    },
+    {
+      "epoch": 0.3945190362332168,
+      "grad_norm": 0.9488707860528096,
+      "learning_rate": 3.691129872330663e-05,
+      "loss": 0.9373,
+      "mean_token_accuracy": 0.728193199634552,
+      "step": 2145
+    },
+    {
+      "epoch": 0.39543866102630126,
+      "grad_norm": 0.9103606197233259,
+      "learning_rate": 3.684910115514218e-05,
+      "loss": 0.897,
+      "mean_token_accuracy": 0.7412585973739624,
+      "step": 2150
+    },
+    {
+      "epoch": 0.3963582858193857,
+      "grad_norm": 0.965709462156266,
+      "learning_rate": 3.678681711634708e-05,
+      "loss": 0.8715,
+      "mean_token_accuracy": 0.74575275182724,
+      "step": 2155
+    },
+    {
+      "epoch": 0.3972779106124701,
+      "grad_norm": 1.0272326947622106,
+      "learning_rate": 3.67244471829917e-05,
+      "loss": 0.8789,
+      "mean_token_accuracy": 0.7422020196914673,
+      "step": 2160
+    },
+    {
+      "epoch": 0.3981975354055545,
+      "grad_norm": 0.9300588922771316,
+      "learning_rate": 3.6661991931940856e-05,
+      "loss": 0.8945,
+      "mean_token_accuracy": 0.7385678648948669,
+      "step": 2165
+    },
+    {
+      "epoch": 0.39911716019863896,
+      "grad_norm": 1.002757392159615,
+      "learning_rate": 3.6599451940848446e-05,
+      "loss": 0.8993,
+      "mean_token_accuracy": 0.7361081838607788,
+      "step": 2170
+    },
+    {
+      "epoch": 0.4000367849917234,
+      "grad_norm": 1.1036859227862066,
+      "learning_rate": 3.6536827788152176e-05,
+      "loss": 0.9308,
+      "mean_token_accuracy": 0.7304606318473816,
+      "step": 2175
+    },
+    {
+      "epoch": 0.4009564097848078,
+      "grad_norm": 0.9701793563305904,
+      "learning_rate": 3.6474120053068164e-05,
+      "loss": 0.8472,
+      "mean_token_accuracy": 0.7498792171478271,
+      "step": 2180
+    },
+    {
+      "epoch": 0.4018760345778922,
+      "grad_norm": 1.041733702997736,
+      "learning_rate": 3.641132931558556e-05,
+      "loss": 0.9581,
+      "mean_token_accuracy": 0.7201631188392639,
+      "step": 2185
+    },
+    {
+      "epoch": 0.40279565937097667,
+      "grad_norm": 1.0348942168040987,
+      "learning_rate": 3.634845615646123e-05,
+      "loss": 0.9393,
+      "mean_token_accuracy": 0.7280836224555969,
+      "step": 2190
+    },
+    {
+      "epoch": 0.40371528416406105,
+      "grad_norm": 1.0131734961320986,
+      "learning_rate": 3.628550115721437e-05,
+      "loss": 0.927,
+      "mean_token_accuracy": 0.729682469367981,
+      "step": 2195
+    },
+    {
+      "epoch": 0.4046349089571455,
+      "grad_norm": 1.025738826571974,
+      "learning_rate": 3.622246490012111e-05,
+      "loss": 0.9357,
+      "mean_token_accuracy": 0.724788224697113,
+      "step": 2200
+    },
+    {
+      "epoch": 0.40555453375022993,
+      "grad_norm": 0.9501914998942569,
+      "learning_rate": 3.615934796820915e-05,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7385434865951538,
+      "step": 2205
+    },
+    {
+      "epoch": 0.4064741585433143,
+      "grad_norm": 1.0106650660729533,
+      "learning_rate": 3.609615094525235e-05,
+      "loss": 0.952,
+      "mean_token_accuracy": 0.7243346452713013,
+      "step": 2210
+    },
+    {
+      "epoch": 0.40739378333639875,
+      "grad_norm": 0.9301771755028939,
+      "learning_rate": 3.6032874415765344e-05,
+      "loss": 0.8633,
+      "mean_token_accuracy": 0.7481309175491333,
+      "step": 2215
+    },
+    {
+      "epoch": 0.4083134081294832,
+      "grad_norm": 0.9662316400458029,
+      "learning_rate": 3.596951896499813e-05,
+      "loss": 0.8931,
+      "mean_token_accuracy": 0.7380975484848022,
+      "step": 2220
+    },
+    {
+      "epoch": 0.4092330329225676,
+      "grad_norm": 0.9612362754674141,
+      "learning_rate": 3.590608517893065e-05,
+      "loss": 0.8787,
+      "mean_token_accuracy": 0.743196439743042,
+      "step": 2225
+    },
+    {
+      "epoch": 0.410152657715652,
+      "grad_norm": 0.9923328807528666,
+      "learning_rate": 3.584257364426738e-05,
+      "loss": 0.942,
+      "mean_token_accuracy": 0.7252677202224731,
+      "step": 2230
+    },
+    {
+      "epoch": 0.41107228250873645,
+      "grad_norm": 0.9797715702136052,
+      "learning_rate": 3.577898494843191e-05,
+      "loss": 0.9523,
+      "mean_token_accuracy": 0.7244603157043457,
+      "step": 2235
+    },
+    {
+      "epoch": 0.41199190730182084,
+      "grad_norm": 0.9048445218025765,
+      "learning_rate": 3.571531967956147e-05,
+      "loss": 0.9136,
+      "mean_token_accuracy": 0.7320458292961121,
+      "step": 2240
+    },
+    {
+      "epoch": 0.4129115320949053,
+      "grad_norm": 0.9649058945655278,
+      "learning_rate": 3.565157842650154e-05,
+      "loss": 0.9041,
+      "mean_token_accuracy": 0.7362257719039917,
+      "step": 2245
+    },
+    {
+      "epoch": 0.4138311568879897,
+      "grad_norm": 0.9147474250541198,
+      "learning_rate": 3.55877617788004e-05,
+      "loss": 0.9155,
+      "mean_token_accuracy": 0.7333362221717834,
+      "step": 2250
+    },
+    {
+      "epoch": 0.4147507816810741,
+      "grad_norm": 0.876619458906422,
+      "learning_rate": 3.5523870326703635e-05,
+      "loss": 0.8492,
+      "mean_token_accuracy": 0.7528911828994751,
+      "step": 2255
+    },
+    {
+      "epoch": 0.41567040647415854,
+      "grad_norm": 1.0036194468259731,
+      "learning_rate": 3.545990466114871e-05,
+      "loss": 0.9137,
+      "mean_token_accuracy": 0.734946858882904,
+      "step": 2260
+    },
+    {
+      "epoch": 0.416590031267243,
+      "grad_norm": 0.9978348158615458,
+      "learning_rate": 3.5395865373759504e-05,
+      "loss": 0.8815,
+      "mean_token_accuracy": 0.742937445640564,
+      "step": 2265
+    },
+    {
+      "epoch": 0.41750965606032736,
+      "grad_norm": 0.9799485166888982,
+      "learning_rate": 3.533175305684081e-05,
+      "loss": 0.8857,
+      "mean_token_accuracy": 0.7412702798843384,
+      "step": 2270
+    },
+    {
+      "epoch": 0.4184292808534118,
+      "grad_norm": 0.9766101000667111,
+      "learning_rate": 3.5267568303372914e-05,
+      "loss": 0.8934,
+      "mean_token_accuracy": 0.7409379720687866,
+      "step": 2275
+    },
+    {
+      "epoch": 0.41934890564649624,
+      "grad_norm": 0.9775807722195559,
+      "learning_rate": 3.520331170700605e-05,
+      "loss": 0.9067,
+      "mean_token_accuracy": 0.7377767205238343,
+      "step": 2280
+    },
+    {
+      "epoch": 0.4202685304395807,
+      "grad_norm": 0.9690742278243399,
+      "learning_rate": 3.513898386205491e-05,
+      "loss": 0.9032,
+      "mean_token_accuracy": 0.7356434345245362,
+      "step": 2285
+    },
+    {
+      "epoch": 0.42118815523266506,
+      "grad_norm": 0.965511424805927,
+      "learning_rate": 3.507458536349323e-05,
+      "loss": 0.9157,
+      "mean_token_accuracy": 0.7343951106071472,
+      "step": 2290
+    },
+    {
+      "epoch": 0.4221077800257495,
+      "grad_norm": 0.9486968791577164,
+      "learning_rate": 3.5010116806948166e-05,
+      "loss": 0.901,
+      "mean_token_accuracy": 0.7399522423744201,
+      "step": 2295
+    },
+    {
+      "epoch": 0.42302740481883394,
+      "grad_norm": 0.9414293890579761,
+      "learning_rate": 3.4945578788694894e-05,
+      "loss": 0.9179,
+      "mean_token_accuracy": 0.7342228889465332,
+      "step": 2300
+    },
+    {
+      "epoch": 0.4239470296119183,
+      "grad_norm": 0.9896377940060639,
+      "learning_rate": 3.4880971905651016e-05,
+      "loss": 0.8784,
+      "mean_token_accuracy": 0.7457787752151489,
+      "step": 2305
+    },
+    {
+      "epoch": 0.42486665440500276,
+      "grad_norm": 0.9655527131977069,
+      "learning_rate": 3.481629675537108e-05,
+      "loss": 0.863,
+      "mean_token_accuracy": 0.7453173756599426,
+      "step": 2310
+    },
+    {
+      "epoch": 0.4257862791980872,
+      "grad_norm": 0.8936296988219236,
+      "learning_rate": 3.475155393604104e-05,
+      "loss": 0.8856,
+      "mean_token_accuracy": 0.7441475629806519,
+      "step": 2315
+    },
+    {
+      "epoch": 0.4267059039911716,
+      "grad_norm": 0.9149916486904485,
+      "learning_rate": 3.468674404647273e-05,
+      "loss": 0.8532,
+      "mean_token_accuracy": 0.7507219910621643,
+      "step": 2320
+    },
+    {
+      "epoch": 0.427625528784256,
+      "grad_norm": 0.9750792604803812,
+      "learning_rate": 3.462186768609834e-05,
+      "loss": 0.863,
+      "mean_token_accuracy": 0.7469933509826661,
+      "step": 2325
+    },
+    {
+      "epoch": 0.42854515357734047,
+      "grad_norm": 0.980901247745682,
+      "learning_rate": 3.455692545496483e-05,
+      "loss": 0.837,
+      "mean_token_accuracy": 0.7545093297958374,
+      "step": 2330
+    },
+    {
+      "epoch": 0.42946477837042485,
+      "grad_norm": 0.9686839306544004,
+      "learning_rate": 3.4491917953728396e-05,
+      "loss": 0.8885,
+      "mean_token_accuracy": 0.7428396463394165,
+      "step": 2335
+    },
+    {
+      "epoch": 0.4303844031635093,
+      "grad_norm": 0.9388350160272184,
+      "learning_rate": 3.442684578364897e-05,
+      "loss": 0.8951,
+      "mean_token_accuracy": 0.7408537268638611,
+      "step": 2340
+    },
+    {
+      "epoch": 0.4313040279565937,
+      "grad_norm": 0.8933385447401438,
+      "learning_rate": 3.4361709546584545e-05,
+      "loss": 0.8689,
+      "mean_token_accuracy": 0.7458449006080627,
+      "step": 2345
+    },
+    {
+      "epoch": 0.4322236527496781,
+      "grad_norm": 0.9411177313363235,
+      "learning_rate": 3.429650984498573e-05,
+      "loss": 0.8417,
+      "mean_token_accuracy": 0.7528134107589721,
+      "step": 2350
+    },
+    {
+      "epoch": 0.43314327754276255,
+      "grad_norm": 0.9359109119006161,
+      "learning_rate": 3.423124728189009e-05,
+      "loss": 0.8737,
+      "mean_token_accuracy": 0.7434362411499024,
+      "step": 2355
+    },
+    {
+      "epoch": 0.434062902335847,
+      "grad_norm": 0.966957214742338,
+      "learning_rate": 3.4165922460916635e-05,
+      "loss": 0.8946,
+      "mean_token_accuracy": 0.7397825956344605,
+      "step": 2360
+    },
+    {
+      "epoch": 0.4349825271289314,
+      "grad_norm": 0.9950941777576424,
+      "learning_rate": 3.410053598626016e-05,
+      "loss": 0.8833,
+      "mean_token_accuracy": 0.7447291493415833,
+      "step": 2365
+    },
+    {
+      "epoch": 0.4359021519220158,
+      "grad_norm": 0.963560335329199,
+      "learning_rate": 3.403508846268574e-05,
+      "loss": 0.8675,
+      "mean_token_accuracy": 0.7479366779327392,
+      "step": 2370
+    },
+    {
+      "epoch": 0.43682177671510025,
+      "grad_norm": 0.9286384422364868,
+      "learning_rate": 3.396958049552307e-05,
+      "loss": 0.9171,
+      "mean_token_accuracy": 0.7304298520088196,
+      "step": 2375
+    },
+    {
+      "epoch": 0.43774140150818464,
+      "grad_norm": 0.9750119805406471,
+      "learning_rate": 3.39040126906609e-05,
+      "loss": 0.8858,
+      "mean_token_accuracy": 0.742851734161377,
+      "step": 2380
+    },
+    {
+      "epoch": 0.4386610263012691,
+      "grad_norm": 0.9160809046368507,
+      "learning_rate": 3.383838565454144e-05,
+      "loss": 0.9062,
+      "mean_token_accuracy": 0.7335192441940308,
+      "step": 2385
+    },
+    {
+      "epoch": 0.4395806510943535,
+      "grad_norm": 0.9668435486381742,
+      "learning_rate": 3.37726999941547e-05,
+      "loss": 0.9243,
+      "mean_token_accuracy": 0.7276196122169495,
+      "step": 2390
+    },
+    {
+      "epoch": 0.4405002758874379,
+      "grad_norm": 0.9935097247563913,
+      "learning_rate": 3.3706956317032954e-05,
+      "loss": 0.8678,
+      "mean_token_accuracy": 0.7438644409179688,
+      "step": 2395
+    },
+    {
+      "epoch": 0.44141990068052234,
+      "grad_norm": 0.9939894791042586,
+      "learning_rate": 3.364115523124503e-05,
+      "loss": 0.8904,
+      "mean_token_accuracy": 0.7412869215011597,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4423395254736068,
+      "grad_norm": 0.9937645932689831,
+      "learning_rate": 3.357529734539079e-05,
+      "loss": 0.8455,
+      "mean_token_accuracy": 0.7517339706420898,
+      "step": 2405
+    },
+    {
+      "epoch": 0.4432591502666912,
+      "grad_norm": 0.9375114941684974,
+      "learning_rate": 3.350938326859539e-05,
+      "loss": 0.8468,
+      "mean_token_accuracy": 0.7528372883796692,
+      "step": 2410
+    },
+    {
+      "epoch": 0.4441787750597756,
+      "grad_norm": 0.8973960962242926,
+      "learning_rate": 3.3443413610503735e-05,
+      "loss": 0.878,
+      "mean_token_accuracy": 0.7442919254302979,
+      "step": 2415
+    },
+    {
+      "epoch": 0.44509839985286004,
+      "grad_norm": 1.0080330285869648,
+      "learning_rate": 3.337738898127479e-05,
+      "loss": 0.8785,
+      "mean_token_accuracy": 0.7428927779197693,
+      "step": 2420
+    },
+    {
+      "epoch": 0.4460180246459445,
+      "grad_norm": 0.8985281228115014,
+      "learning_rate": 3.331130999157597e-05,
+      "loss": 0.8644,
+      "mean_token_accuracy": 0.7480224132537842,
+      "step": 2425
+    },
+    {
+      "epoch": 0.44693764943902886,
+      "grad_norm": 0.9291069202904676,
+      "learning_rate": 3.3245177252577454e-05,
+      "loss": 0.8976,
+      "mean_token_accuracy": 0.7383280873298645,
+      "step": 2430
+    },
+    {
+      "epoch": 0.4478572742321133,
+      "grad_norm": 0.9623008963786942,
+      "learning_rate": 3.317899137594656e-05,
+      "loss": 0.9593,
+      "mean_token_accuracy": 0.7246118664741517,
+      "step": 2435
+    },
+    {
+      "epoch": 0.44877689902519774,
+      "grad_norm": 0.9234507163948065,
+      "learning_rate": 3.311275297384208e-05,
+      "loss": 0.8413,
+      "mean_token_accuracy": 0.7528854846954346,
+      "step": 2440
+    },
+    {
+      "epoch": 0.4496965238182821,
+      "grad_norm": 0.979267043456503,
+      "learning_rate": 3.3046462658908636e-05,
+      "loss": 0.845,
+      "mean_token_accuracy": 0.7532721877098083,
+      "step": 2445
+    },
+    {
+      "epoch": 0.45061614861136656,
+      "grad_norm": 0.9032231134895651,
+      "learning_rate": 3.298012104427097e-05,
+      "loss": 0.895,
+      "mean_token_accuracy": 0.7396630644798279,
+      "step": 2450
+    },
+    {
+      "epoch": 0.451535773404451,
+      "grad_norm": 0.9383158653652773,
+      "learning_rate": 3.291372874352832e-05,
+      "loss": 0.8943,
+      "mean_token_accuracy": 0.73899405002594,
+      "step": 2455
+    },
+    {
+      "epoch": 0.4524553981975354,
+      "grad_norm": 0.9664126873169693,
+      "learning_rate": 3.284728637074869e-05,
+      "loss": 0.869,
+      "mean_token_accuracy": 0.746407687664032,
+      "step": 2460
+    },
+    {
+      "epoch": 0.4533750229906198,
+      "grad_norm": 0.993853088939543,
+      "learning_rate": 3.278079454046325e-05,
+      "loss": 0.9011,
+      "mean_token_accuracy": 0.7388368129730225,
+      "step": 2465
+    },
+    {
+      "epoch": 0.45429464778370426,
+      "grad_norm": 0.8741206209918251,
+      "learning_rate": 3.271425386766058e-05,
+      "loss": 0.8388,
+      "mean_token_accuracy": 0.7533232569694519,
+      "step": 2470
+    },
+    {
+      "epoch": 0.45521427257678865,
+      "grad_norm": 0.9447835076472045,
+      "learning_rate": 3.2647664967781035e-05,
+      "loss": 0.8228,
+      "mean_token_accuracy": 0.7583665132522583,
+      "step": 2475
+    },
+    {
+      "epoch": 0.4561338973698731,
+      "grad_norm": 1.0045001891415821,
+      "learning_rate": 3.258102845671097e-05,
+      "loss": 0.8934,
+      "mean_token_accuracy": 0.7414227366447449,
+      "step": 2480
+    },
+    {
+      "epoch": 0.4570535221629575,
+      "grad_norm": 0.9475063098055461,
+      "learning_rate": 3.251434495077716e-05,
+      "loss": 0.9182,
+      "mean_token_accuracy": 0.7303388476371765,
+      "step": 2485
+    },
+    {
+      "epoch": 0.4579731469560419,
+      "grad_norm": 0.9775463234456495,
+      "learning_rate": 3.2447615066741004e-05,
+      "loss": 0.9361,
+      "mean_token_accuracy": 0.7293364763259887,
+      "step": 2490
+    },
+    {
+      "epoch": 0.45889277174912635,
+      "grad_norm": 0.9174334893241889,
+      "learning_rate": 3.238083942179288e-05,
+      "loss": 0.8474,
+      "mean_token_accuracy": 0.7529029250144958,
+      "step": 2495
+    },
+    {
+      "epoch": 0.4598123965422108,
+      "grad_norm": 0.9021239390235616,
+      "learning_rate": 3.2314018633546375e-05,
+      "loss": 0.8314,
+      "mean_token_accuracy": 0.7585980296134949,
+      "step": 2500
+    },
+    {
+      "epoch": 0.46073202133529517,
+      "grad_norm": 0.9231622515184421,
+      "learning_rate": 3.224715332003265e-05,
+      "loss": 0.8498,
+      "mean_token_accuracy": 0.7502579808235168,
+      "step": 2505
+    },
+    {
+      "epoch": 0.4616516461283796,
+      "grad_norm": 0.9279166556927757,
+      "learning_rate": 3.218024409969468e-05,
+      "loss": 0.899,
+      "mean_token_accuracy": 0.7380064010620118,
+      "step": 2510
+    },
+    {
+      "epoch": 0.46257127092146405,
+      "grad_norm": 0.9333611856920211,
+      "learning_rate": 3.2113291591381516e-05,
+      "loss": 0.9113,
+      "mean_token_accuracy": 0.7354224920272827,
+      "step": 2515
+    },
+    {
+      "epoch": 0.4634908957145485,
+      "grad_norm": 0.9585859302538061,
+      "learning_rate": 3.204629641434259e-05,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.7332522869110107,
+      "step": 2520
+    },
+    {
+      "epoch": 0.4644105205076329,
+      "grad_norm": 1.0072945032594127,
+      "learning_rate": 3.197925918822199e-05,
+      "loss": 0.8615,
+      "mean_token_accuracy": 0.7460902214050293,
+      "step": 2525
+    },
+    {
+      "epoch": 0.4653301453007173,
+      "grad_norm": 0.9703474311506037,
+      "learning_rate": 3.1912180533052716e-05,
+      "loss": 0.9391,
+      "mean_token_accuracy": 0.7272826433181763,
+      "step": 2530
+    },
+    {
+      "epoch": 0.46624977009380175,
+      "grad_norm": 0.9701812144923739,
+      "learning_rate": 3.184506106925094e-05,
+      "loss": 0.8677,
+      "mean_token_accuracy": 0.747051191329956,
+      "step": 2535
+    },
+    {
+      "epoch": 0.46716939488688614,
+      "grad_norm": 0.9672451609696705,
+      "learning_rate": 3.177790141761029e-05,
+      "loss": 0.8627,
+      "mean_token_accuracy": 0.7482078075408936,
+      "step": 2540
+    },
+    {
+      "epoch": 0.4680890196799706,
+      "grad_norm": 0.9530973638849749,
+      "learning_rate": 3.1710702199296085e-05,
+      "loss": 0.8492,
+      "mean_token_accuracy": 0.7528972029685974,
+      "step": 2545
+    },
+    {
+      "epoch": 0.469008644473055,
+      "grad_norm": 0.9084239076489461,
+      "learning_rate": 3.16434640358396e-05,
+      "loss": 0.8653,
+      "mean_token_accuracy": 0.746622622013092,
+      "step": 2550
+    },
+    {
+      "epoch": 0.4699282692661394,
+      "grad_norm": 0.9998420571855022,
+      "learning_rate": 3.157618754913233e-05,
+      "loss": 0.8975,
+      "mean_token_accuracy": 0.738722312450409,
+      "step": 2555
+    },
+    {
+      "epoch": 0.47084789405922384,
+      "grad_norm": 0.9250250902872688,
+      "learning_rate": 3.15088733614202e-05,
+      "loss": 0.8551,
+      "mean_token_accuracy": 0.750208032131195,
+      "step": 2560
+    },
+    {
+      "epoch": 0.4717675188523083,
+      "grad_norm": 1.0106796436372896,
+      "learning_rate": 3.144152209529786e-05,
+      "loss": 0.9079,
+      "mean_token_accuracy": 0.7350385189056396,
+      "step": 2565
+    },
+    {
+      "epoch": 0.47268714364539266,
+      "grad_norm": 0.9619558970415346,
+      "learning_rate": 3.137413437370289e-05,
+      "loss": 0.91,
+      "mean_token_accuracy": 0.7369326472282409,
+      "step": 2570
+    },
+    {
+      "epoch": 0.4736067684384771,
+      "grad_norm": 1.0109885841238913,
+      "learning_rate": 3.130671081991005e-05,
+      "loss": 0.9084,
+      "mean_token_accuracy": 0.7353306174278259,
+      "step": 2575
+    },
+    {
+      "epoch": 0.47452639323156154,
+      "grad_norm": 0.9779190292756188,
+      "learning_rate": 3.123925205752552e-05,
+      "loss": 0.8556,
+      "mean_token_accuracy": 0.7515247583389282,
+      "step": 2580
+    },
+    {
+      "epoch": 0.4754460180246459,
+      "grad_norm": 0.9645840220644,
+      "learning_rate": 3.1171758710481096e-05,
+      "loss": 0.8755,
+      "mean_token_accuracy": 0.7436783194541932,
+      "step": 2585
+    },
+    {
+      "epoch": 0.47636564281773036,
+      "grad_norm": 1.001058541812525,
+      "learning_rate": 3.110423140302852e-05,
+      "loss": 0.9096,
+      "mean_token_accuracy": 0.7341774582862854,
+      "step": 2590
+    },
+    {
+      "epoch": 0.4772852676108148,
+      "grad_norm": 0.8974468409856537,
+      "learning_rate": 3.103667075973356e-05,
+      "loss": 0.9083,
+      "mean_token_accuracy": 0.7359666705131531,
+      "step": 2595
+    },
+    {
+      "epoch": 0.4782048924038992,
+      "grad_norm": 1.0374371477545201,
+      "learning_rate": 3.096907740547036e-05,
+      "loss": 0.9111,
+      "mean_token_accuracy": 0.7324892163276673,
+      "step": 2600
+    },
+    {
+      "epoch": 0.4791245171969836,
+      "grad_norm": 0.9405864234939062,
+      "learning_rate": 3.0901451965415595e-05,
+      "loss": 0.812,
+      "mean_token_accuracy": 0.7602822542190552,
+      "step": 2605
+    },
+    {
+      "epoch": 0.48004414199006806,
+      "grad_norm": 0.9654353230874346,
+      "learning_rate": 3.08337950650427e-05,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7364333510398865,
+      "step": 2610
+    },
+    {
+      "epoch": 0.48096376678315245,
+      "grad_norm": 1.0011041381512356,
+      "learning_rate": 3.076610733011609e-05,
+      "loss": 0.9049,
+      "mean_token_accuracy": 0.7363562822341919,
+      "step": 2615
+    },
+    {
+      "epoch": 0.4818833915762369,
+      "grad_norm": 0.9686831090055986,
+      "learning_rate": 3.069838938668538e-05,
+      "loss": 0.8898,
+      "mean_token_accuracy": 0.7398189902305603,
+      "step": 2620
+    },
+    {
+      "epoch": 0.4828030163693213,
+      "grad_norm": 0.9318085356157495,
+      "learning_rate": 3.063064186107957e-05,
+      "loss": 0.8791,
+      "mean_token_accuracy": 0.7449330806732177,
+      "step": 2625
+    },
+    {
+      "epoch": 0.48372264116240576,
+      "grad_norm": 0.8934228857530689,
+      "learning_rate": 3.056286537990129e-05,
+      "loss": 0.8632,
+      "mean_token_accuracy": 0.7459052681922913,
+      "step": 2630
+    },
+    {
+      "epoch": 0.48464226595549015,
+      "grad_norm": 0.9725972260652284,
+      "learning_rate": 3.049506057002098e-05,
+      "loss": 0.8541,
+      "mean_token_accuracy": 0.7478031516075134,
+      "step": 2635
+    },
+    {
+      "epoch": 0.4855618907485746,
+      "grad_norm": 0.9452628770649284,
+      "learning_rate": 3.042722805857106e-05,
+      "loss": 0.8555,
+      "mean_token_accuracy": 0.746888279914856,
+      "step": 2640
+    },
+    {
+      "epoch": 0.486481515541659,
+      "grad_norm": 0.8806175124503305,
+      "learning_rate": 3.0359368472940208e-05,
+      "loss": 0.9035,
+      "mean_token_accuracy": 0.7369076132774353,
+      "step": 2645
+    },
+    {
+      "epoch": 0.4874011403347434,
+      "grad_norm": 0.8988265278259941,
+      "learning_rate": 3.029148244076749e-05,
+      "loss": 0.8643,
+      "mean_token_accuracy": 0.7449605345726014,
+      "step": 2650
+    },
+    {
+      "epoch": 0.48832076512782785,
+      "grad_norm": 0.9176861265880045,
+      "learning_rate": 3.022357058993657e-05,
+      "loss": 0.8643,
+      "mean_token_accuracy": 0.7462789297103882,
+      "step": 2655
+    },
+    {
+      "epoch": 0.4892403899209123,
+      "grad_norm": 0.9232400004776917,
+      "learning_rate": 3.0155633548569955e-05,
+      "loss": 0.903,
+      "mean_token_accuracy": 0.7353234887123108,
+      "step": 2660
+    },
+    {
+      "epoch": 0.4901600147139967,
+      "grad_norm": 0.9476269194909095,
+      "learning_rate": 3.008767194502309e-05,
+      "loss": 0.9035,
+      "mean_token_accuracy": 0.7386479258537293,
+      "step": 2665
+    },
+    {
+      "epoch": 0.4910796395070811,
+      "grad_norm": 0.931067111141978,
+      "learning_rate": 3.0019686407878617e-05,
+      "loss": 0.8883,
+      "mean_token_accuracy": 0.7414939045906067,
+      "step": 2670
+    },
+    {
+      "epoch": 0.49199926430016555,
+      "grad_norm": 0.9153445295986272,
+      "learning_rate": 2.995167756594055e-05,
+      "loss": 0.8625,
+      "mean_token_accuracy": 0.7501867294311524,
+      "step": 2675
+    },
+    {
+      "epoch": 0.49291888909324993,
+      "grad_norm": 0.9210143810764434,
+      "learning_rate": 2.988364604822845e-05,
+      "loss": 0.8972,
+      "mean_token_accuracy": 0.7386625647544861,
+      "step": 2680
+    },
+    {
+      "epoch": 0.4938385138863344,
+      "grad_norm": 0.9925053868796728,
+      "learning_rate": 2.9815592483971584e-05,
+      "loss": 0.8458,
+      "mean_token_accuracy": 0.751643443107605,
+      "step": 2685
+    },
+    {
+      "epoch": 0.4947581386794188,
+      "grad_norm": 1.006336852347141,
+      "learning_rate": 2.9747517502603167e-05,
+      "loss": 0.8721,
+      "mean_token_accuracy": 0.7480525851249695,
+      "step": 2690
+    },
+    {
+      "epoch": 0.4956777634725032,
+      "grad_norm": 0.9701598502406181,
+      "learning_rate": 2.967942173375447e-05,
+      "loss": 0.8818,
+      "mean_token_accuracy": 0.740173089504242,
+      "step": 2695
+    },
+    {
+      "epoch": 0.49659738826558764,
+      "grad_norm": 0.9431128523024928,
+      "learning_rate": 2.9611305807249052e-05,
+      "loss": 0.8344,
+      "mean_token_accuracy": 0.7551051139831543,
+      "step": 2700
+    },
+    {
+      "epoch": 0.4975170130586721,
+      "grad_norm": 0.9346714282194056,
+      "learning_rate": 2.95431703530969e-05,
+      "loss": 0.835,
+      "mean_token_accuracy": 0.7544684171676636,
+      "step": 2705
+    },
+    {
+      "epoch": 0.49843663785175646,
+      "grad_norm": 0.9358393411052466,
+      "learning_rate": 2.9475016001488608e-05,
+      "loss": 0.8906,
+      "mean_token_accuracy": 0.7427068829536438,
+      "step": 2710
+    },
+    {
+      "epoch": 0.4993562626448409,
+      "grad_norm": 0.8867163340537708,
+      "learning_rate": 2.9406843382789583e-05,
+      "loss": 0.8719,
+      "mean_token_accuracy": 0.745942211151123,
+      "step": 2715
+    },
+    {
+      "epoch": 0.5002758874379253,
+      "grad_norm": 0.9212664551640851,
+      "learning_rate": 2.9338653127534148e-05,
+      "loss": 0.8562,
+      "mean_token_accuracy": 0.7497703909873963,
+      "step": 2720
+    },
+    {
+      "epoch": 0.5011955122310098,
+      "grad_norm": 0.9432905808331339,
+      "learning_rate": 2.9270445866419766e-05,
+      "loss": 0.8741,
+      "mean_token_accuracy": 0.7432116866111755,
+      "step": 2725
+    },
+    {
+      "epoch": 0.5021151370240942,
+      "grad_norm": 0.9512906709412812,
+      "learning_rate": 2.92022222303012e-05,
+      "loss": 0.8818,
+      "mean_token_accuracy": 0.7435823440551758,
+      "step": 2730
+    },
+    {
+      "epoch": 0.5030347618171785,
+      "grad_norm": 0.9468765725989278,
+      "learning_rate": 2.9133982850184645e-05,
+      "loss": 0.8627,
+      "mean_token_accuracy": 0.748947024345398,
+      "step": 2735
+    },
+    {
+      "epoch": 0.503954386610263,
+      "grad_norm": 1.0112504748902342,
+      "learning_rate": 2.9065728357221927e-05,
+      "loss": 0.8508,
+      "mean_token_accuracy": 0.7537087440490723,
+      "step": 2740
+    },
+    {
+      "epoch": 0.5048740114033474,
+      "grad_norm": 0.9649262010355393,
+      "learning_rate": 2.899745938270465e-05,
+      "loss": 0.8819,
+      "mean_token_accuracy": 0.7414289236068725,
+      "step": 2745
+    },
+    {
+      "epoch": 0.5057936361964318,
+      "grad_norm": 0.9373961423715033,
+      "learning_rate": 2.8929176558058352e-05,
+      "loss": 0.8876,
+      "mean_token_accuracy": 0.741254198551178,
+      "step": 2750
+    },
+    {
+      "epoch": 0.5067132609895163,
+      "grad_norm": 0.9616567239953456,
+      "learning_rate": 2.8860880514836687e-05,
+      "loss": 0.8826,
+      "mean_token_accuracy": 0.7436172485351562,
+      "step": 2755
+    },
+    {
+      "epoch": 0.5076328857826007,
+      "grad_norm": 0.9367792403626876,
+      "learning_rate": 2.8792571884715546e-05,
+      "loss": 0.8482,
+      "mean_token_accuracy": 0.7529447674751282,
+      "step": 2760
+    },
+    {
+      "epoch": 0.5085525105756851,
+      "grad_norm": 0.9104599971108884,
+      "learning_rate": 2.8724251299487263e-05,
+      "loss": 0.8753,
+      "mean_token_accuracy": 0.7427584528923035,
+      "step": 2765
+    },
+    {
+      "epoch": 0.5094721353687696,
+      "grad_norm": 1.0105096627504964,
+      "learning_rate": 2.8655919391054732e-05,
+      "loss": 0.8641,
+      "mean_token_accuracy": 0.7479874610900878,
+      "step": 2770
+    },
+    {
+      "epoch": 0.510391760161854,
+      "grad_norm": 0.9279979512504474,
+      "learning_rate": 2.8587576791425568e-05,
+      "loss": 0.8317,
+      "mean_token_accuracy": 0.7535252571105957,
+      "step": 2775
+    },
+    {
+      "epoch": 0.5113113849549383,
+      "grad_norm": 0.9297465828114925,
+      "learning_rate": 2.8519224132706297e-05,
+      "loss": 0.8774,
+      "mean_token_accuracy": 0.7402622103691101,
+      "step": 2780
+    },
+    {
+      "epoch": 0.5122310097480228,
+      "grad_norm": 0.9452271860575534,
+      "learning_rate": 2.845086204709645e-05,
+      "loss": 0.8771,
+      "mean_token_accuracy": 0.744519031047821,
+      "step": 2785
+    },
+    {
+      "epoch": 0.5131506345411072,
+      "grad_norm": 0.9830981203343458,
+      "learning_rate": 2.838249116688277e-05,
+      "loss": 0.9289,
+      "mean_token_accuracy": 0.7298115253448486,
+      "step": 2790
+    },
+    {
+      "epoch": 0.5140702593341917,
+      "grad_norm": 1.041430018260559,
+      "learning_rate": 2.8314112124433334e-05,
+      "loss": 0.9045,
+      "mean_token_accuracy": 0.7383831977844239,
+      "step": 2795
+    },
+    {
+      "epoch": 0.5149898841272761,
+      "grad_norm": 0.9620402098071436,
+      "learning_rate": 2.8245725552191703e-05,
+      "loss": 0.8634,
+      "mean_token_accuracy": 0.746962821483612,
+      "step": 2800
+    },
+    {
+      "epoch": 0.5159095089203605,
+      "grad_norm": 0.9015921123510985,
+      "learning_rate": 2.8177332082671117e-05,
+      "loss": 0.853,
+      "mean_token_accuracy": 0.7487654685974121,
+      "step": 2805
+    },
+    {
+      "epoch": 0.516829133713445,
+      "grad_norm": 0.9007228615494444,
+      "learning_rate": 2.8108932348448553e-05,
+      "loss": 0.8428,
+      "mean_token_accuracy": 0.7535581469535828,
+      "step": 2810
+    },
+    {
+      "epoch": 0.5177487585065293,
+      "grad_norm": 0.9827577309973088,
+      "learning_rate": 2.8040526982158993e-05,
+      "loss": 0.8789,
+      "mean_token_accuracy": 0.7432992815971374,
+      "step": 2815
+    },
+    {
+      "epoch": 0.5186683832996137,
+      "grad_norm": 0.9633925171762643,
+      "learning_rate": 2.7972116616489464e-05,
+      "loss": 0.8397,
+      "mean_token_accuracy": 0.752094304561615,
+      "step": 2820
+    },
+    {
+      "epoch": 0.5195880080926982,
+      "grad_norm": 0.9281148435495344,
+      "learning_rate": 2.790370188417324e-05,
+      "loss": 0.8596,
+      "mean_token_accuracy": 0.7485750317573547,
+      "step": 2825
+    },
+    {
+      "epoch": 0.5205076328857826,
+      "grad_norm": 1.0029136932204825,
+      "learning_rate": 2.7835283417984005e-05,
+      "loss": 0.8718,
+      "mean_token_accuracy": 0.7433583855628967,
+      "step": 2830
+    },
+    {
+      "epoch": 0.521427257678867,
+      "grad_norm": 0.9621263162970809,
+      "learning_rate": 2.7766861850729958e-05,
+      "loss": 0.8955,
+      "mean_token_accuracy": 0.7394774556159973,
+      "step": 2835
+    },
+    {
+      "epoch": 0.5223468824719515,
+      "grad_norm": 0.9670299071015823,
+      "learning_rate": 2.7698437815247995e-05,
+      "loss": 0.8529,
+      "mean_token_accuracy": 0.7500015497207642,
+      "step": 2840
+    },
+    {
+      "epoch": 0.5232665072650359,
+      "grad_norm": 0.9398184622397476,
+      "learning_rate": 2.763001194439782e-05,
+      "loss": 0.8447,
+      "mean_token_accuracy": 0.7504964828491211,
+      "step": 2845
+    },
+    {
+      "epoch": 0.5241861320581203,
+      "grad_norm": 0.8869891271688453,
+      "learning_rate": 2.756158487105613e-05,
+      "loss": 0.8404,
+      "mean_token_accuracy": 0.7549336075782775,
+      "step": 2850
+    },
+    {
+      "epoch": 0.5251057568512048,
+      "grad_norm": 0.9965820824716972,
+      "learning_rate": 2.749315722811073e-05,
+      "loss": 0.9179,
+      "mean_token_accuracy": 0.7317790746688843,
+      "step": 2855
+    },
+    {
+      "epoch": 0.5260253816442891,
+      "grad_norm": 0.9304946857092635,
+      "learning_rate": 2.7424729648454717e-05,
+      "loss": 0.8874,
+      "mean_token_accuracy": 0.7398088812828064,
+      "step": 2860
+    },
+    {
+      "epoch": 0.5269450064373735,
+      "grad_norm": 0.9880649590404676,
+      "learning_rate": 2.735630276498058e-05,
+      "loss": 0.8738,
+      "mean_token_accuracy": 0.7432942867279053,
+      "step": 2865
+    },
+    {
+      "epoch": 0.527864631230458,
+      "grad_norm": 0.9350070938993663,
+      "learning_rate": 2.728787721057437e-05,
+      "loss": 0.8758,
+      "mean_token_accuracy": 0.7431787729263306,
+      "step": 2870
+    },
+    {
+      "epoch": 0.5287842560235424,
+      "grad_norm": 0.8997664568286488,
+      "learning_rate": 2.7219453618109853e-05,
+      "loss": 0.842,
+      "mean_token_accuracy": 0.7523634552955627,
+      "step": 2875
+    },
+    {
+      "epoch": 0.5297038808166268,
+      "grad_norm": 0.9519585493296138,
+      "learning_rate": 2.715103262044265e-05,
+      "loss": 0.8744,
+      "mean_token_accuracy": 0.7417232871055603,
+      "step": 2880
+    },
+    {
+      "epoch": 0.5306235056097113,
+      "grad_norm": 0.8836119550117293,
+      "learning_rate": 2.708261485040439e-05,
+      "loss": 0.856,
+      "mean_token_accuracy": 0.7496297836303711,
+      "step": 2885
+    },
+    {
+      "epoch": 0.5315431304027957,
+      "grad_norm": 0.9589883589041829,
+      "learning_rate": 2.7014200940796824e-05,
+      "loss": 0.8418,
+      "mean_token_accuracy": 0.7520057439804078,
+      "step": 2890
+    },
+    {
+      "epoch": 0.53246275519588,
+      "grad_norm": 0.9563207815434712,
+      "learning_rate": 2.694579152438601e-05,
+      "loss": 0.8936,
+      "mean_token_accuracy": 0.7398610949516297,
+      "step": 2895
+    },
+    {
+      "epoch": 0.5333823799889645,
+      "grad_norm": 0.9233468769288075,
+      "learning_rate": 2.6877387233896472e-05,
+      "loss": 0.8634,
+      "mean_token_accuracy": 0.745741093158722,
+      "step": 2900
+    },
+    {
+      "epoch": 0.5343020047820489,
+      "grad_norm": 0.9541286928919233,
+      "learning_rate": 2.6808988702005285e-05,
+      "loss": 0.868,
+      "mean_token_accuracy": 0.7439489006996155,
+      "step": 2905
+    },
+    {
+      "epoch": 0.5352216295751333,
+      "grad_norm": 0.9922987370495847,
+      "learning_rate": 2.6740596561336275e-05,
+      "loss": 0.8482,
+      "mean_token_accuracy": 0.7504428863525391,
+      "step": 2910
+    },
+    {
+      "epoch": 0.5361412543682178,
+      "grad_norm": 0.9722831543231532,
+      "learning_rate": 2.667221144445418e-05,
+      "loss": 0.8177,
+      "mean_token_accuracy": 0.7608316302299499,
+      "step": 2915
+    },
+    {
+      "epoch": 0.5370608791613022,
+      "grad_norm": 1.0275441684092577,
+      "learning_rate": 2.6603833983858738e-05,
+      "loss": 0.9398,
+      "mean_token_accuracy": 0.7276052117347718,
+      "step": 2920
+    },
+    {
+      "epoch": 0.5379805039543866,
+      "grad_norm": 1.0068511170391965,
+      "learning_rate": 2.6535464811978894e-05,
+      "loss": 0.8424,
+      "mean_token_accuracy": 0.7531503081321717,
+      "step": 2925
+    },
+    {
+      "epoch": 0.5389001287474711,
+      "grad_norm": 0.9554905959505885,
+      "learning_rate": 2.6467104561166927e-05,
+      "loss": 0.8671,
+      "mean_token_accuracy": 0.7456499934196472,
+      "step": 2930
+    },
+    {
+      "epoch": 0.5398197535405554,
+      "grad_norm": 0.9318421761107843,
+      "learning_rate": 2.639875386369261e-05,
+      "loss": 0.8674,
+      "mean_token_accuracy": 0.7474814653396606,
+      "step": 2935
+    },
+    {
+      "epoch": 0.5407393783336398,
+      "grad_norm": 0.9797586514540253,
+      "learning_rate": 2.6330413351737336e-05,
+      "loss": 0.893,
+      "mean_token_accuracy": 0.7371798276901245,
+      "step": 2940
+    },
+    {
+      "epoch": 0.5416590031267243,
+      "grad_norm": 0.9627863342351398,
+      "learning_rate": 2.626208365738831e-05,
+      "loss": 0.8662,
+      "mean_token_accuracy": 0.7450501322746277,
+      "step": 2945
+    },
+    {
+      "epoch": 0.5425786279198087,
+      "grad_norm": 0.9378560834404903,
+      "learning_rate": 2.6193765412632677e-05,
+      "loss": 0.8427,
+      "mean_token_accuracy": 0.750009298324585,
+      "step": 2950
+    },
+    {
+      "epoch": 0.5434982527128931,
+      "grad_norm": 0.9349477883280783,
+      "learning_rate": 2.6125459249351697e-05,
+      "loss": 0.8908,
+      "mean_token_accuracy": 0.7386453747749329,
+      "step": 2955
+    },
+    {
+      "epoch": 0.5444178775059776,
+      "grad_norm": 0.9298587181804499,
+      "learning_rate": 2.6057165799314854e-05,
+      "loss": 0.855,
+      "mean_token_accuracy": 0.7491998553276062,
+      "step": 2960
+    },
+    {
+      "epoch": 0.545337502299062,
+      "grad_norm": 0.9026144571758381,
+      "learning_rate": 2.5988885694174085e-05,
+      "loss": 0.8786,
+      "mean_token_accuracy": 0.7437506198883057,
+      "step": 2965
+    },
+    {
+      "epoch": 0.5462571270921464,
+      "grad_norm": 0.9408107824152944,
+      "learning_rate": 2.5920619565457877e-05,
+      "loss": 0.8758,
+      "mean_token_accuracy": 0.7427832961082459,
+      "step": 2970
+    },
+    {
+      "epoch": 0.5471767518852308,
+      "grad_norm": 0.9195819021761746,
+      "learning_rate": 2.5852368044565452e-05,
+      "loss": 0.9277,
+      "mean_token_accuracy": 0.7323094010353088,
+      "step": 2975
+    },
+    {
+      "epoch": 0.5480963766783152,
+      "grad_norm": 0.9586681296133412,
+      "learning_rate": 2.5784131762760922e-05,
+      "loss": 0.8334,
+      "mean_token_accuracy": 0.7566598057746887,
+      "step": 2980
+    },
+    {
+      "epoch": 0.5490160014713996,
+      "grad_norm": 0.9092467816987784,
+      "learning_rate": 2.5715911351167465e-05,
+      "loss": 0.9014,
+      "mean_token_accuracy": 0.7390154361724853,
+      "step": 2985
+    },
+    {
+      "epoch": 0.5499356262644841,
+      "grad_norm": 0.966449128998816,
+      "learning_rate": 2.564770744076144e-05,
+      "loss": 0.8959,
+      "mean_token_accuracy": 0.7373208284378052,
+      "step": 2990
+    },
+    {
+      "epoch": 0.5508552510575685,
+      "grad_norm": 1.0269176653506933,
+      "learning_rate": 2.5579520662366618e-05,
+      "loss": 0.8626,
+      "mean_token_accuracy": 0.7471036791801453,
+      "step": 2995
+    },
+    {
+      "epoch": 0.5517748758506529,
+      "grad_norm": 0.9705454615801481,
+      "learning_rate": 2.5511351646648324e-05,
+      "loss": 0.8761,
+      "mean_token_accuracy": 0.7408113241195678,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5526945006437374,
+      "grad_norm": 0.9683019669667483,
+      "learning_rate": 2.5443201024107537e-05,
+      "loss": 0.8974,
+      "mean_token_accuracy": 0.7345914959907531,
+      "step": 3005
+    },
+    {
+      "epoch": 0.5536141254368218,
+      "grad_norm": 0.9328296833493311,
+      "learning_rate": 2.5375069425075176e-05,
+      "loss": 0.8629,
+      "mean_token_accuracy": 0.7468894720077515,
+      "step": 3010
+    },
+    {
+      "epoch": 0.5545337502299063,
+      "grad_norm": 0.9565417579373001,
+      "learning_rate": 2.5306957479706196e-05,
+      "loss": 0.8914,
+      "mean_token_accuracy": 0.7373947501182556,
+      "step": 3015
+    },
+    {
+      "epoch": 0.5554533750229906,
+      "grad_norm": 0.9439811181197841,
+      "learning_rate": 2.5238865817973735e-05,
+      "loss": 0.8264,
+      "mean_token_accuracy": 0.7566876411437988,
+      "step": 3020
+    },
+    {
+      "epoch": 0.556372999816075,
+      "grad_norm": 0.8918377804941932,
+      "learning_rate": 2.5170795069663374e-05,
+      "loss": 0.8384,
+      "mean_token_accuracy": 0.7532538652420044,
+      "step": 3025
+    },
+    {
+      "epoch": 0.5572926246091595,
+      "grad_norm": 0.9531681758263391,
+      "learning_rate": 2.510274586436725e-05,
+      "loss": 0.9137,
+      "mean_token_accuracy": 0.7336269617080688,
+      "step": 3030
+    },
+    {
+      "epoch": 0.5582122494022439,
+      "grad_norm": 0.9547809224031603,
+      "learning_rate": 2.5034718831478236e-05,
+      "loss": 0.8121,
+      "mean_token_accuracy": 0.7607084512710571,
+      "step": 3035
+    },
+    {
+      "epoch": 0.5591318741953283,
+      "grad_norm": 0.9101416039188879,
+      "learning_rate": 2.496671460018414e-05,
+      "loss": 0.8374,
+      "mean_token_accuracy": 0.7512237310409546,
+      "step": 3040
+    },
+    {
+      "epoch": 0.5600514989884128,
+      "grad_norm": 0.9591588974138807,
+      "learning_rate": 2.4898733799461866e-05,
+      "loss": 0.8691,
+      "mean_token_accuracy": 0.7475574612617493,
+      "step": 3045
+    },
+    {
+      "epoch": 0.5609711237814972,
+      "grad_norm": 0.9481182124754315,
+      "learning_rate": 2.4830777058071623e-05,
+      "loss": 0.8541,
+      "mean_token_accuracy": 0.7470650672912598,
+      "step": 3050
+    },
+    {
+      "epoch": 0.5618907485745815,
+      "grad_norm": 0.8991567391844545,
+      "learning_rate": 2.4762845004551077e-05,
+      "loss": 0.834,
+      "mean_token_accuracy": 0.7513617157936097,
+      "step": 3055
+    },
+    {
+      "epoch": 0.562810373367666,
+      "grad_norm": 0.8993594505060807,
+      "learning_rate": 2.4694938267209567e-05,
+      "loss": 0.8302,
+      "mean_token_accuracy": 0.7539983510971069,
+      "step": 3060
+    },
+    {
+      "epoch": 0.5637299981607504,
+      "grad_norm": 0.9212463554308379,
+      "learning_rate": 2.4627057474122273e-05,
+      "loss": 0.8598,
+      "mean_token_accuracy": 0.747953188419342,
+      "step": 3065
+    },
+    {
+      "epoch": 0.5646496229538348,
+      "grad_norm": 0.9155845020709076,
+      "learning_rate": 2.4559203253124407e-05,
+      "loss": 0.8728,
+      "mean_token_accuracy": 0.7440886616706848,
+      "step": 3070
+    },
+    {
+      "epoch": 0.5655692477469193,
+      "grad_norm": 0.9376543570110895,
+      "learning_rate": 2.4491376231805428e-05,
+      "loss": 0.8529,
+      "mean_token_accuracy": 0.7518376111984253,
+      "step": 3075
+    },
+    {
+      "epoch": 0.5664888725400037,
+      "grad_norm": 0.9720221730313491,
+      "learning_rate": 2.442357703750322e-05,
+      "loss": 0.8423,
+      "mean_token_accuracy": 0.7525236487388611,
+      "step": 3080
+    },
+    {
+      "epoch": 0.5674084973330881,
+      "grad_norm": 0.9013738631587733,
+      "learning_rate": 2.4355806297298296e-05,
+      "loss": 0.8422,
+      "mean_token_accuracy": 0.7528858304023742,
+      "step": 3085
+    },
+    {
+      "epoch": 0.5683281221261726,
+      "grad_norm": 0.9524358228393591,
+      "learning_rate": 2.4288064638007974e-05,
+      "loss": 0.8672,
+      "mean_token_accuracy": 0.7468002319335938,
+      "step": 3090
+    },
+    {
+      "epoch": 0.569247746919257,
+      "grad_norm": 0.9505409858129935,
+      "learning_rate": 2.4220352686180613e-05,
+      "loss": 0.8416,
+      "mean_token_accuracy": 0.7486450433731079,
+      "step": 3095
+    },
+    {
+      "epoch": 0.5701673717123413,
+      "grad_norm": 0.9615751645550065,
+      "learning_rate": 2.415267106808983e-05,
+      "loss": 0.803,
+      "mean_token_accuracy": 0.7603586912155151,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5710869965054258,
+      "grad_norm": 0.9458073029155306,
+      "learning_rate": 2.4085020409728633e-05,
+      "loss": 0.8614,
+      "mean_token_accuracy": 0.7483598232269287,
+      "step": 3105
+    },
+    {
+      "epoch": 0.5720066212985102,
+      "grad_norm": 0.959427274017189,
+      "learning_rate": 2.4017401336803713e-05,
+      "loss": 0.8795,
+      "mean_token_accuracy": 0.7383235573768616,
+      "step": 3110
+    },
+    {
+      "epoch": 0.5729262460915946,
+      "grad_norm": 0.9688058239251538,
+      "learning_rate": 2.394981447472963e-05,
+      "loss": 0.8854,
+      "mean_token_accuracy": 0.7413538813591003,
+      "step": 3115
+    },
+    {
+      "epoch": 0.5738458708846791,
+      "grad_norm": 0.9543674760330169,
+      "learning_rate": 2.3882260448623002e-05,
+      "loss": 0.8924,
+      "mean_token_accuracy": 0.739243483543396,
+      "step": 3120
+    },
+    {
+      "epoch": 0.5747654956777635,
+      "grad_norm": 0.9565581088949338,
+      "learning_rate": 2.381473988329675e-05,
+      "loss": 0.8878,
+      "mean_token_accuracy": 0.737128746509552,
+      "step": 3125
+    },
+    {
+      "epoch": 0.5756851204708479,
+      "grad_norm": 0.9446263148140598,
+      "learning_rate": 2.374725340325433e-05,
+      "loss": 0.8771,
+      "mean_token_accuracy": 0.7424870610237122,
+      "step": 3130
+    },
+    {
+      "epoch": 0.5766047452639324,
+      "grad_norm": 0.9235345865848048,
+      "learning_rate": 2.3679801632683927e-05,
+      "loss": 0.8791,
+      "mean_token_accuracy": 0.7413055062294006,
+      "step": 3135
+    },
+    {
+      "epoch": 0.5775243700570167,
+      "grad_norm": 0.931358306977097,
+      "learning_rate": 2.3612385195452687e-05,
+      "loss": 0.8864,
+      "mean_token_accuracy": 0.7415070414543152,
+      "step": 3140
+    },
+    {
+      "epoch": 0.5784439948501011,
+      "grad_norm": 0.9366462545353926,
+      "learning_rate": 2.3545004715100966e-05,
+      "loss": 0.8791,
+      "mean_token_accuracy": 0.7428970575332642,
+      "step": 3145
+    },
+    {
+      "epoch": 0.5793636196431856,
+      "grad_norm": 0.9312216076414869,
+      "learning_rate": 2.3477660814836562e-05,
+      "loss": 0.8318,
+      "mean_token_accuracy": 0.7540540814399719,
+      "step": 3150
+    },
+    {
+      "epoch": 0.58028324443627,
+      "grad_norm": 0.9058432741408705,
+      "learning_rate": 2.3410354117528904e-05,
+      "loss": 0.9128,
+      "mean_token_accuracy": 0.7328131318092346,
+      "step": 3155
+    },
+    {
+      "epoch": 0.5812028692293544,
+      "grad_norm": 0.92693757568253,
+      "learning_rate": 2.3343085245703373e-05,
+      "loss": 0.8356,
+      "mean_token_accuracy": 0.754761004447937,
+      "step": 3160
+    },
+    {
+      "epoch": 0.5821224940224389,
+      "grad_norm": 0.9685552745916727,
+      "learning_rate": 2.3275854821535476e-05,
+      "loss": 0.8696,
+      "mean_token_accuracy": 0.7423434615135193,
+      "step": 3165
+    },
+    {
+      "epoch": 0.5830421188155233,
+      "grad_norm": 0.9530016316914325,
+      "learning_rate": 2.3208663466845108e-05,
+      "loss": 0.8239,
+      "mean_token_accuracy": 0.7581414461135865,
+      "step": 3170
+    },
+    {
+      "epoch": 0.5839617436086076,
+      "grad_norm": 0.9912981010776241,
+      "learning_rate": 2.3141511803090815e-05,
+      "loss": 0.8784,
+      "mean_token_accuracy": 0.743216586112976,
+      "step": 3175
+    },
+    {
+      "epoch": 0.5848813684016921,
+      "grad_norm": 0.8897494823501038,
+      "learning_rate": 2.3074400451364048e-05,
+      "loss": 0.8771,
+      "mean_token_accuracy": 0.7422731041908264,
+      "step": 3180
+    },
+    {
+      "epoch": 0.5858009931947765,
+      "grad_norm": 0.9087254524604537,
+      "learning_rate": 2.300733003238339e-05,
+      "loss": 0.8249,
+      "mean_token_accuracy": 0.75495365858078,
+      "step": 3185
+    },
+    {
+      "epoch": 0.5867206179878609,
+      "grad_norm": 0.9615326948623956,
+      "learning_rate": 2.2940301166488846e-05,
+      "loss": 0.7821,
+      "mean_token_accuracy": 0.7687617659568786,
+      "step": 3190
+    },
+    {
+      "epoch": 0.5876402427809454,
+      "grad_norm": 0.9239773147706558,
+      "learning_rate": 2.28733144736361e-05,
+      "loss": 0.8034,
+      "mean_token_accuracy": 0.7630661010742188,
+      "step": 3195
+    },
+    {
+      "epoch": 0.5885598675740298,
+      "grad_norm": 0.9271354944208791,
+      "learning_rate": 2.2806370573390745e-05,
+      "loss": 0.8377,
+      "mean_token_accuracy": 0.7517584562301636,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5894794923671142,
+      "grad_norm": 0.9307261567222711,
+      "learning_rate": 2.2739470084922608e-05,
+      "loss": 0.9145,
+      "mean_token_accuracy": 0.7307730317115784,
+      "step": 3205
+    },
+    {
+      "epoch": 0.5903991171601987,
+      "grad_norm": 0.8708186634436479,
+      "learning_rate": 2.2672613626999994e-05,
+      "loss": 0.8495,
+      "mean_token_accuracy": 0.7486128211021423,
+      "step": 3210
+    },
+    {
+      "epoch": 0.591318741953283,
+      "grad_norm": 0.9473141853732495,
+      "learning_rate": 2.2605801817983958e-05,
+      "loss": 0.8341,
+      "mean_token_accuracy": 0.7518749475479126,
+      "step": 3215
+    },
+    {
+      "epoch": 0.5922383667463674,
+      "grad_norm": 0.9382593885727152,
+      "learning_rate": 2.253903527582259e-05,
+      "loss": 0.8447,
+      "mean_token_accuracy": 0.7506359577178955,
+      "step": 3220
+    },
+    {
+      "epoch": 0.5931579915394519,
+      "grad_norm": 0.9696123819996886,
+      "learning_rate": 2.247231461804532e-05,
+      "loss": 0.8266,
+      "mean_token_accuracy": 0.7562480688095092,
+      "step": 3225
+    },
+    {
+      "epoch": 0.5940776163325363,
+      "grad_norm": 0.8949351423802622,
+      "learning_rate": 2.2405640461757176e-05,
+      "loss": 0.814,
+      "mean_token_accuracy": 0.7592174887657166,
+      "step": 3230
+    },
+    {
+      "epoch": 0.5949972411256208,
+      "grad_norm": 0.9615311548799811,
+      "learning_rate": 2.2339013423633083e-05,
+      "loss": 0.8503,
+      "mean_token_accuracy": 0.7499252796173096,
+      "step": 3235
+    },
+    {
+      "epoch": 0.5959168659187052,
+      "grad_norm": 0.9086052926810453,
+      "learning_rate": 2.2272434119912184e-05,
+      "loss": 0.8754,
+      "mean_token_accuracy": 0.7434251546859741,
+      "step": 3240
+    },
+    {
+      "epoch": 0.5968364907117896,
+      "grad_norm": 0.9221742878259598,
+      "learning_rate": 2.2205903166392113e-05,
+      "loss": 0.8477,
+      "mean_token_accuracy": 0.7485897660255432,
+      "step": 3245
+    },
+    {
+      "epoch": 0.5977561155048741,
+      "grad_norm": 0.967041034869552,
+      "learning_rate": 2.2139421178423307e-05,
+      "loss": 0.8225,
+      "mean_token_accuracy": 0.7570245742797852,
+      "step": 3250
+    },
+    {
+      "epoch": 0.5986757402979584,
+      "grad_norm": 0.981067205830958,
+      "learning_rate": 2.207298877090333e-05,
+      "loss": 0.8701,
+      "mean_token_accuracy": 0.7440281748771668,
+      "step": 3255
+    },
+    {
+      "epoch": 0.5995953650910428,
+      "grad_norm": 0.989973298607582,
+      "learning_rate": 2.2006606558271142e-05,
+      "loss": 0.8713,
+      "mean_token_accuracy": 0.7413482785224914,
+      "step": 3260
+    },
+    {
+      "epoch": 0.6005149898841273,
+      "grad_norm": 0.8672144464089592,
+      "learning_rate": 2.1940275154501482e-05,
+      "loss": 0.87,
+      "mean_token_accuracy": 0.743138313293457,
+      "step": 3265
+    },
+    {
+      "epoch": 0.6014346146772117,
+      "grad_norm": 0.9653292378844739,
+      "learning_rate": 2.187399517309914e-05,
+      "loss": 0.8575,
+      "mean_token_accuracy": 0.7464121103286743,
+      "step": 3270
+    },
+    {
+      "epoch": 0.6023542394702961,
+      "grad_norm": 0.9239524199502155,
+      "learning_rate": 2.1807767227093268e-05,
+      "loss": 0.8236,
+      "mean_token_accuracy": 0.7573307991027832,
+      "step": 3275
+    },
+    {
+      "epoch": 0.6032738642633806,
+      "grad_norm": 0.9806975126747703,
+      "learning_rate": 2.1741591929031795e-05,
+      "loss": 0.878,
+      "mean_token_accuracy": 0.7407856106758117,
+      "step": 3280
+    },
+    {
+      "epoch": 0.604193489056465,
+      "grad_norm": 0.9640808408127749,
+      "learning_rate": 2.167546989097566e-05,
+      "loss": 0.8638,
+      "mean_token_accuracy": 0.7459958910942077,
+      "step": 3285
+    },
+    {
+      "epoch": 0.6051131138495494,
+      "grad_norm": 0.9656473527433518,
+      "learning_rate": 2.16094017244932e-05,
+      "loss": 0.8783,
+      "mean_token_accuracy": 0.7419638872146607,
+      "step": 3290
+    },
+    {
+      "epoch": 0.6060327386426339,
+      "grad_norm": 0.9930014003610543,
+      "learning_rate": 2.154338804065451e-05,
+      "loss": 0.8615,
+      "mean_token_accuracy": 0.7456332087516785,
+      "step": 3295
+    },
+    {
+      "epoch": 0.6069523634357182,
+      "grad_norm": 0.9330196848152268,
+      "learning_rate": 2.1477429450025767e-05,
+      "loss": 0.8352,
+      "mean_token_accuracy": 0.7517044901847839,
+      "step": 3300
+    },
+    {
+      "epoch": 0.6078719882288026,
+      "grad_norm": 0.8777553334567131,
+      "learning_rate": 2.1411526562663554e-05,
+      "loss": 0.8364,
+      "mean_token_accuracy": 0.7501665949821472,
+      "step": 3305
+    },
+    {
+      "epoch": 0.6087916130218871,
+      "grad_norm": 0.9315142599796349,
+      "learning_rate": 2.1345679988109284e-05,
+      "loss": 0.8378,
+      "mean_token_accuracy": 0.7534802198410034,
+      "step": 3310
+    },
+    {
+      "epoch": 0.6097112378149715,
+      "grad_norm": 0.9385962221597601,
+      "learning_rate": 2.1279890335383534e-05,
+      "loss": 0.8876,
+      "mean_token_accuracy": 0.7398653388023376,
+      "step": 3315
+    },
+    {
+      "epoch": 0.6106308626080559,
+      "grad_norm": 0.9451857651632474,
+      "learning_rate": 2.1214158212980366e-05,
+      "loss": 0.7988,
+      "mean_token_accuracy": 0.7636669516563416,
+      "step": 3320
+    },
+    {
+      "epoch": 0.6115504874011404,
+      "grad_norm": 0.9310680714278403,
+      "learning_rate": 2.114848422886177e-05,
+      "loss": 0.8417,
+      "mean_token_accuracy": 0.7545873999595643,
+      "step": 3325
+    },
+    {
+      "epoch": 0.6124701121942248,
+      "grad_norm": 0.9555284993925652,
+      "learning_rate": 2.108286899045202e-05,
+      "loss": 0.8906,
+      "mean_token_accuracy": 0.7384588122367859,
+      "step": 3330
+    },
+    {
+      "epoch": 0.6133897369873091,
+      "grad_norm": 0.9525478437560697,
+      "learning_rate": 2.1017313104632003e-05,
+      "loss": 0.844,
+      "mean_token_accuracy": 0.7497392654418945,
+      "step": 3335
+    },
+    {
+      "epoch": 0.6143093617803936,
+      "grad_norm": 0.9657934498214388,
+      "learning_rate": 2.0951817177733684e-05,
+      "loss": 0.8748,
+      "mean_token_accuracy": 0.7426393389701843,
+      "step": 3340
+    },
+    {
+      "epoch": 0.615228986573478,
+      "grad_norm": 0.9174407552166862,
+      "learning_rate": 2.088638181553446e-05,
+      "loss": 0.8727,
+      "mean_token_accuracy": 0.742801570892334,
+      "step": 3345
+    },
+    {
+      "epoch": 0.6161486113665624,
+      "grad_norm": 0.9106809477969502,
+      "learning_rate": 2.0821007623251564e-05,
+      "loss": 0.8227,
+      "mean_token_accuracy": 0.7550573825836182,
+      "step": 3350
+    },
+    {
+      "epoch": 0.6170682361596469,
+      "grad_norm": 0.8816231707997737,
+      "learning_rate": 2.075569520553643e-05,
+      "loss": 0.8066,
+      "mean_token_accuracy": 0.7590124368667602,
+      "step": 3355
+    },
+    {
+      "epoch": 0.6179878609527313,
+      "grad_norm": 0.9651791807712018,
+      "learning_rate": 2.0690445166469158e-05,
+      "loss": 0.8575,
+      "mean_token_accuracy": 0.7481630921363831,
+      "step": 3360
+    },
+    {
+      "epoch": 0.6189074857458157,
+      "grad_norm": 0.962161882798645,
+      "learning_rate": 2.0625258109552926e-05,
+      "loss": 0.8842,
+      "mean_token_accuracy": 0.743985378742218,
+      "step": 3365
+    },
+    {
+      "epoch": 0.6198271105389002,
+      "grad_norm": 0.955250281560398,
+      "learning_rate": 2.0560134637708334e-05,
+      "loss": 0.8413,
+      "mean_token_accuracy": 0.7497357606887818,
+      "step": 3370
+    },
+    {
+      "epoch": 0.6207467353319845,
+      "grad_norm": 1.0327175413319667,
+      "learning_rate": 2.0495075353267913e-05,
+      "loss": 0.8697,
+      "mean_token_accuracy": 0.7445659875869751,
+      "step": 3375
+    },
+    {
+      "epoch": 0.6216663601250689,
+      "grad_norm": 0.9525687098312168,
+      "learning_rate": 2.043008085797052e-05,
+      "loss": 0.8722,
+      "mean_token_accuracy": 0.7410041093826294,
+      "step": 3380
+    },
+    {
+      "epoch": 0.6225859849181534,
+      "grad_norm": 0.9275514977855014,
+      "learning_rate": 2.036515175295574e-05,
+      "loss": 0.8412,
+      "mean_token_accuracy": 0.7507887959480286,
+      "step": 3385
+    },
+    {
+      "epoch": 0.6235056097112378,
+      "grad_norm": 0.9493961658678648,
+      "learning_rate": 2.03002886387584e-05,
+      "loss": 0.8556,
+      "mean_token_accuracy": 0.7469261646270752,
+      "step": 3390
+    },
+    {
+      "epoch": 0.6244252345043222,
+      "grad_norm": 0.9292345545436532,
+      "learning_rate": 2.0235492115302944e-05,
+      "loss": 0.8301,
+      "mean_token_accuracy": 0.7550871014595032,
+      "step": 3395
+    },
+    {
+      "epoch": 0.6253448592974067,
+      "grad_norm": 0.9430411664378814,
+      "learning_rate": 2.017076278189794e-05,
+      "loss": 0.8321,
+      "mean_token_accuracy": 0.7533326983451843,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6262644840904911,
+      "grad_norm": 0.8889521393845567,
+      "learning_rate": 2.0106101237230455e-05,
+      "loss": 0.8324,
+      "mean_token_accuracy": 0.7539088129997253,
+      "step": 3405
+    },
+    {
+      "epoch": 0.6271841088835755,
+      "grad_norm": 0.9180009901150891,
+      "learning_rate": 2.0041508079360634e-05,
+      "loss": 0.7898,
+      "mean_token_accuracy": 0.761493980884552,
+      "step": 3410
+    },
+    {
+      "epoch": 0.62810373367666,
+      "grad_norm": 0.9055995921329637,
+      "learning_rate": 1.997698390571608e-05,
+      "loss": 0.8419,
+      "mean_token_accuracy": 0.7503387928009033,
+      "step": 3415
+    },
+    {
+      "epoch": 0.6290233584697443,
+      "grad_norm": 0.9447591194939752,
+      "learning_rate": 1.991252931308633e-05,
+      "loss": 0.8692,
+      "mean_token_accuracy": 0.7452242970466614,
+      "step": 3420
+    },
+    {
+      "epoch": 0.6299429832628287,
+      "grad_norm": 0.9351426059072258,
+      "learning_rate": 1.9848144897617417e-05,
+      "loss": 0.8149,
+      "mean_token_accuracy": 0.7568124055862426,
+      "step": 3425
+    },
+    {
+      "epoch": 0.6308626080559132,
+      "grad_norm": 0.9168023134449134,
+      "learning_rate": 1.9783831254806257e-05,
+      "loss": 0.8157,
+      "mean_token_accuracy": 0.7554953694343567,
+      "step": 3430
+    },
+    {
+      "epoch": 0.6317822328489976,
+      "grad_norm": 1.027979530127791,
+      "learning_rate": 1.971958897949518e-05,
+      "loss": 0.8229,
+      "mean_token_accuracy": 0.7550533413887024,
+      "step": 3435
+    },
+    {
+      "epoch": 0.632701857642082,
+      "grad_norm": 0.8964633060914129,
+      "learning_rate": 1.9655418665866465e-05,
+      "loss": 0.7966,
+      "mean_token_accuracy": 0.7639833688735962,
+      "step": 3440
+    },
+    {
+      "epoch": 0.6336214824351665,
+      "grad_norm": 0.8702615238247585,
+      "learning_rate": 1.9591320907436782e-05,
+      "loss": 0.8502,
+      "mean_token_accuracy": 0.74614177942276,
+      "step": 3445
+    },
+    {
+      "epoch": 0.6345411072282509,
+      "grad_norm": 0.9157962896320851,
+      "learning_rate": 1.9527296297051765e-05,
+      "loss": 0.8026,
+      "mean_token_accuracy": 0.758307683467865,
+      "step": 3450
+    },
+    {
+      "epoch": 0.6354607320213354,
+      "grad_norm": 0.9465005665572019,
+      "learning_rate": 1.9463345426880448e-05,
+      "loss": 0.8036,
+      "mean_token_accuracy": 0.7617629647254944,
+      "step": 3455
+    },
+    {
+      "epoch": 0.6363803568144197,
+      "grad_norm": 0.9618417431183126,
+      "learning_rate": 1.939946888840986e-05,
+      "loss": 0.8819,
+      "mean_token_accuracy": 0.7395693898200989,
+      "step": 3460
+    },
+    {
+      "epoch": 0.6372999816075041,
+      "grad_norm": 0.9326022903907812,
+      "learning_rate": 1.933566727243956e-05,
+      "loss": 0.8384,
+      "mean_token_accuracy": 0.7497618556022644,
+      "step": 3465
+    },
+    {
+      "epoch": 0.6382196064005886,
+      "grad_norm": 0.942168299955769,
+      "learning_rate": 1.927194116907608e-05,
+      "loss": 0.8821,
+      "mean_token_accuracy": 0.7422310829162597,
+      "step": 3470
+    },
+    {
+      "epoch": 0.639139231193673,
+      "grad_norm": 0.930256851029374,
+      "learning_rate": 1.9208291167727576e-05,
+      "loss": 0.8293,
+      "mean_token_accuracy": 0.7561385631561279,
+      "step": 3475
+    },
+    {
+      "epoch": 0.6400588559867574,
+      "grad_norm": 0.8857746537604931,
+      "learning_rate": 1.9144717857098328e-05,
+      "loss": 0.8166,
+      "mean_token_accuracy": 0.7583439826965332,
+      "step": 3480
+    },
+    {
+      "epoch": 0.6409784807798419,
+      "grad_norm": 0.9519372824273006,
+      "learning_rate": 1.908122182518326e-05,
+      "loss": 0.8674,
+      "mean_token_accuracy": 0.741856062412262,
+      "step": 3485
+    },
+    {
+      "epoch": 0.6418981055729263,
+      "grad_norm": 0.9483959540274922,
+      "learning_rate": 1.9017803659262583e-05,
+      "loss": 0.8496,
+      "mean_token_accuracy": 0.7491413950920105,
+      "step": 3490
+    },
+    {
+      "epoch": 0.6428177303660106,
+      "grad_norm": 0.9729346329964175,
+      "learning_rate": 1.8954463945896293e-05,
+      "loss": 0.8554,
+      "mean_token_accuracy": 0.7483752846717835,
+      "step": 3495
+    },
+    {
+      "epoch": 0.6437373551590951,
+      "grad_norm": 0.910719020599245,
+      "learning_rate": 1.889120327091879e-05,
+      "loss": 0.8332,
+      "mean_token_accuracy": 0.753311276435852,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6446569799521795,
+      "grad_norm": 0.8997078755147822,
+      "learning_rate": 1.8828022219433413e-05,
+      "loss": 0.8311,
+      "mean_token_accuracy": 0.7538302779197693,
+      "step": 3505
+    },
+    {
+      "epoch": 0.6455766047452639,
+      "grad_norm": 0.9097287217365273,
+      "learning_rate": 1.8764921375807083e-05,
+      "loss": 0.8573,
+      "mean_token_accuracy": 0.74767564535141,
+      "step": 3510
+    },
+    {
+      "epoch": 0.6464962295383484,
+      "grad_norm": 0.9420262116863728,
+      "learning_rate": 1.8701901323664863e-05,
+      "loss": 0.8551,
+      "mean_token_accuracy": 0.7479906916618347,
+      "step": 3515
+    },
+    {
+      "epoch": 0.6474158543314328,
+      "grad_norm": 0.9297816459092663,
+      "learning_rate": 1.8638962645884565e-05,
+      "loss": 0.8066,
+      "mean_token_accuracy": 0.7580268263816834,
+      "step": 3520
+    },
+    {
+      "epoch": 0.6483354791245172,
+      "grad_norm": 0.946031226164797,
+      "learning_rate": 1.8576105924591357e-05,
+      "loss": 0.8179,
+      "mean_token_accuracy": 0.7542472004890441,
+      "step": 3525
+    },
+    {
+      "epoch": 0.6492551039176017,
+      "grad_norm": 0.9036904422802344,
+      "learning_rate": 1.8513331741152412e-05,
+      "loss": 0.8261,
+      "mean_token_accuracy": 0.7552783608436584,
+      "step": 3530
+    },
+    {
+      "epoch": 0.650174728710686,
+      "grad_norm": 0.921905554132334,
+      "learning_rate": 1.8450640676171472e-05,
+      "loss": 0.8351,
+      "mean_token_accuracy": 0.752598226070404,
+      "step": 3535
+    },
+    {
+      "epoch": 0.6510943535037704,
+      "grad_norm": 1.0035005670649164,
+      "learning_rate": 1.8388033309483522e-05,
+      "loss": 0.8981,
+      "mean_token_accuracy": 0.7371325850486755,
+      "step": 3540
+    },
+    {
+      "epoch": 0.6520139782968549,
+      "grad_norm": 0.9724909600231612,
+      "learning_rate": 1.8325510220149413e-05,
+      "loss": 0.8327,
+      "mean_token_accuracy": 0.751532518863678,
+      "step": 3545
+    },
+    {
+      "epoch": 0.6529336030899393,
+      "grad_norm": 0.9664687506252672,
+      "learning_rate": 1.8263071986450524e-05,
+      "loss": 0.8336,
+      "mean_token_accuracy": 0.7516280770301819,
+      "step": 3550
+    },
+    {
+      "epoch": 0.6538532278830237,
+      "grad_norm": 0.9164445815967506,
+      "learning_rate": 1.8200719185883358e-05,
+      "loss": 0.8316,
+      "mean_token_accuracy": 0.7544404864311218,
+      "step": 3555
+    },
+    {
+      "epoch": 0.6547728526761082,
+      "grad_norm": 0.9293565126179983,
+      "learning_rate": 1.813845239515427e-05,
+      "loss": 0.8257,
+      "mean_token_accuracy": 0.7552899837493896,
+      "step": 3560
+    },
+    {
+      "epoch": 0.6556924774691926,
+      "grad_norm": 0.9010810987925738,
+      "learning_rate": 1.8076272190174115e-05,
+      "loss": 0.8201,
+      "mean_token_accuracy": 0.7565722703933716,
+      "step": 3565
+    },
+    {
+      "epoch": 0.656612102262277,
+      "grad_norm": 1.0075745989661558,
+      "learning_rate": 1.801417914605286e-05,
+      "loss": 0.869,
+      "mean_token_accuracy": 0.7453143835067749,
+      "step": 3570
+    },
+    {
+      "epoch": 0.6575317270553614,
+      "grad_norm": 0.935586367301874,
+      "learning_rate": 1.795217383709437e-05,
+      "loss": 0.8845,
+      "mean_token_accuracy": 0.7403179168701172,
+      "step": 3575
+    },
+    {
+      "epoch": 0.6584513518484458,
+      "grad_norm": 0.9872971011864189,
+      "learning_rate": 1.7890256836791008e-05,
+      "loss": 0.8052,
+      "mean_token_accuracy": 0.7629344463348389,
+      "step": 3580
+    },
+    {
+      "epoch": 0.6593709766415302,
+      "grad_norm": 0.9876503263464145,
+      "learning_rate": 1.7828428717818353e-05,
+      "loss": 0.8135,
+      "mean_token_accuracy": 0.7590724229812622,
+      "step": 3585
+    },
+    {
+      "epoch": 0.6602906014346147,
+      "grad_norm": 0.8811578706911977,
+      "learning_rate": 1.7766690052029944e-05,
+      "loss": 0.8221,
+      "mean_token_accuracy": 0.7560603976249695,
+      "step": 3590
+    },
+    {
+      "epoch": 0.6612102262276991,
+      "grad_norm": 0.9719326557742581,
+      "learning_rate": 1.770504141045194e-05,
+      "loss": 0.8342,
+      "mean_token_accuracy": 0.7510559558868408,
+      "step": 3595
+    },
+    {
+      "epoch": 0.6621298510207835,
+      "grad_norm": 1.0132470520749903,
+      "learning_rate": 1.7643483363277874e-05,
+      "loss": 0.8487,
+      "mean_token_accuracy": 0.7500616908073425,
+      "step": 3600
+    },
+    {
+      "epoch": 0.663049475813868,
+      "grad_norm": 1.0318932699213554,
+      "learning_rate": 1.7582016479863327e-05,
+      "loss": 0.8487,
+      "mean_token_accuracy": 0.7490703582763671,
+      "step": 3605
+    },
+    {
+      "epoch": 0.6639691006069524,
+      "grad_norm": 0.8658023921332224,
+      "learning_rate": 1.7520641328720756e-05,
+      "loss": 0.8238,
+      "mean_token_accuracy": 0.7564070224761963,
+      "step": 3610
+    },
+    {
+      "epoch": 0.6648887254000367,
+      "grad_norm": 0.9750052383478849,
+      "learning_rate": 1.7459358477514122e-05,
+      "loss": 0.8249,
+      "mean_token_accuracy": 0.7549832344055176,
+      "step": 3615
+    },
+    {
+      "epoch": 0.6658083501931212,
+      "grad_norm": 0.957114636285714,
+      "learning_rate": 1.7398168493053723e-05,
+      "loss": 0.7881,
+      "mean_token_accuracy": 0.7615378856658935,
+      "step": 3620
+    },
+    {
+      "epoch": 0.6667279749862056,
+      "grad_norm": 0.9148381033348181,
+      "learning_rate": 1.7337071941290944e-05,
+      "loss": 0.8196,
+      "mean_token_accuracy": 0.7577734112739563,
+      "step": 3625
+    },
+    {
+      "epoch": 0.66764759977929,
+      "grad_norm": 0.9583843198631806,
+      "learning_rate": 1.7276069387312955e-05,
+      "loss": 0.9,
+      "mean_token_accuracy": 0.7367844343185425,
+      "step": 3630
+    },
+    {
+      "epoch": 0.6685672245723745,
+      "grad_norm": 0.9525242256598431,
+      "learning_rate": 1.7215161395337572e-05,
+      "loss": 0.8351,
+      "mean_token_accuracy": 0.7536734580993653,
+      "step": 3635
+    },
+    {
+      "epoch": 0.6694868493654589,
+      "grad_norm": 0.9218486580963495,
+      "learning_rate": 1.7154348528707992e-05,
+      "loss": 0.8512,
+      "mean_token_accuracy": 0.7513302564620972,
+      "step": 3640
+    },
+    {
+      "epoch": 0.6704064741585433,
+      "grad_norm": 0.9497350819436411,
+      "learning_rate": 1.709363134988757e-05,
+      "loss": 0.8522,
+      "mean_token_accuracy": 0.747953987121582,
+      "step": 3645
+    },
+    {
+      "epoch": 0.6713260989516278,
+      "grad_norm": 0.9359833703344925,
+      "learning_rate": 1.7033010420454655e-05,
+      "loss": 0.8091,
+      "mean_token_accuracy": 0.7576663970947266,
+      "step": 3650
+    },
+    {
+      "epoch": 0.6722457237447121,
+      "grad_norm": 0.9884296155896105,
+      "learning_rate": 1.6972486301097376e-05,
+      "loss": 0.8185,
+      "mean_token_accuracy": 0.7578543424606323,
+      "step": 3655
+    },
+    {
+      "epoch": 0.6731653485377965,
+      "grad_norm": 0.885165473016121,
+      "learning_rate": 1.691205955160845e-05,
+      "loss": 0.8461,
+      "mean_token_accuracy": 0.7491200208663941,
+      "step": 3660
+    },
+    {
+      "epoch": 0.674084973330881,
+      "grad_norm": 0.9715821597591158,
+      "learning_rate": 1.6851730730880012e-05,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.7483757376670838,
+      "step": 3665
+    },
+    {
+      "epoch": 0.6750045981239654,
+      "grad_norm": 0.8871437133597592,
+      "learning_rate": 1.679150039689846e-05,
+      "loss": 0.8148,
+      "mean_token_accuracy": 0.7578411340713501,
+      "step": 3670
+    },
+    {
+      "epoch": 0.6759242229170498,
+      "grad_norm": 0.9530586600231223,
+      "learning_rate": 1.673136910673926e-05,
+      "loss": 0.8645,
+      "mean_token_accuracy": 0.7451423764228821,
+      "step": 3675
+    },
+    {
+      "epoch": 0.6768438477101343,
+      "grad_norm": 0.9427729850229866,
+      "learning_rate": 1.6671337416561817e-05,
+      "loss": 0.8432,
+      "mean_token_accuracy": 0.7509079575538635,
+      "step": 3680
+    },
+    {
+      "epoch": 0.6777634725032187,
+      "grad_norm": 0.9325142143827265,
+      "learning_rate": 1.661140588160435e-05,
+      "loss": 0.8347,
+      "mean_token_accuracy": 0.7516968011856079,
+      "step": 3685
+    },
+    {
+      "epoch": 0.6786830972963032,
+      "grad_norm": 0.9601757924065347,
+      "learning_rate": 1.6551575056178695e-05,
+      "loss": 0.8166,
+      "mean_token_accuracy": 0.7589465737342834,
+      "step": 3690
+    },
+    {
+      "epoch": 0.6796027220893875,
+      "grad_norm": 1.0086779966517565,
+      "learning_rate": 1.649184549366525e-05,
+      "loss": 0.8395,
+      "mean_token_accuracy": 0.7520246505737305,
+      "step": 3695
+    },
+    {
+      "epoch": 0.6805223468824719,
+      "grad_norm": 0.9707009645804029,
+      "learning_rate": 1.6432217746507814e-05,
+      "loss": 0.8382,
+      "mean_token_accuracy": 0.7533354997634888,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6814419716755564,
+      "grad_norm": 0.9109669918450888,
+      "learning_rate": 1.6372692366208476e-05,
+      "loss": 0.8186,
+      "mean_token_accuracy": 0.7560298204421997,
+      "step": 3705
+    },
+    {
+      "epoch": 0.6823615964686408,
+      "grad_norm": 0.931556246223817,
+      "learning_rate": 1.6313269903322536e-05,
+      "loss": 0.8682,
+      "mean_token_accuracy": 0.7464072823524475,
+      "step": 3710
+    },
+    {
+      "epoch": 0.6832812212617252,
+      "grad_norm": 0.9316943141031991,
+      "learning_rate": 1.6253950907453414e-05,
+      "loss": 0.7891,
+      "mean_token_accuracy": 0.7643645644187927,
+      "step": 3715
+    },
+    {
+      "epoch": 0.6842008460548097,
+      "grad_norm": 0.9367407375514984,
+      "learning_rate": 1.619473592724752e-05,
+      "loss": 0.8489,
+      "mean_token_accuracy": 0.7488224864006042,
+      "step": 3720
+    },
+    {
+      "epoch": 0.6851204708478941,
+      "grad_norm": 0.96189736553831,
+      "learning_rate": 1.613562551038925e-05,
+      "loss": 0.7964,
+      "mean_token_accuracy": 0.7625237464904785,
+      "step": 3725
+    },
+    {
+      "epoch": 0.6860400956409785,
+      "grad_norm": 0.9170890141555628,
+      "learning_rate": 1.607662020359587e-05,
+      "loss": 0.8404,
+      "mean_token_accuracy": 0.7529777765274048,
+      "step": 3730
+    },
+    {
+      "epoch": 0.686959720434063,
+      "grad_norm": 0.9456438498787428,
+      "learning_rate": 1.6017720552612462e-05,
+      "loss": 0.8036,
+      "mean_token_accuracy": 0.7614395618438721,
+      "step": 3735
+    },
+    {
+      "epoch": 0.6878793452271473,
+      "grad_norm": 0.9544770877536788,
+      "learning_rate": 1.595892710220691e-05,
+      "loss": 0.8413,
+      "mean_token_accuracy": 0.7519929647445679,
+      "step": 3740
+    },
+    {
+      "epoch": 0.6887989700202317,
+      "grad_norm": 1.022115954707187,
+      "learning_rate": 1.5900240396164835e-05,
+      "loss": 0.8612,
+      "mean_token_accuracy": 0.747264850139618,
+      "step": 3745
+    },
+    {
+      "epoch": 0.6897185948133162,
+      "grad_norm": 0.9476824745559427,
+      "learning_rate": 1.584166097728455e-05,
+      "loss": 0.847,
+      "mean_token_accuracy": 0.7491350531578064,
+      "step": 3750
+    },
+    {
+      "epoch": 0.6906382196064006,
+      "grad_norm": 0.8827290010499629,
+      "learning_rate": 1.578318938737209e-05,
+      "loss": 0.8284,
+      "mean_token_accuracy": 0.7547004818916321,
+      "step": 3755
+    },
+    {
+      "epoch": 0.691557844399485,
+      "grad_norm": 0.9009975487421323,
+      "learning_rate": 1.5724826167236146e-05,
+      "loss": 0.8214,
+      "mean_token_accuracy": 0.7568115711212158,
+      "step": 3760
+    },
+    {
+      "epoch": 0.6924774691925695,
+      "grad_norm": 0.9187149873785133,
+      "learning_rate": 1.5666571856683116e-05,
+      "loss": 0.827,
+      "mean_token_accuracy": 0.7550323009490967,
+      "step": 3765
+    },
+    {
+      "epoch": 0.6933970939856539,
+      "grad_norm": 0.9280641474823987,
+      "learning_rate": 1.560842699451204e-05,
+      "loss": 0.7616,
+      "mean_token_accuracy": 0.7714649677276612,
+      "step": 3770
+    },
+    {
+      "epoch": 0.6943167187787382,
+      "grad_norm": 0.9038372482824055,
+      "learning_rate": 1.5550392118509705e-05,
+      "loss": 0.8028,
+      "mean_token_accuracy": 0.760212504863739,
+      "step": 3775
+    },
+    {
+      "epoch": 0.6952363435718227,
+      "grad_norm": 0.9201432901179558,
+      "learning_rate": 1.5492467765445613e-05,
+      "loss": 0.8241,
+      "mean_token_accuracy": 0.754262363910675,
+      "step": 3780
+    },
+    {
+      "epoch": 0.6961559683649071,
+      "grad_norm": 0.9031896471527984,
+      "learning_rate": 1.5434654471067007e-05,
+      "loss": 0.8078,
+      "mean_token_accuracy": 0.7623116612434387,
+      "step": 3785
+    },
+    {
+      "epoch": 0.6970755931579915,
+      "grad_norm": 0.928442088214151,
+      "learning_rate": 1.537695277009396e-05,
+      "loss": 0.8667,
+      "mean_token_accuracy": 0.7442408680915833,
+      "step": 3790
+    },
+    {
+      "epoch": 0.697995217951076,
+      "grad_norm": 0.9545685310758198,
+      "learning_rate": 1.5319363196214427e-05,
+      "loss": 0.8147,
+      "mean_token_accuracy": 0.757679283618927,
+      "step": 3795
+    },
+    {
+      "epoch": 0.6989148427441604,
+      "grad_norm": 0.957997913837239,
+      "learning_rate": 1.526188628207924e-05,
+      "loss": 0.8674,
+      "mean_token_accuracy": 0.7406766414642334,
+      "step": 3800
+    },
+    {
+      "epoch": 0.6998344675372448,
+      "grad_norm": 0.907233770113165,
+      "learning_rate": 1.5204522559297275e-05,
+      "loss": 0.8228,
+      "mean_token_accuracy": 0.7550997257232666,
+      "step": 3805
+    },
+    {
+      "epoch": 0.7007540923303293,
+      "grad_norm": 0.9753264400407652,
+      "learning_rate": 1.5147272558430472e-05,
+      "loss": 0.812,
+      "mean_token_accuracy": 0.7584111213684082,
+      "step": 3810
+    },
+    {
+      "epoch": 0.7016737171234136,
+      "grad_norm": 0.898583550613599,
+      "learning_rate": 1.509013680898896e-05,
+      "loss": 0.814,
+      "mean_token_accuracy": 0.7574291110038758,
+      "step": 3815
+    },
+    {
+      "epoch": 0.702593341916498,
+      "grad_norm": 0.9245046858803572,
+      "learning_rate": 1.5033115839426127e-05,
+      "loss": 0.8002,
+      "mean_token_accuracy": 0.7631544828414917,
+      "step": 3820
+    },
+    {
+      "epoch": 0.7035129667095825,
+      "grad_norm": 0.9501909113953771,
+      "learning_rate": 1.4976210177133764e-05,
+      "loss": 0.8284,
+      "mean_token_accuracy": 0.7537835121154786,
+      "step": 3825
+    },
+    {
+      "epoch": 0.7044325915026669,
+      "grad_norm": 0.9118736011138947,
+      "learning_rate": 1.4919420348437189e-05,
+      "loss": 0.8637,
+      "mean_token_accuracy": 0.746515440940857,
+      "step": 3830
+    },
+    {
+      "epoch": 0.7053522162957513,
+      "grad_norm": 0.9346208775326443,
+      "learning_rate": 1.4862746878590329e-05,
+      "loss": 0.8325,
+      "mean_token_accuracy": 0.7536684751510621,
+      "step": 3835
+    },
+    {
+      "epoch": 0.7062718410888358,
+      "grad_norm": 0.9644025251262837,
+      "learning_rate": 1.4806190291770932e-05,
+      "loss": 0.9199,
+      "mean_token_accuracy": 0.728544807434082,
+      "step": 3840
+    },
+    {
+      "epoch": 0.7071914658819202,
+      "grad_norm": 0.9316658230434494,
+      "learning_rate": 1.4749751111075682e-05,
+      "loss": 0.8478,
+      "mean_token_accuracy": 0.7476451396942139,
+      "step": 3845
+    },
+    {
+      "epoch": 0.7081110906750046,
+      "grad_norm": 0.8593875878005443,
+      "learning_rate": 1.469342985851534e-05,
+      "loss": 0.7931,
+      "mean_token_accuracy": 0.7640434741973877,
+      "step": 3850
+    },
+    {
+      "epoch": 0.709030715468089,
+      "grad_norm": 0.9379422901278587,
+      "learning_rate": 1.4637227055009962e-05,
+      "loss": 0.8228,
+      "mean_token_accuracy": 0.7573190450668335,
+      "step": 3855
+    },
+    {
+      "epoch": 0.7099503402611734,
+      "grad_norm": 0.9026485371540945,
+      "learning_rate": 1.4581143220384047e-05,
+      "loss": 0.82,
+      "mean_token_accuracy": 0.756511640548706,
+      "step": 3860
+    },
+    {
+      "epoch": 0.7108699650542578,
+      "grad_norm": 0.9796042273923296,
+      "learning_rate": 1.4525178873361756e-05,
+      "loss": 0.8242,
+      "mean_token_accuracy": 0.7555618524551392,
+      "step": 3865
+    },
+    {
+      "epoch": 0.7117895898473423,
+      "grad_norm": 0.9383990549827186,
+      "learning_rate": 1.4469334531562067e-05,
+      "loss": 0.8448,
+      "mean_token_accuracy": 0.7482100129127502,
+      "step": 3870
+    },
+    {
+      "epoch": 0.7127092146404267,
+      "grad_norm": 0.9602931261847705,
+      "learning_rate": 1.4413610711494058e-05,
+      "loss": 0.8365,
+      "mean_token_accuracy": 0.7580392360687256,
+      "step": 3875
+    },
+    {
+      "epoch": 0.7136288394335111,
+      "grad_norm": 0.943240285031073,
+      "learning_rate": 1.4358007928552075e-05,
+      "loss": 0.7861,
+      "mean_token_accuracy": 0.7667181611061096,
+      "step": 3880
+    },
+    {
+      "epoch": 0.7145484642265956,
+      "grad_norm": 0.9447898247986761,
+      "learning_rate": 1.4302526697010964e-05,
+      "loss": 0.8078,
+      "mean_token_accuracy": 0.7595344543457031,
+      "step": 3885
+    },
+    {
+      "epoch": 0.71546808901968,
+      "grad_norm": 0.9841983235190546,
+      "learning_rate": 1.424716753002136e-05,
+      "loss": 0.8597,
+      "mean_token_accuracy": 0.7481236219406128,
+      "step": 3890
+    },
+    {
+      "epoch": 0.7163877138127643,
+      "grad_norm": 0.9684153403690037,
+      "learning_rate": 1.4191930939604908e-05,
+      "loss": 0.8117,
+      "mean_token_accuracy": 0.7613986849784851,
+      "step": 3895
+    },
+    {
+      "epoch": 0.7173073386058488,
+      "grad_norm": 0.996877698893722,
+      "learning_rate": 1.4136817436649502e-05,
+      "loss": 0.8766,
+      "mean_token_accuracy": 0.738961935043335,
+      "step": 3900
+    },
+    {
+      "epoch": 0.7182269633989332,
+      "grad_norm": 0.9051545491177592,
+      "learning_rate": 1.4081827530904624e-05,
+      "loss": 0.8445,
+      "mean_token_accuracy": 0.749999487400055,
+      "step": 3905
+    },
+    {
+      "epoch": 0.7191465881920177,
+      "grad_norm": 0.9684927881965169,
+      "learning_rate": 1.4026961730976584e-05,
+      "loss": 0.8209,
+      "mean_token_accuracy": 0.7576812863349914,
+      "step": 3910
+    },
+    {
+      "epoch": 0.7200662129851021,
+      "grad_norm": 0.9610042841526357,
+      "learning_rate": 1.3972220544323832e-05,
+      "loss": 0.8131,
+      "mean_token_accuracy": 0.7582221627235413,
+      "step": 3915
+    },
+    {
+      "epoch": 0.7209858377781865,
+      "grad_norm": 0.9412320092723402,
+      "learning_rate": 1.3917604477252238e-05,
+      "loss": 0.7937,
+      "mean_token_accuracy": 0.7617234110832214,
+      "step": 3920
+    },
+    {
+      "epoch": 0.721905462571271,
+      "grad_norm": 0.9321659094215312,
+      "learning_rate": 1.3863114034910452e-05,
+      "loss": 0.8156,
+      "mean_token_accuracy": 0.7598451256752015,
+      "step": 3925
+    },
+    {
+      "epoch": 0.7228250873643554,
+      "grad_norm": 0.956577146254236,
+      "learning_rate": 1.3808749721285214e-05,
+      "loss": 0.8107,
+      "mean_token_accuracy": 0.757847785949707,
+      "step": 3930
+    },
+    {
+      "epoch": 0.7237447121574397,
+      "grad_norm": 0.9139917904820034,
+      "learning_rate": 1.3754512039196658e-05,
+      "loss": 0.8754,
+      "mean_token_accuracy": 0.7391230940818787,
+      "step": 3935
+    },
+    {
+      "epoch": 0.7246643369505242,
+      "grad_norm": 0.92757564731535,
+      "learning_rate": 1.3700401490293718e-05,
+      "loss": 0.8193,
+      "mean_token_accuracy": 0.7570781588554383,
+      "step": 3940
+    },
+    {
+      "epoch": 0.7255839617436086,
+      "grad_norm": 0.9533935473757719,
+      "learning_rate": 1.3646418575049475e-05,
+      "loss": 0.8244,
+      "mean_token_accuracy": 0.756612241268158,
+      "step": 3945
+    },
+    {
+      "epoch": 0.726503586536693,
+      "grad_norm": 0.9319033478082173,
+      "learning_rate": 1.3592563792756468e-05,
+      "loss": 0.7994,
+      "mean_token_accuracy": 0.7616767644882202,
+      "step": 3950
+    },
+    {
+      "epoch": 0.7274232113297775,
+      "grad_norm": 0.9659322616790049,
+      "learning_rate": 1.3538837641522172e-05,
+      "loss": 0.776,
+      "mean_token_accuracy": 0.7666900753974915,
+      "step": 3955
+    },
+    {
+      "epoch": 0.7283428361228619,
+      "grad_norm": 0.9715937702004781,
+      "learning_rate": 1.3485240618264322e-05,
+      "loss": 0.8707,
+      "mean_token_accuracy": 0.742601501941681,
+      "step": 3960
+    },
+    {
+      "epoch": 0.7292624609159463,
+      "grad_norm": 0.9279423695840053,
+      "learning_rate": 1.3431773218706336e-05,
+      "loss": 0.8435,
+      "mean_token_accuracy": 0.7503429889678955,
+      "step": 3965
+    },
+    {
+      "epoch": 0.7301820857090308,
+      "grad_norm": 0.9826978876425828,
+      "learning_rate": 1.3378435937372729e-05,
+      "loss": 0.8609,
+      "mean_token_accuracy": 0.7491580963134765,
+      "step": 3970
+    },
+    {
+      "epoch": 0.7311017105021151,
+      "grad_norm": 0.9333913123309906,
+      "learning_rate": 1.3325229267584549e-05,
+      "loss": 0.8771,
+      "mean_token_accuracy": 0.7425579071044922,
+      "step": 3975
+    },
+    {
+      "epoch": 0.7320213352951995,
+      "grad_norm": 0.9125063830711305,
+      "learning_rate": 1.3272153701454809e-05,
+      "loss": 0.8086,
+      "mean_token_accuracy": 0.7603332042694092,
+      "step": 3980
+    },
+    {
+      "epoch": 0.732940960088284,
+      "grad_norm": 0.9868481200984651,
+      "learning_rate": 1.3219209729883918e-05,
+      "loss": 0.7879,
+      "mean_token_accuracy": 0.7675115823745727,
+      "step": 3985
+    },
+    {
+      "epoch": 0.7338605848813684,
+      "grad_norm": 0.9006549103315062,
+      "learning_rate": 1.3166397842555175e-05,
+      "loss": 0.7923,
+      "mean_token_accuracy": 0.7659124851226806,
+      "step": 3990
+    },
+    {
+      "epoch": 0.7347802096744528,
+      "grad_norm": 0.9128416767290051,
+      "learning_rate": 1.3113718527930214e-05,
+      "loss": 0.8363,
+      "mean_token_accuracy": 0.751650869846344,
+      "step": 3995
+    },
+    {
+      "epoch": 0.7356998344675373,
+      "grad_norm": 0.93586974280188,
+      "learning_rate": 1.3061172273244477e-05,
+      "loss": 0.8634,
+      "mean_token_accuracy": 0.7428792953491211,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7366194592606217,
+      "grad_norm": 0.9865948469992011,
+      "learning_rate": 1.3008759564502742e-05,
+      "loss": 0.8627,
+      "mean_token_accuracy": 0.7454355955123901,
+      "step": 4005
+    },
+    {
+      "epoch": 0.737539084053706,
+      "grad_norm": 0.9395366278250679,
+      "learning_rate": 1.2956480886474609e-05,
+      "loss": 0.8408,
+      "mean_token_accuracy": 0.7488868713378907,
+      "step": 4010
+    },
+    {
+      "epoch": 0.7384587088467905,
+      "grad_norm": 0.9259161411169768,
+      "learning_rate": 1.2904336722690013e-05,
+      "loss": 0.8474,
+      "mean_token_accuracy": 0.7509873270988464,
+      "step": 4015
+    },
+    {
+      "epoch": 0.7393783336398749,
+      "grad_norm": 0.8982963261004637,
+      "learning_rate": 1.2852327555434743e-05,
+      "loss": 0.8272,
+      "mean_token_accuracy": 0.7562850832939148,
+      "step": 4020
+    },
+    {
+      "epoch": 0.7402979584329593,
+      "grad_norm": 0.9145268063018638,
+      "learning_rate": 1.280045386574601e-05,
+      "loss": 0.7964,
+      "mean_token_accuracy": 0.7601189255714417,
+      "step": 4025
+    },
+    {
+      "epoch": 0.7412175832260438,
+      "grad_norm": 0.9417030319528836,
+      "learning_rate": 1.2748716133407985e-05,
+      "loss": 0.8243,
+      "mean_token_accuracy": 0.7563821077346802,
+      "step": 4030
+    },
+    {
+      "epoch": 0.7421372080191282,
+      "grad_norm": 0.9170391844634309,
+      "learning_rate": 1.269711483694733e-05,
+      "loss": 0.8071,
+      "mean_token_accuracy": 0.7610970735549927,
+      "step": 4035
+    },
+    {
+      "epoch": 0.7430568328122126,
+      "grad_norm": 0.927700931925603,
+      "learning_rate": 1.264565045362883e-05,
+      "loss": 0.83,
+      "mean_token_accuracy": 0.7542360424995422,
+      "step": 4040
+    },
+    {
+      "epoch": 0.7439764576052971,
+      "grad_norm": 0.902718257172033,
+      "learning_rate": 1.259432345945094e-05,
+      "loss": 0.8026,
+      "mean_token_accuracy": 0.7602586507797241,
+      "step": 4045
+    },
+    {
+      "epoch": 0.7448960823983815,
+      "grad_norm": 0.9732168765607019,
+      "learning_rate": 1.2543134329141382e-05,
+      "loss": 0.8166,
+      "mean_token_accuracy": 0.7585108041763305,
+      "step": 4050
+    },
+    {
+      "epoch": 0.7458157071914658,
+      "grad_norm": 0.9466993086607015,
+      "learning_rate": 1.2492083536152772e-05,
+      "loss": 0.8169,
+      "mean_token_accuracy": 0.758376932144165,
+      "step": 4055
+    },
+    {
+      "epoch": 0.7467353319845503,
+      "grad_norm": 0.9757475911083087,
+      "learning_rate": 1.2441171552658228e-05,
+      "loss": 0.8389,
+      "mean_token_accuracy": 0.7498653650283813,
+      "step": 4060
+    },
+    {
+      "epoch": 0.7476549567776347,
+      "grad_norm": 0.9151481291254611,
+      "learning_rate": 1.2390398849547023e-05,
+      "loss": 0.8006,
+      "mean_token_accuracy": 0.7613858461380005,
+      "step": 4065
+    },
+    {
+      "epoch": 0.7485745815707191,
+      "grad_norm": 0.8890653066533022,
+      "learning_rate": 1.2339765896420178e-05,
+      "loss": 0.8404,
+      "mean_token_accuracy": 0.7510004043579102,
+      "step": 4070
+    },
+    {
+      "epoch": 0.7494942063638036,
+      "grad_norm": 0.9533182704017102,
+      "learning_rate": 1.2289273161586194e-05,
+      "loss": 0.8234,
+      "mean_token_accuracy": 0.7551814436912536,
+      "step": 4075
+    },
+    {
+      "epoch": 0.750413831156888,
+      "grad_norm": 0.9407240854533703,
+      "learning_rate": 1.2238921112056663e-05,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.7466271042823791,
+      "step": 4080
+    },
+    {
+      "epoch": 0.7513334559499724,
+      "grad_norm": 0.8895247933273808,
+      "learning_rate": 1.2188710213541957e-05,
+      "loss": 0.8332,
+      "mean_token_accuracy": 0.752234959602356,
+      "step": 4085
+    },
+    {
+      "epoch": 0.7522530807430569,
+      "grad_norm": 0.9353802672482648,
+      "learning_rate": 1.213864093044695e-05,
+      "loss": 0.8448,
+      "mean_token_accuracy": 0.7497453451156616,
+      "step": 4090
+    },
+    {
+      "epoch": 0.7531727055361412,
+      "grad_norm": 0.946809122144392,
+      "learning_rate": 1.2088713725866696e-05,
+      "loss": 0.8088,
+      "mean_token_accuracy": 0.758155906200409,
+      "step": 4095
+    },
+    {
+      "epoch": 0.7540923303292256,
+      "grad_norm": 0.9340815348568988,
+      "learning_rate": 1.203892906158214e-05,
+      "loss": 0.8525,
+      "mean_token_accuracy": 0.7470645427703857,
+      "step": 4100
+    },
+    {
+      "epoch": 0.7550119551223101,
+      "grad_norm": 0.9903725518055015,
+      "learning_rate": 1.1989287398055874e-05,
+      "loss": 0.8406,
+      "mean_token_accuracy": 0.7499817609786987,
+      "step": 4105
+    },
+    {
+      "epoch": 0.7559315799153945,
+      "grad_norm": 0.9005006268013445,
+      "learning_rate": 1.193978919442787e-05,
+      "loss": 0.833,
+      "mean_token_accuracy": 0.7508885979652404,
+      "step": 4110
+    },
+    {
+      "epoch": 0.7568512047084789,
+      "grad_norm": 0.922000222155766,
+      "learning_rate": 1.1890434908511212e-05,
+      "loss": 0.8256,
+      "mean_token_accuracy": 0.7544254660606384,
+      "step": 4115
+    },
+    {
+      "epoch": 0.7577708295015634,
+      "grad_norm": 0.9147121717124462,
+      "learning_rate": 1.1841224996787876e-05,
+      "loss": 0.8119,
+      "mean_token_accuracy": 0.7572540044784546,
+      "step": 4120
+    },
+    {
+      "epoch": 0.7586904542946478,
+      "grad_norm": 0.9401032528457242,
+      "learning_rate": 1.1792159914404518e-05,
+      "loss": 0.8389,
+      "mean_token_accuracy": 0.7547949194908142,
+      "step": 4125
+    },
+    {
+      "epoch": 0.7596100790877323,
+      "grad_norm": 0.899746427074481,
+      "learning_rate": 1.1743240115168262e-05,
+      "loss": 0.8104,
+      "mean_token_accuracy": 0.7588290691375732,
+      "step": 4130
+    },
+    {
+      "epoch": 0.7605297038808166,
+      "grad_norm": 0.9377432106115406,
+      "learning_rate": 1.1694466051542473e-05,
+      "loss": 0.8155,
+      "mean_token_accuracy": 0.7565756559371948,
+      "step": 4135
+    },
+    {
+      "epoch": 0.761449328673901,
+      "grad_norm": 0.9436429623996605,
+      "learning_rate": 1.1645838174642614e-05,
+      "loss": 0.8167,
+      "mean_token_accuracy": 0.7574901819229126,
+      "step": 4140
+    },
+    {
+      "epoch": 0.7623689534669855,
+      "grad_norm": 0.9163014099905564,
+      "learning_rate": 1.1597356934232053e-05,
+      "loss": 0.8518,
+      "mean_token_accuracy": 0.7465153455734252,
+      "step": 4145
+    },
+    {
+      "epoch": 0.7632885782600699,
+      "grad_norm": 0.8716564591657281,
+      "learning_rate": 1.1549022778717888e-05,
+      "loss": 0.8572,
+      "mean_token_accuracy": 0.7444779276847839,
+      "step": 4150
+    },
+    {
+      "epoch": 0.7642082030531543,
+      "grad_norm": 0.9408396749893937,
+      "learning_rate": 1.1500836155146839e-05,
+      "loss": 0.83,
+      "mean_token_accuracy": 0.7533326983451843,
+      "step": 4155
+    },
+    {
+      "epoch": 0.7651278278462388,
+      "grad_norm": 0.9335839862612282,
+      "learning_rate": 1.1452797509201083e-05,
+      "loss": 0.8751,
+      "mean_token_accuracy": 0.7398134231567383,
+      "step": 4160
+    },
+    {
+      "epoch": 0.7660474526393232,
+      "grad_norm": 0.9850624435923674,
+      "learning_rate": 1.1404907285194125e-05,
+      "loss": 0.8523,
+      "mean_token_accuracy": 0.7461954593658447,
+      "step": 4165
+    },
+    {
+      "epoch": 0.7669670774324076,
+      "grad_norm": 0.9679449146346353,
+      "learning_rate": 1.1357165926066716e-05,
+      "loss": 0.7892,
+      "mean_token_accuracy": 0.7605505466461182,
+      "step": 4170
+    },
+    {
+      "epoch": 0.767886702225492,
+      "grad_norm": 0.9416265509404674,
+      "learning_rate": 1.130957387338275e-05,
+      "loss": 0.8221,
+      "mean_token_accuracy": 0.7559242844581604,
+      "step": 4175
+    },
+    {
+      "epoch": 0.7688063270185764,
+      "grad_norm": 0.909615601406411,
+      "learning_rate": 1.1262131567325163e-05,
+      "loss": 0.8357,
+      "mean_token_accuracy": 0.7517993927001954,
+      "step": 4180
+    },
+    {
+      "epoch": 0.7697259518116608,
+      "grad_norm": 0.9047722281799156,
+      "learning_rate": 1.1214839446691869e-05,
+      "loss": 0.8032,
+      "mean_token_accuracy": 0.7601001501083374,
+      "step": 4185
+    },
+    {
+      "epoch": 0.7706455766047453,
+      "grad_norm": 0.9246634008625312,
+      "learning_rate": 1.1167697948891707e-05,
+      "loss": 0.8249,
+      "mean_token_accuracy": 0.7536085605621338,
+      "step": 4190
+    },
+    {
+      "epoch": 0.7715652013978297,
+      "grad_norm": 0.9460638804791452,
+      "learning_rate": 1.1120707509940403e-05,
+      "loss": 0.8167,
+      "mean_token_accuracy": 0.7593476176261902,
+      "step": 4195
+    },
+    {
+      "epoch": 0.7724848261909141,
+      "grad_norm": 0.9221593736048895,
+      "learning_rate": 1.1073868564456503e-05,
+      "loss": 0.845,
+      "mean_token_accuracy": 0.7480282187461853,
+      "step": 4200
+    },
+    {
+      "epoch": 0.7734044509839986,
+      "grad_norm": 0.8888076192030434,
+      "learning_rate": 1.1027181545657403e-05,
+      "loss": 0.7794,
+      "mean_token_accuracy": 0.76693354845047,
+      "step": 4205
+    },
+    {
+      "epoch": 0.774324075777083,
+      "grad_norm": 0.8891810327123515,
+      "learning_rate": 1.0980646885355313e-05,
+      "loss": 0.7885,
+      "mean_token_accuracy": 0.7628621697425843,
+      "step": 4210
+    },
+    {
+      "epoch": 0.7752437005701673,
+      "grad_norm": 0.9743526817712896,
+      "learning_rate": 1.0934265013953239e-05,
+      "loss": 0.8478,
+      "mean_token_accuracy": 0.7504450678825378,
+      "step": 4215
+    },
+    {
+      "epoch": 0.7761633253632518,
+      "grad_norm": 0.9143999464853897,
+      "learning_rate": 1.0888036360441066e-05,
+      "loss": 0.8059,
+      "mean_token_accuracy": 0.7603421926498413,
+      "step": 4220
+    },
+    {
+      "epoch": 0.7770829501563362,
+      "grad_norm": 0.9734913517153475,
+      "learning_rate": 1.0841961352391522e-05,
+      "loss": 0.8159,
+      "mean_token_accuracy": 0.7574024796485901,
+      "step": 4225
+    },
+    {
+      "epoch": 0.7780025749494206,
+      "grad_norm": 0.935773373300799,
+      "learning_rate": 1.079604041595628e-05,
+      "loss": 0.8562,
+      "mean_token_accuracy": 0.7468973875045777,
+      "step": 4230
+    },
+    {
+      "epoch": 0.7789221997425051,
+      "grad_norm": 0.9031689337704597,
+      "learning_rate": 1.075027397586198e-05,
+      "loss": 0.8165,
+      "mean_token_accuracy": 0.7566033601760864,
+      "step": 4235
+    },
+    {
+      "epoch": 0.7798418245355895,
+      "grad_norm": 0.9138920947374664,
+      "learning_rate": 1.0704662455406309e-05,
+      "loss": 0.8137,
+      "mean_token_accuracy": 0.7558243870735168,
+      "step": 4240
+    },
+    {
+      "epoch": 0.7807614493286739,
+      "grad_norm": 0.942480721965923,
+      "learning_rate": 1.06592062764541e-05,
+      "loss": 0.8103,
+      "mean_token_accuracy": 0.7595886349678039,
+      "step": 4245
+    },
+    {
+      "epoch": 0.7816810741217584,
+      "grad_norm": 0.8995689595482391,
+      "learning_rate": 1.0613905859433412e-05,
+      "loss": 0.8158,
+      "mean_token_accuracy": 0.7546827673912049,
+      "step": 4250
+    },
+    {
+      "epoch": 0.7826006989148427,
+      "grad_norm": 0.8666864815369382,
+      "learning_rate": 1.0568761623331642e-05,
+      "loss": 0.8082,
+      "mean_token_accuracy": 0.7590071558952332,
+      "step": 4255
+    },
+    {
+      "epoch": 0.7835203237079271,
+      "grad_norm": 0.9696655409923509,
+      "learning_rate": 1.0523773985691673e-05,
+      "loss": 0.8556,
+      "mean_token_accuracy": 0.7452132105827332,
+      "step": 4260
+    },
+    {
+      "epoch": 0.7844399485010116,
+      "grad_norm": 0.9833829005536767,
+      "learning_rate": 1.0478943362607984e-05,
+      "loss": 0.8586,
+      "mean_token_accuracy": 0.7462344169616699,
+      "step": 4265
+    },
+    {
+      "epoch": 0.785359573294096,
+      "grad_norm": 0.9595206401213471,
+      "learning_rate": 1.0434270168722813e-05,
+      "loss": 0.8351,
+      "mean_token_accuracy": 0.7498462796211243,
+      "step": 4270
+    },
+    {
+      "epoch": 0.7862791980871804,
+      "grad_norm": 0.9261440611345254,
+      "learning_rate": 1.0389754817222325e-05,
+      "loss": 0.77,
+      "mean_token_accuracy": 0.7716120958328248,
+      "step": 4275
+    },
+    {
+      "epoch": 0.7871988228802649,
+      "grad_norm": 0.926036803637149,
+      "learning_rate": 1.0345397719832791e-05,
+      "loss": 0.8117,
+      "mean_token_accuracy": 0.75774165391922,
+      "step": 4280
+    },
+    {
+      "epoch": 0.7881184476733493,
+      "grad_norm": 0.9482199838406158,
+      "learning_rate": 1.0301199286816768e-05,
+      "loss": 0.7869,
+      "mean_token_accuracy": 0.7647076845169067,
+      "step": 4285
+    },
+    {
+      "epoch": 0.7890380724664336,
+      "grad_norm": 0.9249156078948935,
+      "learning_rate": 1.0257159926969315e-05,
+      "loss": 0.8379,
+      "mean_token_accuracy": 0.7494875431060791,
+      "step": 4290
+    },
+    {
+      "epoch": 0.7899576972595181,
+      "grad_norm": 0.9426764037549299,
+      "learning_rate": 1.0213280047614224e-05,
+      "loss": 0.8399,
+      "mean_token_accuracy": 0.748091197013855,
+      "step": 4295
+    },
+    {
+      "epoch": 0.7908773220526025,
+      "grad_norm": 0.9001227058548062,
+      "learning_rate": 1.016956005460021e-05,
+      "loss": 0.8151,
+      "mean_token_accuracy": 0.7553766012191773,
+      "step": 4300
+    },
+    {
+      "epoch": 0.7917969468456869,
+      "grad_norm": 0.9494070318147612,
+      "learning_rate": 1.0126000352297207e-05,
+      "loss": 0.8161,
+      "mean_token_accuracy": 0.7553802728652954,
+      "step": 4305
+    },
+    {
+      "epoch": 0.7927165716387714,
+      "grad_norm": 0.9634025237949015,
+      "learning_rate": 1.0082601343592613e-05,
+      "loss": 0.8375,
+      "mean_token_accuracy": 0.7490672588348388,
+      "step": 4310
+    },
+    {
+      "epoch": 0.7936361964318558,
+      "grad_norm": 0.918509774691625,
+      "learning_rate": 1.0039363429887526e-05,
+      "loss": 0.8027,
+      "mean_token_accuracy": 0.7611651062965393,
+      "step": 4315
+    },
+    {
+      "epoch": 0.7945558212249402,
+      "grad_norm": 0.9045021299622812,
+      "learning_rate": 9.996287011093095e-06,
+      "loss": 0.8194,
+      "mean_token_accuracy": 0.7530111193656921,
+      "step": 4320
+    },
+    {
+      "epoch": 0.7954754460180247,
+      "grad_norm": 0.9575102184844824,
+      "learning_rate": 9.95337248562677e-06,
+      "loss": 0.813,
+      "mean_token_accuracy": 0.7606404304504395,
+      "step": 4325
+    },
+    {
+      "epoch": 0.796395070811109,
+      "grad_norm": 0.9520723107616024,
+      "learning_rate": 9.910620250408654e-06,
+      "loss": 0.8219,
+      "mean_token_accuracy": 0.7527819633483886,
+      "step": 4330
+    },
+    {
+      "epoch": 0.7973146956041934,
+      "grad_norm": 0.9957772801943348,
+      "learning_rate": 9.868030700857786e-06,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.7474417209625244,
+      "step": 4335
+    },
+    {
+      "epoch": 0.7982343203972779,
+      "grad_norm": 0.9206334782903142,
+      "learning_rate": 9.825604230888534e-06,
+      "loss": 0.8013,
+      "mean_token_accuracy": 0.7611706376075744,
+      "step": 4340
+    },
+    {
+      "epoch": 0.7991539451903623,
+      "grad_norm": 0.9528692345244755,
+      "learning_rate": 9.783341232906929e-06,
+      "loss": 0.8452,
+      "mean_token_accuracy": 0.7476886630058288,
+      "step": 4345
+    },
+    {
+      "epoch": 0.8000735699834468,
+      "grad_norm": 0.9501814513029114,
+      "learning_rate": 9.741242097807015e-06,
+      "loss": 0.7998,
+      "mean_token_accuracy": 0.7616806149482727,
+      "step": 4350
+    },
+    {
+      "epoch": 0.8009931947765312,
+      "grad_norm": 0.9162860642484046,
+      "learning_rate": 9.699307214967278e-06,
+      "loss": 0.8154,
+      "mean_token_accuracy": 0.7584839701652527,
+      "step": 4355
+    },
+    {
+      "epoch": 0.8019128195696156,
+      "grad_norm": 1.0326738672670173,
+      "learning_rate": 9.657536972247011e-06,
+      "loss": 0.8364,
+      "mean_token_accuracy": 0.7505152702331543,
+      "step": 4360
+    },
+    {
+      "epoch": 0.8028324443627001,
+      "grad_norm": 0.9226495279325524,
+      "learning_rate": 9.615931755982732e-06,
+      "loss": 0.8249,
+      "mean_token_accuracy": 0.7548305869102478,
+      "step": 4365
+    },
+    {
+      "epoch": 0.8037520691557845,
+      "grad_norm": 0.9998522862414826,
+      "learning_rate": 9.574491950984617e-06,
+      "loss": 0.8713,
+      "mean_token_accuracy": 0.7403565168380737,
+      "step": 4370
+    },
+    {
+      "epoch": 0.8046716939488688,
+      "grad_norm": 0.9493513097435586,
+      "learning_rate": 9.533217940532952e-06,
+      "loss": 0.8295,
+      "mean_token_accuracy": 0.7500657081604004,
+      "step": 4375
+    },
+    {
+      "epoch": 0.8055913187419533,
+      "grad_norm": 0.9906056177459279,
+      "learning_rate": 9.492110106374562e-06,
+      "loss": 0.7962,
+      "mean_token_accuracy": 0.7624237060546875,
+      "step": 4380
+    },
+    {
+      "epoch": 0.8065109435350377,
+      "grad_norm": 0.9844968670498593,
+      "learning_rate": 9.451168828719293e-06,
+      "loss": 0.7978,
+      "mean_token_accuracy": 0.7625670194625854,
+      "step": 4385
+    },
+    {
+      "epoch": 0.8074305683281221,
+      "grad_norm": 0.9677134975970255,
+      "learning_rate": 9.410394486236498e-06,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.7404338598251343,
+      "step": 4390
+    },
+    {
+      "epoch": 0.8083501931212066,
+      "grad_norm": 0.9239280726012725,
+      "learning_rate": 9.369787456051545e-06,
+      "loss": 0.8134,
+      "mean_token_accuracy": 0.75517338514328,
+      "step": 4395
+    },
+    {
+      "epoch": 0.809269817914291,
+      "grad_norm": 0.9448230478695528,
+      "learning_rate": 9.329348113742293e-06,
+      "loss": 0.8304,
+      "mean_token_accuracy": 0.7514260888099671,
+      "step": 4400
+    },
+    {
+      "epoch": 0.8101894427073754,
+      "grad_norm": 0.9454127260499946,
+      "learning_rate": 9.289076833335659e-06,
+      "loss": 0.8097,
+      "mean_token_accuracy": 0.7581054925918579,
+      "step": 4405
+    },
+    {
+      "epoch": 0.8111090675004599,
+      "grad_norm": 0.9492270487120692,
+      "learning_rate": 9.24897398730414e-06,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.7465508818626404,
+      "step": 4410
+    },
+    {
+      "epoch": 0.8120286922935442,
+      "grad_norm": 0.9570757946856893,
+      "learning_rate": 9.209039946562354e-06,
+      "loss": 0.8267,
+      "mean_token_accuracy": 0.755340301990509,
+      "step": 4415
+    },
+    {
+      "epoch": 0.8129483170866286,
+      "grad_norm": 0.9284190475550864,
+      "learning_rate": 9.169275080463641e-06,
+      "loss": 0.7752,
+      "mean_token_accuracy": 0.7686259269714355,
+      "step": 4420
+    },
+    {
+      "epoch": 0.8138679418797131,
+      "grad_norm": 0.9501950391649288,
+      "learning_rate": 9.129679756796622e-06,
+      "loss": 0.8111,
+      "mean_token_accuracy": 0.7585479974746704,
+      "step": 4425
+    },
+    {
+      "epoch": 0.8147875666727975,
+      "grad_norm": 0.9046262111625721,
+      "learning_rate": 9.090254341781824e-06,
+      "loss": 0.802,
+      "mean_token_accuracy": 0.7600291728973388,
+      "step": 4430
+    },
+    {
+      "epoch": 0.8157071914658819,
+      "grad_norm": 0.9379329497256937,
+      "learning_rate": 9.05099920006824e-06,
+      "loss": 0.8206,
+      "mean_token_accuracy": 0.754150140285492,
+      "step": 4435
+    },
+    {
+      "epoch": 0.8166268162589664,
+      "grad_norm": 0.9034131325499937,
+      "learning_rate": 9.011914694730014e-06,
+      "loss": 0.7971,
+      "mean_token_accuracy": 0.7597368478775024,
+      "step": 4440
+    },
+    {
+      "epoch": 0.8175464410520508,
+      "grad_norm": 0.9338149471790205,
+      "learning_rate": 8.973001187263069e-06,
+      "loss": 0.8184,
+      "mean_token_accuracy": 0.7545792698860169,
+      "step": 4445
+    },
+    {
+      "epoch": 0.8184660658451351,
+      "grad_norm": 0.9541079918085381,
+      "learning_rate": 8.934259037581725e-06,
+      "loss": 0.8097,
+      "mean_token_accuracy": 0.7586872816085816,
+      "step": 4450
+    },
+    {
+      "epoch": 0.8193856906382196,
+      "grad_norm": 0.9233023020738409,
+      "learning_rate": 8.895688604015418e-06,
+      "loss": 0.8276,
+      "mean_token_accuracy": 0.7541133642196656,
+      "step": 4455
+    },
+    {
+      "epoch": 0.820305315431304,
+      "grad_norm": 0.9312024884427347,
+      "learning_rate": 8.857290243305372e-06,
+      "loss": 0.8242,
+      "mean_token_accuracy": 0.7540480494499207,
+      "step": 4460
+    },
+    {
+      "epoch": 0.8212249402243884,
+      "grad_norm": 0.9636521068626411,
+      "learning_rate": 8.819064310601274e-06,
+      "loss": 0.827,
+      "mean_token_accuracy": 0.754251503944397,
+      "step": 4465
+    },
+    {
+      "epoch": 0.8221445650174729,
+      "grad_norm": 0.9594804588793242,
+      "learning_rate": 8.78101115945803e-06,
+      "loss": 0.8195,
+      "mean_token_accuracy": 0.7567231893539429,
+      "step": 4470
+    },
+    {
+      "epoch": 0.8230641898105573,
+      "grad_norm": 0.946382911890805,
+      "learning_rate": 8.743131141832466e-06,
+      "loss": 0.8093,
+      "mean_token_accuracy": 0.7608936429023743,
+      "step": 4475
+    },
+    {
+      "epoch": 0.8239838146036417,
+      "grad_norm": 0.9662210178630657,
+      "learning_rate": 8.705424608080091e-06,
+      "loss": 0.845,
+      "mean_token_accuracy": 0.7482501983642578,
+      "step": 4480
+    },
+    {
+      "epoch": 0.8249034393967262,
+      "grad_norm": 1.0134277900865423,
+      "learning_rate": 8.667891906951822e-06,
+      "loss": 0.806,
+      "mean_token_accuracy": 0.7607534885406494,
+      "step": 4485
+    },
+    {
+      "epoch": 0.8258230641898106,
+      "grad_norm": 0.969259829449015,
+      "learning_rate": 8.63053338559081e-06,
+      "loss": 0.8301,
+      "mean_token_accuracy": 0.7495483517646789,
+      "step": 4490
+    },
+    {
+      "epoch": 0.8267426889828949,
+      "grad_norm": 0.973132836806053,
+      "learning_rate": 8.593349389529194e-06,
+      "loss": 0.8412,
+      "mean_token_accuracy": 0.7499716639518738,
+      "step": 4495
+    },
+    {
+      "epoch": 0.8276623137759794,
+      "grad_norm": 0.9074516956073079,
+      "learning_rate": 8.556340262684901e-06,
+      "loss": 0.8239,
+      "mean_token_accuracy": 0.7554465770721436,
+      "step": 4500
+    },
+    {
+      "epoch": 0.8285819385690638,
+      "grad_norm": 0.930234934487542,
+      "learning_rate": 8.519506347358495e-06,
+      "loss": 0.7947,
+      "mean_token_accuracy": 0.7629730701446533,
+      "step": 4505
+    },
+    {
+      "epoch": 0.8295015633621482,
+      "grad_norm": 0.8753133502304897,
+      "learning_rate": 8.482847984229992e-06,
+      "loss": 0.8461,
+      "mean_token_accuracy": 0.747829282283783,
+      "step": 4510
+    },
+    {
+      "epoch": 0.8304211881552327,
+      "grad_norm": 0.9490806269639048,
+      "learning_rate": 8.446365512355697e-06,
+      "loss": 0.809,
+      "mean_token_accuracy": 0.7590258955955506,
+      "step": 4515
+    },
+    {
+      "epoch": 0.8313408129483171,
+      "grad_norm": 0.945014272705201,
+      "learning_rate": 8.410059269165094e-06,
+      "loss": 0.858,
+      "mean_token_accuracy": 0.7476967573165894,
+      "step": 4520
+    },
+    {
+      "epoch": 0.8322604377414015,
+      "grad_norm": 0.9585805628825262,
+      "learning_rate": 8.37392959045771e-06,
+      "loss": 0.8276,
+      "mean_token_accuracy": 0.7536361336708068,
+      "step": 4525
+    },
+    {
+      "epoch": 0.833180062534486,
+      "grad_norm": 0.9798760065535969,
+      "learning_rate": 8.337976810400024e-06,
+      "loss": 0.8271,
+      "mean_token_accuracy": 0.7538176774978638,
+      "step": 4530
+    },
+    {
+      "epoch": 0.8340996873275703,
+      "grad_norm": 0.9885247811188054,
+      "learning_rate": 8.30220126152233e-06,
+      "loss": 0.8351,
+      "mean_token_accuracy": 0.7511208415031433,
+      "step": 4535
+    },
+    {
+      "epoch": 0.8350193121206547,
+      "grad_norm": 0.926636431875522,
+      "learning_rate": 8.266603274715734e-06,
+      "loss": 0.8536,
+      "mean_token_accuracy": 0.7437230348587036,
+      "step": 4540
+    },
+    {
+      "epoch": 0.8359389369137392,
+      "grad_norm": 0.9639989728106565,
+      "learning_rate": 8.231183179229041e-06,
+      "loss": 0.8337,
+      "mean_token_accuracy": 0.749656867980957,
+      "step": 4545
+    },
+    {
+      "epoch": 0.8368585617068236,
+      "grad_norm": 0.9810922714927505,
+      "learning_rate": 8.19594130266571e-06,
+      "loss": 0.8441,
+      "mean_token_accuracy": 0.7471103310585022,
+      "step": 4550
+    },
+    {
+      "epoch": 0.837778186499908,
+      "grad_norm": 0.940673214702186,
+      "learning_rate": 8.16087797098086e-06,
+      "loss": 0.8076,
+      "mean_token_accuracy": 0.757796049118042,
+      "step": 4555
+    },
+    {
+      "epoch": 0.8386978112929925,
+      "grad_norm": 0.9808241732647448,
+      "learning_rate": 8.125993508478222e-06,
+      "loss": 0.8107,
+      "mean_token_accuracy": 0.7570709705352783,
+      "step": 4560
+    },
+    {
+      "epoch": 0.8396174360860769,
+      "grad_norm": 0.9417309972023068,
+      "learning_rate": 8.091288237807148e-06,
+      "loss": 0.7918,
+      "mean_token_accuracy": 0.7627918124198914,
+      "step": 4565
+    },
+    {
+      "epoch": 0.8405370608791614,
+      "grad_norm": 0.9994759897340699,
+      "learning_rate": 8.05676247995964e-06,
+      "loss": 0.8308,
+      "mean_token_accuracy": 0.7522749185562134,
+      "step": 4570
+    },
+    {
+      "epoch": 0.8414566856722457,
+      "grad_norm": 0.9575333123064316,
+      "learning_rate": 8.022416554267361e-06,
+      "loss": 0.8249,
+      "mean_token_accuracy": 0.7555456757545471,
+      "step": 4575
+    },
+    {
+      "epoch": 0.8423763104653301,
+      "grad_norm": 0.9428369551875321,
+      "learning_rate": 7.988250778398704e-06,
+      "loss": 0.7799,
+      "mean_token_accuracy": 0.7657583713531494,
+      "step": 4580
+    },
+    {
+      "epoch": 0.8432959352584146,
+      "grad_norm": 0.9491493130691244,
+      "learning_rate": 7.95426546835582e-06,
+      "loss": 0.8463,
+      "mean_token_accuracy": 0.7497212409973144,
+      "step": 4585
+    },
+    {
+      "epoch": 0.844215560051499,
+      "grad_norm": 0.9279119840497574,
+      "learning_rate": 7.92046093847173e-06,
+      "loss": 0.7911,
+      "mean_token_accuracy": 0.7641847729682922,
+      "step": 4590
+    },
+    {
+      "epoch": 0.8451351848445834,
+      "grad_norm": 0.975196157389162,
+      "learning_rate": 7.88683750140741e-06,
+      "loss": 0.7829,
+      "mean_token_accuracy": 0.76539067029953,
+      "step": 4595
+    },
+    {
+      "epoch": 0.8460548096376679,
+      "grad_norm": 0.9630038826041202,
+      "learning_rate": 7.853395468148877e-06,
+      "loss": 0.8214,
+      "mean_token_accuracy": 0.7576993346214295,
+      "step": 4600
+    },
+    {
+      "epoch": 0.8469744344307523,
+      "grad_norm": 0.9547194790847711,
+      "learning_rate": 7.82013514800434e-06,
+      "loss": 0.8133,
+      "mean_token_accuracy": 0.7594569325447083,
+      "step": 4605
+    },
+    {
+      "epoch": 0.8478940592238366,
+      "grad_norm": 0.9804442806928446,
+      "learning_rate": 7.787056848601327e-06,
+      "loss": 0.826,
+      "mean_token_accuracy": 0.7542958974838256,
+      "step": 4610
+    },
+    {
+      "epoch": 0.8488136840169211,
+      "grad_norm": 0.987211519153664,
+      "learning_rate": 7.754160875883835e-06,
+      "loss": 0.859,
+      "mean_token_accuracy": 0.7447464466094971,
+      "step": 4615
+    },
+    {
+      "epoch": 0.8497333088100055,
+      "grad_norm": 0.9279113898182684,
+      "learning_rate": 7.721447534109509e-06,
+      "loss": 0.8318,
+      "mean_token_accuracy": 0.7507144689559937,
+      "step": 4620
+    },
+    {
+      "epoch": 0.8506529336030899,
+      "grad_norm": 0.9722340874170035,
+      "learning_rate": 7.688917125846836e-06,
+      "loss": 0.8354,
+      "mean_token_accuracy": 0.7506987690925598,
+      "step": 4625
+    },
+    {
+      "epoch": 0.8515725583961744,
+      "grad_norm": 0.9470559135859266,
+      "learning_rate": 7.65656995197231e-06,
+      "loss": 0.846,
+      "mean_token_accuracy": 0.7494428992271424,
+      "step": 4630
+    },
+    {
+      "epoch": 0.8524921831892588,
+      "grad_norm": 1.0085786438496558,
+      "learning_rate": 7.6244063116676965e-06,
+      "loss": 0.8048,
+      "mean_token_accuracy": 0.7590271830558777,
+      "step": 4635
+    },
+    {
+      "epoch": 0.8534118079823432,
+      "grad_norm": 0.9122173396588265,
+      "learning_rate": 7.592426502417235e-06,
+      "loss": 0.792,
+      "mean_token_accuracy": 0.7632818222045898,
+      "step": 4640
+    },
+    {
+      "epoch": 0.8543314327754277,
+      "grad_norm": 0.920428242471814,
+      "learning_rate": 7.560630820004905e-06,
+      "loss": 0.7682,
+      "mean_token_accuracy": 0.768799901008606,
+      "step": 4645
+    },
+    {
+      "epoch": 0.855251057568512,
+      "grad_norm": 0.9650658819203722,
+      "learning_rate": 7.529019558511664e-06,
+      "loss": 0.8591,
+      "mean_token_accuracy": 0.7465671896934509,
+      "step": 4650
+    },
+    {
+      "epoch": 0.8561706823615964,
+      "grad_norm": 0.941100631374564,
+      "learning_rate": 7.4975930103127575e-06,
+      "loss": 0.8133,
+      "mean_token_accuracy": 0.7577845811843872,
+      "step": 4655
+    },
+    {
+      "epoch": 0.8570903071546809,
+      "grad_norm": 0.911355294655365,
+      "learning_rate": 7.466351466075003e-06,
+      "loss": 0.776,
+      "mean_token_accuracy": 0.7704600811004638,
+      "step": 4660
+    },
+    {
+      "epoch": 0.8580099319477653,
+      "grad_norm": 0.9600196890925632,
+      "learning_rate": 7.43529521475409e-06,
+      "loss": 0.8356,
+      "mean_token_accuracy": 0.752436888217926,
+      "step": 4665
+    },
+    {
+      "epoch": 0.8589295567408497,
+      "grad_norm": 0.9096404947618868,
+      "learning_rate": 7.404424543591926e-06,
+      "loss": 0.8434,
+      "mean_token_accuracy": 0.749167013168335,
+      "step": 4670
+    },
+    {
+      "epoch": 0.8598491815339342,
+      "grad_norm": 0.9645413054824178,
+      "learning_rate": 7.37373973811398e-06,
+      "loss": 0.8422,
+      "mean_token_accuracy": 0.7523573756217956,
+      "step": 4675
+    },
+    {
+      "epoch": 0.8607688063270186,
+      "grad_norm": 0.9461536188211753,
+      "learning_rate": 7.343241082126609e-06,
+      "loss": 0.789,
+      "mean_token_accuracy": 0.7644837021827697,
+      "step": 4680
+    },
+    {
+      "epoch": 0.861688431120103,
+      "grad_norm": 0.9177981778366934,
+      "learning_rate": 7.312928857714484e-06,
+      "loss": 0.7912,
+      "mean_token_accuracy": 0.7650796055793763,
+      "step": 4685
+    },
+    {
+      "epoch": 0.8626080559131875,
+      "grad_norm": 0.9395263274096144,
+      "learning_rate": 7.282803345237937e-06,
+      "loss": 0.779,
+      "mean_token_accuracy": 0.766014575958252,
+      "step": 4690
+    },
+    {
+      "epoch": 0.8635276807062718,
+      "grad_norm": 0.974228845887035,
+      "learning_rate": 7.252864823330397e-06,
+      "loss": 0.8096,
+      "mean_token_accuracy": 0.7609816431999207,
+      "step": 4695
+    },
+    {
+      "epoch": 0.8644473054993562,
+      "grad_norm": 0.9138771854988429,
+      "learning_rate": 7.223113568895791e-06,
+      "loss": 0.8228,
+      "mean_token_accuracy": 0.7533741354942322,
+      "step": 4700
+    },
+    {
+      "epoch": 0.8653669302924407,
+      "grad_norm": 0.9230858356341091,
+      "learning_rate": 7.193549857105998e-06,
+      "loss": 0.7817,
+      "mean_token_accuracy": 0.7645957589149475,
+      "step": 4705
+    },
+    {
+      "epoch": 0.8662865550855251,
+      "grad_norm": 0.9248959407091435,
+      "learning_rate": 7.164173961398307e-06,
+      "loss": 0.8123,
+      "mean_token_accuracy": 0.758608341217041,
+      "step": 4710
+    },
+    {
+      "epoch": 0.8672061798786095,
+      "grad_norm": 0.920957739245226,
+      "learning_rate": 7.134986153472864e-06,
+      "loss": 0.8089,
+      "mean_token_accuracy": 0.7574970960617066,
+      "step": 4715
+    },
+    {
+      "epoch": 0.868125804671694,
+      "grad_norm": 0.9365387305302294,
+      "learning_rate": 7.105986703290185e-06,
+      "loss": 0.8207,
+      "mean_token_accuracy": 0.7519280552864075,
+      "step": 4720
+    },
+    {
+      "epoch": 0.8690454294647784,
+      "grad_norm": 0.9848472191309555,
+      "learning_rate": 7.077175879068652e-06,
+      "loss": 0.8318,
+      "mean_token_accuracy": 0.7514313578605651,
+      "step": 4725
+    },
+    {
+      "epoch": 0.8699650542578627,
+      "grad_norm": 0.9841439973977463,
+      "learning_rate": 7.04855394728202e-06,
+      "loss": 0.8254,
+      "mean_token_accuracy": 0.7536401510238647,
+      "step": 4730
+    },
+    {
+      "epoch": 0.8708846790509472,
+      "grad_norm": 0.9368690483918741,
+      "learning_rate": 7.020121172656971e-06,
+      "loss": 0.8079,
+      "mean_token_accuracy": 0.7589451789855957,
+      "step": 4735
+    },
+    {
+      "epoch": 0.8718043038440316,
+      "grad_norm": 0.9537367969880632,
+      "learning_rate": 6.991877818170647e-06,
+      "loss": 0.8105,
+      "mean_token_accuracy": 0.7570921540260315,
+      "step": 4740
+    },
+    {
+      "epoch": 0.872723928637116,
+      "grad_norm": 0.9771290706741976,
+      "learning_rate": 6.963824145048245e-06,
+      "loss": 0.8383,
+      "mean_token_accuracy": 0.7482818961143494,
+      "step": 4745
+    },
+    {
+      "epoch": 0.8736435534302005,
+      "grad_norm": 0.9167489506515816,
+      "learning_rate": 6.935960412760554e-06,
+      "loss": 0.7956,
+      "mean_token_accuracy": 0.7615381121635437,
+      "step": 4750
+    },
+    {
+      "epoch": 0.8745631782232849,
+      "grad_norm": 0.9509142520738616,
+      "learning_rate": 6.908286879021611e-06,
+      "loss": 0.8272,
+      "mean_token_accuracy": 0.7538857817649841,
+      "step": 4755
+    },
+    {
+      "epoch": 0.8754828030163693,
+      "grad_norm": 0.9492010037774332,
+      "learning_rate": 6.880803799786282e-06,
+      "loss": 0.8083,
+      "mean_token_accuracy": 0.7596304178237915,
+      "step": 4760
+    },
+    {
+      "epoch": 0.8764024278094538,
+      "grad_norm": 0.9879455089380224,
+      "learning_rate": 6.853511429247891e-06,
+      "loss": 0.8501,
+      "mean_token_accuracy": 0.7443594694137573,
+      "step": 4765
+    },
+    {
+      "epoch": 0.8773220526025381,
+      "grad_norm": 0.900884905164465,
+      "learning_rate": 6.826410019835897e-06,
+      "loss": 0.8388,
+      "mean_token_accuracy": 0.75017911195755,
+      "step": 4770
+    },
+    {
+      "epoch": 0.8782416773956225,
+      "grad_norm": 0.9347399353088925,
+      "learning_rate": 6.7994998222135415e-06,
+      "loss": 0.8338,
+      "mean_token_accuracy": 0.7503747582435608,
+      "step": 4775
+    },
+    {
+      "epoch": 0.879161302188707,
+      "grad_norm": 0.9313447849733553,
+      "learning_rate": 6.77278108527552e-06,
+      "loss": 0.8223,
+      "mean_token_accuracy": 0.7531881928443909,
+      "step": 4780
+    },
+    {
+      "epoch": 0.8800809269817914,
+      "grad_norm": 0.9749122247147805,
+      "learning_rate": 6.7462540561457035e-06,
+      "loss": 0.8078,
+      "mean_token_accuracy": 0.7597910761833191,
+      "step": 4785
+    },
+    {
+      "epoch": 0.8810005517748758,
+      "grad_norm": 0.9459726297921652,
+      "learning_rate": 6.719918980174842e-06,
+      "loss": 0.7735,
+      "mean_token_accuracy": 0.7680148124694824,
+      "step": 4790
+    },
+    {
+      "epoch": 0.8819201765679603,
+      "grad_norm": 0.9477334526426899,
+      "learning_rate": 6.6937761009382816e-06,
+      "loss": 0.8025,
+      "mean_token_accuracy": 0.759226131439209,
+      "step": 4795
+    },
+    {
+      "epoch": 0.8828398013610447,
+      "grad_norm": 0.9350684746914302,
+      "learning_rate": 6.667825660233736e-06,
+      "loss": 0.8141,
+      "mean_token_accuracy": 0.7565145611763,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8837594261541292,
+      "grad_norm": 0.9492764392082258,
+      "learning_rate": 6.642067898079038e-06,
+      "loss": 0.8311,
+      "mean_token_accuracy": 0.7527845025062561,
+      "step": 4805
+    },
+    {
+      "epoch": 0.8846790509472136,
+      "grad_norm": 0.8598768439927121,
+      "learning_rate": 6.616503052709914e-06,
+      "loss": 0.7896,
+      "mean_token_accuracy": 0.7648340344429017,
+      "step": 4810
+    },
+    {
+      "epoch": 0.8855986757402979,
+      "grad_norm": 0.9446656437839204,
+      "learning_rate": 6.591131360577795e-06,
+      "loss": 0.8052,
+      "mean_token_accuracy": 0.7575154542922974,
+      "step": 4815
+    },
+    {
+      "epoch": 0.8865183005333824,
+      "grad_norm": 0.8652514268793213,
+      "learning_rate": 6.565953056347608e-06,
+      "loss": 0.7534,
+      "mean_token_accuracy": 0.7725171089172364,
+      "step": 4820
+    },
+    {
+      "epoch": 0.8874379253264668,
+      "grad_norm": 0.9422431334861092,
+      "learning_rate": 6.540968372895634e-06,
+      "loss": 0.7977,
+      "mean_token_accuracy": 0.7611649394035339,
+      "step": 4825
+    },
+    {
+      "epoch": 0.8883575501195512,
+      "grad_norm": 0.9384703132768932,
+      "learning_rate": 6.516177541307333e-06,
+      "loss": 0.7995,
+      "mean_token_accuracy": 0.7624763369560241,
+      "step": 4830
+    },
+    {
+      "epoch": 0.8892771749126357,
+      "grad_norm": 1.015847599195386,
+      "learning_rate": 6.491580790875209e-06,
+      "loss": 0.7916,
+      "mean_token_accuracy": 0.7621793508529663,
+      "step": 4835
+    },
+    {
+      "epoch": 0.8901967997057201,
+      "grad_norm": 0.9098096698494834,
+      "learning_rate": 6.4671783490966945e-06,
+      "loss": 0.8088,
+      "mean_token_accuracy": 0.7614699125289917,
+      "step": 4840
+    },
+    {
+      "epoch": 0.8911164244988045,
+      "grad_norm": 0.9558674059824713,
+      "learning_rate": 6.442970441672051e-06,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.7470506310462952,
+      "step": 4845
+    },
+    {
+      "epoch": 0.892036049291889,
+      "grad_norm": 0.9590352976202275,
+      "learning_rate": 6.4189572925022655e-06,
+      "loss": 0.8363,
+      "mean_token_accuracy": 0.7472939848899841,
+      "step": 4850
+    },
+    {
+      "epoch": 0.8929556740849733,
+      "grad_norm": 0.8982751392912057,
+      "learning_rate": 6.3951391236869985e-06,
+      "loss": 0.8259,
+      "mean_token_accuracy": 0.7548177719116211,
+      "step": 4855
+    },
+    {
+      "epoch": 0.8938752988780577,
+      "grad_norm": 0.9627549202883984,
+      "learning_rate": 6.371516155522513e-06,
+      "loss": 0.8035,
+      "mean_token_accuracy": 0.7578222513198852,
+      "step": 4860
+    },
+    {
+      "epoch": 0.8947949236711422,
+      "grad_norm": 0.962995623951893,
+      "learning_rate": 6.3480886064996484e-06,
+      "loss": 0.8119,
+      "mean_token_accuracy": 0.7579006910324096,
+      "step": 4865
+    },
+    {
+      "epoch": 0.8957145484642266,
+      "grad_norm": 0.99045632467858,
+      "learning_rate": 6.3248566933017975e-06,
+      "loss": 0.7942,
+      "mean_token_accuracy": 0.75965256690979,
+      "step": 4870
+    },
+    {
+      "epoch": 0.896634173257311,
+      "grad_norm": 0.9510071830298487,
+      "learning_rate": 6.3018206308028975e-06,
+      "loss": 0.8185,
+      "mean_token_accuracy": 0.7584743499755859,
+      "step": 4875
+    },
+    {
+      "epoch": 0.8975537980503955,
+      "grad_norm": 0.9703791789576997,
+      "learning_rate": 6.2789806320654456e-06,
+      "loss": 0.7816,
+      "mean_token_accuracy": 0.7649904489517212,
+      "step": 4880
+    },
+    {
+      "epoch": 0.8984734228434799,
+      "grad_norm": 0.9398378664335288,
+      "learning_rate": 6.256336908338531e-06,
+      "loss": 0.78,
+      "mean_token_accuracy": 0.767956817150116,
+      "step": 4885
+    },
+    {
+      "epoch": 0.8993930476365642,
+      "grad_norm": 0.987114293205303,
+      "learning_rate": 6.233889669055878e-06,
+      "loss": 0.8443,
+      "mean_token_accuracy": 0.7497469425201416,
+      "step": 4890
+    },
+    {
+      "epoch": 0.9003126724296487,
+      "grad_norm": 0.9343500174042304,
+      "learning_rate": 6.211639121833912e-06,
+      "loss": 0.7931,
+      "mean_token_accuracy": 0.763602340221405,
+      "step": 4895
+    },
+    {
+      "epoch": 0.9012322972227331,
+      "grad_norm": 0.9262644956755969,
+      "learning_rate": 6.189585472469829e-06,
+      "loss": 0.7792,
+      "mean_token_accuracy": 0.7697998642921448,
+      "step": 4900
+    },
+    {
+      "epoch": 0.9021519220158175,
+      "grad_norm": 0.9622834108867682,
+      "learning_rate": 6.167728924939705e-06,
+      "loss": 0.797,
+      "mean_token_accuracy": 0.7625941157341003,
+      "step": 4905
+    },
+    {
+      "epoch": 0.903071546808902,
+      "grad_norm": 0.9190192726730757,
+      "learning_rate": 6.146069681396612e-06,
+      "loss": 0.8253,
+      "mean_token_accuracy": 0.7542304992675781,
+      "step": 4910
+    },
+    {
+      "epoch": 0.9039911716019864,
+      "grad_norm": 0.9361246140345745,
+      "learning_rate": 6.124607942168726e-06,
+      "loss": 0.8031,
+      "mean_token_accuracy": 0.7584469556808472,
+      "step": 4915
+    },
+    {
+      "epoch": 0.9049107963950708,
+      "grad_norm": 0.9457716726884055,
+      "learning_rate": 6.1033439057574965e-06,
+      "loss": 0.8153,
+      "mean_token_accuracy": 0.758701741695404,
+      "step": 4920
+    },
+    {
+      "epoch": 0.9058304211881553,
+      "grad_norm": 0.8853750515926242,
+      "learning_rate": 6.082277768835807e-06,
+      "loss": 0.7921,
+      "mean_token_accuracy": 0.763675856590271,
+      "step": 4925
+    },
+    {
+      "epoch": 0.9067500459812396,
+      "grad_norm": 0.9702784866596219,
+      "learning_rate": 6.061409726246143e-06,
+      "loss": 0.7851,
+      "mean_token_accuracy": 0.7646818399429322,
+      "step": 4930
+    },
+    {
+      "epoch": 0.907669670774324,
+      "grad_norm": 0.9693421985103569,
+      "learning_rate": 6.040739970998802e-06,
+      "loss": 0.8346,
+      "mean_token_accuracy": 0.7530786991119385,
+      "step": 4935
+    },
+    {
+      "epoch": 0.9085892955674085,
+      "grad_norm": 0.8930655347204544,
+      "learning_rate": 6.020268694270109e-06,
+      "loss": 0.7966,
+      "mean_token_accuracy": 0.7641753435134888,
+      "step": 4940
+    },
+    {
+      "epoch": 0.9095089203604929,
+      "grad_norm": 0.908390221485836,
+      "learning_rate": 5.999996085400643e-06,
+      "loss": 0.7995,
+      "mean_token_accuracy": 0.7642928123474121,
+      "step": 4945
+    },
+    {
+      "epoch": 0.9104285451535773,
+      "grad_norm": 0.9291773666129768,
+      "learning_rate": 5.9799223318934765e-06,
+      "loss": 0.801,
+      "mean_token_accuracy": 0.7588168382644653,
+      "step": 4950
+    },
+    {
+      "epoch": 0.9113481699466618,
+      "grad_norm": 0.9290002720904244,
+      "learning_rate": 5.9600476194124675e-06,
+      "loss": 0.7973,
+      "mean_token_accuracy": 0.763935673236847,
+      "step": 4955
+    },
+    {
+      "epoch": 0.9122677947397462,
+      "grad_norm": 0.9446442087955222,
+      "learning_rate": 5.9403721317805245e-06,
+      "loss": 0.801,
+      "mean_token_accuracy": 0.7578533172607422,
+      "step": 4960
+    },
+    {
+      "epoch": 0.9131874195328306,
+      "grad_norm": 0.9568316679901518,
+      "learning_rate": 5.920896050977891e-06,
+      "loss": 0.8926,
+      "mean_token_accuracy": 0.7361096501350403,
+      "step": 4965
+    },
+    {
+      "epoch": 0.914107044325915,
+      "grad_norm": 0.9761363167639366,
+      "learning_rate": 5.901619557140502e-06,
+      "loss": 0.8302,
+      "mean_token_accuracy": 0.7517902731895447,
+      "step": 4970
+    },
+    {
+      "epoch": 0.9150266691189994,
+      "grad_norm": 0.9363921634925068,
+      "learning_rate": 5.882542828558286e-06,
+      "loss": 0.8066,
+      "mean_token_accuracy": 0.7580497026443481,
+      "step": 4975
+    },
+    {
+      "epoch": 0.9159462939120838,
+      "grad_norm": 0.9898749363112332,
+      "learning_rate": 5.86366604167352e-06,
+      "loss": 0.7785,
+      "mean_token_accuracy": 0.7676722645759583,
+      "step": 4980
+    },
+    {
+      "epoch": 0.9168659187051683,
+      "grad_norm": 0.9461120512925497,
+      "learning_rate": 5.844989371079215e-06,
+      "loss": 0.7655,
+      "mean_token_accuracy": 0.7703205943107605,
+      "step": 4985
+    },
+    {
+      "epoch": 0.9177855434982527,
+      "grad_norm": 0.9340964548547984,
+      "learning_rate": 5.826512989517478e-06,
+      "loss": 0.8243,
+      "mean_token_accuracy": 0.7529069542884826,
+      "step": 4990
+    },
+    {
+      "epoch": 0.9187051682913371,
+      "grad_norm": 0.9542091804584825,
+      "learning_rate": 5.808237067877942e-06,
+      "loss": 0.7869,
+      "mean_token_accuracy": 0.7639023303985596,
+      "step": 4995
+    },
+    {
+      "epoch": 0.9196247930844216,
+      "grad_norm": 0.9799469338180448,
+      "learning_rate": 5.790161775196144e-06,
+      "loss": 0.7942,
+      "mean_token_accuracy": 0.7624092340469361,
+      "step": 5000
+    },
+    {
+      "epoch": 0.920544417877506,
+      "grad_norm": 0.9533254080832144,
+      "learning_rate": 5.772287278652012e-06,
+      "loss": 0.8109,
+      "mean_token_accuracy": 0.7598010182380677,
+      "step": 5005
+    },
+    {
+      "epoch": 0.9214640426705903,
+      "grad_norm": 0.9311527277134242,
+      "learning_rate": 5.754613743568279e-06,
+      "loss": 0.7906,
+      "mean_token_accuracy": 0.7638931751251221,
+      "step": 5010
+    },
+    {
+      "epoch": 0.9223836674636748,
+      "grad_norm": 0.9812836116539834,
+      "learning_rate": 5.737141333408972e-06,
+      "loss": 0.8008,
+      "mean_token_accuracy": 0.7612162590026855,
+      "step": 5015
+    },
+    {
+      "epoch": 0.9233032922567592,
+      "grad_norm": 0.9745443553849291,
+      "learning_rate": 5.719870209777896e-06,
+      "loss": 0.8417,
+      "mean_token_accuracy": 0.7509512066841125,
+      "step": 5020
+    },
+    {
+      "epoch": 0.9242229170498437,
+      "grad_norm": 0.9530895065948418,
+      "learning_rate": 5.702800532417144e-06,
+      "loss": 0.7899,
+      "mean_token_accuracy": 0.7625620007514954,
+      "step": 5025
+    },
+    {
+      "epoch": 0.9251425418429281,
+      "grad_norm": 0.9106620317823355,
+      "learning_rate": 5.685932459205606e-06,
+      "loss": 0.8075,
+      "mean_token_accuracy": 0.7597783088684082,
+      "step": 5030
+    },
+    {
+      "epoch": 0.9260621666360125,
+      "grad_norm": 0.9016062622069709,
+      "learning_rate": 5.669266146157527e-06,
+      "loss": 0.7956,
+      "mean_token_accuracy": 0.7618203997612,
+      "step": 5035
+    },
+    {
+      "epoch": 0.926981791429097,
+      "grad_norm": 0.9311871037406105,
+      "learning_rate": 5.652801747421053e-06,
+      "loss": 0.7755,
+      "mean_token_accuracy": 0.7672530770301819,
+      "step": 5040
+    },
+    {
+      "epoch": 0.9279014162221814,
+      "grad_norm": 0.9289149914362874,
+      "learning_rate": 5.636539415276807e-06,
+      "loss": 0.7971,
+      "mean_token_accuracy": 0.7606992840766906,
+      "step": 5045
+    },
+    {
+      "epoch": 0.9288210410152657,
+      "grad_norm": 0.9265920738234094,
+      "learning_rate": 5.620479300136475e-06,
+      "loss": 0.7675,
+      "mean_token_accuracy": 0.7715546011924743,
+      "step": 5050
+    },
+    {
+      "epoch": 0.9297406658083502,
+      "grad_norm": 1.001963123510446,
+      "learning_rate": 5.604621550541429e-06,
+      "loss": 0.8426,
+      "mean_token_accuracy": 0.7474547743797302,
+      "step": 5055
+    },
+    {
+      "epoch": 0.9306602906014346,
+      "grad_norm": 0.9062392197653472,
+      "learning_rate": 5.5889663131613465e-06,
+      "loss": 0.8237,
+      "mean_token_accuracy": 0.7512851595878601,
+      "step": 5060
+    },
+    {
+      "epoch": 0.931579915394519,
+      "grad_norm": 0.9878466692235598,
+      "learning_rate": 5.5735137327928384e-06,
+      "loss": 0.8018,
+      "mean_token_accuracy": 0.7595331549644471,
+      "step": 5065
+    },
+    {
+      "epoch": 0.9324995401876035,
+      "grad_norm": 0.911756127989921,
+      "learning_rate": 5.558263952358139e-06,
+      "loss": 0.8146,
+      "mean_token_accuracy": 0.7572713255882263,
+      "step": 5070
+    },
+    {
+      "epoch": 0.9334191649806879,
+      "grad_norm": 0.9534452188147857,
+      "learning_rate": 5.543217112903766e-06,
+      "loss": 0.8092,
+      "mean_token_accuracy": 0.7591339111328125,
+      "step": 5075
+    },
+    {
+      "epoch": 0.9343387897737723,
+      "grad_norm": 0.94136690175154,
+      "learning_rate": 5.528373353599207e-06,
+      "loss": 0.7945,
+      "mean_token_accuracy": 0.7594197154045105,
+      "step": 5080
+    },
+    {
+      "epoch": 0.9352584145668568,
+      "grad_norm": 0.9367268234664168,
+      "learning_rate": 5.513732811735657e-06,
+      "loss": 0.8123,
+      "mean_token_accuracy": 0.7594240307807922,
+      "step": 5085
+    },
+    {
+      "epoch": 0.9361780393599411,
+      "grad_norm": 0.8975989192963018,
+      "learning_rate": 5.4992956227247345e-06,
+      "loss": 0.7715,
+      "mean_token_accuracy": 0.7677939176559448,
+      "step": 5090
+    },
+    {
+      "epoch": 0.9370976641530255,
+      "grad_norm": 0.9987125543689239,
+      "learning_rate": 5.48506192009722e-06,
+      "loss": 0.8051,
+      "mean_token_accuracy": 0.7597865104675293,
+      "step": 5095
+    },
+    {
+      "epoch": 0.93801728894611,
+      "grad_norm": 0.9396093256392507,
+      "learning_rate": 5.4710318355018435e-06,
+      "loss": 0.8248,
+      "mean_token_accuracy": 0.7557710766792297,
+      "step": 5100
+    },
+    {
+      "epoch": 0.9389369137391944,
+      "grad_norm": 0.907072734656757,
+      "learning_rate": 5.457205498704046e-06,
+      "loss": 0.8104,
+      "mean_token_accuracy": 0.7568627595901489,
+      "step": 5105
+    },
+    {
+      "epoch": 0.9398565385322788,
+      "grad_norm": 0.9498606808400206,
+      "learning_rate": 5.443583037584792e-06,
+      "loss": 0.829,
+      "mean_token_accuracy": 0.7537372469902038,
+      "step": 5110
+    },
+    {
+      "epoch": 0.9407761633253633,
+      "grad_norm": 0.9500188031150016,
+      "learning_rate": 5.430164578139382e-06,
+      "loss": 0.771,
+      "mean_token_accuracy": 0.7692322492599487,
+      "step": 5115
+    },
+    {
+      "epoch": 0.9416957881184477,
+      "grad_norm": 0.9133488515736051,
+      "learning_rate": 5.4169502444762836e-06,
+      "loss": 0.8203,
+      "mean_token_accuracy": 0.7578924179077149,
+      "step": 5120
+    },
+    {
+      "epoch": 0.9426154129115321,
+      "grad_norm": 0.9585342004886042,
+      "learning_rate": 5.403940158815996e-06,
+      "loss": 0.8209,
+      "mean_token_accuracy": 0.7570155620574951,
+      "step": 5125
+    },
+    {
+      "epoch": 0.9435350377046166,
+      "grad_norm": 0.9797939933864984,
+      "learning_rate": 5.391134441489905e-06,
+      "loss": 0.7937,
+      "mean_token_accuracy": 0.7618912696838379,
+      "step": 5130
+    },
+    {
+      "epoch": 0.9444546624977009,
+      "grad_norm": 0.9293935572688817,
+      "learning_rate": 5.378533210939176e-06,
+      "loss": 0.7948,
+      "mean_token_accuracy": 0.7596281886100769,
+      "step": 5135
+    },
+    {
+      "epoch": 0.9453742872907853,
+      "grad_norm": 0.9221042858985046,
+      "learning_rate": 5.366136583713665e-06,
+      "loss": 0.7717,
+      "mean_token_accuracy": 0.7698543071746826,
+      "step": 5140
+    },
+    {
+      "epoch": 0.9462939120838698,
+      "grad_norm": 1.025946124148099,
+      "learning_rate": 5.353944674470823e-06,
+      "loss": 0.8213,
+      "mean_token_accuracy": 0.7552660465240478,
+      "step": 5145
+    },
+    {
+      "epoch": 0.9472135368769542,
+      "grad_norm": 0.984504169212397,
+      "learning_rate": 5.341957595974662e-06,
+      "loss": 0.8392,
+      "mean_token_accuracy": 0.7498656630516052,
+      "step": 5150
+    },
+    {
+      "epoch": 0.9481331616700386,
+      "grad_norm": 0.9188252633726173,
+      "learning_rate": 5.3301754590946824e-06,
+      "loss": 0.8166,
+      "mean_token_accuracy": 0.7552522420883179,
+      "step": 5155
+    },
+    {
+      "epoch": 0.9490527864631231,
+      "grad_norm": 0.8673224532160614,
+      "learning_rate": 5.318598372804873e-06,
+      "loss": 0.7689,
+      "mean_token_accuracy": 0.7689907431602478,
+      "step": 5160
+    },
+    {
+      "epoch": 0.9499724112562075,
+      "grad_norm": 0.9392909148393203,
+      "learning_rate": 5.307226444182686e-06,
+      "loss": 0.7877,
+      "mean_token_accuracy": 0.7654459595680236,
+      "step": 5165
+    },
+    {
+      "epoch": 0.9508920360492918,
+      "grad_norm": 1.0092515399603914,
+      "learning_rate": 5.296059778408057e-06,
+      "loss": 0.8228,
+      "mean_token_accuracy": 0.7547815799713135,
+      "step": 5170
+    },
+    {
+      "epoch": 0.9518116608423763,
+      "grad_norm": 0.9724478118701938,
+      "learning_rate": 5.2850984787624264e-06,
+      "loss": 0.8068,
+      "mean_token_accuracy": 0.757933521270752,
+      "step": 5175
+    },
+    {
+      "epoch": 0.9527312856354607,
+      "grad_norm": 0.9595437776833703,
+      "learning_rate": 5.274342646627783e-06,
+      "loss": 0.8612,
+      "mean_token_accuracy": 0.7451163768768311,
+      "step": 5180
+    },
+    {
+      "epoch": 0.9536509104285451,
+      "grad_norm": 0.9035621461181421,
+      "learning_rate": 5.263792381485733e-06,
+      "loss": 0.7942,
+      "mean_token_accuracy": 0.7612574458122253,
+      "step": 5185
+    },
+    {
+      "epoch": 0.9545705352216296,
+      "grad_norm": 0.9369759529937411,
+      "learning_rate": 5.253447780916577e-06,
+      "loss": 0.8199,
+      "mean_token_accuracy": 0.755517327785492,
+      "step": 5190
+    },
+    {
+      "epoch": 0.955490160014714,
+      "grad_norm": 0.9223279306007958,
+      "learning_rate": 5.2433089405984e-06,
+      "loss": 0.7855,
+      "mean_token_accuracy": 0.7672001838684082,
+      "step": 5195
+    },
+    {
+      "epoch": 0.9564097848077984,
+      "grad_norm": 0.9093658718364905,
+      "learning_rate": 5.233375954306199e-06,
+      "loss": 0.7588,
+      "mean_token_accuracy": 0.7701982975006103,
+      "step": 5200
+    },
+    {
+      "epoch": 0.9573294096008829,
+      "grad_norm": 0.9756234794282658,
+      "learning_rate": 5.22364891391101e-06,
+      "loss": 0.8294,
+      "mean_token_accuracy": 0.75344318151474,
+      "step": 5205
+    },
+    {
+      "epoch": 0.9582490343939672,
+      "grad_norm": 0.910212786589889,
+      "learning_rate": 5.2141279093790575e-06,
+      "loss": 0.7894,
+      "mean_token_accuracy": 0.7678821444511413,
+      "step": 5210
+    },
+    {
+      "epoch": 0.9591686591870516,
+      "grad_norm": 0.9474929875705357,
+      "learning_rate": 5.204813028770913e-06,
+      "loss": 0.7891,
+      "mean_token_accuracy": 0.7625754833221435,
+      "step": 5215
+    },
+    {
+      "epoch": 0.9600882839801361,
+      "grad_norm": 0.9344552952746554,
+      "learning_rate": 5.195704358240704e-06,
+      "loss": 0.8059,
+      "mean_token_accuracy": 0.759453558921814,
+      "step": 5220
+    },
+    {
+      "epoch": 0.9610079087732205,
+      "grad_norm": 0.9060367178226402,
+      "learning_rate": 5.186801982035298e-06,
+      "loss": 0.7846,
+      "mean_token_accuracy": 0.7654222846031189,
+      "step": 5225
+    },
+    {
+      "epoch": 0.9619275335663049,
+      "grad_norm": 0.9799737312884412,
+      "learning_rate": 5.178105982493528e-06,
+      "loss": 0.813,
+      "mean_token_accuracy": 0.7591325879096985,
+      "step": 5230
+    },
+    {
+      "epoch": 0.9628471583593894,
+      "grad_norm": 0.9419373863409995,
+      "learning_rate": 5.169616440045433e-06,
+      "loss": 0.7933,
+      "mean_token_accuracy": 0.7605907201766968,
+      "step": 5235
+    },
+    {
+      "epoch": 0.9637667831524738,
+      "grad_norm": 0.904753211539841,
+      "learning_rate": 5.16133343321151e-06,
+      "loss": 0.796,
+      "mean_token_accuracy": 0.7628448724746704,
+      "step": 5240
+    },
+    {
+      "epoch": 0.9646864079455583,
+      "grad_norm": 0.9588441625989744,
+      "learning_rate": 5.1532570386019944e-06,
+      "loss": 0.7746,
+      "mean_token_accuracy": 0.7675014138221741,
+      "step": 5245
+    },
+    {
+      "epoch": 0.9656060327386427,
+      "grad_norm": 0.8875696215604679,
+      "learning_rate": 5.145387330916144e-06,
+      "loss": 0.7988,
+      "mean_token_accuracy": 0.7614070296287536,
+      "step": 5250
+    },
+    {
+      "epoch": 0.966525657531727,
+      "grad_norm": 0.9405630235157387,
+      "learning_rate": 5.137724382941557e-06,
+      "loss": 0.7918,
+      "mean_token_accuracy": 0.7650785088539124,
+      "step": 5255
+    },
+    {
+      "epoch": 0.9674452823248115,
+      "grad_norm": 0.9562043810312459,
+      "learning_rate": 5.130268265553487e-06,
+      "loss": 0.8144,
+      "mean_token_accuracy": 0.7557086706161499,
+      "step": 5260
+    },
+    {
+      "epoch": 0.9683649071178959,
+      "grad_norm": 0.9274811086930055,
+      "learning_rate": 5.123019047714198e-06,
+      "loss": 0.7576,
+      "mean_token_accuracy": 0.7753474235534668,
+      "step": 5265
+    },
+    {
+      "epoch": 0.9692845319109803,
+      "grad_norm": 0.9409745943869224,
+      "learning_rate": 5.115976796472322e-06,
+      "loss": 0.8328,
+      "mean_token_accuracy": 0.7535906672477722,
+      "step": 5270
+    },
+    {
+      "epoch": 0.9702041567040648,
+      "grad_norm": 0.919927159373234,
+      "learning_rate": 5.109141576962239e-06,
+      "loss": 0.7912,
+      "mean_token_accuracy": 0.7655844688415527,
+      "step": 5275
+    },
+    {
+      "epoch": 0.9711237814971492,
+      "grad_norm": 0.951329112362283,
+      "learning_rate": 5.102513452403473e-06,
+      "loss": 0.7683,
+      "mean_token_accuracy": 0.7696467399597168,
+      "step": 5280
+    },
+    {
+      "epoch": 0.9720434062902336,
+      "grad_norm": 0.9201946233258363,
+      "learning_rate": 5.0960924841001155e-06,
+      "loss": 0.7988,
+      "mean_token_accuracy": 0.7610312700271606,
+      "step": 5285
+    },
+    {
+      "epoch": 0.972963031083318,
+      "grad_norm": 1.0032717462292577,
+      "learning_rate": 5.089878731440241e-06,
+      "loss": 0.821,
+      "mean_token_accuracy": 0.7543939590454102,
+      "step": 5290
+    },
+    {
+      "epoch": 0.9738826558764024,
+      "grad_norm": 0.9429172545610519,
+      "learning_rate": 5.0838722518953816e-06,
+      "loss": 0.7989,
+      "mean_token_accuracy": 0.7595749855041504,
+      "step": 5295
+    },
+    {
+      "epoch": 0.9748022806694868,
+      "grad_norm": 0.9007616401314099,
+      "learning_rate": 5.078073101019974e-06,
+      "loss": 0.8083,
+      "mean_token_accuracy": 0.7579713940620423,
+      "step": 5300
+    },
+    {
+      "epoch": 0.9757219054625713,
+      "grad_norm": 0.8990406462252963,
+      "learning_rate": 5.072481332450857e-06,
+      "loss": 0.8114,
+      "mean_token_accuracy": 0.7577333807945251,
+      "step": 5305
+    },
+    {
+      "epoch": 0.9766415302556557,
+      "grad_norm": 0.9615340254243923,
+      "learning_rate": 5.067096997906774e-06,
+      "loss": 0.7715,
+      "mean_token_accuracy": 0.7705414056777954,
+      "step": 5310
+    },
+    {
+      "epoch": 0.9775611550487401,
+      "grad_norm": 0.8455749234692341,
+      "learning_rate": 5.06192014718789e-06,
+      "loss": 0.7642,
+      "mean_token_accuracy": 0.7697661995887757,
+      "step": 5315
+    },
+    {
+      "epoch": 0.9784807798418246,
+      "grad_norm": 0.9292612449999305,
+      "learning_rate": 5.05695082817534e-06,
+      "loss": 0.7789,
+      "mean_token_accuracy": 0.7671653866767884,
+      "step": 5320
+    },
+    {
+      "epoch": 0.979400404634909,
+      "grad_norm": 0.9275056123774931,
+      "learning_rate": 5.052189086830779e-06,
+      "loss": 0.8018,
+      "mean_token_accuracy": 0.7623230576515198,
+      "step": 5325
+    },
+    {
+      "epoch": 0.9803200294279933,
+      "grad_norm": 0.9703545231339168,
+      "learning_rate": 5.047634967195952e-06,
+      "loss": 0.7877,
+      "mean_token_accuracy": 0.7638481616973877,
+      "step": 5330
+    },
+    {
+      "epoch": 0.9812396542210778,
+      "grad_norm": 0.955542417327297,
+      "learning_rate": 5.043288511392302e-06,
+      "loss": 0.7891,
+      "mean_token_accuracy": 0.7614734530448913,
+      "step": 5335
+    },
+    {
+      "epoch": 0.9821592790141622,
+      "grad_norm": 0.9645172124378145,
+      "learning_rate": 5.039149759620569e-06,
+      "loss": 0.7624,
+      "mean_token_accuracy": 0.7724639177322388,
+      "step": 5340
+    },
+    {
+      "epoch": 0.9830789038072466,
+      "grad_norm": 0.9734387825498484,
+      "learning_rate": 5.0352187501604155e-06,
+      "loss": 0.8579,
+      "mean_token_accuracy": 0.746760880947113,
+      "step": 5345
+    },
+    {
+      "epoch": 0.9839985286003311,
+      "grad_norm": 0.9730228991663388,
+      "learning_rate": 5.031495519370083e-06,
+      "loss": 0.8102,
+      "mean_token_accuracy": 0.758979082107544,
+      "step": 5350
+    },
+    {
+      "epoch": 0.9849181533934155,
+      "grad_norm": 1.0013660074202417,
+      "learning_rate": 5.027980101686053e-06,
+      "loss": 0.8396,
+      "mean_token_accuracy": 0.7509408593177795,
+      "step": 5355
+    },
+    {
+      "epoch": 0.9858377781864999,
+      "grad_norm": 0.9817157587290055,
+      "learning_rate": 5.024672529622717e-06,
+      "loss": 0.7935,
+      "mean_token_accuracy": 0.7596516370773315,
+      "step": 5360
+    },
+    {
+      "epoch": 0.9867574029795844,
+      "grad_norm": 0.9800745490721745,
+      "learning_rate": 5.0215728337720955e-06,
+      "loss": 0.7491,
+      "mean_token_accuracy": 0.7768563270568848,
+      "step": 5365
+    },
+    {
+      "epoch": 0.9876770277726687,
+      "grad_norm": 0.99189390574119,
+      "learning_rate": 5.018681042803533e-06,
+      "loss": 0.7759,
+      "mean_token_accuracy": 0.7670275330543518,
+      "step": 5370
+    },
+    {
+      "epoch": 0.9885966525657531,
+      "grad_norm": 0.9673022649880465,
+      "learning_rate": 5.0159971834634545e-06,
+      "loss": 0.7867,
+      "mean_token_accuracy": 0.764349353313446,
+      "step": 5375
+    },
+    {
+      "epoch": 0.9895162773588376,
+      "grad_norm": 1.0182176113772272,
+      "learning_rate": 5.013521280575099e-06,
+      "loss": 0.799,
+      "mean_token_accuracy": 0.7618956327438354,
+      "step": 5380
+    },
+    {
+      "epoch": 0.990435902151922,
+      "grad_norm": 0.9959171759739962,
+      "learning_rate": 5.011253357038306e-06,
+      "loss": 0.8392,
+      "mean_token_accuracy": 0.7527823686599732,
+      "step": 5385
+    },
+    {
+      "epoch": 0.9913555269450064,
+      "grad_norm": 0.8997528487054468,
+      "learning_rate": 5.0091934338292915e-06,
+      "loss": 0.7615,
+      "mean_token_accuracy": 0.7715205192565918,
+      "step": 5390
+    },
+    {
+      "epoch": 0.9922751517380909,
+      "grad_norm": 0.919462849827096,
+      "learning_rate": 5.00734153000046e-06,
+      "loss": 0.7409,
+      "mean_token_accuracy": 0.77668297290802,
+      "step": 5395
+    },
+    {
+      "epoch": 0.9931947765311753,
+      "grad_norm": 0.984326555402561,
+      "learning_rate": 5.005697662680227e-06,
+      "loss": 0.7989,
+      "mean_token_accuracy": 0.7626922607421875,
+      "step": 5400
+    },
+    {
+      "epoch": 0.9941144013242597,
+      "grad_norm": 0.9499542228497883,
+      "learning_rate": 5.004261847072863e-06,
+      "loss": 0.8283,
+      "mean_token_accuracy": 0.7542143225669861,
+      "step": 5405
+    },
+    {
+      "epoch": 0.9950340261173442,
+      "grad_norm": 0.9585799297597308,
+      "learning_rate": 5.003034096458347e-06,
+      "loss": 0.835,
+      "mean_token_accuracy": 0.7544377326965332,
+      "step": 5410
+    },
+    {
+      "epoch": 0.9959536509104285,
+      "grad_norm": 0.9165677599227604,
+      "learning_rate": 5.0020144221922466e-06,
+      "loss": 0.8013,
+      "mean_token_accuracy": 0.7582892417907715,
+      "step": 5415
+    },
+    {
+      "epoch": 0.9968732757035129,
+      "grad_norm": 0.9449991405622632,
+      "learning_rate": 5.001202833705621e-06,
+      "loss": 0.8352,
+      "mean_token_accuracy": 0.7502840042114258,
+      "step": 5420
+    },
+    {
+      "epoch": 0.9977929004965974,
+      "grad_norm": 0.9827477783752422,
+      "learning_rate": 5.000599338504916e-06,
+      "loss": 0.7931,
+      "mean_token_accuracy": 0.762959897518158,
+      "step": 5425
+    },
+    {
+      "epoch": 0.9987125252896818,
+      "grad_norm": 0.9751233701044131,
+      "learning_rate": 5.0002039421719105e-06,
+      "loss": 0.7978,
+      "mean_token_accuracy": 0.7619426846504211,
+      "step": 5430
+    },
+    {
+      "epoch": 0.9996321500827662,
+      "grad_norm": 0.971614941671036,
+      "learning_rate": 5.000016648363663e-06,
+      "loss": 0.801,
+      "mean_token_accuracy": 0.7594120621681213,
+      "step": 5435
+    },
+    {
+      "epoch": 1.0,
+      "mean_token_accuracy": 0.779580146074295,
+      "step": 5437,
+      "total_flos": 77442066677760.0,
+      "train_loss": 0.8871173100675843,
+      "train_runtime": 5515.7519,
+      "train_samples_per_second": 15.771,
+      "train_steps_per_second": 0.986
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 5437,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 77442066677760.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}