diff --git "a/trainer_state.json" "b/trainer_state.json"
--- "a/trainer_state.json"
+++ "b/trainer_state.json"
@@ -1,66 +1,5009 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.005057992500218017,
+  "epoch": 0.5000436033836225,
   "eval_steps": 100,
-  "global_step": 58,
+  "global_step": 5734,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0008720676724513823,
-      "grad_norm": 9.03160572052002,
-      "learning_rate": 1.9709418174260523e-05,
-      "loss": 3.068,
-      "mean_token_accuracy": 0.44124266058206557,
+      "grad_norm": 9.447980880737305,
+      "learning_rate": 3.4843205574912896e-07,
+      "loss": 3.1,
+      "mean_token_accuracy": 0.4386619344353676,
       "step": 10
     },
     {
       "epoch": 0.0017441353449027645,
-      "grad_norm": 15.666545867919922,
-      "learning_rate": 1.6631226582407954e-05,
-      "loss": 2.9078,
-      "mean_token_accuracy": 0.4430650696158409,
+      "grad_norm": 10.540608406066895,
+      "learning_rate": 6.968641114982579e-07,
+      "loss": 3.1164,
+      "mean_token_accuracy": 0.42992905974388124,
       "step": 20
     },
     {
       "epoch": 0.002616203017354147,
-      "grad_norm": 16.191038131713867,
-      "learning_rate": 1.1205366802553231e-05,
-      "loss": 2.8492,
-      "mean_token_accuracy": 0.45182240307331084,
+      "grad_norm": 12.786429405212402,
+      "learning_rate": 1.045296167247387e-06,
+      "loss": 3.1391,
+      "mean_token_accuracy": 0.4331947162747383,
       "step": 30
     },
     {
       "epoch": 0.003488270689805529,
-      "grad_norm": 10.86160945892334,
-      "learning_rate": 5.352768279562315e-06,
-      "loss": 2.7617,
-      "mean_token_accuracy": 0.4569960877299309,
+      "grad_norm": 9.747709274291992,
+      "learning_rate": 1.3937282229965158e-06,
+      "loss": 3.0719,
+      "mean_token_accuracy": 0.4360322892665863,
       "step": 40
     },
     {
       "epoch": 0.004360338362256911,
-      "grad_norm": 14.749295234680176,
-      "learning_rate": 1.1454397434679022e-06,
-      "loss": 2.6656,
-      "mean_token_accuracy": 0.47067025154829023,
+      "grad_norm": 8.716520309448242,
+      "learning_rate": 1.742160278745645e-06,
+      "loss": 3.0047,
+      "mean_token_accuracy": 0.4452299430966377,
       "step": 50
     },
     {
-      "epoch": 0.005057992500218017,
-      "mean_token_accuracy": 0.45992845110595226,
-      "step": 58,
+      "epoch": 0.005232406034708294,
+      "grad_norm": 13.018689155578613,
+      "learning_rate": 2.090592334494774e-06,
+      "loss": 3.0695,
+      "mean_token_accuracy": 0.4376590013504028,
+      "step": 60
+    },
+    {
+      "epoch": 0.0061044737071596755,
+      "grad_norm": 7.014005184173584,
+      "learning_rate": 2.4390243902439027e-06,
+      "loss": 3.075,
+      "mean_token_accuracy": 0.4348948121070862,
+      "step": 70
+    },
+    {
+      "epoch": 0.006976541379611058,
+      "grad_norm": 7.294459342956543,
+      "learning_rate": 2.7874564459930316e-06,
+      "loss": 3.0641,
+      "mean_token_accuracy": 0.43597113639116286,
+      "step": 80
+    },
+    {
+      "epoch": 0.00784860905206244,
+      "grad_norm": 7.461134910583496,
+      "learning_rate": 3.13588850174216e-06,
+      "loss": 3.0187,
+      "mean_token_accuracy": 0.4360322907567024,
+      "step": 90
+    },
+    {
+      "epoch": 0.008720676724513822,
+      "grad_norm": 12.412550926208496,
+      "learning_rate": 3.48432055749129e-06,
+      "loss": 2.9297,
+      "mean_token_accuracy": 0.4520425647497177,
+      "step": 100
+    },
+    {
+      "epoch": 0.008720676724513822,
+      "eval_runtime": 4.1147,
+      "eval_samples_per_second": 266.605,
+      "eval_steps_per_second": 66.833,
+      "step": 100
+    },
+    {
+      "epoch": 0.009592744396965204,
+      "grad_norm": 6.273736000061035,
+      "learning_rate": 3.832752613240418e-06,
+      "loss": 2.8766,
+      "mean_token_accuracy": 0.4566536217927933,
+      "step": 110
+    },
+    {
+      "epoch": 0.010464812069416587,
+      "grad_norm": 9.404972076416016,
+      "learning_rate": 4.181184668989548e-06,
+      "loss": 2.8844,
+      "mean_token_accuracy": 0.451137475669384,
+      "step": 120
+    },
+    {
+      "epoch": 0.01133687974186797,
+      "grad_norm": 12.689948081970215,
+      "learning_rate": 4.529616724738676e-06,
+      "loss": 2.8375,
+      "mean_token_accuracy": 0.4530821919441223,
+      "step": 130
+    },
+    {
+      "epoch": 0.012208947414319351,
+      "grad_norm": 17.347368240356445,
+      "learning_rate": 4.8780487804878055e-06,
+      "loss": 2.7617,
+      "mean_token_accuracy": 0.4619985356926918,
+      "step": 140
+    },
+    {
+      "epoch": 0.013081015086770733,
+      "grad_norm": 13.873700141906738,
+      "learning_rate": 5.226480836236935e-06,
+      "loss": 2.7266,
+      "mean_token_accuracy": 0.4662426620721817,
+      "step": 150
+    },
+    {
+      "epoch": 0.013953082759222116,
+      "grad_norm": 11.277148246765137,
+      "learning_rate": 5.574912891986063e-06,
+      "loss": 2.7508,
+      "mean_token_accuracy": 0.46210860908031465,
+      "step": 160
+    },
+    {
+      "epoch": 0.014825150431673498,
+      "grad_norm": 18.343442916870117,
+      "learning_rate": 5.923344947735193e-06,
+      "loss": 2.7602,
+      "mean_token_accuracy": 0.4614114463329315,
+      "step": 170
+    },
+    {
+      "epoch": 0.01569721810412488,
+      "grad_norm": 8.960555076599121,
+      "learning_rate": 6.27177700348432e-06,
+      "loss": 2.6992,
+      "mean_token_accuracy": 0.46870107650756837,
+      "step": 180
+    },
+    {
+      "epoch": 0.01656928577657626,
+      "grad_norm": 6.929897308349609,
+      "learning_rate": 6.62020905923345e-06,
+      "loss": 2.7313,
+      "mean_token_accuracy": 0.4594667300581932,
+      "step": 190
+    },
+    {
+      "epoch": 0.017441353449027645,
+      "grad_norm": 6.672097206115723,
+      "learning_rate": 6.96864111498258e-06,
+      "loss": 2.6555,
+      "mean_token_accuracy": 0.476895797252655,
+      "step": 200
+    },
+    {
+      "epoch": 0.017441353449027645,
+      "eval_runtime": 4.0899,
+      "eval_samples_per_second": 268.22,
+      "eval_steps_per_second": 67.238,
+      "step": 200
+    },
+    {
+      "epoch": 0.018313421121479028,
+      "grad_norm": 5.700255393981934,
+      "learning_rate": 7.317073170731707e-06,
+      "loss": 2.7086,
+      "mean_token_accuracy": 0.4632338538765907,
+      "step": 210
+    },
+    {
+      "epoch": 0.019185488793930408,
+      "grad_norm": 3.922362804412842,
+      "learning_rate": 7.665505226480837e-06,
+      "loss": 2.6164,
+      "mean_token_accuracy": 0.47902397215366366,
+      "step": 220
+    },
+    {
+      "epoch": 0.02005755646638179,
+      "grad_norm": 3.947789192199707,
+      "learning_rate": 8.013937282229966e-06,
+      "loss": 2.625,
+      "mean_token_accuracy": 0.4705968677997589,
+      "step": 230
+    },
+    {
+      "epoch": 0.020929624138833175,
+      "grad_norm": 8.670129776000977,
+      "learning_rate": 8.362369337979095e-06,
+      "loss": 2.6398,
+      "mean_token_accuracy": 0.46730675250291825,
+      "step": 240
+    },
+    {
+      "epoch": 0.021801691811284555,
+      "grad_norm": 3.2554168701171875,
+      "learning_rate": 8.710801393728223e-06,
+      "loss": 2.5383,
+      "mean_token_accuracy": 0.4835616409778595,
+      "step": 250
+    },
+    {
+      "epoch": 0.02267375948373594,
+      "grad_norm": 2.8314220905303955,
+      "learning_rate": 9.059233449477352e-06,
+      "loss": 2.5797,
+      "mean_token_accuracy": 0.4750244602560997,
+      "step": 260
+    },
+    {
+      "epoch": 0.023545827156187322,
+      "grad_norm": 2.4087440967559814,
+      "learning_rate": 9.407665505226482e-06,
+      "loss": 2.4922,
+      "mean_token_accuracy": 0.49085127413272855,
+      "step": 270
+    },
+    {
+      "epoch": 0.024417894828638702,
+      "grad_norm": 2.769911050796509,
+      "learning_rate": 9.756097560975611e-06,
+      "loss": 2.5422,
+      "mean_token_accuracy": 0.4785714283585548,
+      "step": 280
+    },
+    {
+      "epoch": 0.025289962501090085,
+      "grad_norm": 2.791604995727539,
+      "learning_rate": 1.0104529616724739e-05,
+      "loss": 2.5086,
+      "mean_token_accuracy": 0.4822040110826492,
+      "step": 290
+    },
+    {
+      "epoch": 0.026162030173541465,
+      "grad_norm": 2.704972267150879,
+      "learning_rate": 1.045296167247387e-05,
+      "loss": 2.5102,
+      "mean_token_accuracy": 0.4795988291501999,
+      "step": 300
+    },
+    {
+      "epoch": 0.026162030173541465,
+      "eval_runtime": 4.0813,
+      "eval_samples_per_second": 268.787,
+      "eval_steps_per_second": 67.38,
+      "step": 300
+    },
+    {
+      "epoch": 0.02703409784599285,
+      "grad_norm": 3.0186307430267334,
+      "learning_rate": 1.0801393728222997e-05,
+      "loss": 2.5078,
+      "mean_token_accuracy": 0.4815802350640297,
+      "step": 310
+    },
+    {
+      "epoch": 0.027906165518444232,
+      "grad_norm": 2.475856304168701,
+      "learning_rate": 1.1149825783972127e-05,
+      "loss": 2.5023,
+      "mean_token_accuracy": 0.47424168437719344,
+      "step": 320
+    },
+    {
+      "epoch": 0.028778233190895612,
+      "grad_norm": 4.115312099456787,
+      "learning_rate": 1.1498257839721256e-05,
+      "loss": 2.4344,
+      "mean_token_accuracy": 0.4911325842142105,
+      "step": 330
+    },
+    {
+      "epoch": 0.029650300863346996,
+      "grad_norm": 2.9208383560180664,
+      "learning_rate": 1.1846689895470385e-05,
+      "loss": 2.4531,
+      "mean_token_accuracy": 0.49026418924331666,
+      "step": 340
+    },
+    {
+      "epoch": 0.03052236853579838,
+      "grad_norm": 2.760439395904541,
+      "learning_rate": 1.2195121951219513e-05,
+      "loss": 2.4133,
+      "mean_token_accuracy": 0.49324853271245955,
+      "step": 350
+    },
+    {
+      "epoch": 0.03139443620824976,
+      "grad_norm": 2.626922130584717,
+      "learning_rate": 1.254355400696864e-05,
+      "loss": 2.4203,
+      "mean_token_accuracy": 0.4946550831198692,
+      "step": 360
+    },
+    {
+      "epoch": 0.03226650388070114,
+      "grad_norm": 2.866455316543579,
+      "learning_rate": 1.2891986062717772e-05,
+      "loss": 2.4109,
+      "mean_token_accuracy": 0.49146282225847243,
+      "step": 370
+    },
+    {
+      "epoch": 0.03313857155315252,
+      "grad_norm": 3.003437042236328,
+      "learning_rate": 1.32404181184669e-05,
+      "loss": 2.3906,
+      "mean_token_accuracy": 0.49352983981370924,
+      "step": 380
+    },
+    {
+      "epoch": 0.034010639225603906,
+      "grad_norm": 2.803565263748169,
+      "learning_rate": 1.3588850174216028e-05,
+      "loss": 2.3805,
+      "mean_token_accuracy": 0.5005626231431961,
+      "step": 390
+    },
+    {
+      "epoch": 0.03488270689805529,
+      "grad_norm": 2.4779348373413086,
+      "learning_rate": 1.393728222996516e-05,
+      "loss": 2.3168,
+      "mean_token_accuracy": 0.5088918745517731,
+      "step": 400
+    },
+    {
+      "epoch": 0.03488270689805529,
+      "eval_runtime": 4.0964,
+      "eval_samples_per_second": 267.798,
+      "eval_steps_per_second": 67.133,
+      "step": 400
+    },
+    {
+      "epoch": 0.03575477457050667,
+      "grad_norm": 2.852496862411499,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 2.3742,
+      "mean_token_accuracy": 0.49708903580904007,
+      "step": 410
+    },
+    {
+      "epoch": 0.036626842242958056,
+      "grad_norm": 2.6764421463012695,
+      "learning_rate": 1.4634146341463415e-05,
+      "loss": 2.3203,
+      "mean_token_accuracy": 0.5075097888708114,
+      "step": 420
+    },
+    {
+      "epoch": 0.03749890991540943,
+      "grad_norm": 2.5645339488983154,
+      "learning_rate": 1.4982578397212544e-05,
+      "loss": 2.3375,
+      "mean_token_accuracy": 0.5012964725494384,
+      "step": 430
+    },
+    {
+      "epoch": 0.038370977587860816,
+      "grad_norm": 3.382863759994507,
+      "learning_rate": 1.5331010452961673e-05,
+      "loss": 2.3125,
+      "mean_token_accuracy": 0.5063478454947472,
+      "step": 440
+    },
+    {
+      "epoch": 0.0392430452603122,
+      "grad_norm": 2.7387797832489014,
+      "learning_rate": 1.5679442508710803e-05,
+      "loss": 2.2758,
+      "mean_token_accuracy": 0.5121942207217216,
+      "step": 450
+    },
+    {
+      "epoch": 0.04011511293276358,
+      "grad_norm": 2.809790849685669,
+      "learning_rate": 1.6027874564459932e-05,
+      "loss": 2.2953,
+      "mean_token_accuracy": 0.5054916888475418,
+      "step": 460
+    },
+    {
+      "epoch": 0.040987180605214966,
+      "grad_norm": 2.2248854637145996,
+      "learning_rate": 1.637630662020906e-05,
+      "loss": 2.3219,
+      "mean_token_accuracy": 0.5051492154598236,
+      "step": 470
+    },
+    {
+      "epoch": 0.04185924827766635,
+      "grad_norm": 2.1804261207580566,
+      "learning_rate": 1.672473867595819e-05,
+      "loss": 2.2859,
+      "mean_token_accuracy": 0.5125611573457718,
+      "step": 480
+    },
+    {
+      "epoch": 0.042731315950117726,
+      "grad_norm": 2.3304409980773926,
+      "learning_rate": 1.7073170731707317e-05,
+      "loss": 2.2621,
+      "mean_token_accuracy": 0.5109833672642707,
+      "step": 490
+    },
+    {
+      "epoch": 0.04360338362256911,
+      "grad_norm": 2.4848010540008545,
+      "learning_rate": 1.7421602787456446e-05,
+      "loss": 2.3117,
+      "mean_token_accuracy": 0.5048434436321259,
+      "step": 500
+    },
+    {
+      "epoch": 0.04360338362256911,
+      "eval_runtime": 4.0941,
+      "eval_samples_per_second": 267.946,
+      "eval_steps_per_second": 67.17,
+      "step": 500
+    },
+    {
+      "epoch": 0.04447545129502049,
+      "grad_norm": 2.473914623260498,
+      "learning_rate": 1.7770034843205575e-05,
+      "loss": 2.2977,
+      "mean_token_accuracy": 0.5050635993480682,
+      "step": 510
+    },
+    {
+      "epoch": 0.04534751896747188,
+      "grad_norm": 2.530372142791748,
+      "learning_rate": 1.8118466898954705e-05,
+      "loss": 2.2805,
+      "mean_token_accuracy": 0.5075097844004631,
+      "step": 520
+    },
+    {
+      "epoch": 0.04621958663992326,
+      "grad_norm": 3.098284959793091,
+      "learning_rate": 1.8466898954703834e-05,
+      "loss": 2.307,
+      "mean_token_accuracy": 0.5051003009080887,
+      "step": 530
+    },
+    {
+      "epoch": 0.047091654312374644,
+      "grad_norm": 2.2857539653778076,
+      "learning_rate": 1.8815331010452963e-05,
+      "loss": 2.2883,
+      "mean_token_accuracy": 0.5091365054249763,
+      "step": 540
+    },
+    {
+      "epoch": 0.04796372198482602,
+      "grad_norm": 2.7540576457977295,
+      "learning_rate": 1.9163763066202093e-05,
+      "loss": 2.2352,
+      "mean_token_accuracy": 0.5152764156460762,
+      "step": 550
+    },
+    {
+      "epoch": 0.048835789657277404,
+      "grad_norm": 2.501436233520508,
+      "learning_rate": 1.9512195121951222e-05,
+      "loss": 2.2785,
+      "mean_token_accuracy": 0.508378179371357,
+      "step": 560
+    },
+    {
+      "epoch": 0.04970785732972879,
+      "grad_norm": 2.658519983291626,
+      "learning_rate": 1.9860627177700348e-05,
+      "loss": 2.2617,
+      "mean_token_accuracy": 0.5109222128987312,
+      "step": 570
+    },
+    {
+      "epoch": 0.05057992500218017,
+      "grad_norm": 2.585157871246338,
+      "learning_rate": 1.9999933277491715e-05,
+      "loss": 2.243,
+      "mean_token_accuracy": 0.516621820628643,
+      "step": 580
+    },
+    {
+      "epoch": 0.051451992674631554,
+      "grad_norm": 2.668612480163574,
+      "learning_rate": 1.999952553205438e-05,
+      "loss": 2.2328,
+      "mean_token_accuracy": 0.515936890244484,
+      "step": 590
+    },
+    {
+      "epoch": 0.05232406034708293,
+      "grad_norm": 2.563499927520752,
+      "learning_rate": 1.999874712433585e-05,
+      "loss": 2.1949,
+      "mean_token_accuracy": 0.525648233294487,
+      "step": 600
+    },
+    {
+      "epoch": 0.05232406034708293,
+      "eval_runtime": 4.0875,
+      "eval_samples_per_second": 268.377,
+      "eval_steps_per_second": 67.278,
+      "step": 600
+    },
+    {
+      "epoch": 0.053196128019534314,
+      "grad_norm": 2.2233502864837646,
+      "learning_rate": 1.999759808319013e-05,
+      "loss": 2.198,
+      "mean_token_accuracy": 0.5231653615832329,
+      "step": 610
+    },
+    {
+      "epoch": 0.0540681956919857,
+      "grad_norm": 2.592988967895508,
+      "learning_rate": 1.9996078451209863e-05,
+      "loss": 2.2395,
+      "mean_token_accuracy": 0.514420248568058,
+      "step": 620
+    },
+    {
+      "epoch": 0.05494026336443708,
+      "grad_norm": 2.5479214191436768,
+      "learning_rate": 1.999418828472475e-05,
+      "loss": 2.2297,
+      "mean_token_accuracy": 0.5147994101047516,
+      "step": 630
+    },
+    {
+      "epoch": 0.055812331036888464,
+      "grad_norm": 2.3214004039764404,
+      "learning_rate": 1.9991927653799458e-05,
+      "loss": 2.1664,
+      "mean_token_accuracy": 0.5280332669615746,
+      "step": 640
+    },
+    {
+      "epoch": 0.05668439870933985,
+      "grad_norm": 2.183429002761841,
+      "learning_rate": 1.998929664223102e-05,
+      "loss": 2.2062,
+      "mean_token_accuracy": 0.5173067569732666,
+      "step": 650
+    },
+    {
+      "epoch": 0.057556466381791224,
+      "grad_norm": 2.5746781826019287,
+      "learning_rate": 1.9986295347545738e-05,
+      "loss": 2.1824,
+      "mean_token_accuracy": 0.5247309163212777,
+      "step": 660
+    },
+    {
+      "epoch": 0.05842853405424261,
+      "grad_norm": 2.3568668365478516,
+      "learning_rate": 1.998292388099557e-05,
+      "loss": 2.2656,
+      "mean_token_accuracy": 0.5104941308498383,
+      "step": 670
+    },
+    {
+      "epoch": 0.05930060172669399,
+      "grad_norm": 2.1310341358184814,
+      "learning_rate": 1.9979182367553994e-05,
+      "loss": 2.1855,
+      "mean_token_accuracy": 0.5254403069615364,
+      "step": 680
+    },
+    {
+      "epoch": 0.060172669399145375,
+      "grad_norm": 2.3862550258636475,
+      "learning_rate": 1.997507094591137e-05,
+      "loss": 2.1898,
+      "mean_token_accuracy": 0.5196428626775742,
+      "step": 690
+    },
+    {
+      "epoch": 0.06104473707159676,
+      "grad_norm": 2.506866931915283,
+      "learning_rate": 1.9970589768469833e-05,
+      "loss": 2.216,
+      "mean_token_accuracy": 0.5200587093830109,
+      "step": 700
+    },
+    {
+      "epoch": 0.06104473707159676,
+      "eval_runtime": 4.0966,
+      "eval_samples_per_second": 267.786,
+      "eval_steps_per_second": 67.129,
+      "step": 700
+    },
+    {
+      "epoch": 0.06191680474404814,
+      "grad_norm": 2.2180984020233154,
+      "learning_rate": 1.996573900133761e-05,
+      "loss": 2.1742,
+      "mean_token_accuracy": 0.5204133987426758,
+      "step": 710
+    },
+    {
+      "epoch": 0.06278887241649952,
+      "grad_norm": 2.4005072116851807,
+      "learning_rate": 1.996051882432286e-05,
+      "loss": 2.1625,
+      "mean_token_accuracy": 0.5273116439580917,
+      "step": 720
+    },
+    {
+      "epoch": 0.0636609400889509,
+      "grad_norm": 2.260364294052124,
+      "learning_rate": 1.995492943092705e-05,
+      "loss": 2.1422,
+      "mean_token_accuracy": 0.5257705479860306,
+      "step": 730
+    },
+    {
+      "epoch": 0.06453300776140228,
+      "grad_norm": 2.158372640609741,
+      "learning_rate": 1.9948971028337737e-05,
+      "loss": 2.1773,
+      "mean_token_accuracy": 0.5222725048661232,
+      "step": 740
+    },
+    {
+      "epoch": 0.06540507543385367,
+      "grad_norm": 2.3536641597747803,
+      "learning_rate": 1.9942643837420904e-05,
+      "loss": 2.1754,
+      "mean_token_accuracy": 0.5249021515250206,
+      "step": 750
+    },
+    {
+      "epoch": 0.06627714310630504,
+      "grad_norm": 2.374206066131592,
+      "learning_rate": 1.9935948092712792e-05,
+      "loss": 2.1254,
+      "mean_token_accuracy": 0.5323140889406204,
+      "step": 760
+    },
+    {
+      "epoch": 0.06714921077875644,
+      "grad_norm": 2.4303531646728516,
+      "learning_rate": 1.992888404241117e-05,
+      "loss": 2.2102,
+      "mean_token_accuracy": 0.5182363063097,
+      "step": 770
+    },
+    {
+      "epoch": 0.06802127845120781,
+      "grad_norm": 2.266817092895508,
+      "learning_rate": 1.992145194836616e-05,
+      "loss": 2.168,
+      "mean_token_accuracy": 0.5266511738300323,
+      "step": 780
+    },
+    {
+      "epoch": 0.0688933461236592,
+      "grad_norm": 2.6725378036499023,
+      "learning_rate": 1.9913652086070535e-05,
+      "loss": 2.1617,
+      "mean_token_accuracy": 0.5230308219790458,
+      "step": 790
+    },
+    {
+      "epoch": 0.06976541379611058,
+      "grad_norm": 2.221536874771118,
+      "learning_rate": 1.9905484744649484e-05,
+      "loss": 2.2039,
+      "mean_token_accuracy": 0.5158145785331726,
+      "step": 800
+    },
+    {
+      "epoch": 0.06976541379611058,
+      "eval_runtime": 4.0799,
+      "eval_samples_per_second": 268.88,
+      "eval_steps_per_second": 67.404,
+      "step": 800
+    },
+    {
+      "epoch": 0.07063748146856196,
+      "grad_norm": 2.5027382373809814,
+      "learning_rate": 1.989695022684991e-05,
+      "loss": 2.1441,
+      "mean_token_accuracy": 0.5249999985098839,
+      "step": 810
+    },
+    {
+      "epoch": 0.07150954914101335,
+      "grad_norm": 2.2361056804656982,
+      "learning_rate": 1.988804884902921e-05,
+      "loss": 2.1254,
+      "mean_token_accuracy": 0.5334760263562203,
+      "step": 820
+    },
+    {
+      "epoch": 0.07238161681346472,
+      "grad_norm": 2.2107291221618652,
+      "learning_rate": 1.9878780941143538e-05,
+      "loss": 2.1406,
+      "mean_token_accuracy": 0.5259662419557571,
+      "step": 830
+    },
+    {
+      "epoch": 0.07325368448591611,
+      "grad_norm": 2.1947028636932373,
+      "learning_rate": 1.9869146846735576e-05,
+      "loss": 2.1145,
+      "mean_token_accuracy": 0.5310420781373978,
+      "step": 840
+    },
+    {
+      "epoch": 0.07412575215836749,
+      "grad_norm": 2.0034220218658447,
+      "learning_rate": 1.985914692292182e-05,
+      "loss": 2.159,
+      "mean_token_accuracy": 0.5246453016996384,
+      "step": 850
+    },
+    {
+      "epoch": 0.07499781983081887,
+      "grad_norm": 2.0088765621185303,
+      "learning_rate": 1.9848781540379312e-05,
+      "loss": 2.109,
+      "mean_token_accuracy": 0.5350293487310409,
+      "step": 860
+    },
+    {
+      "epoch": 0.07586988750327026,
+      "grad_norm": 2.2562777996063232,
+      "learning_rate": 1.983805108333191e-05,
+      "loss": 2.1594,
+      "mean_token_accuracy": 0.5257460832595825,
+      "step": 870
+    },
+    {
+      "epoch": 0.07674195517572163,
+      "grad_norm": 2.2073802947998047,
+      "learning_rate": 1.9826955949536062e-05,
+      "loss": 2.1336,
+      "mean_token_accuracy": 0.5285591945052147,
+      "step": 880
+    },
+    {
+      "epoch": 0.07761402284817302,
+      "grad_norm": 1.9717388153076172,
+      "learning_rate": 1.9815496550266036e-05,
+      "loss": 2.1453,
+      "mean_token_accuracy": 0.5289995044469833,
+      "step": 890
+    },
+    {
+      "epoch": 0.0784860905206244,
+      "grad_norm": 2.2082736492156982,
+      "learning_rate": 1.98036733102987e-05,
+      "loss": 2.1738,
+      "mean_token_accuracy": 0.5225561872124672,
+      "step": 900
+    },
+    {
+      "epoch": 0.0784860905206244,
+      "eval_runtime": 4.0793,
+      "eval_samples_per_second": 268.916,
+      "eval_steps_per_second": 67.413,
+      "step": 900
+    },
+    {
+      "epoch": 0.07935815819307579,
+      "grad_norm": 2.0694751739501953,
+      "learning_rate": 1.979148666789775e-05,
+      "loss": 2.1297,
+      "mean_token_accuracy": 0.5318370833992958,
+      "step": 910
+    },
+    {
+      "epoch": 0.08023022586552717,
+      "grad_norm": 2.11228346824646,
+      "learning_rate": 1.9778937074797494e-05,
+      "loss": 2.1348,
+      "mean_token_accuracy": 0.5269605636596679,
+      "step": 920
+    },
+    {
+      "epoch": 0.08110229353797854,
+      "grad_norm": 1.9903819561004639,
+      "learning_rate": 1.976602499618608e-05,
+      "loss": 2.1156,
+      "mean_token_accuracy": 0.5305161446332931,
+      "step": 930
+    },
+    {
+      "epoch": 0.08197436121042993,
+      "grad_norm": 2.335895538330078,
+      "learning_rate": 1.9752750910688278e-05,
+      "loss": 2.127,
+      "mean_token_accuracy": 0.5351394325494766,
+      "step": 940
+    },
+    {
+      "epoch": 0.08284642888288131,
+      "grad_norm": 2.282573938369751,
+      "learning_rate": 1.9739115310347698e-05,
+      "loss": 2.0879,
+      "mean_token_accuracy": 0.5351516619324684,
+      "step": 950
+    },
+    {
+      "epoch": 0.0837184965553327,
+      "grad_norm": 2.094139814376831,
+      "learning_rate": 1.972511870060861e-05,
+      "loss": 2.1539,
+      "mean_token_accuracy": 0.5238869935274124,
+      "step": 960
+    },
+    {
+      "epoch": 0.08459056422778408,
+      "grad_norm": 2.2499539852142334,
+      "learning_rate": 1.9710761600297147e-05,
+      "loss": 2.1316,
+      "mean_token_accuracy": 0.5300513654947281,
+      "step": 970
+    },
+    {
+      "epoch": 0.08546263190023545,
+      "grad_norm": 2.038626194000244,
+      "learning_rate": 1.9696044541602126e-05,
+      "loss": 2.1668,
+      "mean_token_accuracy": 0.5199486300349235,
+      "step": 980
+    },
+    {
+      "epoch": 0.08633469957268684,
+      "grad_norm": 2.06842303276062,
+      "learning_rate": 1.968096807005528e-05,
+      "loss": 2.1141,
+      "mean_token_accuracy": 0.5352862074971199,
+      "step": 990
+    },
+    {
+      "epoch": 0.08720676724513822,
+      "grad_norm": 1.8886855840682983,
+      "learning_rate": 1.966553274451106e-05,
+      "loss": 2.0754,
+      "mean_token_accuracy": 0.5416462823748589,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08720676724513822,
+      "eval_runtime": 4.0932,
+      "eval_samples_per_second": 268.008,
+      "eval_steps_per_second": 67.185,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08807883491758961,
+      "grad_norm": 2.0366406440734863,
+      "learning_rate": 1.964973913712591e-05,
+      "loss": 2.1184,
+      "mean_token_accuracy": 0.5309564560651779,
+      "step": 1010
+    },
+    {
+      "epoch": 0.08895090259004099,
+      "grad_norm": 2.1524252891540527,
+      "learning_rate": 1.9633587833337064e-05,
+      "loss": 2.0801,
+      "mean_token_accuracy": 0.5336472600698471,
+      "step": 1020
+    },
+    {
+      "epoch": 0.08982297026249236,
+      "grad_norm": 2.390187978744507,
+      "learning_rate": 1.961707943184083e-05,
+      "loss": 2.1164,
+      "mean_token_accuracy": 0.5267612487077713,
+      "step": 1030
+    },
+    {
+      "epoch": 0.09069503793494375,
+      "grad_norm": 2.111487627029419,
+      "learning_rate": 1.9600214544570432e-05,
+      "loss": 2.0734,
+      "mean_token_accuracy": 0.539567020535469,
+      "step": 1040
+    },
+    {
+      "epoch": 0.09156710560739513,
+      "grad_norm": 2.078021287918091,
+      "learning_rate": 1.958299379667328e-05,
+      "loss": 2.1063,
+      "mean_token_accuracy": 0.5260029315948487,
+      "step": 1050
+    },
+    {
+      "epoch": 0.09243917327984652,
+      "grad_norm": 1.886529564857483,
+      "learning_rate": 1.9565417826487835e-05,
+      "loss": 2.0305,
+      "mean_token_accuracy": 0.5494373708963394,
+      "step": 1060
+    },
+    {
+      "epoch": 0.0933112409522979,
+      "grad_norm": 2.315904140472412,
+      "learning_rate": 1.9547487285519922e-05,
+      "loss": 2.1324,
+      "mean_token_accuracy": 0.5291678056120872,
+      "step": 1070
+    },
+    {
+      "epoch": 0.09418330862474929,
+      "grad_norm": 1.985088586807251,
+      "learning_rate": 1.952920283841861e-05,
+      "loss": 2.1047,
+      "mean_token_accuracy": 0.533170260488987,
+      "step": 1080
+    },
+    {
+      "epoch": 0.09505537629720066,
+      "grad_norm": 1.998026728630066,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 2.082,
+      "mean_token_accuracy": 0.533549402654171,
+      "step": 1090
+    },
+    {
+      "epoch": 0.09592744396965204,
+      "grad_norm": 2.08966326713562,
+      "learning_rate": 1.9491574949979814e-05,
+      "loss": 2.1031,
+      "mean_token_accuracy": 0.534796966612339,
+      "step": 1100
+    },
+    {
+      "epoch": 0.09592744396965204,
+      "eval_runtime": 4.093,
+      "eval_samples_per_second": 268.018,
+      "eval_steps_per_second": 67.188,
+      "step": 1100
+    },
+    {
+      "epoch": 0.09679951164210343,
+      "grad_norm": 2.154848575592041,
+      "learning_rate": 1.9472232903432406e-05,
+      "loss": 2.0398,
+      "mean_token_accuracy": 0.5479085132479667,
+      "step": 1110
+    },
+    {
+      "epoch": 0.09767157931455481,
+      "grad_norm": 1.974173665046692,
+      "learning_rate": 1.945253974028004e-05,
+      "loss": 2.0895,
+      "mean_token_accuracy": 0.5327544078230858,
+      "step": 1120
+    },
+    {
+      "epoch": 0.0985436469870062,
+      "grad_norm": 2.005913257598877,
+      "learning_rate": 1.9432496190508633e-05,
+      "loss": 2.0445,
+      "mean_token_accuracy": 0.5410469681024551,
+      "step": 1130
+    },
+    {
+      "epoch": 0.09941571465945757,
+      "grad_norm": 1.9923633337020874,
+      "learning_rate": 1.941210299709222e-05,
+      "loss": 2.0875,
+      "mean_token_accuracy": 0.5345401093363762,
+      "step": 1140
+    },
+    {
+      "epoch": 0.10028778233190895,
+      "grad_norm": 1.9088701009750366,
+      "learning_rate": 1.9391360915965426e-05,
+      "loss": 2.0762,
+      "mean_token_accuracy": 0.5394814103841782,
+      "step": 1150
+    },
+    {
+      "epoch": 0.10115985000436034,
+      "grad_norm": 2.402848482131958,
+      "learning_rate": 1.9370270715995447e-05,
+      "loss": 2.1145,
+      "mean_token_accuracy": 0.5307363018393516,
+      "step": 1160
+    },
+    {
+      "epoch": 0.10203191767681172,
+      "grad_norm": 2.3139448165893555,
+      "learning_rate": 1.934883317895354e-05,
+      "loss": 2.0543,
+      "mean_token_accuracy": 0.5443982392549515,
+      "step": 1170
+    },
+    {
+      "epoch": 0.10290398534926311,
+      "grad_norm": 2.0338592529296875,
+      "learning_rate": 1.932704909948604e-05,
+      "loss": 2.0898,
+      "mean_token_accuracy": 0.5323018610477448,
+      "step": 1180
+    },
+    {
+      "epoch": 0.10377605302171448,
+      "grad_norm": 1.8027479648590088,
+      "learning_rate": 1.930491928508492e-05,
+      "loss": 2.0109,
+      "mean_token_accuracy": 0.5482876777648926,
+      "step": 1190
+    },
+    {
+      "epoch": 0.10464812069416586,
+      "grad_norm": 1.8102346658706665,
+      "learning_rate": 1.9282444556057855e-05,
+      "loss": 2.0559,
+      "mean_token_accuracy": 0.5385151654481888,
+      "step": 1200
+    },
+    {
+      "epoch": 0.10464812069416586,
+      "eval_runtime": 4.0911,
+      "eval_samples_per_second": 268.144,
+      "eval_steps_per_second": 67.219,
+      "step": 1200
+    },
+    {
+      "epoch": 0.10552018836661725,
+      "grad_norm": 2.1177432537078857,
+      "learning_rate": 1.9259625745497803e-05,
+      "loss": 2.0148,
+      "mean_token_accuracy": 0.5481898218393326,
+      "step": 1210
+    },
+    {
+      "epoch": 0.10639225603906863,
+      "grad_norm": 1.9435949325561523,
+      "learning_rate": 1.9236463699252136e-05,
+      "loss": 2.0629,
+      "mean_token_accuracy": 0.5404109612107277,
+      "step": 1220
+    },
+    {
+      "epoch": 0.10726432371152002,
+      "grad_norm": 2.074747085571289,
+      "learning_rate": 1.921295927589127e-05,
+      "loss": 2.0172,
+      "mean_token_accuracy": 0.5436521500349045,
+      "step": 1230
+    },
+    {
+      "epoch": 0.1081363913839714,
+      "grad_norm": 2.03115177154541,
+      "learning_rate": 1.9189113346676878e-05,
+      "loss": 2.0512,
+      "mean_token_accuracy": 0.5414138853549957,
+      "step": 1240
+    },
+    {
+      "epoch": 0.10900845905642279,
+      "grad_norm": 1.9985569715499878,
+      "learning_rate": 1.916492679552954e-05,
+      "loss": 2.0254,
+      "mean_token_accuracy": 0.5437255263328552,
+      "step": 1250
+    },
+    {
+      "epoch": 0.10988052672887416,
+      "grad_norm": 2.2252185344696045,
+      "learning_rate": 1.914040051899602e-05,
+      "loss": 2.0141,
+      "mean_token_accuracy": 0.5530821919441223,
+      "step": 1260
+    },
+    {
+      "epoch": 0.11075259440132554,
+      "grad_norm": 1.8892325162887573,
+      "learning_rate": 1.9115535426216018e-05,
+      "loss": 2.0156,
+      "mean_token_accuracy": 0.5499510824680328,
+      "step": 1270
+    },
+    {
+      "epoch": 0.11162466207377693,
+      "grad_norm": 1.7789946794509888,
+      "learning_rate": 1.9090332438888458e-05,
+      "loss": 2.027,
+      "mean_token_accuracy": 0.5451076358556748,
+      "step": 1280
+    },
+    {
+      "epoch": 0.1124967297462283,
+      "grad_norm": 1.7884410619735718,
+      "learning_rate": 1.906479249123735e-05,
+      "loss": 2.0156,
+      "mean_token_accuracy": 0.5463307216763497,
+      "step": 1290
+    },
+    {
+      "epoch": 0.1133687974186797,
+      "grad_norm": 1.8309537172317505,
+      "learning_rate": 1.9038916529977136e-05,
+      "loss": 2.0625,
+      "mean_token_accuracy": 0.541059197485447,
+      "step": 1300
+    },
+    {
+      "epoch": 0.1133687974186797,
+      "eval_runtime": 4.0859,
+      "eval_samples_per_second": 268.486,
+      "eval_steps_per_second": 67.305,
+      "step": 1300
+    },
+    {
+      "epoch": 0.11424086509113107,
+      "grad_norm": 1.9085613489151,
+      "learning_rate": 1.901270551427761e-05,
+      "loss": 2.0309,
+      "mean_token_accuracy": 0.5424412995576858,
+      "step": 1310
+    },
+    {
+      "epoch": 0.11511293276358245,
+      "grad_norm": 1.9727972745895386,
+      "learning_rate": 1.898616041572836e-05,
+      "loss": 2.0727,
+      "mean_token_accuracy": 0.5358610570430755,
+      "step": 1320
+    },
+    {
+      "epoch": 0.11598500043603384,
+      "grad_norm": 1.707030177116394,
+      "learning_rate": 1.8959282218302746e-05,
+      "loss": 1.9707,
+      "mean_token_accuracy": 0.5605675145983696,
+      "step": 1330
+    },
+    {
+      "epoch": 0.11685706810848522,
+      "grad_norm": 2.2144105434417725,
+      "learning_rate": 1.893207191832144e-05,
+      "loss": 2.0105,
+      "mean_token_accuracy": 0.5472480446100235,
+      "step": 1340
+    },
+    {
+      "epoch": 0.1177291357809366,
+      "grad_norm": 2.021352529525757,
+      "learning_rate": 1.8904530524415483e-05,
+      "loss": 2.0809,
+      "mean_token_accuracy": 0.533280324935913,
+      "step": 1350
+    },
+    {
+      "epoch": 0.11860120345338798,
+      "grad_norm": 2.0539307594299316,
+      "learning_rate": 1.8876659057488905e-05,
+      "loss": 2.0039,
+      "mean_token_accuracy": 0.5503424674272537,
+      "step": 1360
+    },
+    {
+      "epoch": 0.11947327112583936,
+      "grad_norm": 2.1200454235076904,
+      "learning_rate": 1.8848458550680875e-05,
+      "loss": 2.0027,
+      "mean_token_accuracy": 0.5509173214435578,
+      "step": 1370
+    },
+    {
+      "epoch": 0.12034533879829075,
+      "grad_norm": 1.8671112060546875,
+      "learning_rate": 1.8819930049327412e-05,
+      "loss": 2.0055,
+      "mean_token_accuracy": 0.5503302395343781,
+      "step": 1380
+    },
+    {
+      "epoch": 0.12121740647074213,
+      "grad_norm": 1.9496164321899414,
+      "learning_rate": 1.8791074610922624e-05,
+      "loss": 2.0184,
+      "mean_token_accuracy": 0.5513209402561188,
+      "step": 1390
+    },
+    {
+      "epoch": 0.12208947414319352,
+      "grad_norm": 1.8682540655136108,
+      "learning_rate": 1.8761893305079528e-05,
+      "loss": 2.0645,
+      "mean_token_accuracy": 0.5349070489406585,
+      "step": 1400
+    },
+    {
+      "epoch": 0.12208947414319352,
+      "eval_runtime": 4.0891,
+      "eval_samples_per_second": 268.275,
+      "eval_steps_per_second": 67.252,
+      "step": 1400
+    },
+    {
+      "epoch": 0.12296154181564489,
+      "grad_norm": 2.0305871963500977,
+      "learning_rate": 1.873238721349038e-05,
+      "loss": 2.0207,
+      "mean_token_accuracy": 0.54487524330616,
+      "step": 1410
+    },
+    {
+      "epoch": 0.12383360948809628,
+      "grad_norm": 2.1415932178497314,
+      "learning_rate": 1.8702557429886607e-05,
+      "loss": 2.0352,
+      "mean_token_accuracy": 0.5416462823748589,
+      "step": 1420
+    },
+    {
+      "epoch": 0.12470567716054766,
+      "grad_norm": 2.2434582710266113,
+      "learning_rate": 1.8672405059998228e-05,
+      "loss": 1.9727,
+      "mean_token_accuracy": 0.5558341443538666,
+      "step": 1430
+    },
+    {
+      "epoch": 0.12557774483299905,
+      "grad_norm": 1.7249352931976318,
+      "learning_rate": 1.8641931221512895e-05,
+      "loss": 2.0516,
+      "mean_token_accuracy": 0.5391511768102646,
+      "step": 1440
+    },
+    {
+      "epoch": 0.12644981250545043,
+      "grad_norm": 2.067841053009033,
+      "learning_rate": 1.8611137044034454e-05,
+      "loss": 2.0187,
+      "mean_token_accuracy": 0.5488992154598236,
+      "step": 1450
+    },
+    {
+      "epoch": 0.1273218801779018,
+      "grad_norm": 1.9240036010742188,
+      "learning_rate": 1.858002366904107e-05,
+      "loss": 2.0129,
+      "mean_token_accuracy": 0.5490704476833344,
+      "step": 1460
+    },
+    {
+      "epoch": 0.12819394785035318,
+      "grad_norm": 1.75105881690979,
+      "learning_rate": 1.854859224984292e-05,
+      "loss": 2.0531,
+      "mean_token_accuracy": 0.5430528372526169,
+      "step": 1470
+    },
+    {
+      "epoch": 0.12906601552280456,
+      "grad_norm": 1.7874717712402344,
+      "learning_rate": 1.851684395153944e-05,
+      "loss": 2.0074,
+      "mean_token_accuracy": 0.5472480416297912,
+      "step": 1480
+    },
+    {
+      "epoch": 0.12993808319525596,
+      "grad_norm": 2.0042412281036377,
+      "learning_rate": 1.8484779950976133e-05,
+      "loss": 2.0863,
+      "mean_token_accuracy": 0.5330234810709953,
+      "step": 1490
+    },
+    {
+      "epoch": 0.13081015086770734,
+      "grad_norm": 1.8129173517227173,
+      "learning_rate": 1.8452401436700954e-05,
+      "loss": 2.0531,
+      "mean_token_accuracy": 0.538759782910347,
+      "step": 1500
+    },
+    {
+      "epoch": 0.13081015086770734,
+      "eval_runtime": 4.0904,
+      "eval_samples_per_second": 268.189,
+      "eval_steps_per_second": 67.231,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1316822185401587,
+      "grad_norm": 1.795745611190796,
+      "learning_rate": 1.8419709608920243e-05,
+      "loss": 2.0617,
+      "mean_token_accuracy": 0.5387597799301147,
+      "step": 1510
+    },
+    {
+      "epoch": 0.1325542862126101,
+      "grad_norm": 1.83107328414917,
+      "learning_rate": 1.8386705679454243e-05,
+      "loss": 1.9785,
+      "mean_token_accuracy": 0.5538282811641693,
+      "step": 1520
+    },
+    {
+      "epoch": 0.1334263538850615,
+      "grad_norm": 1.8500800132751465,
+      "learning_rate": 1.8353390871692176e-05,
+      "loss": 2.0379,
+      "mean_token_accuracy": 0.5416952073574066,
+      "step": 1530
+    },
+    {
+      "epoch": 0.13429842155751287,
+      "grad_norm": 1.7861286401748657,
+      "learning_rate": 1.8319766420546902e-05,
+      "loss": 2.023,
+      "mean_token_accuracy": 0.5422089010477066,
+      "step": 1540
+    },
+    {
+      "epoch": 0.13517048922996425,
+      "grad_norm": 1.8236924409866333,
+      "learning_rate": 1.8285833572409135e-05,
+      "loss": 2.0141,
+      "mean_token_accuracy": 0.5479941323399544,
+      "step": 1550
+    },
+    {
+      "epoch": 0.13604255690241562,
+      "grad_norm": 1.8954976797103882,
+      "learning_rate": 1.8251593585101243e-05,
+      "loss": 2.016,
+      "mean_token_accuracy": 0.5421477556228638,
+      "step": 1560
+    },
+    {
+      "epoch": 0.136914624574867,
+      "grad_norm": 1.7415026426315308,
+      "learning_rate": 1.821704772783063e-05,
+      "loss": 1.9969,
+      "mean_token_accuracy": 0.5512597829103469,
+      "step": 1570
+    },
+    {
+      "epoch": 0.1377866922473184,
+      "grad_norm": 1.6556979417800903,
+      "learning_rate": 1.818219728114267e-05,
+      "loss": 1.9957,
+      "mean_token_accuracy": 0.5486423671245575,
+      "step": 1580
+    },
+    {
+      "epoch": 0.13865875991976978,
+      "grad_norm": 1.6093050241470337,
+      "learning_rate": 1.8147043536873275e-05,
+      "loss": 2.0148,
+      "mean_token_accuracy": 0.5471379607915878,
+      "step": 1590
+    },
+    {
+      "epoch": 0.13953082759222116,
+      "grad_norm": 1.7889467477798462,
+      "learning_rate": 1.8111587798100974e-05,
+      "loss": 2.0305,
+      "mean_token_accuracy": 0.5468199610710144,
+      "step": 1600
+    },
+    {
+      "epoch": 0.13953082759222116,
+      "eval_runtime": 4.095,
+      "eval_samples_per_second": 267.891,
+      "eval_steps_per_second": 67.156,
+      "step": 1600
+    },
+    {
+      "epoch": 0.14040289526467253,
+      "grad_norm": 1.809481143951416,
+      "learning_rate": 1.807583137909862e-05,
+      "loss": 2.0063,
+      "mean_token_accuracy": 0.5502201586961746,
+      "step": 1610
+    },
+    {
+      "epoch": 0.1412749629371239,
+      "grad_norm": 1.8792319297790527,
+      "learning_rate": 1.8039775605284687e-05,
+      "loss": 1.9555,
+      "mean_token_accuracy": 0.5548312157392502,
+      "step": 1620
+    },
+    {
+      "epoch": 0.14214703060957531,
+      "grad_norm": 1.7202839851379395,
+      "learning_rate": 1.800342181317413e-05,
+      "loss": 2.0246,
+      "mean_token_accuracy": 0.5414016634225846,
+      "step": 1630
+    },
+    {
+      "epoch": 0.1430190982820267,
+      "grad_norm": 1.7062311172485352,
+      "learning_rate": 1.7966771350328825e-05,
+      "loss": 2.0168,
+      "mean_token_accuracy": 0.5433952987194062,
+      "step": 1640
+    },
+    {
+      "epoch": 0.14389116595447807,
+      "grad_norm": 1.8232218027114868,
+      "learning_rate": 1.7929825575307665e-05,
+      "loss": 2.0258,
+      "mean_token_accuracy": 0.5441658467054367,
+      "step": 1650
+    },
+    {
+      "epoch": 0.14476323362692944,
+      "grad_norm": 1.8427523374557495,
+      "learning_rate": 1.7892585857616144e-05,
+      "loss": 1.9937,
+      "mean_token_accuracy": 0.5491316005587578,
+      "step": 1660
+    },
+    {
+      "epoch": 0.14563530129938082,
+      "grad_norm": 1.8657242059707642,
+      "learning_rate": 1.785505357765563e-05,
+      "loss": 2.0148,
+      "mean_token_accuracy": 0.5445327788591385,
+      "step": 1670
+    },
+    {
+      "epoch": 0.14650736897183222,
+      "grad_norm": 1.589664101600647,
+      "learning_rate": 1.781723012667218e-05,
+      "loss": 1.9684,
+      "mean_token_accuracy": 0.5564212381839753,
+      "step": 1680
+    },
+    {
+      "epoch": 0.1473794366442836,
+      "grad_norm": 1.7547872066497803,
+      "learning_rate": 1.7779116906704986e-05,
+      "loss": 2.009,
+      "mean_token_accuracy": 0.5466242611408234,
+      "step": 1690
+    },
+    {
+      "epoch": 0.14825150431673498,
+      "grad_norm": 1.7682321071624756,
+      "learning_rate": 1.7740715330534383e-05,
+      "loss": 1.9891,
+      "mean_token_accuracy": 0.5518591061234475,
+      "step": 1700
+    },
+    {
+      "epoch": 0.14825150431673498,
+      "eval_runtime": 4.0897,
+      "eval_samples_per_second": 268.233,
+      "eval_steps_per_second": 67.242,
+      "step": 1700
+    },
+    {
+      "epoch": 0.14912357198918635,
+      "grad_norm": 1.9206633567810059,
+      "learning_rate": 1.770202682162949e-05,
+      "loss": 1.9539,
+      "mean_token_accuracy": 0.5583781778812409,
+      "step": 1710
+    },
+    {
+      "epoch": 0.14999563966163773,
+      "grad_norm": 1.6907927989959717,
+      "learning_rate": 1.7663052814095447e-05,
+      "loss": 1.9785,
+      "mean_token_accuracy": 0.5497431576251983,
+      "step": 1720
+    },
+    {
+      "epoch": 0.15086770733408914,
+      "grad_norm": 1.8036787509918213,
+      "learning_rate": 1.7623794752620255e-05,
+      "loss": 2.0391,
+      "mean_token_accuracy": 0.5395058691501617,
+      "step": 1730
+    },
+    {
+      "epoch": 0.1517397750065405,
+      "grad_norm": 1.7763701677322388,
+      "learning_rate": 1.7584254092421226e-05,
+      "loss": 2.0191,
+      "mean_token_accuracy": 0.5450587123632431,
+      "step": 1740
+    },
+    {
+      "epoch": 0.1526118426789919,
+      "grad_norm": 1.7862834930419922,
+      "learning_rate": 1.754443229919103e-05,
+      "loss": 1.9836,
+      "mean_token_accuracy": 0.5475905045866967,
+      "step": 1750
+    },
+    {
+      "epoch": 0.15348391035144326,
+      "grad_norm": 1.7891547679901123,
+      "learning_rate": 1.7504330849043373e-05,
+      "loss": 1.9965,
+      "mean_token_accuracy": 0.54887475669384,
+      "step": 1760
+    },
+    {
+      "epoch": 0.15435597802389464,
+      "grad_norm": 1.8181962966918945,
+      "learning_rate": 1.7463951228458288e-05,
+      "loss": 1.9965,
+      "mean_token_accuracy": 0.5471135050058364,
+      "step": 1770
+    },
+    {
+      "epoch": 0.15522804569634605,
+      "grad_norm": 1.6581006050109863,
+      "learning_rate": 1.7423294934227017e-05,
+      "loss": 2.0129,
+      "mean_token_accuracy": 0.543370833992958,
+      "step": 1780
+    },
+    {
+      "epoch": 0.15610011336879742,
+      "grad_norm": 1.7232521772384644,
+      "learning_rate": 1.7382363473396543e-05,
+      "loss": 2.0187,
+      "mean_token_accuracy": 0.546159490942955,
+      "step": 1790
+    },
+    {
+      "epoch": 0.1569721810412488,
+      "grad_norm": 1.7022972106933594,
+      "learning_rate": 1.734115836321372e-05,
+      "loss": 2.0207,
+      "mean_token_accuracy": 0.5500366926193238,
+      "step": 1800
+    },
+    {
+      "epoch": 0.1569721810412488,
+      "eval_runtime": 4.0834,
+      "eval_samples_per_second": 268.652,
+      "eval_steps_per_second": 67.347,
+      "step": 1800
+    },
+    {
+      "epoch": 0.15784424871370017,
+      "grad_norm": 1.8141206502914429,
+      "learning_rate": 1.7299681131069026e-05,
+      "loss": 1.9383,
+      "mean_token_accuracy": 0.5588184863328933,
+      "step": 1810
+    },
+    {
+      "epoch": 0.15871631638615158,
+      "grad_norm": 1.747899055480957,
+      "learning_rate": 1.725793331443996e-05,
+      "loss": 1.9492,
+      "mean_token_accuracy": 0.5605063617229462,
+      "step": 1820
+    },
+    {
+      "epoch": 0.15958838405860296,
+      "grad_norm": 1.6529823541641235,
+      "learning_rate": 1.7215916460834048e-05,
+      "loss": 2.0438,
+      "mean_token_accuracy": 0.5419153541326522,
+      "step": 1830
+    },
+    {
+      "epoch": 0.16046045173105433,
+      "grad_norm": 1.659896969795227,
+      "learning_rate": 1.7173632127731462e-05,
+      "loss": 2.0094,
+      "mean_token_accuracy": 0.544863010942936,
+      "step": 1840
+    },
+    {
+      "epoch": 0.1613325194035057,
+      "grad_norm": 1.7290623188018799,
+      "learning_rate": 1.7131081882527305e-05,
+      "loss": 1.9723,
+      "mean_token_accuracy": 0.551626718044281,
+      "step": 1850
+    },
+    {
+      "epoch": 0.16220458707595709,
+      "grad_norm": 1.8506168127059937,
+      "learning_rate": 1.708826730247351e-05,
+      "loss": 2.0238,
+      "mean_token_accuracy": 0.5429183006286621,
+      "step": 1860
+    },
+    {
+      "epoch": 0.1630766547484085,
+      "grad_norm": 1.7684937715530396,
+      "learning_rate": 1.704518997462037e-05,
+      "loss": 1.993,
+      "mean_token_accuracy": 0.5506360068917274,
+      "step": 1870
+    },
+    {
+      "epoch": 0.16394872242085987,
+      "grad_norm": 1.6402524709701538,
+      "learning_rate": 1.7001851495757708e-05,
+      "loss": 1.9516,
+      "mean_token_accuracy": 0.557167312502861,
+      "step": 1880
+    },
+    {
+      "epoch": 0.16482079009331124,
+      "grad_norm": 1.8503413200378418,
+      "learning_rate": 1.6958253472355687e-05,
+      "loss": 2.027,
+      "mean_token_accuracy": 0.5421355172991753,
+      "step": 1890
+    },
+    {
+      "epoch": 0.16569285776576262,
+      "grad_norm": 1.753427505493164,
+      "learning_rate": 1.6914397520505267e-05,
+      "loss": 2.0004,
+      "mean_token_accuracy": 0.5448997005820274,
+      "step": 1900
+    },
+    {
+      "epoch": 0.16569285776576262,
+      "eval_runtime": 4.0821,
+      "eval_samples_per_second": 268.731,
+      "eval_steps_per_second": 67.366,
+      "step": 1900
+    },
+    {
+      "epoch": 0.166564925438214,
+      "grad_norm": 1.6272205114364624,
+      "learning_rate": 1.6870285265858298e-05,
+      "loss": 1.9832,
+      "mean_token_accuracy": 0.5465875744819642,
+      "step": 1910
+    },
+    {
+      "epoch": 0.1674369931106654,
+      "grad_norm": 1.7397983074188232,
+      "learning_rate": 1.6825918343567257e-05,
+      "loss": 1.9766,
+      "mean_token_accuracy": 0.5532045066356659,
+      "step": 1920
+    },
+    {
+      "epoch": 0.16830906078311678,
+      "grad_norm": 1.591707468032837,
+      "learning_rate": 1.678129839822463e-05,
+      "loss": 1.9559,
+      "mean_token_accuracy": 0.5569227039813995,
+      "step": 1930
+    },
+    {
+      "epoch": 0.16918112845556815,
+      "grad_norm": 2.082350969314575,
+      "learning_rate": 1.673642708380198e-05,
+      "loss": 1.9668,
+      "mean_token_accuracy": 0.5507093966007233,
+      "step": 1940
+    },
+    {
+      "epoch": 0.17005319612801953,
+      "grad_norm": 1.788334608078003,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 1.9852,
+      "mean_token_accuracy": 0.5441046953201294,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1709252638004709,
+      "grad_norm": 1.6117647886276245,
+      "learning_rate": 1.6645937010129837e-05,
+      "loss": 1.9234,
+      "mean_token_accuracy": 0.5628913819789887,
+      "step": 1960
+    },
+    {
+      "epoch": 0.1717973314729223,
+      "grad_norm": 1.7404828071594238,
+      "learning_rate": 1.660032160516522e-05,
+      "loss": 1.9871,
+      "mean_token_accuracy": 0.5472969651222229,
+      "step": 1970
+    },
+    {
+      "epoch": 0.1726693991453737,
+      "grad_norm": 1.7610373497009277,
+      "learning_rate": 1.6554461539565953e-05,
+      "loss": 1.9852,
+      "mean_token_accuracy": 0.5505136966705322,
+      "step": 1980
+    },
+    {
+      "epoch": 0.17354146681782506,
+      "grad_norm": 1.7075769901275635,
+      "learning_rate": 1.650835851327236e-05,
+      "loss": 1.9492,
+      "mean_token_accuracy": 0.5550024449825287,
+      "step": 1990
+    },
+    {
+      "epoch": 0.17441353449027644,
+      "grad_norm": 1.6555006504058838,
+      "learning_rate": 1.6462014235230805e-05,
+      "loss": 1.9664,
+      "mean_token_accuracy": 0.5513454034924508,
+      "step": 2000
+    },
+    {
+      "epoch": 0.17441353449027644,
+      "eval_runtime": 4.0817,
+      "eval_samples_per_second": 268.76,
+      "eval_steps_per_second": 67.374,
+      "step": 2000
+    },
+    {
+      "epoch": 0.17528560216272782,
+      "grad_norm": 1.61020827293396,
+      "learning_rate": 1.641543042333038e-05,
+      "loss": 1.9262,
+      "mean_token_accuracy": 0.560702046751976,
+      "step": 2010
+    },
+    {
+      "epoch": 0.17615766983517922,
+      "grad_norm": 1.797007441520691,
+      "learning_rate": 1.636860880433922e-05,
+      "loss": 2.0184,
+      "mean_token_accuracy": 0.5454134061932564,
+      "step": 2020
+    },
+    {
+      "epoch": 0.1770297375076306,
+      "grad_norm": 1.764316201210022,
+      "learning_rate": 1.632155111384047e-05,
+      "loss": 2.0137,
+      "mean_token_accuracy": 0.5446917861700058,
+      "step": 2030
+    },
+    {
+      "epoch": 0.17790180518008197,
+      "grad_norm": 1.9471633434295654,
+      "learning_rate": 1.6274259096168e-05,
+      "loss": 1.9656,
+      "mean_token_accuracy": 0.5520547956228257,
+      "step": 2040
+    },
+    {
+      "epoch": 0.17877387285253335,
+      "grad_norm": 1.736385703086853,
+      "learning_rate": 1.622673450434169e-05,
+      "loss": 1.9652,
+      "mean_token_accuracy": 0.5534491121768952,
+      "step": 2050
+    },
+    {
+      "epoch": 0.17964594052498473,
+      "grad_norm": 1.6941977739334106,
+      "learning_rate": 1.6178979100002486e-05,
+      "loss": 1.9734,
+      "mean_token_accuracy": 0.5521893262863159,
+      "step": 2060
+    },
+    {
+      "epoch": 0.18051800819743613,
+      "grad_norm": 1.7591136693954468,
+      "learning_rate": 1.6130994653347096e-05,
+      "loss": 2.0137,
+      "mean_token_accuracy": 0.5424168288707734,
+      "step": 2070
+    },
+    {
+      "epoch": 0.1813900758698875,
+      "grad_norm": 1.646781325340271,
+      "learning_rate": 1.6082782943062355e-05,
+      "loss": 1.991,
+      "mean_token_accuracy": 0.5457681030035019,
+      "step": 2080
+    },
+    {
+      "epoch": 0.18226214354233888,
+      "grad_norm": 1.8365243673324585,
+      "learning_rate": 1.6034345756259303e-05,
+      "loss": 1.9172,
+      "mean_token_accuracy": 0.5654965698719024,
+      "step": 2090
+    },
+    {
+      "epoch": 0.18313421121479026,
+      "grad_norm": 1.591349720954895,
+      "learning_rate": 1.598568488840695e-05,
+      "loss": 1.9695,
+      "mean_token_accuracy": 0.5511130094528198,
+      "step": 2100
+    },
+    {
+      "epoch": 0.18313421121479026,
+      "eval_runtime": 4.085,
+      "eval_samples_per_second": 268.545,
+      "eval_steps_per_second": 67.32,
+      "step": 2100
+    },
+    {
+      "epoch": 0.18400627888724164,
+      "grad_norm": 1.6916700601577759,
+      "learning_rate": 1.5936802143265708e-05,
+      "loss": 1.984,
+      "mean_token_accuracy": 0.5461961805820466,
+      "step": 2110
+    },
+    {
+      "epoch": 0.18487834655969304,
+      "grad_norm": 1.5550907850265503,
+      "learning_rate": 1.5887699332820527e-05,
+      "loss": 1.9746,
+      "mean_token_accuracy": 0.5480171293020248,
+      "step": 2120
+    },
+    {
+      "epoch": 0.18575041423214442,
+      "grad_norm": 1.6250457763671875,
+      "learning_rate": 1.5838378277213745e-05,
+      "loss": 1.9629,
+      "mean_token_accuracy": 0.5539383560419082,
+      "step": 2130
+    },
+    {
+      "epoch": 0.1866224819045958,
+      "grad_norm": 1.5899889469146729,
+      "learning_rate": 1.57888408046776e-05,
+      "loss": 1.9738,
+      "mean_token_accuracy": 0.5491193801164627,
+      "step": 2140
+    },
+    {
+      "epoch": 0.18749454957704717,
+      "grad_norm": 1.6946805715560913,
+      "learning_rate": 1.573908875146648e-05,
+      "loss": 1.9484,
+      "mean_token_accuracy": 0.5561888456344605,
+      "step": 2150
+    },
+    {
+      "epoch": 0.18836661724949857,
+      "grad_norm": 1.6672033071517944,
+      "learning_rate": 1.5689123961788834e-05,
+      "loss": 1.9758,
+      "mean_token_accuracy": 0.551149708032608,
+      "step": 2160
+    },
+    {
+      "epoch": 0.18923868492194995,
+      "grad_norm": 1.6237884759902954,
+      "learning_rate": 1.563894828773883e-05,
+      "loss": 1.9566,
+      "mean_token_accuracy": 0.5554672122001648,
+      "step": 2170
+    },
+    {
+      "epoch": 0.19011075259440133,
+      "grad_norm": 1.603264570236206,
+      "learning_rate": 1.55885635892277e-05,
+      "loss": 2.0395,
+      "mean_token_accuracy": 0.5357754364609718,
+      "step": 2180
+    },
+    {
+      "epoch": 0.1909828202668527,
+      "grad_norm": 1.6045056581497192,
+      "learning_rate": 1.5537971733914784e-05,
+      "loss": 1.9953,
+      "mean_token_accuracy": 0.545070943236351,
+      "step": 2190
+    },
+    {
+      "epoch": 0.19185488793930408,
+      "grad_norm": 1.6375876665115356,
+      "learning_rate": 1.5487174597138314e-05,
+      "loss": 1.9297,
+      "mean_token_accuracy": 0.5666952043771744,
+      "step": 2200
+    },
+    {
+      "epoch": 0.19185488793930408,
+      "eval_runtime": 4.0865,
+      "eval_samples_per_second": 268.445,
+      "eval_steps_per_second": 67.295,
+      "step": 2200
+    },
+    {
+      "epoch": 0.19272695561175548,
+      "grad_norm": 1.5572760105133057,
+      "learning_rate": 1.543617406184589e-05,
+      "loss": 1.9449,
+      "mean_token_accuracy": 0.5586594969034195,
+      "step": 2210
+    },
+    {
+      "epoch": 0.19359902328420686,
+      "grad_norm": 1.6193562746047974,
+      "learning_rate": 1.5384972018524678e-05,
+      "loss": 1.9625,
+      "mean_token_accuracy": 0.5591487273573875,
+      "step": 2220
+    },
+    {
+      "epoch": 0.19447109095665824,
+      "grad_norm": 1.7012639045715332,
+      "learning_rate": 1.5333570365131353e-05,
+      "loss": 1.973,
+      "mean_token_accuracy": 0.5488502979278564,
+      "step": 2230
+    },
+    {
+      "epoch": 0.19534315862910961,
+      "grad_norm": 1.713308334350586,
+      "learning_rate": 1.5281971007021728e-05,
+      "loss": 1.9691,
+      "mean_token_accuracy": 0.5539383590221405,
+      "step": 2240
+    },
+    {
+      "epoch": 0.196215226301561,
+      "grad_norm": 1.577191710472107,
+      "learning_rate": 1.5230175856880132e-05,
+      "loss": 1.9426,
+      "mean_token_accuracy": 0.5545621335506439,
+      "step": 2250
+    },
+    {
+      "epoch": 0.1970872939740124,
+      "grad_norm": 1.4686049222946167,
+      "learning_rate": 1.5178186834648509e-05,
+      "loss": 1.9023,
+      "mean_token_accuracy": 0.5648116439580917,
+      "step": 2260
+    },
+    {
+      "epoch": 0.19795936164646377,
+      "grad_norm": 1.752318024635315,
+      "learning_rate": 1.5126005867455256e-05,
+      "loss": 1.907,
+      "mean_token_accuracy": 0.5621819943189621,
+      "step": 2270
+    },
+    {
+      "epoch": 0.19883142931891515,
+      "grad_norm": 1.5747108459472656,
+      "learning_rate": 1.5073634889543778e-05,
+      "loss": 2.0176,
+      "mean_token_accuracy": 0.5422945141792297,
+      "step": 2280
+    },
+    {
+      "epoch": 0.19970349699136652,
+      "grad_norm": 1.511744499206543,
+      "learning_rate": 1.5021075842200796e-05,
+      "loss": 1.9855,
+      "mean_token_accuracy": 0.5495352268218994,
+      "step": 2290
+    },
+    {
+      "epoch": 0.2005755646638179,
+      "grad_norm": 1.7432910203933716,
+      "learning_rate": 1.4968330673684387e-05,
+      "loss": 1.9703,
+      "mean_token_accuracy": 0.5514799416065216,
+      "step": 2300
+    },
+    {
+      "epoch": 0.2005755646638179,
+      "eval_runtime": 4.0831,
+      "eval_samples_per_second": 268.666,
+      "eval_steps_per_second": 67.35,
+      "step": 2300
+    },
+    {
+      "epoch": 0.2014476323362693,
+      "grad_norm": 1.5639376640319824,
+      "learning_rate": 1.4915401339151769e-05,
+      "loss": 1.9164,
+      "mean_token_accuracy": 0.5603595852851868,
+      "step": 2310
+    },
+    {
+      "epoch": 0.20231970000872068,
+      "grad_norm": 1.601038932800293,
+      "learning_rate": 1.486228980058682e-05,
+      "loss": 1.9656,
+      "mean_token_accuracy": 0.5523238748311996,
+      "step": 2320
+    },
+    {
+      "epoch": 0.20319176768117206,
+      "grad_norm": 1.513109803199768,
+      "learning_rate": 1.4808998026727348e-05,
+      "loss": 1.9836,
+      "mean_token_accuracy": 0.548984831571579,
+      "step": 2330
+    },
+    {
+      "epoch": 0.20406383535362344,
+      "grad_norm": 1.5771284103393555,
+      "learning_rate": 1.4755527992992133e-05,
+      "loss": 1.9187,
+      "mean_token_accuracy": 0.5605675190687179,
+      "step": 2340
+    },
+    {
+      "epoch": 0.2049359030260748,
+      "grad_norm": 1.529685378074646,
+      "learning_rate": 1.4701881681407684e-05,
+      "loss": 1.9469,
+      "mean_token_accuracy": 0.5570450097322464,
+      "step": 2350
+    },
+    {
+      "epoch": 0.20580797069852622,
+      "grad_norm": 1.7209432125091553,
+      "learning_rate": 1.464806108053477e-05,
+      "loss": 1.9492,
+      "mean_token_accuracy": 0.5532778888940811,
+      "step": 2360
+    },
+    {
+      "epoch": 0.2066800383709776,
+      "grad_norm": 1.703606367111206,
+      "learning_rate": 1.4594068185394723e-05,
+      "loss": 1.9629,
+      "mean_token_accuracy": 0.5488625228404999,
+      "step": 2370
+    },
+    {
+      "epoch": 0.20755210604342897,
+      "grad_norm": 1.7174687385559082,
+      "learning_rate": 1.4539904997395468e-05,
+      "loss": 1.9824,
+      "mean_token_accuracy": 0.5477005928754807,
+      "step": 2380
+    },
+    {
+      "epoch": 0.20842417371588035,
+      "grad_norm": 1.4723925590515137,
+      "learning_rate": 1.448557352425735e-05,
+      "loss": 1.9461,
+      "mean_token_accuracy": 0.5542441248893738,
+      "step": 2390
+    },
+    {
+      "epoch": 0.20929624138833172,
+      "grad_norm": 1.5282446146011353,
+      "learning_rate": 1.44310757799387e-05,
+      "loss": 1.9059,
+      "mean_token_accuracy": 0.562536695599556,
+      "step": 2400
+    },
+    {
+      "epoch": 0.20929624138833172,
+      "eval_runtime": 4.0828,
+      "eval_samples_per_second": 268.686,
+      "eval_steps_per_second": 67.355,
+      "step": 2400
+    },
+    {
+      "epoch": 0.21016830906078313,
+      "grad_norm": 1.4995638132095337,
+      "learning_rate": 1.437641378456119e-05,
+      "loss": 1.9898,
+      "mean_token_accuracy": 0.5491316050291062,
+      "step": 2410
+    },
+    {
+      "epoch": 0.2110403767332345,
+      "grad_norm": 1.6420363187789917,
+      "learning_rate": 1.4321589564334946e-05,
+      "loss": 1.9488,
+      "mean_token_accuracy": 0.5546110510826111,
+      "step": 2420
+    },
+    {
+      "epoch": 0.21191244440568588,
+      "grad_norm": 1.6747080087661743,
+      "learning_rate": 1.4266605151483444e-05,
+      "loss": 1.9758,
+      "mean_token_accuracy": 0.551602253317833,
+      "step": 2430
+    },
+    {
+      "epoch": 0.21278451207813726,
+      "grad_norm": 1.8265970945358276,
+      "learning_rate": 1.4211462584168178e-05,
+      "loss": 1.9332,
+      "mean_token_accuracy": 0.5583170250058174,
+      "step": 2440
+    },
+    {
+      "epoch": 0.21365657975058863,
+      "grad_norm": 1.528663992881775,
+      "learning_rate": 1.4156163906413113e-05,
+      "loss": 1.9191,
+      "mean_token_accuracy": 0.5639677077531815,
+      "step": 2450
+    },
+    {
+      "epoch": 0.21452864742304004,
+      "grad_norm": 1.5550668239593506,
+      "learning_rate": 1.4100711168028906e-05,
+      "loss": 1.948,
+      "mean_token_accuracy": 0.5544275999069214,
+      "step": 2460
+    },
+    {
+      "epoch": 0.2154007150954914,
+      "grad_norm": 1.6412177085876465,
+      "learning_rate": 1.4045106424536938e-05,
+      "loss": 1.9402,
+      "mean_token_accuracy": 0.5568615466356277,
+      "step": 2470
+    },
+    {
+      "epoch": 0.2162727827679428,
+      "grad_norm": 1.5339934825897217,
+      "learning_rate": 1.398935173709311e-05,
+      "loss": 1.9871,
+      "mean_token_accuracy": 0.5472847372293472,
+      "step": 2480
+    },
+    {
+      "epoch": 0.21714485044039417,
+      "grad_norm": 1.713802695274353,
+      "learning_rate": 1.3933449172411446e-05,
+      "loss": 1.9125,
+      "mean_token_accuracy": 0.5600538134574891,
+      "step": 2490
+    },
+    {
+      "epoch": 0.21801691811284557,
+      "grad_norm": 1.770918607711792,
+      "learning_rate": 1.387740080268748e-05,
+      "loss": 1.934,
+      "mean_token_accuracy": 0.5601272076368332,
+      "step": 2500
+    },
+    {
+      "epoch": 0.21801691811284557,
+      "eval_runtime": 4.0863,
+      "eval_samples_per_second": 268.46,
+      "eval_steps_per_second": 67.298,
+      "step": 2500
+    },
+    {
+      "epoch": 0.21888898578529695,
+      "grad_norm": 1.5284432172775269,
+      "learning_rate": 1.3821208705521442e-05,
+      "loss": 1.9656,
+      "mean_token_accuracy": 0.550281310081482,
+      "step": 2510
+    },
+    {
+      "epoch": 0.21976105345774832,
+      "grad_norm": 1.5161765813827515,
+      "learning_rate": 1.3764874963841255e-05,
+      "loss": 2.0004,
+      "mean_token_accuracy": 0.5463551864027977,
+      "step": 2520
+    },
+    {
+      "epoch": 0.2206331211301997,
+      "grad_norm": 1.6041077375411987,
+      "learning_rate": 1.3708401665825319e-05,
+      "loss": 1.9125,
+      "mean_token_accuracy": 0.5601272046566009,
+      "step": 2530
+    },
+    {
+      "epoch": 0.22150518880265108,
+      "grad_norm": 1.6916691064834595,
+      "learning_rate": 1.36517909048251e-05,
+      "loss": 1.9496,
+      "mean_token_accuracy": 0.5540117353200913,
+      "step": 2540
+    },
+    {
+      "epoch": 0.22237725647510248,
+      "grad_norm": 1.92775559425354,
+      "learning_rate": 1.3595044779287543e-05,
+      "loss": 1.9449,
+      "mean_token_accuracy": 0.5540606647729873,
+      "step": 2550
+    },
+    {
+      "epoch": 0.22324932414755386,
+      "grad_norm": 1.696441650390625,
+      "learning_rate": 1.3538165392677288e-05,
+      "loss": 1.9805,
+      "mean_token_accuracy": 0.5501467704772949,
+      "step": 2560
+    },
+    {
+      "epoch": 0.22412139182000523,
+      "grad_norm": 1.5236026048660278,
+      "learning_rate": 1.3481154853398686e-05,
+      "loss": 1.9695,
+      "mean_token_accuracy": 0.5457803398370743,
+      "step": 2570
+    },
+    {
+      "epoch": 0.2249934594924566,
+      "grad_norm": 1.6779955625534058,
+      "learning_rate": 1.3424015274717665e-05,
+      "loss": 1.9391,
+      "mean_token_accuracy": 0.5563723117113113,
+      "step": 2580
+    },
+    {
+      "epoch": 0.225865527164908,
+      "grad_norm": 1.5860055685043335,
+      "learning_rate": 1.3366748774683376e-05,
+      "loss": 1.9191,
+      "mean_token_accuracy": 0.561411452293396,
+      "step": 2590
+    },
+    {
+      "epoch": 0.2267375948373594,
+      "grad_norm": 1.7570159435272217,
+      "learning_rate": 1.3309357476049686e-05,
+      "loss": 1.9176,
+      "mean_token_accuracy": 0.5621452987194061,
+      "step": 2600
+    },
+    {
+      "epoch": 0.2267375948373594,
+      "eval_runtime": 4.0838,
+      "eval_samples_per_second": 268.625,
+      "eval_steps_per_second": 67.34,
+      "step": 2600
+    },
+    {
+      "epoch": 0.22760966250981077,
+      "grad_norm": 1.6816412210464478,
+      "learning_rate": 1.3251843506196508e-05,
+      "loss": 1.9297,
+      "mean_token_accuracy": 0.5580846339464187,
+      "step": 2610
+    },
+    {
+      "epoch": 0.22848173018226214,
+      "grad_norm": 1.6356149911880493,
+      "learning_rate": 1.3194208997050915e-05,
+      "loss": 1.9023,
+      "mean_token_accuracy": 0.5675758302211762,
+      "step": 2620
+    },
+    {
+      "epoch": 0.22935379785471352,
+      "grad_norm": 1.6503158807754517,
+      "learning_rate": 1.313645608500814e-05,
+      "loss": 1.941,
+      "mean_token_accuracy": 0.5584637999534607,
+      "step": 2630
+    },
+    {
+      "epoch": 0.2302258655271649,
+      "grad_norm": 1.5784369707107544,
+      "learning_rate": 1.3078586910852364e-05,
+      "loss": 1.9395,
+      "mean_token_accuracy": 0.5558708399534226,
+      "step": 2640
+    },
+    {
+      "epoch": 0.2310979331996163,
+      "grad_norm": 1.5842807292938232,
+      "learning_rate": 1.3020603619677378e-05,
+      "loss": 1.9355,
+      "mean_token_accuracy": 0.5551736712455749,
+      "step": 2650
+    },
+    {
+      "epoch": 0.23197000087206768,
+      "grad_norm": 1.5968657732009888,
+      "learning_rate": 1.296250836080706e-05,
+      "loss": 1.9301,
+      "mean_token_accuracy": 0.5569104701280594,
+      "step": 2660
+    },
+    {
+      "epoch": 0.23284206854451905,
+      "grad_norm": 1.5821949243545532,
+      "learning_rate": 1.2904303287715702e-05,
+      "loss": 1.9555,
+      "mean_token_accuracy": 0.5515655547380447,
+      "step": 2670
+    },
+    {
+      "epoch": 0.23371413621697043,
+      "grad_norm": 1.4713672399520874,
+      "learning_rate": 1.284599055794819e-05,
+      "loss": 1.934,
+      "mean_token_accuracy": 0.553840509057045,
+      "step": 2680
+    },
+    {
+      "epoch": 0.2345862038894218,
+      "grad_norm": 1.5115606784820557,
+      "learning_rate": 1.2787572333040022e-05,
+      "loss": 1.9703,
+      "mean_token_accuracy": 0.5483855247497559,
+      "step": 2690
+    },
+    {
+      "epoch": 0.2354582715618732,
+      "grad_norm": 1.545019507408142,
+      "learning_rate": 1.2729050778437197e-05,
+      "loss": 1.9535,
+      "mean_token_accuracy": 0.5512720137834549,
+      "step": 2700
+    },
+    {
+      "epoch": 0.2354582715618732,
+      "eval_runtime": 4.0782,
+      "eval_samples_per_second": 268.989,
+      "eval_steps_per_second": 67.431,
+      "step": 2700
+    },
+    {
+      "epoch": 0.2363303392343246,
+      "grad_norm": 1.5752264261245728,
+      "learning_rate": 1.2670428063415932e-05,
+      "loss": 1.9473,
+      "mean_token_accuracy": 0.5551736801862717,
+      "step": 2710
+    },
+    {
+      "epoch": 0.23720240690677596,
+      "grad_norm": 1.5344406366348267,
+      "learning_rate": 1.2611706361002254e-05,
+      "loss": 1.8836,
+      "mean_token_accuracy": 0.5689212352037429,
+      "step": 2720
+    },
+    {
+      "epoch": 0.23807447457922734,
+      "grad_norm": 1.4946064949035645,
+      "learning_rate": 1.2552887847891462e-05,
+      "loss": 1.9746,
+      "mean_token_accuracy": 0.5502690762281418,
+      "step": 2730
+    },
+    {
+      "epoch": 0.23894654225167872,
+      "grad_norm": 1.5531439781188965,
+      "learning_rate": 1.2493974704367427e-05,
+      "loss": 1.9402,
+      "mean_token_accuracy": 0.5537793606519699,
+      "step": 2740
+    },
+    {
+      "epoch": 0.23981860992413012,
+      "grad_norm": 1.50486421585083,
+      "learning_rate": 1.2434969114221777e-05,
+      "loss": 1.9164,
+      "mean_token_accuracy": 0.5588429629802704,
+      "step": 2750
+    },
+    {
+      "epoch": 0.2406906775965815,
+      "grad_norm": 1.7339839935302734,
+      "learning_rate": 1.237587326467296e-05,
+      "loss": 1.957,
+      "mean_token_accuracy": 0.5529231876134872,
+      "step": 2760
+    },
+    {
+      "epoch": 0.24156274526903287,
+      "grad_norm": 1.5544097423553467,
+      "learning_rate": 1.2316689346285146e-05,
+      "loss": 1.9391,
+      "mean_token_accuracy": 0.5560053795576095,
+      "step": 2770
+    },
+    {
+      "epoch": 0.24243481294148425,
+      "grad_norm": 1.4663689136505127,
+      "learning_rate": 1.2257419552887047e-05,
+      "loss": 1.95,
+      "mean_token_accuracy": 0.5576320916414261,
+      "step": 2780
+    },
+    {
+      "epoch": 0.24330688061393563,
+      "grad_norm": 1.5417518615722656,
+      "learning_rate": 1.2198066081490585e-05,
+      "loss": 1.9477,
+      "mean_token_accuracy": 0.5545132160186768,
+      "step": 2790
+    },
+    {
+      "epoch": 0.24417894828638703,
+      "grad_norm": 1.6155837774276733,
+      "learning_rate": 1.213863113220946e-05,
+      "loss": 1.9059,
+      "mean_token_accuracy": 0.5640166342258454,
+      "step": 2800
+    },
+    {
+      "epoch": 0.24417894828638703,
+      "eval_runtime": 4.0898,
+      "eval_samples_per_second": 268.23,
+      "eval_steps_per_second": 67.241,
+      "step": 2800
+    },
+    {
+      "epoch": 0.2450510159588384,
+      "grad_norm": 1.5956717729568481,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 1.9336,
+      "mean_token_accuracy": 0.559344419836998,
+      "step": 2810
+    },
+    {
+      "epoch": 0.24592308363128978,
+      "grad_norm": 1.401995301246643,
+      "learning_rate": 1.2019525615467462e-05,
+      "loss": 1.8941,
+      "mean_token_accuracy": 0.5678449153900147,
+      "step": 2820
+    },
+    {
+      "epoch": 0.24679515130374116,
+      "grad_norm": 1.5462545156478882,
+      "learning_rate": 1.1959859463008316e-05,
+      "loss": 1.9523,
+      "mean_token_accuracy": 0.5523727923631668,
+      "step": 2830
+    },
+    {
+      "epoch": 0.24766721897619257,
+      "grad_norm": 1.7832167148590088,
+      "learning_rate": 1.1900120662504315e-05,
+      "loss": 1.9289,
+      "mean_token_accuracy": 0.5563723117113113,
+      "step": 2840
+    },
+    {
+      "epoch": 0.24853928664864394,
+      "grad_norm": 1.44082510471344,
+      "learning_rate": 1.1840311428352536e-05,
+      "loss": 1.9203,
+      "mean_token_accuracy": 0.562059685587883,
+      "step": 2850
+    },
+    {
+      "epoch": 0.24941135432109532,
+      "grad_norm": 1.4894593954086304,
+      "learning_rate": 1.1780433977560879e-05,
+      "loss": 1.9094,
+      "mean_token_accuracy": 0.5629647731781006,
+      "step": 2860
+    },
+    {
+      "epoch": 0.2502834219935467,
+      "grad_norm": 1.464408278465271,
+      "learning_rate": 1.1720490529665904e-05,
+      "loss": 1.9258,
+      "mean_token_accuracy": 0.5583292603492737,
+      "step": 2870
+    },
+    {
+      "epoch": 0.2511554896659981,
+      "grad_norm": 1.5469698905944824,
+      "learning_rate": 1.1660483306650558e-05,
+      "loss": 1.8949,
+      "mean_token_accuracy": 0.5638209402561187,
+      "step": 2880
+    },
+    {
+      "epoch": 0.25202755733844945,
+      "grad_norm": 1.3923354148864746,
+      "learning_rate": 1.160041453286179e-05,
+      "loss": 1.9855,
+      "mean_token_accuracy": 0.5512720167636871,
+      "step": 2890
+    },
+    {
+      "epoch": 0.25289962501090085,
+      "grad_norm": 1.3185718059539795,
+      "learning_rate": 1.154028643492812e-05,
+      "loss": 1.9332,
+      "mean_token_accuracy": 0.5567881554365158,
+      "step": 2900
+    },
+    {
+      "epoch": 0.25289962501090085,
+      "eval_runtime": 4.0827,
+      "eval_samples_per_second": 268.692,
+      "eval_steps_per_second": 67.357,
+      "step": 2900
+    },
+    {
+      "epoch": 0.2537716926833522,
+      "grad_norm": 1.5093870162963867,
+      "learning_rate": 1.1480101241677097e-05,
+      "loss": 1.9281,
+      "mean_token_accuracy": 0.5590264230966568,
+      "step": 2910
+    },
+    {
+      "epoch": 0.2546437603558036,
+      "grad_norm": 1.588794231414795,
+      "learning_rate": 1.1419861184052669e-05,
+      "loss": 1.9012,
+      "mean_token_accuracy": 0.5649339586496354,
+      "step": 2920
+    },
+    {
+      "epoch": 0.255515828028255,
+      "grad_norm": 1.4751886129379272,
+      "learning_rate": 1.1359568495032505e-05,
+      "loss": 1.9609,
+      "mean_token_accuracy": 0.5513331741094589,
+      "step": 2930
+    },
+    {
+      "epoch": 0.25638789570070636,
+      "grad_norm": 1.4998481273651123,
+      "learning_rate": 1.1299225409545207e-05,
+      "loss": 1.9059,
+      "mean_token_accuracy": 0.5650682866573333,
+      "step": 2940
+    },
+    {
+      "epoch": 0.25725996337315776,
+      "grad_norm": 1.6425520181655884,
+      "learning_rate": 1.123883416438748e-05,
+      "loss": 1.9359,
+      "mean_token_accuracy": 0.5557974576950073,
+      "step": 2950
+    },
+    {
+      "epoch": 0.2581320310456091,
+      "grad_norm": 1.7462652921676636,
+      "learning_rate": 1.1178396998141206e-05,
+      "loss": 1.9055,
+      "mean_token_accuracy": 0.5619740784168243,
+      "step": 2960
+    },
+    {
+      "epoch": 0.2590040987180605,
+      "grad_norm": 1.4744683504104614,
+      "learning_rate": 1.1117916151090469e-05,
+      "loss": 1.8906,
+      "mean_token_accuracy": 0.5662304311990738,
+      "step": 2970
+    },
+    {
+      "epoch": 0.2598761663905119,
+      "grad_norm": 1.4409739971160889,
+      "learning_rate": 1.1057393865138513e-05,
+      "loss": 1.9062,
+      "mean_token_accuracy": 0.5584882616996765,
+      "step": 2980
+    },
+    {
+      "epoch": 0.26074823406296327,
+      "grad_norm": 1.658846139907837,
+      "learning_rate": 1.099683238372464e-05,
+      "loss": 1.9102,
+      "mean_token_accuracy": 0.5615215301513672,
+      "step": 2990
+    },
+    {
+      "epoch": 0.2616203017354147,
+      "grad_norm": 1.5255091190338135,
+      "learning_rate": 1.0936233951741052e-05,
+      "loss": 1.891,
+      "mean_token_accuracy": 0.5645181030035019,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2616203017354147,
+      "eval_runtime": 4.0846,
+      "eval_samples_per_second": 268.567,
+      "eval_steps_per_second": 67.325,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2624923694078661,
+      "grad_norm": 1.4099208116531372,
+      "learning_rate": 1.0875600815449624e-05,
+      "loss": 1.8602,
+      "mean_token_accuracy": 0.5746575325727463,
+      "step": 3010
+    },
+    {
+      "epoch": 0.2633644370803174,
+      "grad_norm": 1.534428596496582,
+      "learning_rate": 1.081493522239866e-05,
+      "loss": 1.934,
+      "mean_token_accuracy": 0.5573140889406204,
+      "step": 3020
+    },
+    {
+      "epoch": 0.26423650475276883,
+      "grad_norm": 1.6368540525436401,
+      "learning_rate": 1.075423942133957e-05,
+      "loss": 1.893,
+      "mean_token_accuracy": 0.5663527399301529,
+      "step": 3030
+    },
+    {
+      "epoch": 0.2651085724252202,
+      "grad_norm": 1.5446292161941528,
+      "learning_rate": 1.0693515662143505e-05,
+      "loss": 1.9332,
+      "mean_token_accuracy": 0.5582069456577301,
+      "step": 3040
+    },
+    {
+      "epoch": 0.2659806400976716,
+      "grad_norm": 1.5439326763153076,
+      "learning_rate": 1.0632766195717979e-05,
+      "loss": 1.9027,
+      "mean_token_accuracy": 0.5597602754831315,
+      "step": 3050
+    },
+    {
+      "epoch": 0.266852707770123,
+      "grad_norm": 1.5670526027679443,
+      "learning_rate": 1.0571993273923412e-05,
+      "loss": 1.9098,
+      "mean_token_accuracy": 0.5607387512922287,
+      "step": 3060
+    },
+    {
+      "epoch": 0.26772477544257434,
+      "grad_norm": 1.442647933959961,
+      "learning_rate": 1.0511199149489673e-05,
+      "loss": 1.8949,
+      "mean_token_accuracy": 0.5646159499883652,
+      "step": 3070
+    },
+    {
+      "epoch": 0.26859684311502574,
+      "grad_norm": 1.4678329229354858,
+      "learning_rate": 1.0450386075932571e-05,
+      "loss": 1.898,
+      "mean_token_accuracy": 0.5630503982305527,
+      "step": 3080
+    },
+    {
+      "epoch": 0.2694689107874771,
+      "grad_norm": 1.5092103481292725,
+      "learning_rate": 1.0389556307470316e-05,
+      "loss": 1.9227,
+      "mean_token_accuracy": 0.5559319972991943,
+      "step": 3090
+    },
+    {
+      "epoch": 0.2703409784599285,
+      "grad_norm": 1.6279524564743042,
+      "learning_rate": 1.0328712098939968e-05,
+      "loss": 1.9723,
+      "mean_token_accuracy": 0.5526785761117935,
+      "step": 3100
+    },
+    {
+      "epoch": 0.2703409784599285,
+      "eval_runtime": 4.0896,
+      "eval_samples_per_second": 268.24,
+      "eval_steps_per_second": 67.243,
+      "step": 3100
+    },
+    {
+      "epoch": 0.2712130461323799,
+      "grad_norm": 1.4583823680877686,
+      "learning_rate": 1.0267855705713854e-05,
+      "loss": 1.8852,
+      "mean_token_accuracy": 0.5667196691036225,
+      "step": 3110
+    },
+    {
+      "epoch": 0.27208511380483125,
+      "grad_norm": 1.5141912698745728,
+      "learning_rate": 1.020698938361595e-05,
+      "loss": 1.9297,
+      "mean_token_accuracy": 0.5533879637718201,
+      "step": 3120
+    },
+    {
+      "epoch": 0.27295718147728265,
+      "grad_norm": 1.6877249479293823,
+      "learning_rate": 1.0146115388838293e-05,
+      "loss": 1.8852,
+      "mean_token_accuracy": 0.5637475490570069,
+      "step": 3130
+    },
+    {
+      "epoch": 0.273829249149734,
+      "grad_norm": 1.6511071920394897,
+      "learning_rate": 1.0085235977857322e-05,
+      "loss": 1.8508,
+      "mean_token_accuracy": 0.572296965122223,
+      "step": 3140
+    },
+    {
+      "epoch": 0.2747013168221854,
+      "grad_norm": 1.5826408863067627,
+      "learning_rate": 1.002435340735024e-05,
+      "loss": 1.8996,
+      "mean_token_accuracy": 0.5607876688241958,
+      "step": 3150
+    },
+    {
+      "epoch": 0.2755733844946368,
+      "grad_norm": 1.5323454141616821,
+      "learning_rate": 9.963469934111374e-06,
+      "loss": 1.8852,
+      "mean_token_accuracy": 0.5662671208381653,
+      "step": 3160
+    },
+    {
+      "epoch": 0.27644545216708816,
+      "grad_norm": 1.5647304058074951,
+      "learning_rate": 9.90258781496851e-06,
+      "loss": 1.9348,
+      "mean_token_accuracy": 0.5581213295459747,
+      "step": 3170
+    },
+    {
+      "epoch": 0.27731751983953956,
+      "grad_norm": 1.5409218072891235,
+      "learning_rate": 9.841709306699245e-06,
+      "loss": 1.9219,
+      "mean_token_accuracy": 0.5589041084051132,
+      "step": 3180
+    },
+    {
+      "epoch": 0.2781895875119909,
+      "grad_norm": 1.5608783960342407,
+      "learning_rate": 9.78083666594732e-06,
+      "loss": 1.9379,
+      "mean_token_accuracy": 0.5579764008522033,
+      "step": 3190
+    },
+    {
+      "epoch": 0.2790616551844423,
+      "grad_norm": 1.413813591003418,
+      "learning_rate": 9.719972149138985e-06,
+      "loss": 1.9078,
+      "mean_token_accuracy": 0.5645792603492736,
+      "step": 3200
+    },
+    {
+      "epoch": 0.2790616551844423,
+      "eval_runtime": 4.0877,
+      "eval_samples_per_second": 268.365,
+      "eval_steps_per_second": 67.275,
+      "step": 3200
+    },
+    {
+      "epoch": 0.2799337228568937,
+      "grad_norm": 1.5967097282409668,
+      "learning_rate": 9.659118012399352e-06,
+      "loss": 1.9207,
+      "mean_token_accuracy": 0.5589774966239929,
+      "step": 3210
+    },
+    {
+      "epoch": 0.28080579052934507,
+      "grad_norm": 1.454176902770996,
+      "learning_rate": 9.598276511468763e-06,
+      "loss": 1.8473,
+      "mean_token_accuracy": 0.5716364949941635,
+      "step": 3220
+    },
+    {
+      "epoch": 0.28167785820179647,
+      "grad_norm": 1.6636513471603394,
+      "learning_rate": 9.537449901619174e-06,
+      "loss": 1.9395,
+      "mean_token_accuracy": 0.5527641892433166,
+      "step": 3230
+    },
+    {
+      "epoch": 0.2825499258742478,
+      "grad_norm": 1.5804682970046997,
+      "learning_rate": 9.476640437570562e-06,
+      "loss": 1.9648,
+      "mean_token_accuracy": 0.5519936442375183,
+      "step": 3240
+    },
+    {
+      "epoch": 0.2834219935466992,
+      "grad_norm": 1.4875261783599854,
+      "learning_rate": 9.415850373407342e-06,
+      "loss": 1.9031,
+      "mean_token_accuracy": 0.5627935409545899,
+      "step": 3250
+    },
+    {
+      "epoch": 0.28429406121915063,
+      "grad_norm": 1.7054407596588135,
+      "learning_rate": 9.355081962494815e-06,
+      "loss": 1.8504,
+      "mean_token_accuracy": 0.5755754441022873,
+      "step": 3260
+    },
+    {
+      "epoch": 0.285166128891602,
+      "grad_norm": 1.5067362785339355,
+      "learning_rate": 9.294337457395638e-06,
+      "loss": 1.8762,
+      "mean_token_accuracy": 0.5702788710594178,
+      "step": 3270
+    },
+    {
+      "epoch": 0.2860381965640534,
+      "grad_norm": 1.6777541637420654,
+      "learning_rate": 9.233619109786332e-06,
+      "loss": 1.8887,
+      "mean_token_accuracy": 0.5692392379045487,
+      "step": 3280
+    },
+    {
+      "epoch": 0.28691026423650473,
+      "grad_norm": 1.443976879119873,
+      "learning_rate": 9.172929170373804e-06,
+      "loss": 1.9289,
+      "mean_token_accuracy": 0.5607509702444077,
+      "step": 3290
+    },
+    {
+      "epoch": 0.28778233190895613,
+      "grad_norm": 1.5747430324554443,
+      "learning_rate": 9.112269888811934e-06,
+      "loss": 1.927,
+      "mean_token_accuracy": 0.5572040110826493,
+      "step": 3300
+    },
+    {
+      "epoch": 0.28778233190895613,
+      "eval_runtime": 4.0885,
+      "eval_samples_per_second": 268.315,
+      "eval_steps_per_second": 67.262,
+      "step": 3300
+    },
+    {
+      "epoch": 0.28865439958140754,
+      "grad_norm": 1.484473705291748,
+      "learning_rate": 9.051643513618176e-06,
+      "loss": 1.8969,
+      "mean_token_accuracy": 0.5657656580209732,
+      "step": 3310
+    },
+    {
+      "epoch": 0.2895264672538589,
+      "grad_norm": 1.4190107583999634,
+      "learning_rate": 8.99105229209021e-06,
+      "loss": 1.941,
+      "mean_token_accuracy": 0.5517367869615555,
+      "step": 3320
+    },
+    {
+      "epoch": 0.2903985349263103,
+      "grad_norm": 1.5658514499664307,
+      "learning_rate": 8.930498470222641e-06,
+      "loss": 1.9676,
+      "mean_token_accuracy": 0.5517367869615555,
+      "step": 3330
+    },
+    {
+      "epoch": 0.29127060259876164,
+      "grad_norm": 1.5152161121368408,
+      "learning_rate": 8.86998429262374e-06,
+      "loss": 1.9152,
+      "mean_token_accuracy": 0.5605430513620376,
+      "step": 3340
+    },
+    {
+      "epoch": 0.29214267027121305,
+      "grad_norm": 1.4670003652572632,
+      "learning_rate": 8.809512002432252e-06,
+      "loss": 1.8652,
+      "mean_token_accuracy": 0.569899708032608,
+      "step": 3350
+    },
+    {
+      "epoch": 0.29301473794366445,
+      "grad_norm": 1.599631667137146,
+      "learning_rate": 8.749083841234235e-06,
+      "loss": 1.934,
+      "mean_token_accuracy": 0.5619740664958954,
+      "step": 3360
+    },
+    {
+      "epoch": 0.2938868056161158,
+      "grad_norm": 1.6647261381149292,
+      "learning_rate": 8.688702048979974e-06,
+      "loss": 1.925,
+      "mean_token_accuracy": 0.5590508818626404,
+      "step": 3370
+    },
+    {
+      "epoch": 0.2947588732885672,
+      "grad_norm": 1.4344950914382935,
+      "learning_rate": 8.628368863900954e-06,
+      "loss": 1.9102,
+      "mean_token_accuracy": 0.5580724090337753,
+      "step": 3380
+    },
+    {
+      "epoch": 0.29563094096101855,
+      "grad_norm": 1.475479245185852,
+      "learning_rate": 8.568086522426884e-06,
+      "loss": 1.9246,
+      "mean_token_accuracy": 0.5588674157857895,
+      "step": 3390
+    },
+    {
+      "epoch": 0.29650300863346996,
+      "grad_norm": 1.309008240699768,
+      "learning_rate": 8.507857259102814e-06,
+      "loss": 1.8875,
+      "mean_token_accuracy": 0.5669765114784241,
+      "step": 3400
+    },
+    {
+      "epoch": 0.29650300863346996,
+      "eval_runtime": 4.0896,
+      "eval_samples_per_second": 268.242,
+      "eval_steps_per_second": 67.244,
+      "step": 3400
+    },
+    {
+      "epoch": 0.29737507630592136,
+      "grad_norm": 1.4824247360229492,
+      "learning_rate": 8.447683306506279e-06,
+      "loss": 1.932,
+      "mean_token_accuracy": 0.5547700643539428,
+      "step": 3410
+    },
+    {
+      "epoch": 0.2982471439783727,
+      "grad_norm": 1.4326711893081665,
+      "learning_rate": 8.387566895164566e-06,
+      "loss": 1.8969,
+      "mean_token_accuracy": 0.5620596885681153,
+      "step": 3420
+    },
+    {
+      "epoch": 0.2991192116508241,
+      "grad_norm": 1.6375669240951538,
+      "learning_rate": 8.327510253472023e-06,
+      "loss": 1.9453,
+      "mean_token_accuracy": 0.553816044330597,
+      "step": 3430
+    },
+    {
+      "epoch": 0.29999127932327546,
+      "grad_norm": 1.4804935455322266,
+      "learning_rate": 8.267515607607458e-06,
+      "loss": 1.8715,
+      "mean_token_accuracy": 0.569043543934822,
+      "step": 3440
+    },
+    {
+      "epoch": 0.30086334699572687,
+      "grad_norm": 1.5628015995025635,
+      "learning_rate": 8.207585181451611e-06,
+      "loss": 1.882,
+      "mean_token_accuracy": 0.564811646938324,
+      "step": 3450
+    },
+    {
+      "epoch": 0.30173541466817827,
+      "grad_norm": 1.6417442560195923,
+      "learning_rate": 8.147721196504736e-06,
+      "loss": 1.875,
+      "mean_token_accuracy": 0.5665484309196472,
+      "step": 3460
+    },
+    {
+      "epoch": 0.3026074823406296,
+      "grad_norm": 1.7955617904663086,
+      "learning_rate": 8.08792587180424e-06,
+      "loss": 1.9273,
+      "mean_token_accuracy": 0.5594300329685211,
+      "step": 3470
+    },
+    {
+      "epoch": 0.303479550013081,
+      "grad_norm": 1.4699718952178955,
+      "learning_rate": 8.028201423842437e-06,
+      "loss": 1.909,
+      "mean_token_accuracy": 0.5575097858905792,
+      "step": 3480
+    },
+    {
+      "epoch": 0.30435161768553237,
+      "grad_norm": 1.3800170421600342,
+      "learning_rate": 7.96855006648438e-06,
+      "loss": 1.8832,
+      "mean_token_accuracy": 0.5657167315483094,
+      "step": 3490
+    },
+    {
+      "epoch": 0.3052236853579838,
+      "grad_norm": 1.587877869606018,
+      "learning_rate": 7.908974010885795e-06,
+      "loss": 1.9406,
+      "mean_token_accuracy": 0.5579867869615555,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3052236853579838,
+      "eval_runtime": 4.0852,
+      "eval_samples_per_second": 268.533,
+      "eval_steps_per_second": 67.317,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3060957530304352,
+      "grad_norm": 1.3948945999145508,
+      "learning_rate": 7.849475465411136e-06,
+      "loss": 1.8719,
+      "mean_token_accuracy": 0.5669398188591004,
+      "step": 3510
+    },
+    {
+      "epoch": 0.30696782070288653,
+      "grad_norm": 1.3805464506149292,
+      "learning_rate": 7.790056635551704e-06,
+      "loss": 1.9012,
+      "mean_token_accuracy": 0.5630626201629638,
+      "step": 3520
+    },
+    {
+      "epoch": 0.30783988837533793,
+      "grad_norm": 1.3941526412963867,
+      "learning_rate": 7.730719723843903e-06,
+      "loss": 1.9355,
+      "mean_token_accuracy": 0.5606409013271332,
+      "step": 3530
+    },
+    {
+      "epoch": 0.3087119560477893,
+      "grad_norm": 1.4487614631652832,
+      "learning_rate": 7.671466929787598e-06,
+      "loss": 1.8922,
+      "mean_token_accuracy": 0.5645058721303939,
+      "step": 3540
+    },
+    {
+      "epoch": 0.3095840237202407,
+      "grad_norm": 1.5826810598373413,
+      "learning_rate": 7.61230044976458e-06,
+      "loss": 1.9207,
+      "mean_token_accuracy": 0.5601516604423523,
+      "step": 3550
+    },
+    {
+      "epoch": 0.3104560913926921,
+      "grad_norm": 1.4143035411834717,
+      "learning_rate": 7.553222476957157e-06,
+      "loss": 1.9074,
+      "mean_token_accuracy": 0.5620963841676712,
+      "step": 3560
+    },
+    {
+      "epoch": 0.31132815906514344,
+      "grad_norm": 1.5634782314300537,
+      "learning_rate": 7.494235201266849e-06,
+      "loss": 1.8957,
+      "mean_token_accuracy": 0.5654965758323669,
+      "step": 3570
+    },
+    {
+      "epoch": 0.31220022673759484,
+      "grad_norm": 1.4505248069763184,
+      "learning_rate": 7.435340809233218e-06,
+      "loss": 1.9094,
+      "mean_token_accuracy": 0.562348335981369,
+      "step": 3580
+    },
+    {
+      "epoch": 0.3130722944100462,
+      "grad_norm": 1.361753225326538,
+      "learning_rate": 7.376541483952811e-06,
+      "loss": 1.9109,
+      "mean_token_accuracy": 0.5665729016065597,
+      "step": 3590
+    },
+    {
+      "epoch": 0.3139443620824976,
+      "grad_norm": 1.4534916877746582,
+      "learning_rate": 7.3178394049982485e-06,
+      "loss": 1.8863,
+      "mean_token_accuracy": 0.5663649708032608,
+      "step": 3600
+    },
+    {
+      "epoch": 0.3139443620824976,
+      "eval_runtime": 4.0837,
+      "eval_samples_per_second": 268.628,
+      "eval_steps_per_second": 67.341,
+      "step": 3600
+    },
+    {
+      "epoch": 0.314816429754949,
+      "grad_norm": 1.6131386756896973,
+      "learning_rate": 7.259236748337421e-06,
+      "loss": 1.8797,
+      "mean_token_accuracy": 0.5715753436088562,
+      "step": 3610
+    },
+    {
+      "epoch": 0.31568849742740035,
+      "grad_norm": 1.647533655166626,
+      "learning_rate": 7.20073568625284e-06,
+      "loss": 1.9297,
+      "mean_token_accuracy": 0.5601149737834931,
+      "step": 3620
+    },
+    {
+      "epoch": 0.31656056509985175,
+      "grad_norm": 1.5809109210968018,
+      "learning_rate": 7.1423383872611045e-06,
+      "loss": 1.9238,
+      "mean_token_accuracy": 0.5594422727823257,
+      "step": 3630
+    },
+    {
+      "epoch": 0.31743263277230316,
+      "grad_norm": 1.4708706140518188,
+      "learning_rate": 7.084047016032528e-06,
+      "loss": 1.9172,
+      "mean_token_accuracy": 0.5604818999767304,
+      "step": 3640
+    },
+    {
+      "epoch": 0.3183047004447545,
+      "grad_norm": 1.5346980094909668,
+      "learning_rate": 7.025863733310894e-06,
+      "loss": 1.8594,
+      "mean_token_accuracy": 0.570914876461029,
+      "step": 3650
+    },
+    {
+      "epoch": 0.3191767681172059,
+      "grad_norm": 1.497436761856079,
+      "learning_rate": 6.967790695833363e-06,
+      "loss": 1.9203,
+      "mean_token_accuracy": 0.5600171208381652,
+      "step": 3660
+    },
+    {
+      "epoch": 0.32004883578965726,
+      "grad_norm": 1.4364548921585083,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 1.8621,
+      "mean_token_accuracy": 0.5694456309080124,
+      "step": 3670
+    },
+    {
+      "epoch": 0.32092090346210866,
+      "grad_norm": 1.4897515773773193,
+      "learning_rate": 6.851983963046612e-06,
+      "loss": 1.8941,
+      "mean_token_accuracy": 0.5614848345518112,
+      "step": 3680
+    },
+    {
+      "epoch": 0.32179297113456007,
+      "grad_norm": 1.4270612001419067,
+      "learning_rate": 6.794254560459843e-06,
+      "loss": 1.8844,
+      "mean_token_accuracy": 0.56588796377182,
+      "step": 3690
+    },
+    {
+      "epoch": 0.3226650388070114,
+      "grad_norm": 1.4720197916030884,
+      "learning_rate": 6.736643988402958e-06,
+      "loss": 1.893,
+      "mean_token_accuracy": 0.5601761192083359,
+      "step": 3700
+    },
+    {
+      "epoch": 0.3226650388070114,
+      "eval_runtime": 4.0882,
+      "eval_samples_per_second": 268.334,
+      "eval_steps_per_second": 67.267,
+      "step": 3700
+    },
+    {
+      "epoch": 0.3235371064794628,
+      "grad_norm": 1.4100483655929565,
+      "learning_rate": 6.679154382383883e-06,
+      "loss": 1.9289,
+      "mean_token_accuracy": 0.5587695688009262,
+      "step": 3710
+    },
+    {
+      "epoch": 0.32440917415191417,
+      "grad_norm": 1.46821928024292,
+      "learning_rate": 6.621787873426581e-06,
+      "loss": 1.9387,
+      "mean_token_accuracy": 0.5547578275203705,
+      "step": 3720
+    },
+    {
+      "epoch": 0.3252812418243656,
+      "grad_norm": 1.479946494102478,
+      "learning_rate": 6.564546587992054e-06,
+      "loss": 1.8813,
+      "mean_token_accuracy": 0.5644814103841782,
+      "step": 3730
+    },
+    {
+      "epoch": 0.326153309496817,
+      "grad_norm": 1.4300014972686768,
+      "learning_rate": 6.507432647899519e-06,
+      "loss": 1.9535,
+      "mean_token_accuracy": 0.552580726146698,
+      "step": 3740
+    },
+    {
+      "epoch": 0.3270253771692683,
+      "grad_norm": 1.514469861984253,
+      "learning_rate": 6.450448170247757e-06,
+      "loss": 1.866,
+      "mean_token_accuracy": 0.5673067539930343,
+      "step": 3750
+    },
+    {
+      "epoch": 0.32789744484171973,
+      "grad_norm": 1.5405138731002808,
+      "learning_rate": 6.393595267336639e-06,
+      "loss": 1.8977,
+      "mean_token_accuracy": 0.5651541113853454,
+      "step": 3760
+    },
+    {
+      "epoch": 0.3287695125141711,
+      "grad_norm": 1.5160272121429443,
+      "learning_rate": 6.3368760465888226e-06,
+      "loss": 1.923,
+      "mean_token_accuracy": 0.5567025423049927,
+      "step": 3770
+    },
+    {
+      "epoch": 0.3296415801866225,
+      "grad_norm": 1.5919586420059204,
+      "learning_rate": 6.280292610471639e-06,
+      "loss": 1.9129,
+      "mean_token_accuracy": 0.5610078275203705,
+      "step": 3780
+    },
+    {
+      "epoch": 0.3305136478590739,
+      "grad_norm": 1.5915533304214478,
+      "learning_rate": 6.223847056419154e-06,
+      "loss": 1.918,
+      "mean_token_accuracy": 0.5577421814203263,
+      "step": 3790
+    },
+    {
+      "epoch": 0.33138571553152524,
+      "grad_norm": 1.5471558570861816,
+      "learning_rate": 6.1675414767544285e-06,
+      "loss": 1.9059,
+      "mean_token_accuracy": 0.557852241396904,
+      "step": 3800
+    },
+    {
+      "epoch": 0.33138571553152524,
+      "eval_runtime": 4.086,
+      "eval_samples_per_second": 268.477,
+      "eval_steps_per_second": 67.303,
+      "step": 3800
+    },
+    {
+      "epoch": 0.33225778320397664,
+      "grad_norm": 1.4880732297897339,
+      "learning_rate": 6.111377958611948e-06,
+      "loss": 1.8887,
+      "mean_token_accuracy": 0.5641022503376008,
+      "step": 3810
+    },
+    {
+      "epoch": 0.333129850876428,
+      "grad_norm": 1.516377329826355,
+      "learning_rate": 6.055358583860267e-06,
+      "loss": 1.8793,
+      "mean_token_accuracy": 0.5662304311990738,
+      "step": 3820
+    },
+    {
+      "epoch": 0.3340019185488794,
+      "grad_norm": 1.4484655857086182,
+      "learning_rate": 5.99948542902483e-06,
+      "loss": 1.8742,
+      "mean_token_accuracy": 0.5674779891967774,
+      "step": 3830
+    },
+    {
+      "epoch": 0.3348739862213308,
+      "grad_norm": 1.6849968433380127,
+      "learning_rate": 5.943760565211011e-06,
+      "loss": 1.932,
+      "mean_token_accuracy": 0.5551247507333755,
+      "step": 3840
+    },
+    {
+      "epoch": 0.33574605389378215,
+      "grad_norm": 1.680128574371338,
+      "learning_rate": 5.8881860580273285e-06,
+      "loss": 1.9238,
+      "mean_token_accuracy": 0.5592343389987946,
+      "step": 3850
+    },
+    {
+      "epoch": 0.33661812156623355,
+      "grad_norm": 1.450142502784729,
+      "learning_rate": 5.832763967508885e-06,
+      "loss": 1.973,
+      "mean_token_accuracy": 0.5471624255180358,
+      "step": 3860
+    },
+    {
+      "epoch": 0.3374901892386849,
+      "grad_norm": 1.4337846040725708,
+      "learning_rate": 5.777496348041009e-06,
+      "loss": 1.8746,
+      "mean_token_accuracy": 0.5702299416065216,
+      "step": 3870
+    },
+    {
+      "epoch": 0.3383622569111363,
+      "grad_norm": 1.4043320417404175,
+      "learning_rate": 5.722385248283092e-06,
+      "loss": 1.9008,
+      "mean_token_accuracy": 0.5623899191617966,
+      "step": 3880
+    },
+    {
+      "epoch": 0.3392343245835877,
+      "grad_norm": 1.4860856533050537,
+      "learning_rate": 5.667432711092651e-06,
+      "loss": 1.9168,
+      "mean_token_accuracy": 0.5559686869382858,
+      "step": 3890
+    },
+    {
+      "epoch": 0.34010639225603906,
+      "grad_norm": 1.5466890335083008,
+      "learning_rate": 5.61264077344962e-06,
+      "loss": 1.9285,
+      "mean_token_accuracy": 0.557815557718277,
+      "step": 3900
+    },
+    {
+      "epoch": 0.34010639225603906,
+      "eval_runtime": 4.0828,
+      "eval_samples_per_second": 268.69,
+      "eval_steps_per_second": 67.356,
+      "step": 3900
+    },
+    {
+      "epoch": 0.34097845992849046,
+      "grad_norm": 1.5171886682510376,
+      "learning_rate": 5.558011466380824e-06,
+      "loss": 1.8691,
+      "mean_token_accuracy": 0.5628180056810379,
+      "step": 3910
+    },
+    {
+      "epoch": 0.3418505276009418,
+      "grad_norm": 1.4577383995056152,
+      "learning_rate": 5.5035468148846926e-06,
+      "loss": 1.9047,
+      "mean_token_accuracy": 0.5601516634225845,
+      "step": 3920
+    },
+    {
+      "epoch": 0.3427225952733932,
+      "grad_norm": 1.3760961294174194,
+      "learning_rate": 5.449248837856224e-06,
+      "loss": 1.868,
+      "mean_token_accuracy": 0.569593933224678,
+      "step": 3930
+    },
+    {
+      "epoch": 0.3435946629458446,
+      "grad_norm": 1.5944592952728271,
+      "learning_rate": 5.395119548012112e-06,
+      "loss": 1.9316,
+      "mean_token_accuracy": 0.5559564530849457,
+      "step": 3940
+    },
+    {
+      "epoch": 0.34446673061829597,
+      "grad_norm": 1.44200599193573,
+      "learning_rate": 5.34116095181616e-06,
+      "loss": 1.9008,
+      "mean_token_accuracy": 0.5622920751571655,
+      "step": 3950
+    },
+    {
+      "epoch": 0.3453387982907474,
+      "grad_norm": 1.4984644651412964,
+      "learning_rate": 5.287375049404909e-06,
+      "loss": 1.893,
+      "mean_token_accuracy": 0.5642979443073273,
+      "step": 3960
+    },
+    {
+      "epoch": 0.3462108659631987,
+      "grad_norm": 1.4511080980300903,
+      "learning_rate": 5.233763834513479e-06,
+      "loss": 1.8684,
+      "mean_token_accuracy": 0.5677959859371186,
+      "step": 3970
+    },
+    {
+      "epoch": 0.3470829336356501,
+      "grad_norm": 1.465245246887207,
+      "learning_rate": 5.180329294401685e-06,
+      "loss": 1.8496,
+      "mean_token_accuracy": 0.5706091016530991,
+      "step": 3980
+    },
+    {
+      "epoch": 0.34795500130810153,
+      "grad_norm": 1.5774682760238647,
+      "learning_rate": 5.127073409780352e-06,
+      "loss": 1.9094,
+      "mean_token_accuracy": 0.5600171282887458,
+      "step": 3990
+    },
+    {
+      "epoch": 0.3488270689805529,
+      "grad_norm": 1.5574545860290527,
+      "learning_rate": 5.0739981547379215e-06,
+      "loss": 1.9187,
+      "mean_token_accuracy": 0.558231407403946,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3488270689805529,
+      "eval_runtime": 4.0915,
+      "eval_samples_per_second": 268.119,
+      "eval_steps_per_second": 67.213,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3496991366530043,
+      "grad_norm": 1.382649302482605,
+      "learning_rate": 5.02110549666724e-06,
+      "loss": 1.8625,
+      "mean_token_accuracy": 0.57120840549469,
+      "step": 4010
+    },
+    {
+      "epoch": 0.35057120432545563,
+      "grad_norm": 1.4300912618637085,
+      "learning_rate": 4.968397396192675e-06,
+      "loss": 1.8613,
+      "mean_token_accuracy": 0.5701810210943222,
+      "step": 4020
+    },
+    {
+      "epoch": 0.35144327199790704,
+      "grad_norm": 1.5044147968292236,
+      "learning_rate": 4.91587580709739e-06,
+      "loss": 1.8813,
+      "mean_token_accuracy": 0.5653620332479476,
+      "step": 4030
+    },
+    {
+      "epoch": 0.35231533967035844,
+      "grad_norm": 1.5464123487472534,
+      "learning_rate": 4.863542676250972e-06,
+      "loss": 1.8027,
+      "mean_token_accuracy": 0.5821183949708939,
+      "step": 4040
+    },
+    {
+      "epoch": 0.3531874073428098,
+      "grad_norm": 1.4657748937606812,
+      "learning_rate": 4.811399943537223e-06,
+      "loss": 1.9129,
+      "mean_token_accuracy": 0.5564579248428345,
+      "step": 4050
+    },
+    {
+      "epoch": 0.3540594750152612,
+      "grad_norm": 1.4244955778121948,
+      "learning_rate": 4.759449541782272e-06,
+      "loss": 1.8906,
+      "mean_token_accuracy": 0.5680772989988327,
+      "step": 4060
+    },
+    {
+      "epoch": 0.35493154268771254,
+      "grad_norm": 1.4630274772644043,
+      "learning_rate": 4.707693396682936e-06,
+      "loss": 1.8793,
+      "mean_token_accuracy": 0.569165849685669,
+      "step": 4070
+    },
+    {
+      "epoch": 0.35580361036016395,
+      "grad_norm": 1.6317942142486572,
+      "learning_rate": 4.656133426735315e-06,
+      "loss": 1.8848,
+      "mean_token_accuracy": 0.5674779832363128,
+      "step": 4080
+    },
+    {
+      "epoch": 0.35667567803261535,
+      "grad_norm": 1.4215569496154785,
+      "learning_rate": 4.604771543163706e-06,
+      "loss": 1.9164,
+      "mean_token_accuracy": 0.5565435469150544,
+      "step": 4090
+    },
+    {
+      "epoch": 0.3575477457050667,
+      "grad_norm": 1.4870840311050415,
+      "learning_rate": 4.5536096498497295e-06,
+      "loss": 1.9422,
+      "mean_token_accuracy": 0.5528620347380638,
+      "step": 4100
+    },
+    {
+      "epoch": 0.3575477457050667,
+      "eval_runtime": 4.0926,
+      "eval_samples_per_second": 268.048,
+      "eval_steps_per_second": 67.195,
+      "step": 4100
+    },
+    {
+      "epoch": 0.3584198133775181,
+      "grad_norm": 1.449483871459961,
+      "learning_rate": 4.502649643261779e-06,
+      "loss": 1.8629,
+      "mean_token_accuracy": 0.569055762887001,
+      "step": 4110
+    },
+    {
+      "epoch": 0.35929188104996945,
+      "grad_norm": 1.6074910163879395,
+      "learning_rate": 4.451893412384707e-06,
+      "loss": 1.941,
+      "mean_token_accuracy": 0.5552593022584915,
+      "step": 4120
+    },
+    {
+      "epoch": 0.36016394872242086,
+      "grad_norm": 1.6915830373764038,
+      "learning_rate": 4.401342838649818e-06,
+      "loss": 1.8355,
+      "mean_token_accuracy": 0.5769202530384063,
+      "step": 4130
+    },
+    {
+      "epoch": 0.36103601639487226,
+      "grad_norm": 1.7034832239151,
+      "learning_rate": 4.350999795865109e-06,
+      "loss": 1.8648,
+      "mean_token_accuracy": 0.572859588265419,
+      "step": 4140
+    },
+    {
+      "epoch": 0.3619080840673236,
+      "grad_norm": 1.4516830444335938,
+      "learning_rate": 4.300866150145837e-06,
+      "loss": 1.8941,
+      "mean_token_accuracy": 0.5672455906867981,
+      "step": 4150
+    },
+    {
+      "epoch": 0.362780151739775,
+      "grad_norm": 1.553286075592041,
+      "learning_rate": 4.250943759845316e-06,
+      "loss": 1.8625,
+      "mean_token_accuracy": 0.5689823925495148,
+      "step": 4160
+    },
+    {
+      "epoch": 0.36365221941222636,
+      "grad_norm": 1.4989771842956543,
+      "learning_rate": 4.201234475486063e-06,
+      "loss": 1.8707,
+      "mean_token_accuracy": 0.5673312187194824,
+      "step": 4170
+    },
+    {
+      "epoch": 0.36452428708467777,
+      "grad_norm": 1.4032716751098633,
+      "learning_rate": 4.1517401396911725e-06,
+      "loss": 1.9254,
+      "mean_token_accuracy": 0.5564334630966187,
+      "step": 4180
+    },
+    {
+      "epoch": 0.36539635475712917,
+      "grad_norm": 1.3520058393478394,
+      "learning_rate": 4.1024625871160325e-06,
+      "loss": 1.8656,
+      "mean_token_accuracy": 0.5695327788591384,
+      "step": 4190
+    },
+    {
+      "epoch": 0.3662684224295805,
+      "grad_norm": 1.4250023365020752,
+      "learning_rate": 4.053403644380321e-06,
+      "loss": 1.8586,
+      "mean_token_accuracy": 0.566585123538971,
+      "step": 4200
+    },
+    {
+      "epoch": 0.3662684224295805,
+      "eval_runtime": 4.0855,
+      "eval_samples_per_second": 268.511,
+      "eval_steps_per_second": 67.311,
+      "step": 4200
+    },
+    {
+      "epoch": 0.3671404901020319,
+      "grad_norm": 1.4445308446884155,
+      "learning_rate": 4.004565130000277e-06,
+      "loss": 1.8926,
+      "mean_token_accuracy": 0.56280577480793,
+      "step": 4210
+    },
+    {
+      "epoch": 0.3680125577744833,
+      "grad_norm": 1.4670929908752441,
+      "learning_rate": 3.955948854321321e-06,
+      "loss": 1.891,
+      "mean_token_accuracy": 0.5640044003725052,
+      "step": 4220
+    },
+    {
+      "epoch": 0.3688846254469347,
+      "grad_norm": 1.4516441822052002,
+      "learning_rate": 3.907556619450909e-06,
+      "loss": 1.8914,
+      "mean_token_accuracy": 0.5648605704307557,
+      "step": 4230
+    },
+    {
+      "epoch": 0.3697566931193861,
+      "grad_norm": 1.5820462703704834,
+      "learning_rate": 3.859390219191775e-06,
+      "loss": 1.8887,
+      "mean_token_accuracy": 0.5644569545984268,
+      "step": 4240
+    },
+    {
+      "epoch": 0.37062876079183743,
+      "grad_norm": 1.4450770616531372,
+      "learning_rate": 3.8114514389754098e-06,
+      "loss": 1.8836,
+      "mean_token_accuracy": 0.5650807201862336,
+      "step": 4250
+    },
+    {
+      "epoch": 0.37150082846428883,
+      "grad_norm": 1.4532335996627808,
+      "learning_rate": 3.7637420557958927e-06,
+      "loss": 1.8766,
+      "mean_token_accuracy": 0.5693982392549515,
+      "step": 4260
+    },
+    {
+      "epoch": 0.3723728961367402,
+      "grad_norm": 1.3702110052108765,
+      "learning_rate": 3.7162638381440077e-06,
+      "loss": 1.875,
+      "mean_token_accuracy": 0.5667074292898178,
+      "step": 4270
+    },
+    {
+      "epoch": 0.3732449638091916,
+      "grad_norm": 1.4957563877105713,
+      "learning_rate": 3.6690185459417107e-06,
+      "loss": 1.8914,
+      "mean_token_accuracy": 0.5666585087776184,
+      "step": 4280
+    },
+    {
+      "epoch": 0.374117031481643,
+      "grad_norm": 1.4075829982757568,
+      "learning_rate": 3.622007930476865e-06,
+      "loss": 1.8344,
+      "mean_token_accuracy": 0.5794031322002411,
+      "step": 4290
+    },
+    {
+      "epoch": 0.37498909915409434,
+      "grad_norm": 1.4577142000198364,
+      "learning_rate": 3.575233734338356e-06,
+      "loss": 1.9273,
+      "mean_token_accuracy": 0.5555650681257248,
+      "step": 4300
+    },
+    {
+      "epoch": 0.37498909915409434,
+      "eval_runtime": 4.0876,
+      "eval_samples_per_second": 268.375,
+      "eval_steps_per_second": 67.277,
+      "step": 4300
+    },
+    {
+      "epoch": 0.37586116682654575,
+      "grad_norm": 1.4766334295272827,
+      "learning_rate": 3.528697691351465e-06,
+      "loss": 1.9238,
+      "mean_token_accuracy": 0.5578400224447251,
+      "step": 4310
+    },
+    {
+      "epoch": 0.37673323449899715,
+      "grad_norm": 1.4638077020645142,
+      "learning_rate": 3.4824015265136278e-06,
+      "loss": 1.9078,
+      "mean_token_accuracy": 0.563307237625122,
+      "step": 4320
+    },
+    {
+      "epoch": 0.3776053021714485,
+      "grad_norm": 1.4318853616714478,
+      "learning_rate": 3.436346955930472e-06,
+      "loss": 1.8813,
+      "mean_token_accuracy": 0.5675513714551925,
+      "step": 4330
+    },
+    {
+      "epoch": 0.3784773698438999,
+      "grad_norm": 1.6565748453140259,
+      "learning_rate": 3.3905356867522187e-06,
+      "loss": 1.9586,
+      "mean_token_accuracy": 0.5517000943422318,
+      "step": 4340
+    },
+    {
+      "epoch": 0.37934943751635125,
+      "grad_norm": 1.5385055541992188,
+      "learning_rate": 3.344969417110391e-06,
+      "loss": 1.9031,
+      "mean_token_accuracy": 0.5641022533178329,
+      "step": 4350
+    },
+    {
+      "epoch": 0.38022150518880266,
+      "grad_norm": 1.421630620956421,
+      "learning_rate": 3.29964983605487e-06,
+      "loss": 1.9352,
+      "mean_token_accuracy": 0.5561643779277802,
+      "step": 4360
+    },
+    {
+      "epoch": 0.38109357286125406,
+      "grad_norm": 1.5509594678878784,
+      "learning_rate": 3.2545786234913e-06,
+      "loss": 1.8438,
+      "mean_token_accuracy": 0.571159490942955,
+      "step": 4370
+    },
+    {
+      "epoch": 0.3819656405337054,
+      "grad_norm": 1.433976411819458,
+      "learning_rate": 3.2097574501187877e-06,
+      "loss": 1.8953,
+      "mean_token_accuracy": 0.5654965758323669,
+      "step": 4380
+    },
+    {
+      "epoch": 0.3828377082061568,
+      "grad_norm": 1.4957337379455566,
+      "learning_rate": 3.165187977368007e-06,
+      "loss": 1.8609,
+      "mean_token_accuracy": 0.5669642895460129,
+      "step": 4390
+    },
+    {
+      "epoch": 0.38370977587860816,
+      "grad_norm": 1.774539589881897,
+      "learning_rate": 3.120871857339582e-06,
+      "loss": 1.932,
+      "mean_token_accuracy": 0.5543542072176934,
+      "step": 4400
+    },
+    {
+      "epoch": 0.38370977587860816,
+      "eval_runtime": 4.0884,
+      "eval_samples_per_second": 268.317,
+      "eval_steps_per_second": 67.263,
+      "step": 4400
+    },
+    {
+      "epoch": 0.38458184355105957,
+      "grad_norm": 1.4590060710906982,
+      "learning_rate": 3.0768107327428766e-06,
+      "loss": 1.8539,
+      "mean_token_accuracy": 0.5772137969732285,
+      "step": 4410
+    },
+    {
+      "epoch": 0.38545391122351097,
+      "grad_norm": 1.431147575378418,
+      "learning_rate": 3.033006236835071e-06,
+      "loss": 1.8816,
+      "mean_token_accuracy": 0.5620719224214554,
+      "step": 4420
+    },
+    {
+      "epoch": 0.3863259788959623,
+      "grad_norm": 1.6103287935256958,
+      "learning_rate": 2.9894599933606518e-06,
+      "loss": 1.8766,
+      "mean_token_accuracy": 0.5686521530151367,
+      "step": 4430
+    },
+    {
+      "epoch": 0.3871980465684137,
+      "grad_norm": 1.3800914287567139,
+      "learning_rate": 2.9461736164911934e-06,
+      "loss": 1.8262,
+      "mean_token_accuracy": 0.5783757269382477,
+      "step": 4440
+    },
+    {
+      "epoch": 0.38807011424086507,
+      "grad_norm": 1.6143025159835815,
+      "learning_rate": 2.903148710765552e-06,
+      "loss": 1.9012,
+      "mean_token_accuracy": 0.5581090986728668,
+      "step": 4450
+    },
+    {
+      "epoch": 0.3889421819133165,
+      "grad_norm": 1.535288691520691,
+      "learning_rate": 2.8603868710303662e-06,
+      "loss": 1.8422,
+      "mean_token_accuracy": 0.5744496077299118,
+      "step": 4460
+    },
+    {
+      "epoch": 0.3898142495857679,
+      "grad_norm": 1.5556520223617554,
+      "learning_rate": 2.8178896823809465e-06,
+      "loss": 1.893,
+      "mean_token_accuracy": 0.5614114463329315,
+      "step": 4470
+    },
+    {
+      "epoch": 0.39068631725821923,
+      "grad_norm": 1.542545199394226,
+      "learning_rate": 2.7756587201025297e-06,
+      "loss": 1.8801,
+      "mean_token_accuracy": 0.5641389399766922,
+      "step": 4480
+    },
+    {
+      "epoch": 0.39155838493067063,
+      "grad_norm": 1.5595227479934692,
+      "learning_rate": 2.7336955496118666e-06,
+      "loss": 1.9055,
+      "mean_token_accuracy": 0.5606286689639092,
+      "step": 4490
+    },
+    {
+      "epoch": 0.392430452603122,
+      "grad_norm": 1.4849331378936768,
+      "learning_rate": 2.692001726399215e-06,
+      "loss": 1.8949,
+      "mean_token_accuracy": 0.5600293561816215,
+      "step": 4500
+    },
+    {
+      "epoch": 0.392430452603122,
+      "eval_runtime": 4.0889,
+      "eval_samples_per_second": 268.29,
+      "eval_steps_per_second": 67.256,
+      "step": 4500
+    },
+    {
+      "epoch": 0.3933025202755734,
+      "grad_norm": 1.4943605661392212,
+      "learning_rate": 2.6505787959706607e-06,
+      "loss": 1.8523,
+      "mean_token_accuracy": 0.5698752492666245,
+      "step": 4510
+    },
+    {
+      "epoch": 0.3941745879480248,
+      "grad_norm": 1.4366259574890137,
+      "learning_rate": 2.609428293790852e-06,
+      "loss": 1.8289,
+      "mean_token_accuracy": 0.5753302335739136,
+      "step": 4520
+    },
+    {
+      "epoch": 0.39504665562047614,
+      "grad_norm": 1.7184029817581177,
+      "learning_rate": 2.5685517452260566e-06,
+      "loss": 1.9219,
+      "mean_token_accuracy": 0.5587573379278183,
+      "step": 4530
+    },
+    {
+      "epoch": 0.39591872329292754,
+      "grad_norm": 1.3564153909683228,
+      "learning_rate": 2.5279506654876473e-06,
+      "loss": 1.8469,
+      "mean_token_accuracy": 0.5691046923398971,
+      "step": 4540
+    },
+    {
+      "epoch": 0.3967907909653789,
+      "grad_norm": 1.5561156272888184,
+      "learning_rate": 2.487626559575911e-06,
+      "loss": 1.907,
+      "mean_token_accuracy": 0.5614848345518112,
+      "step": 4550
+    },
+    {
+      "epoch": 0.3976628586378303,
+      "grad_norm": 1.5362129211425781,
+      "learning_rate": 2.4475809222242775e-06,
+      "loss": 1.8957,
+      "mean_token_accuracy": 0.5658757358789444,
+      "step": 4560
+    },
+    {
+      "epoch": 0.3985349263102817,
+      "grad_norm": 1.4398785829544067,
+      "learning_rate": 2.4078152378439033e-06,
+      "loss": 1.9109,
+      "mean_token_accuracy": 0.5580479472875595,
+      "step": 4570
+    },
+    {
+      "epoch": 0.39940699398273305,
+      "grad_norm": 1.7573672533035278,
+      "learning_rate": 2.3683309804686604e-06,
+      "loss": 1.857,
+      "mean_token_accuracy": 0.5705724030733108,
+      "step": 4580
+    },
+    {
+      "epoch": 0.40027906165518445,
+      "grad_norm": 1.3595718145370483,
+      "learning_rate": 2.329129613700478e-06,
+      "loss": 1.9227,
+      "mean_token_accuracy": 0.5525807231664658,
+      "step": 4590
+    },
+    {
+      "epoch": 0.4011511293276358,
+      "grad_norm": 1.5244477987289429,
+      "learning_rate": 2.29021259065511e-06,
+      "loss": 1.8891,
+      "mean_token_accuracy": 0.5619251430034637,
+      "step": 4600
+    },
+    {
+      "epoch": 0.4011511293276358,
+      "eval_runtime": 4.0833,
+      "eval_samples_per_second": 268.656,
+      "eval_steps_per_second": 67.348,
+      "step": 4600
+    },
+    {
+      "epoch": 0.4020231970000872,
+      "grad_norm": 1.3871146440505981,
+      "learning_rate": 2.251581353908252e-06,
+      "loss": 1.9031,
+      "mean_token_accuracy": 0.56024951338768,
+      "step": 4610
+    },
+    {
+      "epoch": 0.4028952646725386,
+      "grad_norm": 1.5421710014343262,
+      "learning_rate": 2.2132373354420833e-06,
+      "loss": 1.8973,
+      "mean_token_accuracy": 0.5607142865657806,
+      "step": 4620
+    },
+    {
+      "epoch": 0.40376733234498996,
+      "grad_norm": 1.5073237419128418,
+      "learning_rate": 2.1751819565921774e-06,
+      "loss": 1.9176,
+      "mean_token_accuracy": 0.5590753436088562,
+      "step": 4630
+    },
+    {
+      "epoch": 0.40463940001744136,
+      "grad_norm": 1.3509526252746582,
+      "learning_rate": 2.137416627994814e-06,
+      "loss": 1.8664,
+      "mean_token_accuracy": 0.5698507905006409,
+      "step": 4640
+    },
+    {
+      "epoch": 0.4055114676898927,
+      "grad_norm": 1.6109211444854736,
+      "learning_rate": 2.0999427495347035e-06,
+      "loss": 1.8957,
+      "mean_token_accuracy": 0.5636007845401764,
+      "step": 4650
+    },
+    {
+      "epoch": 0.4063835353623441,
+      "grad_norm": 1.4406919479370117,
+      "learning_rate": 2.0627617102930753e-06,
+      "loss": 1.9035,
+      "mean_token_accuracy": 0.5599682003259658,
+      "step": 4660
+    },
+    {
+      "epoch": 0.4072556030347955,
+      "grad_norm": 1.4089229106903076,
+      "learning_rate": 2.02587488849621e-06,
+      "loss": 1.8594,
+      "mean_token_accuracy": 0.5714530318975448,
+      "step": 4670
+    },
+    {
+      "epoch": 0.40812767070724687,
+      "grad_norm": 1.4895331859588623,
+      "learning_rate": 1.989283651464329e-06,
+      "loss": 1.9047,
+      "mean_token_accuracy": 0.5572162419557571,
+      "step": 4680
+    },
+    {
+      "epoch": 0.4089997383796983,
+      "grad_norm": 1.4899771213531494,
+      "learning_rate": 1.952989355560929e-06,
+      "loss": 1.8523,
+      "mean_token_accuracy": 0.5744985342025757,
+      "step": 4690
+    },
+    {
+      "epoch": 0.4098718060521496,
+      "grad_norm": 1.5392106771469116,
+      "learning_rate": 1.9169933461424928e-06,
+      "loss": 1.9023,
+      "mean_token_accuracy": 0.5581702530384064,
+      "step": 4700
+    },
+    {
+      "epoch": 0.4098718060521496,
+      "eval_runtime": 4.0847,
+      "eval_samples_per_second": 268.562,
+      "eval_steps_per_second": 67.324,
+      "step": 4700
+    },
+    {
+      "epoch": 0.410743873724601,
+      "grad_norm": 1.3449276685714722,
+      "learning_rate": 1.8812969575086272e-06,
+      "loss": 1.8813,
+      "mean_token_accuracy": 0.5668175131082535,
+      "step": 4710
+    },
+    {
+      "epoch": 0.41161594139705243,
+      "grad_norm": 1.4662140607833862,
+      "learning_rate": 1.8459015128525937e-06,
+      "loss": 1.807,
+      "mean_token_accuracy": 0.5794887483119965,
+      "step": 4720
+    },
+    {
+      "epoch": 0.4124880090695038,
+      "grad_norm": 1.5249788761138916,
+      "learning_rate": 1.8108083242122764e-06,
+      "loss": 1.8656,
+      "mean_token_accuracy": 0.5667318940162659,
+      "step": 4730
+    },
+    {
+      "epoch": 0.4133600767419552,
+      "grad_norm": 1.5550411939620972,
+      "learning_rate": 1.7760186924215239e-06,
+      "loss": 1.8168,
+      "mean_token_accuracy": 0.5799168288707733,
+      "step": 4740
+    },
+    {
+      "epoch": 0.41423214441440653,
+      "grad_norm": 1.4331603050231934,
+      "learning_rate": 1.7415339070619586e-06,
+      "loss": 1.8926,
+      "mean_token_accuracy": 0.5634173184633255,
+      "step": 4750
+    },
+    {
+      "epoch": 0.41510421208685794,
+      "grad_norm": 1.5571794509887695,
+      "learning_rate": 1.7073552464151465e-06,
+      "loss": 1.8789,
+      "mean_token_accuracy": 0.5671355128288269,
+      "step": 4760
+    },
+    {
+      "epoch": 0.41597627975930934,
+      "grad_norm": 1.4224915504455566,
+      "learning_rate": 1.6734839774152322e-06,
+      "loss": 1.923,
+      "mean_token_accuracy": 0.5605430483818055,
+      "step": 4770
+    },
+    {
+      "epoch": 0.4168483474317607,
+      "grad_norm": 1.370436668395996,
+      "learning_rate": 1.6399213556019732e-06,
+      "loss": 1.8527,
+      "mean_token_accuracy": 0.5706702560186386,
+      "step": 4780
+    },
+    {
+      "epoch": 0.4177204151042121,
+      "grad_norm": 1.4772405624389648,
+      "learning_rate": 1.6066686250741904e-06,
+      "loss": 1.8605,
+      "mean_token_accuracy": 0.5731531292200088,
+      "step": 4790
+    },
+    {
+      "epoch": 0.41859248277666344,
+      "grad_norm": 1.499083399772644,
+      "learning_rate": 1.573727018443667e-06,
+      "loss": 1.8875,
+      "mean_token_accuracy": 0.5655944168567657,
+      "step": 4800
+    },
+    {
+      "epoch": 0.41859248277666344,
+      "eval_runtime": 4.0836,
+      "eval_samples_per_second": 268.638,
+      "eval_steps_per_second": 67.343,
+      "step": 4800
+    },
+    {
+      "epoch": 0.41946455044911485,
+      "grad_norm": 1.4531036615371704,
+      "learning_rate": 1.5410977567894403e-06,
+      "loss": 1.9074,
+      "mean_token_accuracy": 0.5571550875902176,
+      "step": 4810
+    },
+    {
+      "epoch": 0.42033661812156625,
+      "grad_norm": 1.4231221675872803,
+      "learning_rate": 1.5087820496125595e-06,
+      "loss": 1.9078,
+      "mean_token_accuracy": 0.5635396242141724,
+      "step": 4820
+    },
+    {
+      "epoch": 0.4212086857940176,
+      "grad_norm": 1.5508164167404175,
+      "learning_rate": 1.4767810947912275e-06,
+      "loss": 1.8996,
+      "mean_token_accuracy": 0.5575464755296707,
+      "step": 4830
+    },
+    {
+      "epoch": 0.422080753466469,
+      "grad_norm": 1.4093987941741943,
+      "learning_rate": 1.4450960785364244e-06,
+      "loss": 1.9098,
+      "mean_token_accuracy": 0.5573507815599441,
+      "step": 4840
+    },
+    {
+      "epoch": 0.42295282113892035,
+      "grad_norm": 1.468575358390808,
+      "learning_rate": 1.4137281753479092e-06,
+      "loss": 1.9238,
+      "mean_token_accuracy": 0.560665363073349,
+      "step": 4850
+    },
+    {
+      "epoch": 0.42382488881137176,
+      "grad_norm": 1.482642412185669,
+      "learning_rate": 1.3826785479707128e-06,
+      "loss": 1.9027,
+      "mean_token_accuracy": 0.5603473573923111,
+      "step": 4860
+    },
+    {
+      "epoch": 0.42469695648382316,
+      "grad_norm": 1.5216703414916992,
+      "learning_rate": 1.3519483473520124e-06,
+      "loss": 1.9207,
+      "mean_token_accuracy": 0.554244127869606,
+      "step": 4870
+    },
+    {
+      "epoch": 0.4255690241562745,
+      "grad_norm": 1.4411274194717407,
+      "learning_rate": 1.3215387125984813e-06,
+      "loss": 1.8895,
+      "mean_token_accuracy": 0.5643101736903191,
+      "step": 4880
+    },
+    {
+      "epoch": 0.4264410918287259,
+      "grad_norm": 1.301592469215393,
+      "learning_rate": 1.2914507709340596e-06,
+      "loss": 1.8734,
+      "mean_token_accuracy": 0.5655454933643341,
+      "step": 4890
+    },
+    {
+      "epoch": 0.42731315950117726,
+      "grad_norm": 1.4577182531356812,
+      "learning_rate": 1.2616856376581766e-06,
+      "loss": 1.8902,
+      "mean_token_accuracy": 0.562267616391182,
+      "step": 4900
+    },
+    {
+      "epoch": 0.42731315950117726,
+      "eval_runtime": 4.0907,
+      "eval_samples_per_second": 268.168,
+      "eval_steps_per_second": 67.225,
+      "step": 4900
+    },
+    {
+      "epoch": 0.42818522717362867,
+      "grad_norm": 1.4009668827056885,
+      "learning_rate": 1.2322444161044e-06,
+      "loss": 1.9051,
+      "mean_token_accuracy": 0.5627079278230667,
+      "step": 4910
+    },
+    {
+      "epoch": 0.4290572948460801,
+      "grad_norm": 1.520477294921875,
+      "learning_rate": 1.2031281975995467e-06,
+      "loss": 1.8891,
+      "mean_token_accuracy": 0.5616927653551101,
+      "step": 4920
+    },
+    {
+      "epoch": 0.4299293625185314,
+      "grad_norm": 1.5954930782318115,
+      "learning_rate": 1.1743380614232213e-06,
+      "loss": 1.9023,
+      "mean_token_accuracy": 0.5604085087776184,
+      "step": 4930
+    },
+    {
+      "epoch": 0.4308014301909828,
+      "grad_norm": 1.5380669832229614,
+      "learning_rate": 1.1458750747678105e-06,
+      "loss": 1.859,
+      "mean_token_accuracy": 0.5733243674039841,
+      "step": 4940
+    },
+    {
+      "epoch": 0.43167349786343423,
+      "grad_norm": 1.46197509765625,
+      "learning_rate": 1.1177402926989345e-06,
+      "loss": 1.8902,
+      "mean_token_accuracy": 0.5661203533411026,
+      "step": 4950
+    },
+    {
+      "epoch": 0.4325455655358856,
+      "grad_norm": 1.3501838445663452,
+      "learning_rate": 1.0899347581163222e-06,
+      "loss": 1.8992,
+      "mean_token_accuracy": 0.5643957883119584,
+      "step": 4960
+    },
+    {
+      "epoch": 0.433417633208337,
+      "grad_norm": 1.4949750900268555,
+      "learning_rate": 1.0624595017151685e-06,
+      "loss": 1.9086,
+      "mean_token_accuracy": 0.5587818026542664,
+      "step": 4970
+    },
+    {
+      "epoch": 0.43428970088078833,
+      "grad_norm": 1.6622486114501953,
+      "learning_rate": 1.0353155419479122e-06,
+      "loss": 1.8758,
+      "mean_token_accuracy": 0.5664995104074478,
+      "step": 4980
+    },
+    {
+      "epoch": 0.43516176855323974,
+      "grad_norm": 1.6827987432479858,
+      "learning_rate": 1.0085038849865025e-06,
+      "loss": 1.8867,
+      "mean_token_accuracy": 0.5640166342258454,
+      "step": 4990
+    },
+    {
+      "epoch": 0.43603383622569114,
+      "grad_norm": 1.3393261432647705,
+      "learning_rate": 9.820255246850853e-07,
+      "loss": 1.8934,
+      "mean_token_accuracy": 0.5630259305238724,
+      "step": 5000
+    },
+    {
+      "epoch": 0.43603383622569114,
+      "eval_runtime": 4.0872,
+      "eval_samples_per_second": 268.401,
+      "eval_steps_per_second": 67.284,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4369059038981425,
+      "grad_norm": 1.4590463638305664,
+      "learning_rate": 9.55881442543174e-07,
+      "loss": 1.9066,
+      "mean_token_accuracy": 0.5621086120605469,
+      "step": 5010
+    },
+    {
+      "epoch": 0.4377779715705939,
+      "grad_norm": 1.3824725151062012,
+      "learning_rate": 9.30072607669259e-07,
+      "loss": 1.9039,
+      "mean_token_accuracy": 0.5605308175086975,
+      "step": 5020
+    },
+    {
+      "epoch": 0.43865003924304524,
+      "grad_norm": 1.4778671264648438,
+      "learning_rate": 9.045999767448988e-07,
+      "loss": 1.8813,
+      "mean_token_accuracy": 0.5673067539930343,
+      "step": 5030
+    },
+    {
+      "epoch": 0.43952210691549665,
+      "grad_norm": 1.4248597621917725,
+      "learning_rate": 8.794644939892361e-07,
+      "loss": 1.9184,
+      "mean_token_accuracy": 0.5599559783935547,
+      "step": 5040
+    },
+    {
+      "epoch": 0.44039417458794805,
+      "grad_norm": 1.588160514831543,
+      "learning_rate": 8.546670911240196e-07,
+      "loss": 1.9059,
+      "mean_token_accuracy": 0.5637475490570069,
+      "step": 5050
+    },
+    {
+      "epoch": 0.4412662422603994,
+      "grad_norm": 1.4497967958450317,
+      "learning_rate": 8.302086873390536e-07,
+      "loss": 1.9164,
+      "mean_token_accuracy": 0.5602005869150162,
+      "step": 5060
+    },
+    {
+      "epoch": 0.4421383099328508,
+      "grad_norm": 1.405897855758667,
+      "learning_rate": 8.060901892581241e-07,
+      "loss": 1.9043,
+      "mean_token_accuracy": 0.5620474576950073,
+      "step": 5070
+    },
+    {
+      "epoch": 0.44301037760530215,
+      "grad_norm": 1.4370694160461426,
+      "learning_rate": 7.82312490905407e-07,
+      "loss": 1.8742,
+      "mean_token_accuracy": 0.5676859140396118,
+      "step": 5080
+    },
+    {
+      "epoch": 0.44388244527775356,
+      "grad_norm": 1.4547231197357178,
+      "learning_rate": 7.588764736723086e-07,
+      "loss": 1.8926,
+      "mean_token_accuracy": 0.5644447177648544,
+      "step": 5090
+    },
+    {
+      "epoch": 0.44475451295020496,
+      "grad_norm": 1.5096557140350342,
+      "learning_rate": 7.357830062848114e-07,
+      "loss": 1.866,
+      "mean_token_accuracy": 0.5678693801164627,
+      "step": 5100
+    },
+    {
+      "epoch": 0.44475451295020496,
+      "eval_runtime": 4.0849,
+      "eval_samples_per_second": 268.55,
+      "eval_steps_per_second": 67.321,
+      "step": 5100
+    },
+    {
+      "epoch": 0.4456265806226563,
+      "grad_norm": 1.6047755479812622,
+      "learning_rate": 7.130329447712581e-07,
+      "loss": 1.8086,
+      "mean_token_accuracy": 0.5806017607450485,
+      "step": 5110
+    },
+    {
+      "epoch": 0.4464986482951077,
+      "grad_norm": 1.3617113828659058,
+      "learning_rate": 6.906271324306335e-07,
+      "loss": 1.8957,
+      "mean_token_accuracy": 0.5590753436088562,
+      "step": 5120
+    },
+    {
+      "epoch": 0.44737071596755906,
+      "grad_norm": 1.5302565097808838,
+      "learning_rate": 6.685663998012926e-07,
+      "loss": 1.8848,
+      "mean_token_accuracy": 0.5646404147148132,
+      "step": 5130
+    },
+    {
+      "epoch": 0.44824278364001047,
+      "grad_norm": 1.4842449426651,
+      "learning_rate": 6.468515646301865e-07,
+      "loss": 1.8988,
+      "mean_token_accuracy": 0.5620352268218994,
+      "step": 5140
+    },
+    {
+      "epoch": 0.44911485131246187,
+      "grad_norm": 1.552765130996704,
+      "learning_rate": 6.254834318425363e-07,
+      "loss": 1.8988,
+      "mean_token_accuracy": 0.5594422698020936,
+      "step": 5150
+    },
+    {
+      "epoch": 0.4499869189849132,
+      "grad_norm": 1.4039723873138428,
+      "learning_rate": 6.044627935120107e-07,
+      "loss": 1.8828,
+      "mean_token_accuracy": 0.5647994130849838,
+      "step": 5160
+    },
+    {
+      "epoch": 0.4508589866573646,
+      "grad_norm": 1.4126039743423462,
+      "learning_rate": 5.837904288313545e-07,
+      "loss": 1.8734,
+      "mean_token_accuracy": 0.567465752363205,
+      "step": 5170
+    },
+    {
+      "epoch": 0.451731054329816,
+      "grad_norm": 1.4614925384521484,
+      "learning_rate": 5.634671040835104e-07,
+      "loss": 1.9406,
+      "mean_token_accuracy": 0.5528742641210556,
+      "step": 5180
+    },
+    {
+      "epoch": 0.4526031220022674,
+      "grad_norm": 1.54082453250885,
+      "learning_rate": 5.43493572613214e-07,
+      "loss": 1.9375,
+      "mean_token_accuracy": 0.5544275879859925,
+      "step": 5190
+    },
+    {
+      "epoch": 0.4534751896747188,
+      "grad_norm": 1.5252362489700317,
+      "learning_rate": 5.238705747990669e-07,
+      "loss": 1.8316,
+      "mean_token_accuracy": 0.5732020527124405,
+      "step": 5200
+    },
+    {
+      "epoch": 0.4534751896747188,
+      "eval_runtime": 4.0849,
+      "eval_samples_per_second": 268.548,
+      "eval_steps_per_second": 67.321,
+      "step": 5200
+    },
+    {
+      "epoch": 0.45434725734717013,
+      "grad_norm": 1.409277319908142,
+      "learning_rate": 5.045988380260935e-07,
+      "loss": 1.8574,
+      "mean_token_accuracy": 0.568272989988327,
+      "step": 5210
+    },
+    {
+      "epoch": 0.45521932501962153,
+      "grad_norm": 1.4178364276885986,
+      "learning_rate": 4.856790766587815e-07,
+      "loss": 1.9172,
+      "mean_token_accuracy": 0.5640533313155174,
+      "step": 5220
+    },
+    {
+      "epoch": 0.4560913926920729,
+      "grad_norm": 1.3952265977859497,
+      "learning_rate": 4.6711199201459833e-07,
+      "loss": 1.8938,
+      "mean_token_accuracy": 0.5614359140396118,
+      "step": 5230
+    },
+    {
+      "epoch": 0.4569634603645243,
+      "grad_norm": 1.577718734741211,
+      "learning_rate": 4.488982723379887e-07,
+      "loss": 1.8551,
+      "mean_token_accuracy": 0.5694104731082916,
+      "step": 5240
+    },
+    {
+      "epoch": 0.4578355280369757,
+      "grad_norm": 1.529725193977356,
+      "learning_rate": 4.3103859277488056e-07,
+      "loss": 1.8492,
+      "mean_token_accuracy": 0.5718933463096618,
+      "step": 5250
+    },
+    {
+      "epoch": 0.45870759570942704,
+      "grad_norm": 1.4993305206298828,
+      "learning_rate": 4.1353361534763657e-07,
+      "loss": 1.8855,
+      "mean_token_accuracy": 0.5651663422584534,
+      "step": 5260
+    },
+    {
+      "epoch": 0.45957966338187844,
+      "grad_norm": 1.5709185600280762,
+      "learning_rate": 3.963839889305343e-07,
+      "loss": 1.8855,
+      "mean_token_accuracy": 0.563551864027977,
+      "step": 5270
+    },
+    {
+      "epoch": 0.4604517310543298,
+      "grad_norm": 1.550584077835083,
+      "learning_rate": 3.7959034922569804e-07,
+      "loss": 1.9148,
+      "mean_token_accuracy": 0.5563723057508468,
+      "step": 5280
+    },
+    {
+      "epoch": 0.4613237987267812,
+      "grad_norm": 1.3886584043502808,
+      "learning_rate": 3.631533187395453e-07,
+      "loss": 1.8949,
+      "mean_token_accuracy": 0.561753910779953,
+      "step": 5290
+    },
+    {
+      "epoch": 0.4621958663992326,
+      "grad_norm": 1.4985154867172241,
+      "learning_rate": 3.470735067597053e-07,
+      "loss": 1.882,
+      "mean_token_accuracy": 0.5627935439348221,
+      "step": 5300
+    },
+    {
+      "epoch": 0.4621958663992326,
+      "eval_runtime": 4.0805,
+      "eval_samples_per_second": 268.842,
+      "eval_steps_per_second": 67.394,
+      "step": 5300
+    },
+    {
+      "epoch": 0.46306793407168395,
+      "grad_norm": 1.5550390481948853,
+      "learning_rate": 3.313515093324393e-07,
+      "loss": 1.8559,
+      "mean_token_accuracy": 0.5729207396507263,
+      "step": 5310
+    },
+    {
+      "epoch": 0.46394000174413536,
+      "grad_norm": 1.4984419345855713,
+      "learning_rate": 3.1598790924053936e-07,
+      "loss": 1.8711,
+      "mean_token_accuracy": 0.5680161476135254,
+      "step": 5320
+    },
+    {
+      "epoch": 0.4648120694165867,
+      "grad_norm": 1.5940117835998535,
+      "learning_rate": 3.009832759817344e-07,
+      "loss": 1.9152,
+      "mean_token_accuracy": 0.5571550905704499,
+      "step": 5330
+    },
+    {
+      "epoch": 0.4656841370890381,
+      "grad_norm": 1.379276990890503,
+      "learning_rate": 2.8633816574757166e-07,
+      "loss": 1.8621,
+      "mean_token_accuracy": 0.5682240694761276,
+      "step": 5340
+    },
+    {
+      "epoch": 0.4665562047614895,
+      "grad_norm": 1.4445042610168457,
+      "learning_rate": 2.720531214028055e-07,
+      "loss": 1.8508,
+      "mean_token_accuracy": 0.5736301362514495,
+      "step": 5350
+    },
+    {
+      "epoch": 0.46742827243394086,
+      "grad_norm": 1.5308756828308105,
+      "learning_rate": 2.5812867246527207e-07,
+      "loss": 1.8645,
+      "mean_token_accuracy": 0.5661448121070862,
+      "step": 5360
+    },
+    {
+      "epoch": 0.46830034010639227,
+      "grad_norm": 1.438707947731018,
+      "learning_rate": 2.445653350862609e-07,
+      "loss": 1.9,
+      "mean_token_accuracy": 0.5600905090570449,
+      "step": 5370
+    },
+    {
+      "epoch": 0.4691724077788436,
+      "grad_norm": 1.507072925567627,
+      "learning_rate": 2.3136361203138668e-07,
+      "loss": 1.9008,
+      "mean_token_accuracy": 0.5647015661001206,
+      "step": 5380
+    },
+    {
+      "epoch": 0.470044475451295,
+      "grad_norm": 1.5116603374481201,
+      "learning_rate": 2.1852399266194312e-07,
+      "loss": 1.8871,
+      "mean_token_accuracy": 0.5647260278463364,
+      "step": 5390
+    },
+    {
+      "epoch": 0.4709165431237464,
+      "grad_norm": 1.4377670288085938,
+      "learning_rate": 2.0604695291677523e-07,
+      "loss": 1.8707,
+      "mean_token_accuracy": 0.566646283864975,
+      "step": 5400
+    },
+    {
+      "epoch": 0.4709165431237464,
+      "eval_runtime": 4.085,
+      "eval_samples_per_second": 268.545,
+      "eval_steps_per_second": 67.32,
+      "step": 5400
+    },
+    {
+      "epoch": 0.47178861079619777,
+      "grad_norm": 1.5869266986846924,
+      "learning_rate": 1.9393295529462674e-07,
+      "loss": 1.8711,
+      "mean_token_accuracy": 0.5661203533411026,
+      "step": 5410
+    },
+    {
+      "epoch": 0.4726606784686492,
+      "grad_norm": 1.4018718004226685,
+      "learning_rate": 1.8218244883700386e-07,
+      "loss": 1.9012,
+      "mean_token_accuracy": 0.5612279862165451,
+      "step": 5420
+    },
+    {
+      "epoch": 0.4735327461411005,
+      "grad_norm": 1.4257837533950806,
+      "learning_rate": 1.7079586911152413e-07,
+      "loss": 1.8687,
+      "mean_token_accuracy": 0.5651785671710968,
+      "step": 5430
+    },
+    {
+      "epoch": 0.47440481381355193,
+      "grad_norm": 1.3777456283569336,
+      "learning_rate": 1.597736381957782e-07,
+      "loss": 1.8613,
+      "mean_token_accuracy": 0.5744863003492355,
+      "step": 5440
+    },
+    {
+      "epoch": 0.47527688148600333,
+      "grad_norm": 1.4538086652755737,
+      "learning_rate": 1.4911616466167345e-07,
+      "loss": 1.9023,
+      "mean_token_accuracy": 0.5583414852619171,
+      "step": 5450
+    },
+    {
+      "epoch": 0.4761489491584547,
+      "grad_norm": 1.3854527473449707,
+      "learning_rate": 1.3882384356030066e-07,
+      "loss": 1.943,
+      "mean_token_accuracy": 0.5537181943655014,
+      "step": 5460
+    },
+    {
+      "epoch": 0.4770210168309061,
+      "grad_norm": 1.4162297248840332,
+      "learning_rate": 1.2889705640728445e-07,
+      "loss": 1.8441,
+      "mean_token_accuracy": 0.5747064501047134,
+      "step": 5470
+    },
+    {
+      "epoch": 0.47789308450335743,
+      "grad_norm": 1.4150612354278564,
+      "learning_rate": 1.1933617116863805e-07,
+      "loss": 1.9055,
+      "mean_token_accuracy": 0.5604941263794899,
+      "step": 5480
+    },
+    {
+      "epoch": 0.47876515217580884,
+      "grad_norm": 1.6404210329055786,
+      "learning_rate": 1.1014154224713302e-07,
+      "loss": 1.8938,
+      "mean_token_accuracy": 0.5667685896158219,
+      "step": 5490
+    },
+    {
+      "epoch": 0.47963721984826024,
+      "grad_norm": 1.6611881256103516,
+      "learning_rate": 1.0131351046915094e-07,
+      "loss": 1.8387,
+      "mean_token_accuracy": 0.5724070489406585,
+      "step": 5500
+    },
+    {
+      "epoch": 0.47963721984826024,
+      "eval_runtime": 4.0906,
+      "eval_samples_per_second": 268.176,
+      "eval_steps_per_second": 67.227,
+      "step": 5500
+    },
+    {
+      "epoch": 0.4805092875207116,
+      "grad_norm": 1.3786742687225342,
+      "learning_rate": 9.285240307206123e-08,
+      "loss": 1.8906,
+      "mean_token_accuracy": 0.563209393620491,
+      "step": 5510
+    },
+    {
+      "epoch": 0.481381355193163,
+      "grad_norm": 1.4849506616592407,
+      "learning_rate": 8.475853369207753e-08,
+      "loss": 1.9164,
+      "mean_token_accuracy": 0.5593566566705703,
+      "step": 5520
+    },
+    {
+      "epoch": 0.48225342286561435,
+      "grad_norm": 1.3948898315429688,
+      "learning_rate": 7.703220235264708e-08,
+      "loss": 1.893,
+      "mean_token_accuracy": 0.5631482422351837,
+      "step": 5530
+    },
+    {
+      "epoch": 0.48312549053806575,
+      "grad_norm": 1.41569983959198,
+      "learning_rate": 6.967369545331615e-08,
+      "loss": 1.8961,
+      "mean_token_accuracy": 0.5623043060302735,
+      "step": 5540
+    },
+    {
+      "epoch": 0.48399755821051715,
+      "grad_norm": 1.363344430923462,
+      "learning_rate": 6.26832857591242e-08,
+      "loss": 1.8785,
+      "mean_token_accuracy": 0.562940314412117,
+      "step": 5550
+    },
+    {
+      "epoch": 0.4848696258829685,
+      "grad_norm": 1.4277682304382324,
+      "learning_rate": 5.606123239048522e-08,
+      "loss": 1.8809,
+      "mean_token_accuracy": 0.5643276035785675,
+      "step": 5560
+    },
+    {
+      "epoch": 0.4857416935554199,
+      "grad_norm": 1.4068211317062378,
+      "learning_rate": 4.9807780813586615e-08,
+      "loss": 1.8551,
+      "mean_token_accuracy": 0.5700464755296707,
+      "step": 5570
+    },
+    {
+      "epoch": 0.48661376122787126,
+      "grad_norm": 1.4484305381774902,
+      "learning_rate": 4.392316283128861e-08,
+      "loss": 1.8262,
+      "mean_token_accuracy": 0.5742539197206498,
+      "step": 5580
+    },
+    {
+      "epoch": 0.48748582890032266,
+      "grad_norm": 1.5154151916503906,
+      "learning_rate": 3.840759657453452e-08,
+      "loss": 1.8965,
+      "mean_token_accuracy": 0.5596379607915878,
+      "step": 5590
+    },
+    {
+      "epoch": 0.48835789657277406,
+      "grad_norm": 1.4292099475860596,
+      "learning_rate": 3.326128649426053e-08,
+      "loss": 1.8988,
+      "mean_token_accuracy": 0.5628179997205734,
+      "step": 5600
+    },
+    {
+      "epoch": 0.48835789657277406,
+      "eval_runtime": 4.0919,
+      "eval_samples_per_second": 268.088,
+      "eval_steps_per_second": 67.205,
+      "step": 5600
+    },
+    {
+      "epoch": 0.4892299642452254,
+      "grad_norm": 1.4347695112228394,
+      "learning_rate": 2.8484423353822842e-08,
+      "loss": 1.8422,
+      "mean_token_accuracy": 0.5740337610244751,
+      "step": 5610
+    },
+    {
+      "epoch": 0.4901020319176768,
+      "grad_norm": 1.5624750852584839,
+      "learning_rate": 2.4077184221920068e-08,
+      "loss": 1.8184,
+      "mean_token_accuracy": 0.5777030318975449,
+      "step": 5620
+    },
+    {
+      "epoch": 0.4909740995901282,
+      "grad_norm": 1.4097241163253784,
+      "learning_rate": 2.003973246603508e-08,
+      "loss": 1.8371,
+      "mean_token_accuracy": 0.5728473573923111,
+      "step": 5630
+    },
+    {
+      "epoch": 0.49184616726257957,
+      "grad_norm": 1.5872358083724976,
+      "learning_rate": 1.637221774637765e-08,
+      "loss": 1.9125,
+      "mean_token_accuracy": 0.559552350640297,
+      "step": 5640
+    },
+    {
+      "epoch": 0.492718234935031,
+      "grad_norm": 1.5018359422683716,
+      "learning_rate": 1.3074776010334466e-08,
+      "loss": 1.85,
+      "mean_token_accuracy": 0.5692636936902999,
+      "step": 5650
+    },
+    {
+      "epoch": 0.4935903026074823,
+      "grad_norm": 1.3956242799758911,
+      "learning_rate": 1.0147529487432028e-08,
+      "loss": 1.841,
+      "mean_token_accuracy": 0.5753180056810379,
+      "step": 5660
+    },
+    {
+      "epoch": 0.4944623702799337,
+      "grad_norm": 1.4925743341445923,
+      "learning_rate": 7.590586684805834e-09,
+      "loss": 1.9199,
+      "mean_token_accuracy": 0.5554916799068451,
+      "step": 5670
+    },
+    {
+      "epoch": 0.49533443795238513,
+      "grad_norm": 1.4429186582565308,
+      "learning_rate": 5.4040423831802635e-09,
+      "loss": 1.8715,
+      "mean_token_accuracy": 0.5679549932479858,
+      "step": 5680
+    },
+    {
+      "epoch": 0.4962065056248365,
+      "grad_norm": 1.4584972858428955,
+      "learning_rate": 3.587977633348061e-09,
+      "loss": 1.8531,
+      "mean_token_accuracy": 0.5728473573923111,
+      "step": 5690
+    },
+    {
+      "epoch": 0.4970785732972879,
+      "grad_norm": 1.384555697441101,
+      "learning_rate": 2.1424597531749524e-09,
+      "loss": 1.9008,
+      "mean_token_accuracy": 0.5612769097089767,
+      "step": 5700
+    },
+    {
+      "epoch": 0.4970785732972879,
+      "eval_runtime": 4.086,
+      "eval_samples_per_second": 268.478,
+      "eval_steps_per_second": 67.303,
+      "step": 5700
+    },
+    {
+      "epoch": 0.49795064096973923,
+      "grad_norm": 1.3602359294891357,
+      "learning_rate": 1.0675423250994244e-09,
+      "loss": 1.868,
+      "mean_token_accuracy": 0.5703155636787415,
+      "step": 5710
+    },
+    {
+      "epoch": 0.49882270864219064,
+      "grad_norm": 1.521691083908081,
+      "learning_rate": 3.6326519414431327e-10,
+      "loss": 1.8859,
+      "mean_token_accuracy": 0.5646893322467804,
+      "step": 5720
+    },
+    {
+      "epoch": 0.49969477631464204,
+      "grad_norm": 1.449621319770813,
+      "learning_rate": 2.965446644798142e-11,
+      "loss": 1.898,
+      "mean_token_accuracy": 0.5618395298719406,
+      "step": 5730
+    },
+    {
+      "epoch": 0.5000436033836225,
+      "mean_token_accuracy": 0.5644263699650764,
+      "step": 5734,
       "total_flos": 0.0,
-      "train_loss": 2.8374191810344827,
-      "train_runtime": 8.8944,
-      "train_samples_per_second": 103.136,
-      "train_steps_per_second": 6.521
+      "train_loss": 2.0137617991367285,
+      "train_runtime": 996.2065,
+      "train_samples_per_second": 92.083,
+      "train_steps_per_second": 5.756
     }
   ],
   "logging_steps": 10,
-  "max_steps": 58,
+  "max_steps": 5734,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,