Qwen2.5-1.5B-Open-R1-Distill / trainer_state.json

Model save

ca14c8b verified 11 months ago

243 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 5437,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0009196247930844216,
	"grad_norm": 4.087223679622462,
	"learning_rate": 9.191176470588236e-07,
	"loss": 1.3446,
	"mean_token_accuracy": 0.6661458969116211,
	"step": 5
	},
	{
	"epoch": 0.0018392495861688431,
	"grad_norm": 3.3376471514991324,
	"learning_rate": 1.8382352941176471e-06,
	"loss": 1.2534,
	"mean_token_accuracy": 0.6856188654899598,
	"step": 10
	},
	{
	"epoch": 0.0027588743792532648,
	"grad_norm": 3.1883807133419646,
	"learning_rate": 2.7573529411764708e-06,
	"loss": 1.2495,
	"mean_token_accuracy": 0.6844112038612366,
	"step": 15
	},
	{
	"epoch": 0.0036784991723376862,
	"grad_norm": 2.5757356327081826,
	"learning_rate": 3.6764705882352942e-06,
	"loss": 1.1962,
	"mean_token_accuracy": 0.6918170928955079,
	"step": 20
	},
	{
	"epoch": 0.004598123965422108,
	"grad_norm": 2.3971194855376092,
	"learning_rate": 4.595588235294118e-06,
	"loss": 1.2274,
	"mean_token_accuracy": 0.6844529986381531,
	"step": 25
	},
	{
	"epoch": 0.0055177487585065296,
	"grad_norm": 2.00434532423879,
	"learning_rate": 5.5147058823529415e-06,
	"loss": 1.1506,
	"mean_token_accuracy": 0.697660756111145,
	"step": 30
	},
	{
	"epoch": 0.006437373551590951,
	"grad_norm": 2.0663662496595543,
	"learning_rate": 6.433823529411764e-06,
	"loss": 1.1278,
	"mean_token_accuracy": 0.6973050832748413,
	"step": 35
	},
	{
	"epoch": 0.0073569983446753725,
	"grad_norm": 1.9519049901829761,
	"learning_rate": 7.3529411764705884e-06,
	"loss": 1.102,
	"mean_token_accuracy": 0.7046478033065796,
	"step": 40
	},
	{
	"epoch": 0.008276623137759793,
	"grad_norm": 1.8451875842176761,
	"learning_rate": 8.272058823529413e-06,
	"loss": 1.125,
	"mean_token_accuracy": 0.6951346158981323,
	"step": 45
	},
	{
	"epoch": 0.009196247930844215,
	"grad_norm": 2.000034845742239,
	"learning_rate": 9.191176470588236e-06,
	"loss": 1.0295,
	"mean_token_accuracy": 0.7154734015464783,
	"step": 50
	},
	{
	"epoch": 0.010115872723928637,
	"grad_norm": 1.621484821283711,
	"learning_rate": 1.011029411764706e-05,
	"loss": 1.0762,
	"mean_token_accuracy": 0.706468117237091,
	"step": 55
	},
	{
	"epoch": 0.011035497517013059,
	"grad_norm": 1.753826025706781,
	"learning_rate": 1.1029411764705883e-05,
	"loss": 1.0394,
	"mean_token_accuracy": 0.7156139016151428,
	"step": 60
	},
	{
	"epoch": 0.011955122310097481,
	"grad_norm": 1.6505676536191385,
	"learning_rate": 1.1948529411764707e-05,
	"loss": 1.0338,
	"mean_token_accuracy": 0.7132004976272583,
	"step": 65
	},
	{
	"epoch": 0.012874747103181901,
	"grad_norm": 1.8513933357249144,
	"learning_rate": 1.2867647058823528e-05,
	"loss": 0.9804,
	"mean_token_accuracy": 0.7274341702461242,
	"step": 70
	},
	{
	"epoch": 0.013794371896266323,
	"grad_norm": 2.4070230665851993,
	"learning_rate": 1.3786764705882355e-05,
	"loss": 1.0398,
	"mean_token_accuracy": 0.7116599082946777,
	"step": 75
	},
	{
	"epoch": 0.014713996689350745,
	"grad_norm": 1.798866895809756,
	"learning_rate": 1.4705882352941177e-05,
	"loss": 0.9922,
	"mean_token_accuracy": 0.720504081249237,
	"step": 80
	},
	{
	"epoch": 0.015633621482435165,
	"grad_norm": 1.709611126629724,
	"learning_rate": 1.5625e-05,
	"loss": 0.9938,
	"mean_token_accuracy": 0.7247263193130493,
	"step": 85
	},
	{
	"epoch": 0.016553246275519587,
	"grad_norm": 1.7626425485303618,
	"learning_rate": 1.6544117647058825e-05,
	"loss": 1.0122,
	"mean_token_accuracy": 0.717292582988739,
	"step": 90
	},
	{
	"epoch": 0.01747287106860401,
	"grad_norm": 2.036503882503329,
	"learning_rate": 1.7463235294117647e-05,
	"loss": 1.0109,
	"mean_token_accuracy": 0.7172105073928833,
	"step": 95
	},
	{
	"epoch": 0.01839249586168843,
	"grad_norm": 1.927409741133158,
	"learning_rate": 1.8382352941176472e-05,
	"loss": 1.0434,
	"mean_token_accuracy": 0.7078547954559327,
	"step": 100
	},
	{
	"epoch": 0.019312120654772853,
	"grad_norm": 2.079665033278075,
	"learning_rate": 1.9301470588235298e-05,
	"loss": 0.9959,
	"mean_token_accuracy": 0.7182355523109436,
	"step": 105
	},
	{
	"epoch": 0.020231745447857274,
	"grad_norm": 1.8479982769163703,
	"learning_rate": 2.022058823529412e-05,
	"loss": 1.0194,
	"mean_token_accuracy": 0.7173629522323608,
	"step": 110
	},
	{
	"epoch": 0.021151370240941696,
	"grad_norm": 1.831806807070413,
	"learning_rate": 2.113970588235294e-05,
	"loss": 0.9569,
	"mean_token_accuracy": 0.7312556385993958,
	"step": 115
	},
	{
	"epoch": 0.022070995034026118,
	"grad_norm": 1.7952413093248756,
	"learning_rate": 2.2058823529411766e-05,
	"loss": 1.0149,
	"mean_token_accuracy": 0.7192024111747741,
	"step": 120
	},
	{
	"epoch": 0.02299061982711054,
	"grad_norm": 1.6441769080980864,
	"learning_rate": 2.2977941176470588e-05,
	"loss": 0.9668,
	"mean_token_accuracy": 0.7280102610588074,
	"step": 125
	},
	{
	"epoch": 0.023910244620194962,
	"grad_norm": 1.7182187182460715,
	"learning_rate": 2.3897058823529413e-05,
	"loss": 1.025,
	"mean_token_accuracy": 0.7164386153221131,
	"step": 130
	},
	{
	"epoch": 0.02482986941327938,
	"grad_norm": 1.7665031820505241,
	"learning_rate": 2.4816176470588238e-05,
	"loss": 0.9879,
	"mean_token_accuracy": 0.7216517567634583,
	"step": 135
	},
	{
	"epoch": 0.025749494206363802,
	"grad_norm": 1.65781753659198,
	"learning_rate": 2.5735294117647057e-05,
	"loss": 1.0204,
	"mean_token_accuracy": 0.7183511853218079,
	"step": 140
	},
	{
	"epoch": 0.026669118999448224,
	"grad_norm": 1.5947996494100198,
	"learning_rate": 2.6654411764705882e-05,
	"loss": 0.9915,
	"mean_token_accuracy": 0.7210009098052979,
	"step": 145
	},
	{
	"epoch": 0.027588743792532646,
	"grad_norm": 1.6195741488866147,
	"learning_rate": 2.757352941176471e-05,
	"loss": 0.9609,
	"mean_token_accuracy": 0.7290344476699829,
	"step": 150
	},
	{
	"epoch": 0.028508368585617068,
	"grad_norm": 1.700795937176488,
	"learning_rate": 2.849264705882353e-05,
	"loss": 1.0017,
	"mean_token_accuracy": 0.7190845251083374,
	"step": 155
	},
	{
	"epoch": 0.02942799337870149,
	"grad_norm": 1.6626957868958252,
	"learning_rate": 2.9411764705882354e-05,
	"loss": 0.9801,
	"mean_token_accuracy": 0.7264268517494201,
	"step": 160
	},
	{
	"epoch": 0.03034761817178591,
	"grad_norm": 1.646176772035618,
	"learning_rate": 3.0330882352941176e-05,
	"loss": 0.9819,
	"mean_token_accuracy": 0.7258347868919373,
	"step": 165
	},
	{
	"epoch": 0.03126724296487033,
	"grad_norm": 1.7051406597026453,
	"learning_rate": 3.125e-05,
	"loss": 1.0021,
	"mean_token_accuracy": 0.7193678379058838,
	"step": 170
	},
	{
	"epoch": 0.032186867757954755,
	"grad_norm": 1.6583599673202631,
	"learning_rate": 3.2169117647058826e-05,
	"loss": 0.9863,
	"mean_token_accuracy": 0.7218608260154724,
	"step": 175
	},
	{
	"epoch": 0.033106492551039174,
	"grad_norm": 1.6811054631655953,
	"learning_rate": 3.308823529411765e-05,
	"loss": 0.9776,
	"mean_token_accuracy": 0.7252245903015136,
	"step": 180
	},
	{
	"epoch": 0.0340261173441236,
	"grad_norm": 1.6005295960642778,
	"learning_rate": 3.4007352941176476e-05,
	"loss": 0.952,
	"mean_token_accuracy": 0.7300998091697692,
	"step": 185
	},
	{
	"epoch": 0.03494574213720802,
	"grad_norm": 1.884741061084924,
	"learning_rate": 3.4926470588235294e-05,
	"loss": 1.0216,
	"mean_token_accuracy": 0.7144460439682007,
	"step": 190
	},
	{
	"epoch": 0.03586536693029244,
	"grad_norm": 1.61333499821342,
	"learning_rate": 3.584558823529412e-05,
	"loss": 1.0067,
	"mean_token_accuracy": 0.7160724878311158,
	"step": 195
	},
	{
	"epoch": 0.03678499172337686,
	"grad_norm": 1.592957572722435,
	"learning_rate": 3.6764705882352945e-05,
	"loss": 0.9367,
	"mean_token_accuracy": 0.7348474979400634,
	"step": 200
	},
	{
	"epoch": 0.03770461651646129,
	"grad_norm": 1.7666690880786284,
	"learning_rate": 3.768382352941176e-05,
	"loss": 0.9545,
	"mean_token_accuracy": 0.7297826528549194,
	"step": 205
	},
	{
	"epoch": 0.038624241309545705,
	"grad_norm": 1.5696177739032589,
	"learning_rate": 3.8602941176470595e-05,
	"loss": 1.0076,
	"mean_token_accuracy": 0.7160616636276245,
	"step": 210
	},
	{
	"epoch": 0.039543866102630124,
	"grad_norm": 1.5375849975431441,
	"learning_rate": 3.952205882352941e-05,
	"loss": 1.0082,
	"mean_token_accuracy": 0.7139402985572815,
	"step": 215
	},
	{
	"epoch": 0.04046349089571455,
	"grad_norm": 1.6613621558577687,
	"learning_rate": 4.044117647058824e-05,
	"loss": 1.0047,
	"mean_token_accuracy": 0.7157810091972351,
	"step": 220
	},
	{
	"epoch": 0.04138311568879897,
	"grad_norm": 1.6712866586887962,
	"learning_rate": 4.136029411764706e-05,
	"loss": 0.9841,
	"mean_token_accuracy": 0.7261144757270813,
	"step": 225
	},
	{
	"epoch": 0.04230274048188339,
	"grad_norm": 1.5868739813391535,
	"learning_rate": 4.227941176470588e-05,
	"loss": 1.0063,
	"mean_token_accuracy": 0.7146228194236756,
	"step": 230
	},
	{
	"epoch": 0.04322236527496781,
	"grad_norm": 1.4745940440239442,
	"learning_rate": 4.319852941176471e-05,
	"loss": 0.9895,
	"mean_token_accuracy": 0.7205227255821228,
	"step": 235
	},
	{
	"epoch": 0.044141990068052236,
	"grad_norm": 1.565812920746474,
	"learning_rate": 4.411764705882353e-05,
	"loss": 0.9883,
	"mean_token_accuracy": 0.7221224546432495,
	"step": 240
	},
	{
	"epoch": 0.045061614861136655,
	"grad_norm": 1.579279007990175,
	"learning_rate": 4.503676470588236e-05,
	"loss": 1.0339,
	"mean_token_accuracy": 0.7140692472457886,
	"step": 245
	},
	{
	"epoch": 0.04598123965422108,
	"grad_norm": 1.550674625710887,
	"learning_rate": 4.5955882352941176e-05,
	"loss": 1.009,
	"mean_token_accuracy": 0.717827045917511,
	"step": 250
	},
	{
	"epoch": 0.0469008644473055,
	"grad_norm": 1.494069442893164,
	"learning_rate": 4.6875e-05,
	"loss": 1.0163,
	"mean_token_accuracy": 0.7157993316650391,
	"step": 255
	},
	{
	"epoch": 0.047820489240389924,
	"grad_norm": 1.585433590429472,
	"learning_rate": 4.7794117647058826e-05,
	"loss": 0.9662,
	"mean_token_accuracy": 0.7260660767555237,
	"step": 260
	},
	{
	"epoch": 0.04874011403347434,
	"grad_norm": 1.5561077784742092,
	"learning_rate": 4.871323529411765e-05,
	"loss": 1.0521,
	"mean_token_accuracy": 0.7059531569480896,
	"step": 265
	},
	{
	"epoch": 0.04965973882655876,
	"grad_norm": 1.3842507274813078,
	"learning_rate": 4.9632352941176476e-05,
	"loss": 0.96,
	"mean_token_accuracy": 0.7317641496658325,
	"step": 270
	},
	{
	"epoch": 0.050579363619643186,
	"grad_norm": 1.4379239878799341,
	"learning_rate": 4.999996254118754e-05,
	"loss": 0.972,
	"mean_token_accuracy": 0.7297493696212769,
	"step": 275
	},
	{
	"epoch": 0.051498988412727605,
	"grad_norm": 1.3761784967587591,
	"learning_rate": 4.999973362667417e-05,
	"loss": 0.9844,
	"mean_token_accuracy": 0.724224853515625,
	"step": 280
	},
	{
	"epoch": 0.05241861320581203,
	"grad_norm": 1.4249636066532947,
	"learning_rate": 4.999929661021346e-05,
	"loss": 0.9974,
	"mean_token_accuracy": 0.7186186075210571,
	"step": 285
	},
	{
	"epoch": 0.05333823799889645,
	"grad_norm": 1.6467747117004,
	"learning_rate": 4.9998651495847435e-05,
	"loss": 1.0296,
	"mean_token_accuracy": 0.7110173583030701,
	"step": 290
	},
	{
	"epoch": 0.054257862791980874,
	"grad_norm": 1.3761801455599358,
	"learning_rate": 4.9997798289542816e-05,
	"loss": 1.0209,
	"mean_token_accuracy": 0.7124481081962586,
	"step": 295
	},
	{
	"epoch": 0.05517748758506529,
	"grad_norm": 1.4585308096786376,
	"learning_rate": 4.9996736999190965e-05,
	"loss": 1.0248,
	"mean_token_accuracy": 0.7100600242614746,
	"step": 300
	},
	{
	"epoch": 0.05609711237814972,
	"grad_norm": 1.4301378065367794,
	"learning_rate": 4.999546763460785e-05,
	"loss": 0.9864,
	"mean_token_accuracy": 0.7253738522529602,
	"step": 305
	},
	{
	"epoch": 0.057016737171234136,
	"grad_norm": 1.4586102770676173,
	"learning_rate": 4.999399020753393e-05,
	"loss": 0.9541,
	"mean_token_accuracy": 0.7308779239654541,
	"step": 310
	},
	{
	"epoch": 0.05793636196431856,
	"grad_norm": 1.5007400960218442,
	"learning_rate": 4.999230473163406e-05,
	"loss": 1.0123,
	"mean_token_accuracy": 0.7142405152320862,
	"step": 315
	},
	{
	"epoch": 0.05885598675740298,
	"grad_norm": 1.4247385882584611,
	"learning_rate": 4.999041122249735e-05,
	"loss": 1.0097,
	"mean_token_accuracy": 0.7164065957069397,
	"step": 320
	},
	{
	"epoch": 0.0597756115504874,
	"grad_norm": 1.4338281584111965,
	"learning_rate": 4.9988309697637025e-05,
	"loss": 1.0381,
	"mean_token_accuracy": 0.7093045115470886,
	"step": 325
	},
	{
	"epoch": 0.06069523634357182,
	"grad_norm": 1.3206321897141915,
	"learning_rate": 4.9986000176490264e-05,
	"loss": 1.0378,
	"mean_token_accuracy": 0.7081658363342285,
	"step": 330
	},
	{
	"epoch": 0.06161486113665624,
	"grad_norm": 1.4771390057019052,
	"learning_rate": 4.998348268041803e-05,
	"loss": 1.0473,
	"mean_token_accuracy": 0.7044042825698853,
	"step": 335
	},
	{
	"epoch": 0.06253448592974066,
	"grad_norm": 1.410427294901373,
	"learning_rate": 4.9980757232704836e-05,
	"loss": 1.0476,
	"mean_token_accuracy": 0.7044672727584839,
	"step": 340
	},
	{
	"epoch": 0.06345411072282509,
	"grad_norm": 1.293731368317575,
	"learning_rate": 4.997782385855862e-05,
	"loss": 0.9809,
	"mean_token_accuracy": 0.7207650065422058,
	"step": 345
	},
	{
	"epoch": 0.06437373551590951,
	"grad_norm": 1.373213488697433,
	"learning_rate": 4.9974682585110375e-05,
	"loss": 1.0238,
	"mean_token_accuracy": 0.713714337348938,
	"step": 350
	},
	{
	"epoch": 0.06529336030899394,
	"grad_norm": 1.4173612737543944,
	"learning_rate": 4.997133344141402e-05,
	"loss": 0.9995,
	"mean_token_accuracy": 0.7182128310203553,
	"step": 355
	},
	{
	"epoch": 0.06621298510207835,
	"grad_norm": 1.4208487527297817,
	"learning_rate": 4.9967776458446067e-05,
	"loss": 1.0247,
	"mean_token_accuracy": 0.7120985150337219,
	"step": 360
	},
	{
	"epoch": 0.06713260989516277,
	"grad_norm": 1.3468936690832556,
	"learning_rate": 4.996401166910535e-05,
	"loss": 1.0257,
	"mean_token_accuracy": 0.711448609828949,
	"step": 365
	},
	{
	"epoch": 0.0680522346882472,
	"grad_norm": 1.3418384776624692,
	"learning_rate": 4.996003910821273e-05,
	"loss": 0.9908,
	"mean_token_accuracy": 0.7198069810867309,
	"step": 370
	},
	{
	"epoch": 0.06897185948133161,
	"grad_norm": 1.2757020291626893,
	"learning_rate": 4.995585881251076e-05,
	"loss": 1.0029,
	"mean_token_accuracy": 0.7165916681289672,
	"step": 375
	},
	{
	"epoch": 0.06989148427441604,
	"grad_norm": 1.2215136508098425,
	"learning_rate": 4.995147082066335e-05,
	"loss": 1.0071,
	"mean_token_accuracy": 0.7161303281784057,
	"step": 380
	},
	{
	"epoch": 0.07081110906750046,
	"grad_norm": 1.5100364277085054,
	"learning_rate": 4.9946875173255405e-05,
	"loss": 0.9808,
	"mean_token_accuracy": 0.7223702430725097,
	"step": 385
	},
	{
	"epoch": 0.07173073386058489,
	"grad_norm": 1.3193074150499653,
	"learning_rate": 4.9942071912792463e-05,
	"loss": 0.9692,
	"mean_token_accuracy": 0.7253165245056152,
	"step": 390
	},
	{
	"epoch": 0.0726503586536693,
	"grad_norm": 1.360795639773644,
	"learning_rate": 4.9937061083700286e-05,
	"loss": 0.9248,
	"mean_token_accuracy": 0.738149356842041,
	"step": 395
	},
	{
	"epoch": 0.07356998344675372,
	"grad_norm": 1.3934617241628962,
	"learning_rate": 4.993184273232445e-05,
	"loss": 1.0174,
	"mean_token_accuracy": 0.7140317440032959,
	"step": 400
	},
	{
	"epoch": 0.07448960823983815,
	"grad_norm": 1.3755761090465115,
	"learning_rate": 4.9926416906929954e-05,
	"loss": 0.9371,
	"mean_token_accuracy": 0.7347567915916443,
	"step": 405
	},
	{
	"epoch": 0.07540923303292257,
	"grad_norm": 1.3123084901189321,
	"learning_rate": 4.9920783657700685e-05,
	"loss": 1.0494,
	"mean_token_accuracy": 0.7046082258224488,
	"step": 410
	},
	{
	"epoch": 0.07632885782600698,
	"grad_norm": 1.26236320940822,
	"learning_rate": 4.9914943036739075e-05,
	"loss": 0.9813,
	"mean_token_accuracy": 0.7248732924461365,
	"step": 415
	},
	{
	"epoch": 0.07724848261909141,
	"grad_norm": 1.4072657383382854,
	"learning_rate": 4.99088950980655e-05,
	"loss": 1.0041,
	"mean_token_accuracy": 0.7161918520927429,
	"step": 420
	},
	{
	"epoch": 0.07816810741217584,
	"grad_norm": 1.4142932157820918,
	"learning_rate": 4.9902639897617876e-05,
	"loss": 1.0343,
	"mean_token_accuracy": 0.7073235511779785,
	"step": 425
	},
	{
	"epoch": 0.07908773220526025,
	"grad_norm": 1.2620775477382082,
	"learning_rate": 4.9896177493251065e-05,
	"loss": 0.9773,
	"mean_token_accuracy": 0.724228036403656,
	"step": 430
	},
	{
	"epoch": 0.08000735699834467,
	"grad_norm": 1.2299977431090294,
	"learning_rate": 4.9889507944736405e-05,
	"loss": 0.9921,
	"mean_token_accuracy": 0.7193984985351562,
	"step": 435
	},
	{
	"epoch": 0.0809269817914291,
	"grad_norm": 1.272005618491772,
	"learning_rate": 4.9882631313761116e-05,
	"loss": 1.0266,
	"mean_token_accuracy": 0.7106949806213378,
	"step": 440
	},
	{
	"epoch": 0.08184660658451352,
	"grad_norm": 1.3368998742271194,
	"learning_rate": 4.9875547663927744e-05,
	"loss": 0.9945,
	"mean_token_accuracy": 0.7178430318832397,
	"step": 445
	},
	{
	"epoch": 0.08276623137759793,
	"grad_norm": 1.2395804635484349,
	"learning_rate": 4.986825706075357e-05,
	"loss": 0.9614,
	"mean_token_accuracy": 0.7270126938819885,
	"step": 450
	},
	{
	"epoch": 0.08368585617068236,
	"grad_norm": 1.2355105682399337,
	"learning_rate": 4.9860759571669987e-05,
	"loss": 1.017,
	"mean_token_accuracy": 0.7113536357879638,
	"step": 455
	},
	{
	"epoch": 0.08460548096376679,
	"grad_norm": 1.2769471363849882,
	"learning_rate": 4.985305526602192e-05,
	"loss": 0.9841,
	"mean_token_accuracy": 0.7207873582839965,
	"step": 460
	},
	{
	"epoch": 0.08552510575685121,
	"grad_norm": 1.3105851965485462,
	"learning_rate": 4.984514421506715e-05,
	"loss": 1.0238,
	"mean_token_accuracy": 0.7113570213317871,
	"step": 465
	},
	{
	"epoch": 0.08644473054993562,
	"grad_norm": 1.2226583029739935,
	"learning_rate": 4.983702649197565e-05,
	"loss": 1.0026,
	"mean_token_accuracy": 0.7175478458404541,
	"step": 470
	},
	{
	"epoch": 0.08736435534302005,
	"grad_norm": 1.3032963672614144,
	"learning_rate": 4.982870217182893e-05,
	"loss": 1.0102,
	"mean_token_accuracy": 0.7142111778259277,
	"step": 475
	},
	{
	"epoch": 0.08828398013610447,
	"grad_norm": 1.276533355049304,
	"learning_rate": 4.9820171331619343e-05,
	"loss": 1.0175,
	"mean_token_accuracy": 0.7140154242515564,
	"step": 480
	},
	{
	"epoch": 0.08920360492918888,
	"grad_norm": 1.3275369586760475,
	"learning_rate": 4.981143405024936e-05,
	"loss": 0.9664,
	"mean_token_accuracy": 0.7251969814300537,
	"step": 485
	},
	{
	"epoch": 0.09012322972227331,
	"grad_norm": 1.322475452296982,
	"learning_rate": 4.980249040853081e-05,
	"loss": 0.9572,
	"mean_token_accuracy": 0.7284212589263916,
	"step": 490
	},
	{
	"epoch": 0.09104285451535774,
	"grad_norm": 1.2219967426964762,
	"learning_rate": 4.979334048918422e-05,
	"loss": 1.0265,
	"mean_token_accuracy": 0.7094637989997864,
	"step": 495
	},
	{
	"epoch": 0.09196247930844216,
	"grad_norm": 1.2500649142513325,
	"learning_rate": 4.978398437683797e-05,
	"loss": 0.9429,
	"mean_token_accuracy": 0.7309910893440247,
	"step": 500
	},
	{
	"epoch": 0.09288210410152657,
	"grad_norm": 1.2382649121413325,
	"learning_rate": 4.977442215802753e-05,
	"loss": 1.0142,
	"mean_token_accuracy": 0.7163145303726196,
	"step": 505
	},
	{
	"epoch": 0.093801728894611,
	"grad_norm": 1.2494735942714719,
	"learning_rate": 4.976465392119467e-05,
	"loss": 0.9711,
	"mean_token_accuracy": 0.7253948450088501,
	"step": 510
	},
	{
	"epoch": 0.09472135368769542,
	"grad_norm": 1.1320102641208292,
	"learning_rate": 4.9754679756686654e-05,
	"loss": 0.9754,
	"mean_token_accuracy": 0.7240365982055664,
	"step": 515
	},
	{
	"epoch": 0.09564097848077985,
	"grad_norm": 1.2636397583226155,
	"learning_rate": 4.974449975675538e-05,
	"loss": 0.9683,
	"mean_token_accuracy": 0.7268050789833069,
	"step": 520
	},
	{
	"epoch": 0.09656060327386426,
	"grad_norm": 1.2638605012202537,
	"learning_rate": 4.9734114015556506e-05,
	"loss": 0.994,
	"mean_token_accuracy": 0.7192271828651429,
	"step": 525
	},
	{
	"epoch": 0.09748022806694868,
	"grad_norm": 1.3539672940723328,
	"learning_rate": 4.972352262914867e-05,
	"loss": 1.0219,
	"mean_token_accuracy": 0.712011969089508,
	"step": 530
	},
	{
	"epoch": 0.09839985286003311,
	"grad_norm": 1.2622022574950933,
	"learning_rate": 4.971272569549246e-05,
	"loss": 0.9993,
	"mean_token_accuracy": 0.717021644115448,
	"step": 535
	},
	{
	"epoch": 0.09931947765311752,
	"grad_norm": 1.2498621609285703,
	"learning_rate": 4.970172331444968e-05,
	"loss": 0.9869,
	"mean_token_accuracy": 0.7201068043708801,
	"step": 540
	},
	{
	"epoch": 0.10023910244620195,
	"grad_norm": 1.2563183037951813,
	"learning_rate": 4.969051558778226e-05,
	"loss": 1.0328,
	"mean_token_accuracy": 0.7072706580162048,
	"step": 545
	},
	{
	"epoch": 0.10115872723928637,
	"grad_norm": 1.1583096373701225,
	"learning_rate": 4.967910261915142e-05,
	"loss": 1.0073,
	"mean_token_accuracy": 0.7176116108894348,
	"step": 550
	},
	{
	"epoch": 0.1020783520323708,
	"grad_norm": 1.2337310449325847,
	"learning_rate": 4.966748451411668e-05,
	"loss": 1.0075,
	"mean_token_accuracy": 0.7166797518730164,
	"step": 555
	},
	{
	"epoch": 0.10299797682545521,
	"grad_norm": 1.187463601840395,
	"learning_rate": 4.9655661380134874e-05,
	"loss": 0.9978,
	"mean_token_accuracy": 0.7187446594238281,
	"step": 560
	},
	{
	"epoch": 0.10391760161853963,
	"grad_norm": 1.1950175317081544,
	"learning_rate": 4.964363332655918e-05,
	"loss": 1.0127,
	"mean_token_accuracy": 0.7141183018684387,
	"step": 565
	},
	{
	"epoch": 0.10483722641162406,
	"grad_norm": 1.1797983108141703,
	"learning_rate": 4.9631400464638074e-05,
	"loss": 1.0058,
	"mean_token_accuracy": 0.7147095799446106,
	"step": 570
	},
	{
	"epoch": 0.10575685120470849,
	"grad_norm": 1.3194739883489515,
	"learning_rate": 4.961896290751434e-05,
	"loss": 1.0125,
	"mean_token_accuracy": 0.7156966686248779,
	"step": 575
	},
	{
	"epoch": 0.1066764759977929,
	"grad_norm": 1.232197096442626,
	"learning_rate": 4.960632077022402e-05,
	"loss": 1.0096,
	"mean_token_accuracy": 0.7136348843574524,
	"step": 580
	},
	{
	"epoch": 0.10759610079087732,
	"grad_norm": 1.1109964489025674,
	"learning_rate": 4.959347416969529e-05,
	"loss": 0.9782,
	"mean_token_accuracy": 0.7218139052391053,
	"step": 585
	},
	{
	"epoch": 0.10851572558396175,
	"grad_norm": 1.1118328480221105,
	"learning_rate": 4.958042322474747e-05,
	"loss": 0.9138,
	"mean_token_accuracy": 0.7406689524650574,
	"step": 590
	},
	{
	"epoch": 0.10943535037704616,
	"grad_norm": 1.1550688598895895,
	"learning_rate": 4.956716805608984e-05,
	"loss": 1.0123,
	"mean_token_accuracy": 0.7150320529937744,
	"step": 595
	},
	{
	"epoch": 0.11035497517013058,
	"grad_norm": 1.2400379075265455,
	"learning_rate": 4.955370878632058e-05,
	"loss": 0.9642,
	"mean_token_accuracy": 0.7274539470672607,
	"step": 600
	},
	{
	"epoch": 0.11127459996321501,
	"grad_norm": 1.1266451881904362,
	"learning_rate": 4.954004553992564e-05,
	"loss": 0.9597,
	"mean_token_accuracy": 0.7269688129425049,
	"step": 605
	},
	{
	"epoch": 0.11219422475629943,
	"grad_norm": 1.195410688726218,
	"learning_rate": 4.952617844327753e-05,
	"loss": 0.9667,
	"mean_token_accuracy": 0.7273669600486755,
	"step": 610
	},
	{
	"epoch": 0.11311384954938385,
	"grad_norm": 1.2168436664941074,
	"learning_rate": 4.951210762463421e-05,
	"loss": 0.981,
	"mean_token_accuracy": 0.7224032163619996,
	"step": 615
	},
	{
	"epoch": 0.11403347434246827,
	"grad_norm": 1.1158577605300688,
	"learning_rate": 4.949783321413787e-05,
	"loss": 1.0133,
	"mean_token_accuracy": 0.7140767455101014,
	"step": 620
	},
	{
	"epoch": 0.1149530991355527,
	"grad_norm": 1.2227500677211205,
	"learning_rate": 4.948335534381375e-05,
	"loss": 1.0178,
	"mean_token_accuracy": 0.7107774257659912,
	"step": 625
	},
	{
	"epoch": 0.11587272392863712,
	"grad_norm": 1.1733820093333545,
	"learning_rate": 4.9468674147568906e-05,
	"loss": 0.9496,
	"mean_token_accuracy": 0.7264823913574219,
	"step": 630
	},
	{
	"epoch": 0.11679234872172153,
	"grad_norm": 1.1456005644666878,
	"learning_rate": 4.945378976119096e-05,
	"loss": 1.0301,
	"mean_token_accuracy": 0.7111668229103089,
	"step": 635
	},
	{
	"epoch": 0.11771197351480596,
	"grad_norm": 1.176194033859284,
	"learning_rate": 4.943870232234688e-05,
	"loss": 0.9904,
	"mean_token_accuracy": 0.7183448076248169,
	"step": 640
	},
	{
	"epoch": 0.11863159830789038,
	"grad_norm": 1.1767555657667275,
	"learning_rate": 4.9423411970581656e-05,
	"loss": 0.9565,
	"mean_token_accuracy": 0.7282203912734986,
	"step": 645
	},
	{
	"epoch": 0.1195512231009748,
	"grad_norm": 1.1593918150017006,
	"learning_rate": 4.940791884731706e-05,
	"loss": 0.9629,
	"mean_token_accuracy": 0.7265506267547608,
	"step": 650
	},
	{
	"epoch": 0.12047084789405922,
	"grad_norm": 1.1809244906539653,
	"learning_rate": 4.939222309585029e-05,
	"loss": 0.9506,
	"mean_token_accuracy": 0.7299855709075928,
	"step": 655
	},
	{
	"epoch": 0.12139047268714365,
	"grad_norm": 1.187342482868558,
	"learning_rate": 4.93763248613527e-05,
	"loss": 0.9873,
	"mean_token_accuracy": 0.7208028793334961,
	"step": 660
	},
	{
	"epoch": 0.12231009748022807,
	"grad_norm": 1.1643370561641233,
	"learning_rate": 4.936022429086841e-05,
	"loss": 1.019,
	"mean_token_accuracy": 0.7111838817596435,
	"step": 665
	},
	{
	"epoch": 0.12322972227331248,
	"grad_norm": 1.1548281507110767,
	"learning_rate": 4.9343921533312955e-05,
	"loss": 0.949,
	"mean_token_accuracy": 0.7271883249282837,
	"step": 670
	},
	{
	"epoch": 0.12414934706639691,
	"grad_norm": 1.1323282418083014,
	"learning_rate": 4.9327416739471935e-05,
	"loss": 0.9269,
	"mean_token_accuracy": 0.737087082862854,
	"step": 675
	},
	{
	"epoch": 0.12506897185948132,
	"grad_norm": 1.2363897419233494,
	"learning_rate": 4.9310710061999575e-05,
	"loss": 1.0061,
	"mean_token_accuracy": 0.714658522605896,
	"step": 680
	},
	{
	"epoch": 0.12598859665256576,
	"grad_norm": 1.15808211817011,
	"learning_rate": 4.9293801655417366e-05,
	"loss": 0.9426,
	"mean_token_accuracy": 0.7324698209762573,
	"step": 685
	},
	{
	"epoch": 0.12690822144565017,
	"grad_norm": 1.168156282468429,
	"learning_rate": 4.927669167611259e-05,
	"loss": 0.9516,
	"mean_token_accuracy": 0.726858627796173,
	"step": 690
	},
	{
	"epoch": 0.12782784623873458,
	"grad_norm": 1.1708412963628498,
	"learning_rate": 4.92593802823369e-05,
	"loss": 0.9565,
	"mean_token_accuracy": 0.7281310319900512,
	"step": 695
	},
	{
	"epoch": 0.12874747103181902,
	"grad_norm": 1.150205433303024,
	"learning_rate": 4.924186763420486e-05,
	"loss": 0.9966,
	"mean_token_accuracy": 0.7196317195892334,
	"step": 700
	},
	{
	"epoch": 0.12966709582490343,
	"grad_norm": 1.1412449351652514,
	"learning_rate": 4.922415389369243e-05,
	"loss": 0.9393,
	"mean_token_accuracy": 0.7308167576789856,
	"step": 705
	},
	{
	"epoch": 0.13058672061798787,
	"grad_norm": 1.2590368311590696,
	"learning_rate": 4.9206239224635486e-05,
	"loss": 0.9961,
	"mean_token_accuracy": 0.7167337894439697,
	"step": 710
	},
	{
	"epoch": 0.13150634541107228,
	"grad_norm": 1.1862573902159457,
	"learning_rate": 4.9188123792728344e-05,
	"loss": 0.9991,
	"mean_token_accuracy": 0.71655353307724,
	"step": 715
	},
	{
	"epoch": 0.1324259702041567,
	"grad_norm": 1.1728642333915622,
	"learning_rate": 4.916980776552218e-05,
	"loss": 0.9354,
	"mean_token_accuracy": 0.734131133556366,
	"step": 720
	},
	{
	"epoch": 0.13334559499724113,
	"grad_norm": 1.208191683152181,
	"learning_rate": 4.915129131242345e-05,
	"loss": 0.9578,
	"mean_token_accuracy": 0.7278777837753296,
	"step": 725
	},
	{
	"epoch": 0.13426521979032555,
	"grad_norm": 1.138309077411327,
	"learning_rate": 4.913257460469243e-05,
	"loss": 0.9448,
	"mean_token_accuracy": 0.7303597450256347,
	"step": 730
	},
	{
	"epoch": 0.13518484458340996,
	"grad_norm": 1.1410024150973699,
	"learning_rate": 4.911365781544153e-05,
	"loss": 0.9765,
	"mean_token_accuracy": 0.7208934783935547,
	"step": 735
	},
	{
	"epoch": 0.1361044693764944,
	"grad_norm": 1.135207319109893,
	"learning_rate": 4.9094541119633756e-05,
	"loss": 0.9625,
	"mean_token_accuracy": 0.7279266119003296,
	"step": 740
	},
	{
	"epoch": 0.1370240941695788,
	"grad_norm": 1.1470179542343784,
	"learning_rate": 4.907522469408103e-05,
	"loss": 1.0099,
	"mean_token_accuracy": 0.7129136681556701,
	"step": 745
	},
	{
	"epoch": 0.13794371896266322,
	"grad_norm": 1.1186516076443083,
	"learning_rate": 4.905570871744262e-05,
	"loss": 0.9492,
	"mean_token_accuracy": 0.7295220971107483,
	"step": 750
	},
	{
	"epoch": 0.13886334375574766,
	"grad_norm": 1.188235501807293,
	"learning_rate": 4.903599337022345e-05,
	"loss": 0.9158,
	"mean_token_accuracy": 0.7392297148704529,
	"step": 755
	},
	{
	"epoch": 0.13978296854883207,
	"grad_norm": 1.156585568722138,
	"learning_rate": 4.9016078834772436e-05,
	"loss": 1.0069,
	"mean_token_accuracy": 0.7133058428764343,
	"step": 760
	},
	{
	"epoch": 0.1407025933419165,
	"grad_norm": 1.0550430464679208,
	"learning_rate": 4.899596529528083e-05,
	"loss": 0.9804,
	"mean_token_accuracy": 0.7237313628196717,
	"step": 765
	},
	{
	"epoch": 0.14162221813500092,
	"grad_norm": 1.0828080346302627,
	"learning_rate": 4.897565293778045e-05,
	"loss": 0.9398,
	"mean_token_accuracy": 0.7297361016273498,
	"step": 770
	},
	{
	"epoch": 0.14254184292808533,
	"grad_norm": 1.0748821988518662,
	"learning_rate": 4.895514195014201e-05,
	"loss": 0.9512,
	"mean_token_accuracy": 0.727254593372345,
	"step": 775
	},
	{
	"epoch": 0.14346146772116977,
	"grad_norm": 1.1000801031665166,
	"learning_rate": 4.893443252207339e-05,
	"loss": 0.96,
	"mean_token_accuracy": 0.7277865290641785,
	"step": 780
	},
	{
	"epoch": 0.14438109251425418,
	"grad_norm": 1.1979288214254857,
	"learning_rate": 4.891352484511783e-05,
	"loss": 0.9904,
	"mean_token_accuracy": 0.7203876137733459,
	"step": 785
	},
	{
	"epoch": 0.1453007173073386,
	"grad_norm": 1.0336978471065938,
	"learning_rate": 4.889241911265224e-05,
	"loss": 0.9512,
	"mean_token_accuracy": 0.7298694252967834,
	"step": 790
	},
	{
	"epoch": 0.14622034210042303,
	"grad_norm": 1.093196247221492,
	"learning_rate": 4.887111551988531e-05,
	"loss": 1.0404,
	"mean_token_accuracy": 0.7045328140258789,
	"step": 795
	},
	{
	"epoch": 0.14713996689350745,
	"grad_norm": 1.224732532168464,
	"learning_rate": 4.884961426385578e-05,
	"loss": 1.0189,
	"mean_token_accuracy": 0.7101276278495788,
	"step": 800
	},
	{
	"epoch": 0.14805959168659186,
	"grad_norm": 1.1751595598375444,
	"learning_rate": 4.8827915543430604e-05,
	"loss": 0.9166,
	"mean_token_accuracy": 0.7369141817092896,
	"step": 805
	},
	{
	"epoch": 0.1489792164796763,
	"grad_norm": 1.0711984590567727,
	"learning_rate": 4.880601955930308e-05,
	"loss": 0.9528,
	"mean_token_accuracy": 0.7275946021080018,
	"step": 810
	},
	{
	"epoch": 0.1498988412727607,
	"grad_norm": 1.1523849563074238,
	"learning_rate": 4.878392651399103e-05,
	"loss": 0.9724,
	"mean_token_accuracy": 0.72748943567276,
	"step": 815
	},
	{
	"epoch": 0.15081846606584515,
	"grad_norm": 1.1385592224893888,
	"learning_rate": 4.8761636611834906e-05,
	"loss": 0.9423,
	"mean_token_accuracy": 0.7338582873344421,
	"step": 820
	},
	{
	"epoch": 0.15173809085892956,
	"grad_norm": 1.171019568482894,
	"learning_rate": 4.873915005899591e-05,
	"loss": 0.9823,
	"mean_token_accuracy": 0.7215001463890076,
	"step": 825
	},
	{
	"epoch": 0.15265771565201397,
	"grad_norm": 1.1181637038875023,
	"learning_rate": 4.871646706345407e-05,
	"loss": 0.9696,
	"mean_token_accuracy": 0.7244228839874267,
	"step": 830
	},
	{
	"epoch": 0.1535773404450984,
	"grad_norm": 1.140111709793846,
	"learning_rate": 4.869358783500634e-05,
	"loss": 0.9691,
	"mean_token_accuracy": 0.7219241619110107,
	"step": 835
	},
	{
	"epoch": 0.15449696523818282,
	"grad_norm": 1.1035668632214553,
	"learning_rate": 4.867051258526466e-05,
	"loss": 0.9216,
	"mean_token_accuracy": 0.7362164258956909,
	"step": 840
	},
	{
	"epoch": 0.15541659003126723,
	"grad_norm": 1.0632498704772437,
	"learning_rate": 4.864724152765396e-05,
	"loss": 0.9319,
	"mean_token_accuracy": 0.7335481762886047,
	"step": 845
	},
	{
	"epoch": 0.15633621482435167,
	"grad_norm": 1.1360641167900578,
	"learning_rate": 4.8623774877410235e-05,
	"loss": 0.998,
	"mean_token_accuracy": 0.7165634036064148,
	"step": 850
	},
	{
	"epoch": 0.15725583961743608,
	"grad_norm": 1.1574648839544697,
	"learning_rate": 4.860011285157852e-05,
	"loss": 0.9983,
	"mean_token_accuracy": 0.7154228448867798,
	"step": 855
	},
	{
	"epoch": 0.1581754644105205,
	"grad_norm": 1.1103379240939366,
	"learning_rate": 4.857625566901091e-05,
	"loss": 0.9606,
	"mean_token_accuracy": 0.7255040884017945,
	"step": 860
	},
	{
	"epoch": 0.15909508920360493,
	"grad_norm": 1.3478355454379694,
	"learning_rate": 4.85522035503645e-05,
	"loss": 0.9643,
	"mean_token_accuracy": 0.7249020457267761,
	"step": 865
	},
	{
	"epoch": 0.16001471399668935,
	"grad_norm": 1.129020628766503,
	"learning_rate": 4.852795671809941e-05,
	"loss": 0.9341,
	"mean_token_accuracy": 0.7329063415527344,
	"step": 870
	},
	{
	"epoch": 0.16093433878977378,
	"grad_norm": 1.1322677948976352,
	"learning_rate": 4.850351539647661e-05,
	"loss": 0.9977,
	"mean_token_accuracy": 0.7172942876815795,
	"step": 875
	},
	{
	"epoch": 0.1618539635828582,
	"grad_norm": 1.120014190171844,
	"learning_rate": 4.8478879811555986e-05,
	"loss": 0.9283,
	"mean_token_accuracy": 0.7341889500617981,
	"step": 880
	},
	{
	"epoch": 0.1627735883759426,
	"grad_norm": 1.1336097713701254,
	"learning_rate": 4.845405019119414e-05,
	"loss": 1.0008,
	"mean_token_accuracy": 0.7151533484458923,
	"step": 885
	},
	{
	"epoch": 0.16369321316902705,
	"grad_norm": 0.9922793909516228,
	"learning_rate": 4.842902676504235e-05,
	"loss": 0.9039,
	"mean_token_accuracy": 0.7395052313804626,
	"step": 890
	},
	{
	"epoch": 0.16461283796211146,
	"grad_norm": 1.2309806920357915,
	"learning_rate": 4.840380976454441e-05,
	"loss": 0.9143,
	"mean_token_accuracy": 0.7372842311859131,
	"step": 895
	},
	{
	"epoch": 0.16553246275519587,
	"grad_norm": 1.058725560363019,
	"learning_rate": 4.837839942293449e-05,
	"loss": 1.0122,
	"mean_token_accuracy": 0.7113693952560425,
	"step": 900
	},
	{
	"epoch": 0.1664520875482803,
	"grad_norm": 1.1050666066281727,
	"learning_rate": 4.835279597523501e-05,
	"loss": 0.9691,
	"mean_token_accuracy": 0.7241552948951722,
	"step": 905
	},
	{
	"epoch": 0.16737171234136472,
	"grad_norm": 1.1281645078253164,
	"learning_rate": 4.832699965825443e-05,
	"loss": 0.9783,
	"mean_token_accuracy": 0.7210159540176392,
	"step": 910
	},
	{
	"epoch": 0.16829133713444913,
	"grad_norm": 1.1049918709083206,
	"learning_rate": 4.830101071058506e-05,
	"loss": 0.9529,
	"mean_token_accuracy": 0.726420772075653,
	"step": 915
	},
	{
	"epoch": 0.16921096192753357,
	"grad_norm": 1.1589903082257091,
	"learning_rate": 4.82748293726009e-05,
	"loss": 1.0162,
	"mean_token_accuracy": 0.7134600043296814,
	"step": 920
	},
	{
	"epoch": 0.17013058672061798,
	"grad_norm": 1.0648743038360364,
	"learning_rate": 4.824845588645538e-05,
	"loss": 0.931,
	"mean_token_accuracy": 0.7355116486549378,
	"step": 925
	},
	{
	"epoch": 0.17105021151370242,
	"grad_norm": 1.0563630156850699,
	"learning_rate": 4.822189049607909e-05,
	"loss": 0.9303,
	"mean_token_accuracy": 0.7332427501678467,
	"step": 930
	},
	{
	"epoch": 0.17196983630678683,
	"grad_norm": 1.0946637430016075,
	"learning_rate": 4.819513344717759e-05,
	"loss": 0.9805,
	"mean_token_accuracy": 0.7218296766281128,
	"step": 935
	},
	{
	"epoch": 0.17288946109987124,
	"grad_norm": 1.218450386345206,
	"learning_rate": 4.8168184987229104e-05,
	"loss": 1.0025,
	"mean_token_accuracy": 0.7138312220573425,
	"step": 940
	},
	{
	"epoch": 0.17380908589295568,
	"grad_norm": 1.1265660437743932,
	"learning_rate": 4.814104536548222e-05,
	"loss": 0.9901,
	"mean_token_accuracy": 0.7183592796325684,
	"step": 945
	},
	{
	"epoch": 0.1747287106860401,
	"grad_norm": 1.1519197604777511,
	"learning_rate": 4.811371483295361e-05,
	"loss": 0.9677,
	"mean_token_accuracy": 0.723106038570404,
	"step": 950
	},
	{
	"epoch": 0.1756483354791245,
	"grad_norm": 1.0668603888469903,
	"learning_rate": 4.808619364242569e-05,
	"loss": 0.9428,
	"mean_token_accuracy": 0.7298098564147949,
	"step": 955
	},
	{
	"epoch": 0.17656796027220895,
	"grad_norm": 1.0617094358031158,
	"learning_rate": 4.805848204844427e-05,
	"loss": 0.9794,
	"mean_token_accuracy": 0.7198897957801819,
	"step": 960
	},
	{
	"epoch": 0.17748758506529336,
	"grad_norm": 1.1638181916029056,
	"learning_rate": 4.803058030731627e-05,
	"loss": 1.0356,
	"mean_token_accuracy": 0.7055891275405883,
	"step": 965
	},
	{
	"epoch": 0.17840720985837777,
	"grad_norm": 1.0804274338945197,
	"learning_rate": 4.800248867710724e-05,
	"loss": 0.9551,
	"mean_token_accuracy": 0.7267025232315063,
	"step": 970
	},
	{
	"epoch": 0.1793268346514622,
	"grad_norm": 1.1002302515677742,
	"learning_rate": 4.797420741763906e-05,
	"loss": 0.9513,
	"mean_token_accuracy": 0.727520763874054,
	"step": 975
	},
	{
	"epoch": 0.18024645944454662,
	"grad_norm": 1.0807257658531308,
	"learning_rate": 4.794573679048751e-05,
	"loss": 0.9667,
	"mean_token_accuracy": 0.7254797458648682,
	"step": 980
	},
	{
	"epoch": 0.18116608423763106,
	"grad_norm": 1.1423934429361384,
	"learning_rate": 4.791707705897982e-05,
	"loss": 0.9289,
	"mean_token_accuracy": 0.7316087126731873,
	"step": 985
	},
	{
	"epoch": 0.18208570903071547,
	"grad_norm": 1.0732201976252709,
	"learning_rate": 4.7888228488192294e-05,
	"loss": 0.9826,
	"mean_token_accuracy": 0.7205982804298401,
	"step": 990
	},
	{
	"epoch": 0.18300533382379988,
	"grad_norm": 1.0026696776201605,
	"learning_rate": 4.7859191344947804e-05,
	"loss": 0.9289,
	"mean_token_accuracy": 0.7336562752723694,
	"step": 995
	},
	{
	"epoch": 0.18392495861688432,
	"grad_norm": 1.138379913644609,
	"learning_rate": 4.782996589781337e-05,
	"loss": 0.9497,
	"mean_token_accuracy": 0.729135024547577,
	"step": 1000
	},
	{
	"epoch": 0.18484458340996873,
	"grad_norm": 1.107580666472087,
	"learning_rate": 4.780055241709762e-05,
	"loss": 0.9048,
	"mean_token_accuracy": 0.7381602048873901,
	"step": 1005
	},
	{
	"epoch": 0.18576420820305314,
	"grad_norm": 1.0667620674465943,
	"learning_rate": 4.7770951174848335e-05,
	"loss": 0.9742,
	"mean_token_accuracy": 0.7205707669258118,
	"step": 1010
	},
	{
	"epoch": 0.18668383299613758,
	"grad_norm": 1.0940019385189808,
	"learning_rate": 4.774116244484993e-05,
	"loss": 0.9857,
	"mean_token_accuracy": 0.718968415260315,
	"step": 1015
	},
	{
	"epoch": 0.187603457789222,
	"grad_norm": 1.0279044112611866,
	"learning_rate": 4.7711186502620894e-05,
	"loss": 1.0084,
	"mean_token_accuracy": 0.7144084692001342,
	"step": 1020
	},
	{
	"epoch": 0.1885230825823064,
	"grad_norm": 1.0751882464256728,
	"learning_rate": 4.768102362541126e-05,
	"loss": 0.9353,
	"mean_token_accuracy": 0.7318849921226501,
	"step": 1025
	},
	{
	"epoch": 0.18944270737539085,
	"grad_norm": 1.1701748750390102,
	"learning_rate": 4.765067409220004e-05,
	"loss": 0.957,
	"mean_token_accuracy": 0.7275319814682006,
	"step": 1030
	},
	{
	"epoch": 0.19036233216847526,
	"grad_norm": 1.0512353267451773,
	"learning_rate": 4.762013818369266e-05,
	"loss": 0.9367,
	"mean_token_accuracy": 0.7317106485366821,
	"step": 1035
	},
	{
	"epoch": 0.1912819569615597,
	"grad_norm": 1.1085851412035923,
	"learning_rate": 4.7589416182318305e-05,
	"loss": 0.9416,
	"mean_token_accuracy": 0.7324359536170959,
	"step": 1040
	},
	{
	"epoch": 0.1922015817546441,
	"grad_norm": 1.094731274119514,
	"learning_rate": 4.755850837222739e-05,
	"loss": 0.9474,
	"mean_token_accuracy": 0.7309187650680542,
	"step": 1045
	},
	{
	"epoch": 0.19312120654772852,
	"grad_norm": 1.0610610405848808,
	"learning_rate": 4.7527415039288874e-05,
	"loss": 0.9638,
	"mean_token_accuracy": 0.7251871824264526,
	"step": 1050
	},
	{
	"epoch": 0.19404083134081296,
	"grad_norm": 1.0919916417692772,
	"learning_rate": 4.749613647108764e-05,
	"loss": 1.0008,
	"mean_token_accuracy": 0.7152180433273315,
	"step": 1055
	},
	{
	"epoch": 0.19496045613389737,
	"grad_norm": 1.0847298297852,
	"learning_rate": 4.7464672956921814e-05,
	"loss": 0.9366,
	"mean_token_accuracy": 0.7313546657562255,
	"step": 1060
	},
	{
	"epoch": 0.19588008092698178,
	"grad_norm": 1.0912787695821449,
	"learning_rate": 4.743302478780011e-05,
	"loss": 0.945,
	"mean_token_accuracy": 0.728658664226532,
	"step": 1065
	},
	{
	"epoch": 0.19679970572006622,
	"grad_norm": 1.052195400658314,
	"learning_rate": 4.7401192256439144e-05,
	"loss": 0.9793,
	"mean_token_accuracy": 0.7213846921920777,
	"step": 1070
	},
	{
	"epoch": 0.19771933051315063,
	"grad_norm": 1.1107870405998106,
	"learning_rate": 4.736917565726069e-05,
	"loss": 0.9313,
	"mean_token_accuracy": 0.735443937778473,
	"step": 1075
	},
	{
	"epoch": 0.19863895530623504,
	"grad_norm": 1.1399365300090571,
	"learning_rate": 4.7336975286389e-05,
	"loss": 0.9717,
	"mean_token_accuracy": 0.7237229943275452,
	"step": 1080
	},
	{
	"epoch": 0.19955858009931948,
	"grad_norm": 1.0983682734144682,
	"learning_rate": 4.730459144164802e-05,
	"loss": 0.9306,
	"mean_token_accuracy": 0.733622133731842,
	"step": 1085
	},
	{
	"epoch": 0.2004782048924039,
	"grad_norm": 1.1053704101564246,
	"learning_rate": 4.727202442255871e-05,
	"loss": 0.9936,
	"mean_token_accuracy": 0.718384611606598,
	"step": 1090
	},
	{
	"epoch": 0.20139782968548833,
	"grad_norm": 1.0858488860538602,
	"learning_rate": 4.723927453033619e-05,
	"loss": 0.9548,
	"mean_token_accuracy": 0.7286873102188111,
	"step": 1095
	},
	{
	"epoch": 0.20231745447857274,
	"grad_norm": 1.0232898856111519,
	"learning_rate": 4.720634206788697e-05,
	"loss": 0.9804,
	"mean_token_accuracy": 0.7218252301216126,
	"step": 1100
	},
	{
	"epoch": 0.20323707927165716,
	"grad_norm": 1.1548447631409977,
	"learning_rate": 4.717322733980622e-05,
	"loss": 0.931,
	"mean_token_accuracy": 0.7311301946640014,
	"step": 1105
	},
	{
	"epoch": 0.2041567040647416,
	"grad_norm": 1.1168183831474872,
	"learning_rate": 4.713993065237486e-05,
	"loss": 0.9718,
	"mean_token_accuracy": 0.7235833764076233,
	"step": 1110
	},
	{
	"epoch": 0.205076328857826,
	"grad_norm": 1.1111836320920656,
	"learning_rate": 4.710645231355678e-05,
	"loss": 0.9855,
	"mean_token_accuracy": 0.7195135593414307,
	"step": 1115
	},
	{
	"epoch": 0.20599595365091042,
	"grad_norm": 1.0024638729648838,
	"learning_rate": 4.707279263299598e-05,
	"loss": 0.9729,
	"mean_token_accuracy": 0.7219846963882446,
	"step": 1120
	},
	{
	"epoch": 0.20691557844399486,
	"grad_norm": 1.0121762272601764,
	"learning_rate": 4.703895192201372e-05,
	"loss": 0.9459,
	"mean_token_accuracy": 0.7269375443458557,
	"step": 1125
	},
	{
	"epoch": 0.20783520323707927,
	"grad_norm": 1.0470465876428376,
	"learning_rate": 4.7004930493605573e-05,
	"loss": 1.0105,
	"mean_token_accuracy": 0.7086774349212647,
	"step": 1130
	},
	{
	"epoch": 0.20875482803016368,
	"grad_norm": 1.0632837126367782,
	"learning_rate": 4.697072866243866e-05,
	"loss": 0.9412,
	"mean_token_accuracy": 0.7307331085205078,
	"step": 1135
	},
	{
	"epoch": 0.20967445282324812,
	"grad_norm": 1.0768863946202714,
	"learning_rate": 4.69363467448486e-05,
	"loss": 0.9674,
	"mean_token_accuracy": 0.7221316814422607,
	"step": 1140
	},
	{
	"epoch": 0.21059407761633253,
	"grad_norm": 1.1181930167961487,
	"learning_rate": 4.6901785058836675e-05,
	"loss": 0.955,
	"mean_token_accuracy": 0.725222361087799,
	"step": 1145
	},
	{
	"epoch": 0.21151370240941697,
	"grad_norm": 1.0688002319746086,
	"learning_rate": 4.686704392406685e-05,
	"loss": 0.9687,
	"mean_token_accuracy": 0.7218108892440795,
	"step": 1150
	},
	{
	"epoch": 0.21243332720250138,
	"grad_norm": 1.1052965038670703,
	"learning_rate": 4.6832123661862835e-05,
	"loss": 0.9516,
	"mean_token_accuracy": 0.7287932515144349,
	"step": 1155
	},
	{
	"epoch": 0.2133529519955858,
	"grad_norm": 1.0349887525202925,
	"learning_rate": 4.6797024595205104e-05,
	"loss": 0.9599,
	"mean_token_accuracy": 0.7228366494178772,
	"step": 1160
	},
	{
	"epoch": 0.21427257678867023,
	"grad_norm": 1.052123043795087,
	"learning_rate": 4.6761747048727907e-05,
	"loss": 0.9833,
	"mean_token_accuracy": 0.714729118347168,
	"step": 1165
	},
	{
	"epoch": 0.21519220158175464,
	"grad_norm": 1.0646750046566955,
	"learning_rate": 4.672629134871625e-05,
	"loss": 0.98,
	"mean_token_accuracy": 0.7194055676460266,
	"step": 1170
	},
	{
	"epoch": 0.21611182637483906,
	"grad_norm": 1.072675922430035,
	"learning_rate": 4.669065782310294e-05,
	"loss": 0.9661,
	"mean_token_accuracy": 0.7228956103324891,
	"step": 1175
	},
	{
	"epoch": 0.2170314511679235,
	"grad_norm": 1.0475965649186345,
	"learning_rate": 4.665484680146546e-05,
	"loss": 0.9168,
	"mean_token_accuracy": 0.7354954957962037,
	"step": 1180
	},
	{
	"epoch": 0.2179510759610079,
	"grad_norm": 1.0183550500547607,
	"learning_rate": 4.6618858615023e-05,
	"loss": 0.9268,
	"mean_token_accuracy": 0.731166672706604,
	"step": 1185
	},
	{
	"epoch": 0.21887070075409232,
	"grad_norm": 1.0894438583208028,
	"learning_rate": 4.658269359663336e-05,
	"loss": 0.9134,
	"mean_token_accuracy": 0.7400953650474549,
	"step": 1190
	},
	{
	"epoch": 0.21979032554717676,
	"grad_norm": 0.9962620966267176,
	"learning_rate": 4.6546352080789854e-05,
	"loss": 0.9472,
	"mean_token_accuracy": 0.7283522963523865,
	"step": 1195
	},
	{
	"epoch": 0.22070995034026117,
	"grad_norm": 1.0767144498287804,
	"learning_rate": 4.650983440361825e-05,
	"loss": 0.9798,
	"mean_token_accuracy": 0.7208079814910888,
	"step": 1200
	},
	{
	"epoch": 0.2216295751333456,
	"grad_norm": 1.0451151540293229,
	"learning_rate": 4.6473140902873666e-05,
	"loss": 0.9735,
	"mean_token_accuracy": 0.7223762154579163,
	"step": 1205
	},
	{
	"epoch": 0.22254919992643002,
	"grad_norm": 0.9904423090265289,
	"learning_rate": 4.643627191793737e-05,
	"loss": 0.9416,
	"mean_token_accuracy": 0.7333443641662598,
	"step": 1210
	},
	{
	"epoch": 0.22346882471951443,
	"grad_norm": 1.0324822073086444,
	"learning_rate": 4.639922778981377e-05,
	"loss": 0.9096,
	"mean_token_accuracy": 0.7366245865821839,
	"step": 1215
	},
	{
	"epoch": 0.22438844951259887,
	"grad_norm": 1.00961392870682,
	"learning_rate": 4.636200886112714e-05,
	"loss": 0.9647,
	"mean_token_accuracy": 0.7272518515586853,
	"step": 1220
	},
	{
	"epoch": 0.22530807430568328,
	"grad_norm": 1.041598639678359,
	"learning_rate": 4.63246154761185e-05,
	"loss": 0.982,
	"mean_token_accuracy": 0.7185810923576355,
	"step": 1225
	},
	{
	"epoch": 0.2262276990987677,
	"grad_norm": 1.0574278162856792,
	"learning_rate": 4.628704798064247e-05,
	"loss": 0.9442,
	"mean_token_accuracy": 0.7297179222106933,
	"step": 1230
	},
	{
	"epoch": 0.22714732389185213,
	"grad_norm": 1.060076765820854,
	"learning_rate": 4.624930672216399e-05,
	"loss": 0.9614,
	"mean_token_accuracy": 0.7244118571281433,
	"step": 1235
	},
	{
	"epoch": 0.22806694868493654,
	"grad_norm": 1.0123003105589568,
	"learning_rate": 4.621139204975516e-05,
	"loss": 0.9169,
	"mean_token_accuracy": 0.7362489700317383,
	"step": 1240
	},
	{
	"epoch": 0.22898657347802095,
	"grad_norm": 1.1490153575204947,
	"learning_rate": 4.617330431409201e-05,
	"loss": 0.9929,
	"mean_token_accuracy": 0.7166203141212464,
	"step": 1245
	},
	{
	"epoch": 0.2299061982711054,
	"grad_norm": 1.0270625785191527,
	"learning_rate": 4.6135043867451255e-05,
	"loss": 0.9325,
	"mean_token_accuracy": 0.7311270833015442,
	"step": 1250
	},
	{
	"epoch": 0.2308258230641898,
	"grad_norm": 1.030694744170465,
	"learning_rate": 4.609661106370701e-05,
	"loss": 0.9228,
	"mean_token_accuracy": 0.7355565190315246,
	"step": 1255
	},
	{
	"epoch": 0.23174544785727424,
	"grad_norm": 1.0190672056189127,
	"learning_rate": 4.605800625832753e-05,
	"loss": 0.9577,
	"mean_token_accuracy": 0.7273682594299317,
	"step": 1260
	},
	{
	"epoch": 0.23266507265035866,
	"grad_norm": 1.025832787786935,
	"learning_rate": 4.6019229808371945e-05,
	"loss": 0.9291,
	"mean_token_accuracy": 0.7325186491012573,
	"step": 1265
	},
	{
	"epoch": 0.23358469744344307,
	"grad_norm": 1.0254402284447273,
	"learning_rate": 4.598028207248693e-05,
	"loss": 0.9681,
	"mean_token_accuracy": 0.7215327501296998,
	"step": 1270
	},
	{
	"epoch": 0.2345043222365275,
	"grad_norm": 1.043519079594266,
	"learning_rate": 4.5941163410903406e-05,
	"loss": 0.9565,
	"mean_token_accuracy": 0.7248036026954651,
	"step": 1275
	},
	{
	"epoch": 0.23542394702961192,
	"grad_norm": 0.9811685630848649,
	"learning_rate": 4.590187418543321e-05,
	"loss": 0.9204,
	"mean_token_accuracy": 0.7338666915893555,
	"step": 1280
	},
	{
	"epoch": 0.23634357182269633,
	"grad_norm": 1.0355767679745649,
	"learning_rate": 4.586241475946571e-05,
	"loss": 0.9824,
	"mean_token_accuracy": 0.7212961316108704,
	"step": 1285
	},
	{
	"epoch": 0.23726319661578077,
	"grad_norm": 0.9995187864598916,
	"learning_rate": 4.582278549796448e-05,
	"loss": 0.914,
	"mean_token_accuracy": 0.7355898737907409,
	"step": 1290
	},
	{
	"epoch": 0.23818282140886518,
	"grad_norm": 1.0163621938165361,
	"learning_rate": 4.5782986767463946e-05,
	"loss": 0.9614,
	"mean_token_accuracy": 0.7241615772247314,
	"step": 1295
	},
	{
	"epoch": 0.2391024462019496,
	"grad_norm": 1.0913821743861445,
	"learning_rate": 4.574301893606594e-05,
	"loss": 0.8839,
	"mean_token_accuracy": 0.7434832811355591,
	"step": 1300
	},
	{
	"epoch": 0.24002207099503403,
	"grad_norm": 1.0399223484753735,
	"learning_rate": 4.570288237343632e-05,
	"loss": 0.9104,
	"mean_token_accuracy": 0.7378169417381286,
	"step": 1305
	},
	{
	"epoch": 0.24094169578811844,
	"grad_norm": 1.011671028641558,
	"learning_rate": 4.5662577450801576e-05,
	"loss": 0.9595,
	"mean_token_accuracy": 0.7230379819869995,
	"step": 1310
	},
	{
	"epoch": 0.24186132058120288,
	"grad_norm": 1.008990928095214,
	"learning_rate": 4.562210454094535e-05,
	"loss": 0.9363,
	"mean_token_accuracy": 0.7295035600662232,
	"step": 1315
	},
	{
	"epoch": 0.2427809453742873,
	"grad_norm": 1.059357744292348,
	"learning_rate": 4.558146401820502e-05,
	"loss": 0.9569,
	"mean_token_accuracy": 0.7264422059059144,
	"step": 1320
	},
	{
	"epoch": 0.2437005701673717,
	"grad_norm": 1.0224904321964083,
	"learning_rate": 4.554065625846825e-05,
	"loss": 0.9838,
	"mean_token_accuracy": 0.7178040146827698,
	"step": 1325
	},
	{
	"epoch": 0.24462019496045614,
	"grad_norm": 1.0737296876090594,
	"learning_rate": 4.549968163916946e-05,
	"loss": 0.976,
	"mean_token_accuracy": 0.7180652141571044,
	"step": 1330
	},
	{
	"epoch": 0.24553981975354056,
	"grad_norm": 1.0129242243093401,
	"learning_rate": 4.545854053928639e-05,
	"loss": 0.9394,
	"mean_token_accuracy": 0.7314478039741517,
	"step": 1335
	},
	{
	"epoch": 0.24645944454662497,
	"grad_norm": 0.9860304727584566,
	"learning_rate": 4.541723333933657e-05,
	"loss": 0.9595,
	"mean_token_accuracy": 0.7271197676658631,
	"step": 1340
	},
	{
	"epoch": 0.2473790693397094,
	"grad_norm": 1.0235437508308431,
	"learning_rate": 4.5375760421373796e-05,
	"loss": 0.9888,
	"mean_token_accuracy": 0.7178149104118348,
	"step": 1345
	},
	{
	"epoch": 0.24829869413279382,
	"grad_norm": 1.076473129213084,
	"learning_rate": 4.533412216898461e-05,
	"loss": 0.9374,
	"mean_token_accuracy": 0.7287054538726807,
	"step": 1350
	},
	{
	"epoch": 0.24921831892587823,
	"grad_norm": 1.027000741915809,
	"learning_rate": 4.529231896728474e-05,
	"loss": 0.9098,
	"mean_token_accuracy": 0.7352772355079651,
	"step": 1355
	},
	{
	"epoch": 0.25013794371896264,
	"grad_norm": 1.0980991489181584,
	"learning_rate": 4.525035120291557e-05,
	"loss": 0.9613,
	"mean_token_accuracy": 0.7250553727149963,
	"step": 1360
	},
	{
	"epoch": 0.2510575685120471,
	"grad_norm": 1.0105378261394609,
	"learning_rate": 4.520821926404049e-05,
	"loss": 0.9232,
	"mean_token_accuracy": 0.7339854836463928,
	"step": 1365
	},
	{
	"epoch": 0.2519771933051315,
	"grad_norm": 1.0465671126237865,
	"learning_rate": 4.516592354034138e-05,
	"loss": 0.9578,
	"mean_token_accuracy": 0.7243474960327149,
	"step": 1370
	},
	{
	"epoch": 0.2528968180982159,
	"grad_norm": 1.0721948067984564,
	"learning_rate": 4.512346442301501e-05,
	"loss": 0.9305,
	"mean_token_accuracy": 0.7290533304214477,
	"step": 1375
	},
	{
	"epoch": 0.25381644289130034,
	"grad_norm": 1.083352961545848,
	"learning_rate": 4.5080842304769345e-05,
	"loss": 0.9338,
	"mean_token_accuracy": 0.733627998828888,
	"step": 1380
	},
	{
	"epoch": 0.2547360676843848,
	"grad_norm": 0.979913773136715,
	"learning_rate": 4.503805757981997e-05,
	"loss": 0.9012,
	"mean_token_accuracy": 0.7409675002098084,
	"step": 1385
	},
	{
	"epoch": 0.25565569247746917,
	"grad_norm": 1.1174510417210128,
	"learning_rate": 4.499511064388645e-05,
	"loss": 0.8754,
	"mean_token_accuracy": 0.7447872519493103,
	"step": 1390
	},
	{
	"epoch": 0.2565753172705536,
	"grad_norm": 1.0562227070300527,
	"learning_rate": 4.495200189418864e-05,
	"loss": 0.9505,
	"mean_token_accuracy": 0.7265227913856507,
	"step": 1395
	},
	{
	"epoch": 0.25749494206363804,
	"grad_norm": 1.0550543313489833,
	"learning_rate": 4.490873172944303e-05,
	"loss": 0.9096,
	"mean_token_accuracy": 0.7342225193977356,
	"step": 1400
	},
	{
	"epoch": 0.2584145668567225,
	"grad_norm": 1.0844914008772555,
	"learning_rate": 4.486530054985905e-05,
	"loss": 0.9643,
	"mean_token_accuracy": 0.7227702975273133,
	"step": 1405
	},
	{
	"epoch": 0.25933419164980687,
	"grad_norm": 1.11030675175993,
	"learning_rate": 4.482170875713536e-05,
	"loss": 0.98,
	"mean_token_accuracy": 0.7210663437843323,
	"step": 1410
	},
	{
	"epoch": 0.2602538164428913,
	"grad_norm": 1.0678730599548856,
	"learning_rate": 4.477795675445616e-05,
	"loss": 0.9248,
	"mean_token_accuracy": 0.7327564835548401,
	"step": 1415
	},
	{
	"epoch": 0.26117344123597575,
	"grad_norm": 0.9866628204231362,
	"learning_rate": 4.473404494648744e-05,
	"loss": 0.9216,
	"mean_token_accuracy": 0.7343960881233216,
	"step": 1420
	},
	{
	"epoch": 0.26209306602906013,
	"grad_norm": 0.9895263110250994,
	"learning_rate": 4.4689973739373244e-05,
	"loss": 0.9123,
	"mean_token_accuracy": 0.7354090452194214,
	"step": 1425
	},
	{
	"epoch": 0.26301269082214457,
	"grad_norm": 0.9560958289104061,
	"learning_rate": 4.46457435407319e-05,
	"loss": 0.9494,
	"mean_token_accuracy": 0.725600802898407,
	"step": 1430
	},
	{
	"epoch": 0.263932315615229,
	"grad_norm": 1.0418751893863187,
	"learning_rate": 4.460135475965227e-05,
	"loss": 0.887,
	"mean_token_accuracy": 0.744392192363739,
	"step": 1435
	},
	{
	"epoch": 0.2648519404083134,
	"grad_norm": 1.0270767884123133,
	"learning_rate": 4.455680780668997e-05,
	"loss": 0.98,
	"mean_token_accuracy": 0.717594051361084,
	"step": 1440
	},
	{
	"epoch": 0.26577156520139783,
	"grad_norm": 1.0194372684867639,
	"learning_rate": 4.4512103093863555e-05,
	"loss": 0.9145,
	"mean_token_accuracy": 0.7369788885116577,
	"step": 1445
	},
	{
	"epoch": 0.26669118999448227,
	"grad_norm": 1.0981284825838393,
	"learning_rate": 4.44672410346507e-05,
	"loss": 0.9519,
	"mean_token_accuracy": 0.7260895729064941,
	"step": 1450
	},
	{
	"epoch": 0.26761081478756665,
	"grad_norm": 1.0207625075556366,
	"learning_rate": 4.442222204398441e-05,
	"loss": 0.9555,
	"mean_token_accuracy": 0.7227967500686645,
	"step": 1455
	},
	{
	"epoch": 0.2685304395806511,
	"grad_norm": 0.98393868791661,
	"learning_rate": 4.437704653824915e-05,
	"loss": 0.8831,
	"mean_token_accuracy": 0.7438354253768921,
	"step": 1460
	},
	{
	"epoch": 0.26945006437373553,
	"grad_norm": 0.9817630950075087,
	"learning_rate": 4.433171493527701e-05,
	"loss": 0.9404,
	"mean_token_accuracy": 0.728731095790863,
	"step": 1465
	},
	{
	"epoch": 0.2703696891668199,
	"grad_norm": 1.0298652072064594,
	"learning_rate": 4.428622765434383e-05,
	"loss": 0.9136,
	"mean_token_accuracy": 0.7356218695640564,
	"step": 1470
	},
	{
	"epoch": 0.27128931395990435,
	"grad_norm": 0.981553092264934,
	"learning_rate": 4.4240585116165334e-05,
	"loss": 0.8555,
	"mean_token_accuracy": 0.753374171257019,
	"step": 1475
	},
	{
	"epoch": 0.2722089387529888,
	"grad_norm": 1.172918257192198,
	"learning_rate": 4.419478774289325e-05,
	"loss": 0.998,
	"mean_token_accuracy": 0.713919198513031,
	"step": 1480
	},
	{
	"epoch": 0.2731285635460732,
	"grad_norm": 1.003409782978005,
	"learning_rate": 4.414883595811136e-05,
	"loss": 0.8782,
	"mean_token_accuracy": 0.7452871680259705,
	"step": 1485
	},
	{
	"epoch": 0.2740481883391576,
	"grad_norm": 1.0316918646250515,
	"learning_rate": 4.410273018683163e-05,
	"loss": 0.9242,
	"mean_token_accuracy": 0.7311699628829956,
	"step": 1490
	},
	{
	"epoch": 0.27496781313224206,
	"grad_norm": 0.978003437149563,
	"learning_rate": 4.405647085549025e-05,
	"loss": 0.9241,
	"mean_token_accuracy": 0.7328976273536683,
	"step": 1495
	},
	{
	"epoch": 0.27588743792532644,
	"grad_norm": 1.0070406181231344,
	"learning_rate": 4.40100583919437e-05,
	"loss": 0.9001,
	"mean_token_accuracy": 0.7395057559013367,
	"step": 1500
	},
	{
	"epoch": 0.2768070627184109,
	"grad_norm": 0.9873878935159346,
	"learning_rate": 4.3963493225464817e-05,
	"loss": 0.9258,
	"mean_token_accuracy": 0.7336387634277344,
	"step": 1505
	},
	{
	"epoch": 0.2777266875114953,
	"grad_norm": 0.9521695030248521,
	"learning_rate": 4.3916775786738754e-05,
	"loss": 0.914,
	"mean_token_accuracy": 0.7378314137458801,
	"step": 1510
	},
	{
	"epoch": 0.27864631230457976,
	"grad_norm": 0.9502896850196428,
	"learning_rate": 4.3869906507859096e-05,
	"loss": 0.8987,
	"mean_token_accuracy": 0.7417943596839904,
	"step": 1515
	},
	{
	"epoch": 0.27956593709766414,
	"grad_norm": 0.991426828614557,
	"learning_rate": 4.382288582232376e-05,
	"loss": 0.9106,
	"mean_token_accuracy": 0.7390964746475219,
	"step": 1520
	},
	{
	"epoch": 0.2804855618907486,
	"grad_norm": 1.0581857743606324,
	"learning_rate": 4.377571416503108e-05,
	"loss": 0.9179,
	"mean_token_accuracy": 0.7379998922348022,
	"step": 1525
	},
	{
	"epoch": 0.281405186683833,
	"grad_norm": 0.9872377385823925,
	"learning_rate": 4.372839197227571e-05,
	"loss": 0.8848,
	"mean_token_accuracy": 0.7446985721588135,
	"step": 1530
	},
	{
	"epoch": 0.2823248114769174,
	"grad_norm": 1.0976151495403408,
	"learning_rate": 4.368091968174463e-05,
	"loss": 0.9632,
	"mean_token_accuracy": 0.723613953590393,
	"step": 1535
	},
	{
	"epoch": 0.28324443627000184,
	"grad_norm": 1.013680671037777,
	"learning_rate": 4.363329773251309e-05,
	"loss": 0.866,
	"mean_token_accuracy": 0.750942587852478,
	"step": 1540
	},
	{
	"epoch": 0.2841640610630863,
	"grad_norm": 1.1182733077200029,
	"learning_rate": 4.3585526565040543e-05,
	"loss": 0.9995,
	"mean_token_accuracy": 0.7137303233146668,
	"step": 1545
	},
	{
	"epoch": 0.28508368585617067,
	"grad_norm": 0.9779737007515391,
	"learning_rate": 4.353760662116658e-05,
	"loss": 0.9369,
	"mean_token_accuracy": 0.7336580872535705,
	"step": 1550
	},
	{
	"epoch": 0.2860033106492551,
	"grad_norm": 1.0260468281394197,
	"learning_rate": 4.348953834410683e-05,
	"loss": 0.9678,
	"mean_token_accuracy": 0.7206373929977417,
	"step": 1555
	},
	{
	"epoch": 0.28692293544233954,
	"grad_norm": 1.0263096637333005,
	"learning_rate": 4.3441322178448856e-05,
	"loss": 0.9572,
	"mean_token_accuracy": 0.7260561943054199,
	"step": 1560
	},
	{
	"epoch": 0.2878425602354239,
	"grad_norm": 0.9619383230028783,
	"learning_rate": 4.339295857014809e-05,
	"loss": 0.9501,
	"mean_token_accuracy": 0.7264659523963928,
	"step": 1565
	},
	{
	"epoch": 0.28876218502850837,
	"grad_norm": 0.9946060524217067,
	"learning_rate": 4.3344447966523634e-05,
	"loss": 0.9887,
	"mean_token_accuracy": 0.7160560727119446,
	"step": 1570
	},
	{
	"epoch": 0.2896818098215928,
	"grad_norm": 1.0275376139203307,
	"learning_rate": 4.3295790816254195e-05,
	"loss": 0.9262,
	"mean_token_accuracy": 0.734666109085083,
	"step": 1575
	},
	{
	"epoch": 0.2906014346146772,
	"grad_norm": 1.1276042923218728,
	"learning_rate": 4.324698756937388e-05,
	"loss": 0.9378,
	"mean_token_accuracy": 0.7300173878669739,
	"step": 1580
	},
	{
	"epoch": 0.29152105940776163,
	"grad_norm": 0.9552400868458645,
	"learning_rate": 4.319803867726807e-05,
	"loss": 0.8879,
	"mean_token_accuracy": 0.7425481796264648,
	"step": 1585
	},
	{
	"epoch": 0.29244068420084607,
	"grad_norm": 0.9486514468425481,
	"learning_rate": 4.3148944592669234e-05,
	"loss": 0.9613,
	"mean_token_accuracy": 0.7219538450241089,
	"step": 1590
	},
	{
	"epoch": 0.29336030899393045,
	"grad_norm": 0.9567962674802902,
	"learning_rate": 4.30997057696527e-05,
	"loss": 0.8741,
	"mean_token_accuracy": 0.7477473855018616,
	"step": 1595
	},
	{
	"epoch": 0.2942799337870149,
	"grad_norm": 0.9667609260469084,
	"learning_rate": 4.3050322663632564e-05,
	"loss": 0.9568,
	"mean_token_accuracy": 0.7255883097648621,
	"step": 1600
	},
	{
	"epoch": 0.29519955858009933,
	"grad_norm": 0.9920073647296315,
	"learning_rate": 4.3000795731357333e-05,
	"loss": 0.9237,
	"mean_token_accuracy": 0.7383288621902466,
	"step": 1605
	},
	{
	"epoch": 0.2961191833731837,
	"grad_norm": 1.0604465170326072,
	"learning_rate": 4.295112543090584e-05,
	"loss": 0.9609,
	"mean_token_accuracy": 0.7225096940994262,
	"step": 1610
	},
	{
	"epoch": 0.29703880816626815,
	"grad_norm": 1.0688037490276023,
	"learning_rate": 4.290131222168289e-05,
	"loss": 1.0008,
	"mean_token_accuracy": 0.7138909697532654,
	"step": 1615
	},
	{
	"epoch": 0.2979584329593526,
	"grad_norm": 1.143629206489082,
	"learning_rate": 4.2851356564415086e-05,
	"loss": 0.9867,
	"mean_token_accuracy": 0.7165561437606811,
	"step": 1620
	},
	{
	"epoch": 0.29887805775243703,
	"grad_norm": 1.0438745750713756,
	"learning_rate": 4.280125892114656e-05,
	"loss": 0.9434,
	"mean_token_accuracy": 0.7298865675926208,
	"step": 1625
	},
	{
	"epoch": 0.2997976825455214,
	"grad_norm": 1.0251559106803514,
	"learning_rate": 4.2751019755234664e-05,
	"loss": 0.935,
	"mean_token_accuracy": 0.7299148678779602,
	"step": 1630
	},
	{
	"epoch": 0.30071730733860585,
	"grad_norm": 0.9900961445552091,
	"learning_rate": 4.27006395313457e-05,
	"loss": 0.9963,
	"mean_token_accuracy": 0.7131295561790466,
	"step": 1635
	},
	{
	"epoch": 0.3016369321316903,
	"grad_norm": 1.040210108998438,
	"learning_rate": 4.265011871545066e-05,
	"loss": 0.9412,
	"mean_token_accuracy": 0.7279941439628601,
	"step": 1640
	},
	{
	"epoch": 0.3025565569247747,
	"grad_norm": 1.0262950854145634,
	"learning_rate": 4.259945777482085e-05,
	"loss": 0.9239,
	"mean_token_accuracy": 0.7327239632606506,
	"step": 1645
	},
	{
	"epoch": 0.3034761817178591,
	"grad_norm": 0.9969469234100081,
	"learning_rate": 4.25486571780236e-05,
	"loss": 0.9462,
	"mean_token_accuracy": 0.7269651889801025,
	"step": 1650
	},
	{
	"epoch": 0.30439580651094356,
	"grad_norm": 1.0021703198417462,
	"learning_rate": 4.249771739491795e-05,
	"loss": 0.9003,
	"mean_token_accuracy": 0.7421126961708069,
	"step": 1655
	},
	{
	"epoch": 0.30531543130402794,
	"grad_norm": 1.0255704189414308,
	"learning_rate": 4.24466388966503e-05,
	"loss": 0.9249,
	"mean_token_accuracy": 0.7345858454704285,
	"step": 1660
	},
	{
	"epoch": 0.3062350560971124,
	"grad_norm": 0.9438771845720968,
	"learning_rate": 4.239542215565e-05,
	"loss": 0.9749,
	"mean_token_accuracy": 0.7182752847671509,
	"step": 1665
	},
	{
	"epoch": 0.3071546808901968,
	"grad_norm": 0.9878451650581643,
	"learning_rate": 4.2344067645625036e-05,
	"loss": 0.9455,
	"mean_token_accuracy": 0.7264060854911805,
	"step": 1670
	},
	{
	"epoch": 0.3080743056832812,
	"grad_norm": 1.1287364443586523,
	"learning_rate": 4.229257584155765e-05,
	"loss": 0.9218,
	"mean_token_accuracy": 0.7332573175430298,
	"step": 1675
	},
	{
	"epoch": 0.30899393047636564,
	"grad_norm": 0.971666072350275,
	"learning_rate": 4.2240947219699895e-05,
	"loss": 0.8756,
	"mean_token_accuracy": 0.7459922909736634,
	"step": 1680
	},
	{
	"epoch": 0.3099135552694501,
	"grad_norm": 0.9593974583897734,
	"learning_rate": 4.2189182257569285e-05,
	"loss": 0.9329,
	"mean_token_accuracy": 0.730040967464447,
	"step": 1685
	},
	{
	"epoch": 0.31083318006253446,
	"grad_norm": 0.943158273064518,
	"learning_rate": 4.213728143394436e-05,
	"loss": 0.8839,
	"mean_token_accuracy": 0.7458212971687317,
	"step": 1690
	},
	{
	"epoch": 0.3117528048556189,
	"grad_norm": 1.050902490407755,
	"learning_rate": 4.208524522886022e-05,
	"loss": 0.9443,
	"mean_token_accuracy": 0.7311147809028625,
	"step": 1695
	},
	{
	"epoch": 0.31267242964870334,
	"grad_norm": 1.0074348860409519,
	"learning_rate": 4.203307412360418e-05,
	"loss": 0.9201,
	"mean_token_accuracy": 0.7326057314872741,
	"step": 1700
	},
	{
	"epoch": 0.3135920544417877,
	"grad_norm": 1.0039288385867127,
	"learning_rate": 4.1980768600711194e-05,
	"loss": 0.9169,
	"mean_token_accuracy": 0.736884355545044,
	"step": 1705
	},
	{
	"epoch": 0.31451167923487217,
	"grad_norm": 0.9456279018137994,
	"learning_rate": 4.1928329143959506e-05,
	"loss": 0.9198,
	"mean_token_accuracy": 0.7341038465499878,
	"step": 1710
	},
	{
	"epoch": 0.3154313040279566,
	"grad_norm": 0.969219875361889,
	"learning_rate": 4.18757562383661e-05,
	"loss": 0.9586,
	"mean_token_accuracy": 0.7229322910308837,
	"step": 1715
	},
	{
	"epoch": 0.316350928821041,
	"grad_norm": 0.9823553221239351,
	"learning_rate": 4.182305037018224e-05,
	"loss": 0.8674,
	"mean_token_accuracy": 0.7455045938491821,
	"step": 1720
	},
	{
	"epoch": 0.31727055361412543,
	"grad_norm": 0.9614849491835867,
	"learning_rate": 4.1770212026888974e-05,
	"loss": 0.8978,
	"mean_token_accuracy": 0.7393216609954834,
	"step": 1725
	},
	{
	"epoch": 0.31819017840720987,
	"grad_norm": 1.0298443865011644,
	"learning_rate": 4.1717241697192636e-05,
	"loss": 0.9046,
	"mean_token_accuracy": 0.7390219569206238,
	"step": 1730
	},
	{
	"epoch": 0.3191098032002943,
	"grad_norm": 0.9675044814332657,
	"learning_rate": 4.166413987102031e-05,
	"loss": 0.9014,
	"mean_token_accuracy": 0.7412125468254089,
	"step": 1735
	},
	{
	"epoch": 0.3200294279933787,
	"grad_norm": 0.9558901216962499,
	"learning_rate": 4.161090703951528e-05,
	"loss": 0.8915,
	"mean_token_accuracy": 0.7442119359970093,
	"step": 1740
	},
	{
	"epoch": 0.32094905278646313,
	"grad_norm": 1.0231471726772243,
	"learning_rate": 4.155754369503254e-05,
	"loss": 0.9508,
	"mean_token_accuracy": 0.7272051572799683,
	"step": 1745
	},
	{
	"epoch": 0.32186867757954757,
	"grad_norm": 0.971225693001968,
	"learning_rate": 4.1504050331134186e-05,
	"loss": 0.9271,
	"mean_token_accuracy": 0.7334083676338196,
	"step": 1750
	},
	{
	"epoch": 0.32278830237263195,
	"grad_norm": 0.9487975621871125,
	"learning_rate": 4.1450427442584885e-05,
	"loss": 0.9231,
	"mean_token_accuracy": 0.7330006003379822,
	"step": 1755
	},
	{
	"epoch": 0.3237079271657164,
	"grad_norm": 1.080234485746019,
	"learning_rate": 4.13966755253473e-05,
	"loss": 0.8934,
	"mean_token_accuracy": 0.7371908903121949,
	"step": 1760
	},
	{
	"epoch": 0.32462755195880083,
	"grad_norm": 1.0042744657060512,
	"learning_rate": 4.134279507657746e-05,
	"loss": 0.9357,
	"mean_token_accuracy": 0.7307947874069214,
	"step": 1765
	},
	{
	"epoch": 0.3255471767518852,
	"grad_norm": 1.0167454318885076,
	"learning_rate": 4.1288786594620224e-05,
	"loss": 0.9522,
	"mean_token_accuracy": 0.7250777244567871,
	"step": 1770
	},
	{
	"epoch": 0.32646680154496965,
	"grad_norm": 1.0378785371682158,
	"learning_rate": 4.123465057900463e-05,
	"loss": 0.8991,
	"mean_token_accuracy": 0.7383182883262634,
	"step": 1775
	},
	{
	"epoch": 0.3273864263380541,
	"grad_norm": 0.975574798117687,
	"learning_rate": 4.118038753043927e-05,
	"loss": 0.8962,
	"mean_token_accuracy": 0.7391498327255249,
	"step": 1780
	},
	{
	"epoch": 0.3283060511311385,
	"grad_norm": 0.9785593634297269,
	"learning_rate": 4.112599795080771e-05,
	"loss": 0.8976,
	"mean_token_accuracy": 0.7406945347785949,
	"step": 1785
	},
	{
	"epoch": 0.3292256759242229,
	"grad_norm": 0.9506069452238485,
	"learning_rate": 4.107148234316378e-05,
	"loss": 0.9792,
	"mean_token_accuracy": 0.7183930397033691,
	"step": 1790
	},
	{
	"epoch": 0.33014530071730736,
	"grad_norm": 0.9568388159915644,
	"learning_rate": 4.101684121172696e-05,
	"loss": 0.9445,
	"mean_token_accuracy": 0.7280240654945374,
	"step": 1795
	},
	{
	"epoch": 0.33106492551039174,
	"grad_norm": 1.022357456314008,
	"learning_rate": 4.096207506187773e-05,
	"loss": 0.9394,
	"mean_token_accuracy": 0.7300898432731628,
	"step": 1800
	},
	{
	"epoch": 0.3319845503034762,
	"grad_norm": 0.993312074550177,
	"learning_rate": 4.090718440015285e-05,
	"loss": 0.8857,
	"mean_token_accuracy": 0.7397880554199219,
	"step": 1805
	},
	{
	"epoch": 0.3329041750965606,
	"grad_norm": 0.9393217165901138,
	"learning_rate": 4.0852169734240715e-05,
	"loss": 0.9055,
	"mean_token_accuracy": 0.7397056937217712,
	"step": 1810
	},
	{
	"epoch": 0.333823799889645,
	"grad_norm": 1.0286146516865022,
	"learning_rate": 4.0797031572976644e-05,
	"loss": 0.9486,
	"mean_token_accuracy": 0.7270653247833252,
	"step": 1815
	},
	{
	"epoch": 0.33474342468272944,
	"grad_norm": 1.0433673618214743,
	"learning_rate": 4.074177042633818e-05,
	"loss": 0.8654,
	"mean_token_accuracy": 0.7493741869926452,
	"step": 1820
	},
	{
	"epoch": 0.3356630494758139,
	"grad_norm": 0.9978374983290279,
	"learning_rate": 4.068638680544035e-05,
	"loss": 0.9434,
	"mean_token_accuracy": 0.7284141898155212,
	"step": 1825
	},
	{
	"epoch": 0.33658267426889826,
	"grad_norm": 0.9268570875914646,
	"learning_rate": 4.063088122253096e-05,
	"loss": 0.9323,
	"mean_token_accuracy": 0.7292568445205688,
	"step": 1830
	},
	{
	"epoch": 0.3375022990619827,
	"grad_norm": 1.0098370277606412,
	"learning_rate": 4.05752541909859e-05,
	"loss": 0.8831,
	"mean_token_accuracy": 0.7427129149436951,
	"step": 1835
	},
	{
	"epoch": 0.33842192385506714,
	"grad_norm": 0.9840521255378257,
	"learning_rate": 4.0519506225304266e-05,
	"loss": 0.9129,
	"mean_token_accuracy": 0.7376075983047485,
	"step": 1840
	},
	{
	"epoch": 0.3393415486481516,
	"grad_norm": 0.9706147022595509,
	"learning_rate": 4.046363784110375e-05,
	"loss": 0.8867,
	"mean_token_accuracy": 0.7421358585357666,
	"step": 1845
	},
	{
	"epoch": 0.34026117344123596,
	"grad_norm": 1.0544553608523015,
	"learning_rate": 4.040764955511577e-05,
	"loss": 0.9404,
	"mean_token_accuracy": 0.7300120830535889,
	"step": 1850
	},
	{
	"epoch": 0.3411807982343204,
	"grad_norm": 0.9771051625951763,
	"learning_rate": 4.035154188518076e-05,
	"loss": 0.92,
	"mean_token_accuracy": 0.7353024840354919,
	"step": 1855
	},
	{
	"epoch": 0.34210042302740484,
	"grad_norm": 0.9612601058837731,
	"learning_rate": 4.02953153502433e-05,
	"loss": 0.8822,
	"mean_token_accuracy": 0.7446259975433349,
	"step": 1860
	},
	{
	"epoch": 0.3430200478204892,
	"grad_norm": 1.0790844365415948,
	"learning_rate": 4.0238970470347404e-05,
	"loss": 0.9243,
	"mean_token_accuracy": 0.7315137147903442,
	"step": 1865
	},
	{
	"epoch": 0.34393967261357367,
	"grad_norm": 0.9988868690440261,
	"learning_rate": 4.018250776663164e-05,
	"loss": 0.8875,
	"mean_token_accuracy": 0.7421119809150696,
	"step": 1870
	},
	{
	"epoch": 0.3448592974066581,
	"grad_norm": 1.0571095915292046,
	"learning_rate": 4.012592776132435e-05,
	"loss": 0.9273,
	"mean_token_accuracy": 0.731085193157196,
	"step": 1875
	},
	{
	"epoch": 0.3457789221997425,
	"grad_norm": 1.135743652086019,
	"learning_rate": 4.0069230977738826e-05,
	"loss": 0.9534,
	"mean_token_accuracy": 0.7248372554779052,
	"step": 1880
	},
	{
	"epoch": 0.34669854699282693,
	"grad_norm": 0.9715071563775657,
	"learning_rate": 4.001241794026842e-05,
	"loss": 0.94,
	"mean_token_accuracy": 0.731473171710968,
	"step": 1885
	},
	{
	"epoch": 0.34761817178591137,
	"grad_norm": 0.9942342778662301,
	"learning_rate": 3.9955489174381746e-05,
	"loss": 0.9329,
	"mean_token_accuracy": 0.7310616850852967,
	"step": 1890
	},
	{
	"epoch": 0.34853779657899575,
	"grad_norm": 1.0075175249825896,
	"learning_rate": 3.989844520661779e-05,
	"loss": 0.9438,
	"mean_token_accuracy": 0.7262274742126464,
	"step": 1895
	},
	{
	"epoch": 0.3494574213720802,
	"grad_norm": 0.9753954477573876,
	"learning_rate": 3.984128656458106e-05,
	"loss": 0.9702,
	"mean_token_accuracy": 0.7193968415260314,
	"step": 1900
	},
	{
	"epoch": 0.35037704616516463,
	"grad_norm": 1.0133558076382343,
	"learning_rate": 3.978401377693669e-05,
	"loss": 0.873,
	"mean_token_accuracy": 0.7490906119346619,
	"step": 1905
	},
	{
	"epoch": 0.351296670958249,
	"grad_norm": 1.0343688728685794,
	"learning_rate": 3.9726627373405544e-05,
	"loss": 0.9308,
	"mean_token_accuracy": 0.7297749042510986,
	"step": 1910
	},
	{
	"epoch": 0.35221629575133345,
	"grad_norm": 0.9695668089988693,
	"learning_rate": 3.966912788475937e-05,
	"loss": 0.9028,
	"mean_token_accuracy": 0.7381954431533814,
	"step": 1915
	},
	{
	"epoch": 0.3531359205444179,
	"grad_norm": 0.9832664588504738,
	"learning_rate": 3.961151584281581e-05,
	"loss": 0.8815,
	"mean_token_accuracy": 0.7429476737976074,
	"step": 1920
	},
	{
	"epoch": 0.3540555453375023,
	"grad_norm": 0.963687599953708,
	"learning_rate": 3.955379178043352e-05,
	"loss": 0.9823,
	"mean_token_accuracy": 0.7177613019943238,
	"step": 1925
	},
	{
	"epoch": 0.3549751701305867,
	"grad_norm": 0.9479437389842555,
	"learning_rate": 3.9495956231507266e-05,
	"loss": 0.9274,
	"mean_token_accuracy": 0.7312801122665405,
	"step": 1930
	},
	{
	"epoch": 0.35589479492367115,
	"grad_norm": 0.938691928481946,
	"learning_rate": 3.943800973096296e-05,
	"loss": 0.9017,
	"mean_token_accuracy": 0.7394131779670715,
	"step": 1935
	},
	{
	"epoch": 0.35681441971675554,
	"grad_norm": 0.967769246759337,
	"learning_rate": 3.937995281475269e-05,
	"loss": 0.9216,
	"mean_token_accuracy": 0.7352214097976685,
	"step": 1940
	},
	{
	"epoch": 0.35773404450984,
	"grad_norm": 0.9613349378582403,
	"learning_rate": 3.932178601984982e-05,
	"loss": 0.8861,
	"mean_token_accuracy": 0.7429886102676392,
	"step": 1945
	},
	{
	"epoch": 0.3586536693029244,
	"grad_norm": 0.9739202222729397,
	"learning_rate": 3.926350988424397e-05,
	"loss": 0.8628,
	"mean_token_accuracy": 0.7480137705802917,
	"step": 1950
	},
	{
	"epoch": 0.35957329409600886,
	"grad_norm": 1.00417983410191,
	"learning_rate": 3.920512494693607e-05,
	"loss": 0.879,
	"mean_token_accuracy": 0.7440518856048584,
	"step": 1955
	},
	{
	"epoch": 0.36049291888909324,
	"grad_norm": 1.0098406374163094,
	"learning_rate": 3.9146631747933366e-05,
	"loss": 0.8329,
	"mean_token_accuracy": 0.759476363658905,
	"step": 1960
	},
	{
	"epoch": 0.3614125436821777,
	"grad_norm": 0.9962046099940254,
	"learning_rate": 3.908803082824441e-05,
	"loss": 0.8369,
	"mean_token_accuracy": 0.7543352007865906,
	"step": 1965
	},
	{
	"epoch": 0.3623321684752621,
	"grad_norm": 1.0229275697874085,
	"learning_rate": 3.9029322729874104e-05,
	"loss": 0.9319,
	"mean_token_accuracy": 0.7315138220787049,
	"step": 1970
	},
	{
	"epoch": 0.3632517932683465,
	"grad_norm": 0.9131833883898176,
	"learning_rate": 3.8970507995818636e-05,
	"loss": 0.8373,
	"mean_token_accuracy": 0.754296875,
	"step": 1975
	},
	{
	"epoch": 0.36417141806143094,
	"grad_norm": 0.9558351857573911,
	"learning_rate": 3.891158717006046e-05,
	"loss": 0.892,
	"mean_token_accuracy": 0.7430965900421143,
	"step": 1980
	},
	{
	"epoch": 0.3650910428545154,
	"grad_norm": 0.9446973659937214,
	"learning_rate": 3.885256079756331e-05,
	"loss": 0.9394,
	"mean_token_accuracy": 0.7250162839889527,
	"step": 1985
	},
	{
	"epoch": 0.36601066764759976,
	"grad_norm": 0.9202948815573198,
	"learning_rate": 3.879342942426711e-05,
	"loss": 0.9124,
	"mean_token_accuracy": 0.7363432049751282,
	"step": 1990
	},
	{
	"epoch": 0.3669302924406842,
	"grad_norm": 0.9507433703052857,
	"learning_rate": 3.8734193597082964e-05,
	"loss": 0.9265,
	"mean_token_accuracy": 0.7309059858322143,
	"step": 1995
	},
	{
	"epoch": 0.36784991723376864,
	"grad_norm": 0.9721403940210892,
	"learning_rate": 3.867485386388806e-05,
	"loss": 0.9368,
	"mean_token_accuracy": 0.7331580281257629,
	"step": 2000
	},
	{
	"epoch": 0.368769542026853,
	"grad_norm": 0.9405505899400793,
	"learning_rate": 3.8615410773520635e-05,
	"loss": 0.9138,
	"mean_token_accuracy": 0.7358463048934937,
	"step": 2005
	},
	{
	"epoch": 0.36968916681993746,
	"grad_norm": 0.963025470188593,
	"learning_rate": 3.8555864875774885e-05,
	"loss": 0.9019,
	"mean_token_accuracy": 0.7384212732315063,
	"step": 2010
	},
	{
	"epoch": 0.3706087916130219,
	"grad_norm": 0.9907971594256944,
	"learning_rate": 3.849621672139588e-05,
	"loss": 0.8763,
	"mean_token_accuracy": 0.7444020867347717,
	"step": 2015
	},
	{
	"epoch": 0.3715284164061063,
	"grad_norm": 0.981696155165083,
	"learning_rate": 3.843646686207445e-05,
	"loss": 0.9202,
	"mean_token_accuracy": 0.7325111865997315,
	"step": 2020
	},
	{
	"epoch": 0.3724480411991907,
	"grad_norm": 0.990078628199776,
	"learning_rate": 3.837661585044211e-05,
	"loss": 0.9045,
	"mean_token_accuracy": 0.7379343152046204,
	"step": 2025
	},
	{
	"epoch": 0.37336766599227517,
	"grad_norm": 0.9302652014201332,
	"learning_rate": 3.831666424006598e-05,
	"loss": 0.9145,
	"mean_token_accuracy": 0.7369246363639832,
	"step": 2030
	},
	{
	"epoch": 0.37428729078535955,
	"grad_norm": 1.0127134327540788,
	"learning_rate": 3.825661258544358e-05,
	"loss": 0.8949,
	"mean_token_accuracy": 0.740783178806305,
	"step": 2035
	},
	{
	"epoch": 0.375206915578444,
	"grad_norm": 0.9456025309406082,
	"learning_rate": 3.819646144199777e-05,
	"loss": 0.8635,
	"mean_token_accuracy": 0.749360203742981,
	"step": 2040
	},
	{
	"epoch": 0.37612654037152843,
	"grad_norm": 0.9458510607283644,
	"learning_rate": 3.813621136607157e-05,
	"loss": 0.9212,
	"mean_token_accuracy": 0.7321518301963806,
	"step": 2045
	},
	{
	"epoch": 0.3770461651646128,
	"grad_norm": 0.995792214246869,
	"learning_rate": 3.8075862914923074e-05,
	"loss": 0.9529,
	"mean_token_accuracy": 0.7222961544990539,
	"step": 2050
	},
	{
	"epoch": 0.37796578995769725,
	"grad_norm": 0.931780686224964,
	"learning_rate": 3.801541664672021e-05,
	"loss": 0.9068,
	"mean_token_accuracy": 0.7373356938362121,
	"step": 2055
	},
	{
	"epoch": 0.3788854147507817,
	"grad_norm": 1.032699719779323,
	"learning_rate": 3.795487312053566e-05,
	"loss": 0.8428,
	"mean_token_accuracy": 0.754009485244751,
	"step": 2060
	},
	{
	"epoch": 0.37980503954386613,
	"grad_norm": 1.0082536583803767,
	"learning_rate": 3.789423289634163e-05,
	"loss": 0.8877,
	"mean_token_accuracy": 0.7419803261756897,
	"step": 2065
	},
	{
	"epoch": 0.3807246643369505,
	"grad_norm": 0.9922794484448726,
	"learning_rate": 3.783349653500472e-05,
	"loss": 0.9549,
	"mean_token_accuracy": 0.7244602799415588,
	"step": 2070
	},
	{
	"epoch": 0.38164428913003495,
	"grad_norm": 0.9289765959162268,
	"learning_rate": 3.777266459828067e-05,
	"loss": 0.9049,
	"mean_token_accuracy": 0.7346539378166199,
	"step": 2075
	},
	{
	"epoch": 0.3825639139231194,
	"grad_norm": 0.9418822148176986,
	"learning_rate": 3.7711737648809255e-05,
	"loss": 0.8631,
	"mean_token_accuracy": 0.7498388290405273,
	"step": 2080
	},
	{
	"epoch": 0.3834835387162038,
	"grad_norm": 0.9739714347813362,
	"learning_rate": 3.765071625010899e-05,
	"loss": 0.8642,
	"mean_token_accuracy": 0.7496488690376282,
	"step": 2085
	},
	{
	"epoch": 0.3844031635092882,
	"grad_norm": 0.9876318304111896,
	"learning_rate": 3.758960096657197e-05,
	"loss": 0.9409,
	"mean_token_accuracy": 0.7231215476989746,
	"step": 2090
	},
	{
	"epoch": 0.38532278830237265,
	"grad_norm": 0.9391298182307426,
	"learning_rate": 3.752839236345866e-05,
	"loss": 0.9321,
	"mean_token_accuracy": 0.7299721479415894,
	"step": 2095
	},
	{
	"epoch": 0.38624241309545704,
	"grad_norm": 0.9975883406823954,
	"learning_rate": 3.746709100689263e-05,
	"loss": 0.9119,
	"mean_token_accuracy": 0.7372664332389831,
	"step": 2100
	},
	{
	"epoch": 0.3871620378885415,
	"grad_norm": 0.9585598143365737,
	"learning_rate": 3.740569746385531e-05,
	"loss": 0.9511,
	"mean_token_accuracy": 0.7252285242080688,
	"step": 2105
	},
	{
	"epoch": 0.3880816626816259,
	"grad_norm": 0.9708930878655039,
	"learning_rate": 3.7344212302180807e-05,
	"loss": 0.9021,
	"mean_token_accuracy": 0.7373741269111633,
	"step": 2110
	},
	{
	"epoch": 0.3890012874747103,
	"grad_norm": 0.9842480657825518,
	"learning_rate": 3.7282636090550613e-05,
	"loss": 0.9155,
	"mean_token_accuracy": 0.7346144676208496,
	"step": 2115
	},
	{
	"epoch": 0.38992091226779474,
	"grad_norm": 1.010319909401371,
	"learning_rate": 3.722096939848833e-05,
	"loss": 0.8251,
	"mean_token_accuracy": 0.7569172263145447,
	"step": 2120
	},
	{
	"epoch": 0.3908405370608792,
	"grad_norm": 1.0232782350312868,
	"learning_rate": 3.7159212796354425e-05,
	"loss": 0.9061,
	"mean_token_accuracy": 0.7363372683525086,
	"step": 2125
	},
	{
	"epoch": 0.39176016185396356,
	"grad_norm": 0.9853933308782586,
	"learning_rate": 3.7097366855340974e-05,
	"loss": 0.9281,
	"mean_token_accuracy": 0.7297635912895203,
	"step": 2130
	},
	{
	"epoch": 0.392679786647048,
	"grad_norm": 1.0085562594833883,
	"learning_rate": 3.703543214746632e-05,
	"loss": 0.9345,
	"mean_token_accuracy": 0.7267664670944214,
	"step": 2135
	},
	{
	"epoch": 0.39359941144013244,
	"grad_norm": 0.9907065624349415,
	"learning_rate": 3.6973409245569846e-05,
	"loss": 0.9017,
	"mean_token_accuracy": 0.7393394112586975,
	"step": 2140
	},
	{
	"epoch": 0.3945190362332168,
	"grad_norm": 0.9488707860528096,
	"learning_rate": 3.691129872330663e-05,
	"loss": 0.9373,
	"mean_token_accuracy": 0.728193199634552,
	"step": 2145
	},
	{
	"epoch": 0.39543866102630126,
	"grad_norm": 0.9103606197233259,
	"learning_rate": 3.684910115514218e-05,
	"loss": 0.897,
	"mean_token_accuracy": 0.7412585973739624,
	"step": 2150
	},
	{
	"epoch": 0.3963582858193857,
	"grad_norm": 0.965709462156266,
	"learning_rate": 3.678681711634708e-05,
	"loss": 0.8715,
	"mean_token_accuracy": 0.74575275182724,
	"step": 2155
	},
	{
	"epoch": 0.3972779106124701,
	"grad_norm": 1.0272326947622106,
	"learning_rate": 3.67244471829917e-05,
	"loss": 0.8789,
	"mean_token_accuracy": 0.7422020196914673,
	"step": 2160
	},
	{
	"epoch": 0.3981975354055545,
	"grad_norm": 0.9300588922771316,
	"learning_rate": 3.6661991931940856e-05,
	"loss": 0.8945,
	"mean_token_accuracy": 0.7385678648948669,
	"step": 2165
	},
	{
	"epoch": 0.39911716019863896,
	"grad_norm": 1.002757392159615,
	"learning_rate": 3.6599451940848446e-05,
	"loss": 0.8993,
	"mean_token_accuracy": 0.7361081838607788,
	"step": 2170
	},
	{
	"epoch": 0.4000367849917234,
	"grad_norm": 1.1036859227862066,
	"learning_rate": 3.6536827788152176e-05,
	"loss": 0.9308,
	"mean_token_accuracy": 0.7304606318473816,
	"step": 2175
	},
	{
	"epoch": 0.4009564097848078,
	"grad_norm": 0.9701793563305904,
	"learning_rate": 3.6474120053068164e-05,
	"loss": 0.8472,
	"mean_token_accuracy": 0.7498792171478271,
	"step": 2180
	},
	{
	"epoch": 0.4018760345778922,
	"grad_norm": 1.041733702997736,
	"learning_rate": 3.641132931558556e-05,
	"loss": 0.9581,
	"mean_token_accuracy": 0.7201631188392639,
	"step": 2185
	},
	{
	"epoch": 0.40279565937097667,
	"grad_norm": 1.0348942168040987,
	"learning_rate": 3.634845615646123e-05,
	"loss": 0.9393,
	"mean_token_accuracy": 0.7280836224555969,
	"step": 2190
	},
	{
	"epoch": 0.40371528416406105,
	"grad_norm": 1.0131734961320986,
	"learning_rate": 3.628550115721437e-05,
	"loss": 0.927,
	"mean_token_accuracy": 0.729682469367981,
	"step": 2195
	},
	{
	"epoch": 0.4046349089571455,
	"grad_norm": 1.025738826571974,
	"learning_rate": 3.622246490012111e-05,
	"loss": 0.9357,
	"mean_token_accuracy": 0.724788224697113,
	"step": 2200
	},
	{
	"epoch": 0.40555453375022993,
	"grad_norm": 0.9501914998942569,
	"learning_rate": 3.615934796820915e-05,
	"loss": 0.8978,
	"mean_token_accuracy": 0.7385434865951538,
	"step": 2205
	},
	{
	"epoch": 0.4064741585433143,
	"grad_norm": 1.0106650660729533,
	"learning_rate": 3.609615094525235e-05,
	"loss": 0.952,
	"mean_token_accuracy": 0.7243346452713013,
	"step": 2210
	},
	{
	"epoch": 0.40739378333639875,
	"grad_norm": 0.9301771755028939,
	"learning_rate": 3.6032874415765344e-05,
	"loss": 0.8633,
	"mean_token_accuracy": 0.7481309175491333,
	"step": 2215
	},
	{
	"epoch": 0.4083134081294832,
	"grad_norm": 0.9662316400458029,
	"learning_rate": 3.596951896499813e-05,
	"loss": 0.8931,
	"mean_token_accuracy": 0.7380975484848022,
	"step": 2220
	},
	{
	"epoch": 0.4092330329225676,
	"grad_norm": 0.9612362754674141,
	"learning_rate": 3.590608517893065e-05,
	"loss": 0.8787,
	"mean_token_accuracy": 0.743196439743042,
	"step": 2225
	},
	{
	"epoch": 0.410152657715652,
	"grad_norm": 0.9923328807528666,
	"learning_rate": 3.584257364426738e-05,
	"loss": 0.942,
	"mean_token_accuracy": 0.7252677202224731,
	"step": 2230
	},
	{
	"epoch": 0.41107228250873645,
	"grad_norm": 0.9797715702136052,
	"learning_rate": 3.577898494843191e-05,
	"loss": 0.9523,
	"mean_token_accuracy": 0.7244603157043457,
	"step": 2235
	},
	{
	"epoch": 0.41199190730182084,
	"grad_norm": 0.9048445218025765,
	"learning_rate": 3.571531967956147e-05,
	"loss": 0.9136,
	"mean_token_accuracy": 0.7320458292961121,
	"step": 2240
	},
	{
	"epoch": 0.4129115320949053,
	"grad_norm": 0.9649058945655278,
	"learning_rate": 3.565157842650154e-05,
	"loss": 0.9041,
	"mean_token_accuracy": 0.7362257719039917,
	"step": 2245
	},
	{
	"epoch": 0.4138311568879897,
	"grad_norm": 0.9147474250541198,
	"learning_rate": 3.55877617788004e-05,
	"loss": 0.9155,
	"mean_token_accuracy": 0.7333362221717834,
	"step": 2250
	},
	{
	"epoch": 0.4147507816810741,
	"grad_norm": 0.876619458906422,
	"learning_rate": 3.5523870326703635e-05,
	"loss": 0.8492,
	"mean_token_accuracy": 0.7528911828994751,
	"step": 2255
	},
	{
	"epoch": 0.41567040647415854,
	"grad_norm": 1.0036194468259731,
	"learning_rate": 3.545990466114871e-05,
	"loss": 0.9137,
	"mean_token_accuracy": 0.734946858882904,
	"step": 2260
	},
	{
	"epoch": 0.416590031267243,
	"grad_norm": 0.9978348158615458,
	"learning_rate": 3.5395865373759504e-05,
	"loss": 0.8815,
	"mean_token_accuracy": 0.742937445640564,
	"step": 2265
	},
	{
	"epoch": 0.41750965606032736,
	"grad_norm": 0.9799485166888982,
	"learning_rate": 3.533175305684081e-05,
	"loss": 0.8857,
	"mean_token_accuracy": 0.7412702798843384,
	"step": 2270
	},
	{
	"epoch": 0.4184292808534118,
	"grad_norm": 0.9766101000667111,
	"learning_rate": 3.5267568303372914e-05,
	"loss": 0.8934,
	"mean_token_accuracy": 0.7409379720687866,
	"step": 2275
	},
	{
	"epoch": 0.41934890564649624,
	"grad_norm": 0.9775807722195559,
	"learning_rate": 3.520331170700605e-05,
	"loss": 0.9067,
	"mean_token_accuracy": 0.7377767205238343,
	"step": 2280
	},
	{
	"epoch": 0.4202685304395807,
	"grad_norm": 0.9690742278243399,
	"learning_rate": 3.513898386205491e-05,
	"loss": 0.9032,
	"mean_token_accuracy": 0.7356434345245362,
	"step": 2285
	},
	{
	"epoch": 0.42118815523266506,
	"grad_norm": 0.965511424805927,
	"learning_rate": 3.507458536349323e-05,
	"loss": 0.9157,
	"mean_token_accuracy": 0.7343951106071472,
	"step": 2290
	},
	{
	"epoch": 0.4221077800257495,
	"grad_norm": 0.9486968791577164,
	"learning_rate": 3.5010116806948166e-05,
	"loss": 0.901,
	"mean_token_accuracy": 0.7399522423744201,
	"step": 2295
	},
	{
	"epoch": 0.42302740481883394,
	"grad_norm": 0.9414293890579761,
	"learning_rate": 3.4945578788694894e-05,
	"loss": 0.9179,
	"mean_token_accuracy": 0.7342228889465332,
	"step": 2300
	},
	{
	"epoch": 0.4239470296119183,
	"grad_norm": 0.9896377940060639,
	"learning_rate": 3.4880971905651016e-05,
	"loss": 0.8784,
	"mean_token_accuracy": 0.7457787752151489,
	"step": 2305
	},
	{
	"epoch": 0.42486665440500276,
	"grad_norm": 0.9655527131977069,
	"learning_rate": 3.481629675537108e-05,
	"loss": 0.863,
	"mean_token_accuracy": 0.7453173756599426,
	"step": 2310
	},
	{
	"epoch": 0.4257862791980872,
	"grad_norm": 0.8936296988219236,
	"learning_rate": 3.475155393604104e-05,
	"loss": 0.8856,
	"mean_token_accuracy": 0.7441475629806519,
	"step": 2315
	},
	{
	"epoch": 0.4267059039911716,
	"grad_norm": 0.9149916486904485,
	"learning_rate": 3.468674404647273e-05,
	"loss": 0.8532,
	"mean_token_accuracy": 0.7507219910621643,
	"step": 2320
	},
	{
	"epoch": 0.427625528784256,
	"grad_norm": 0.9750792604803812,
	"learning_rate": 3.462186768609834e-05,
	"loss": 0.863,
	"mean_token_accuracy": 0.7469933509826661,
	"step": 2325
	},
	{
	"epoch": 0.42854515357734047,
	"grad_norm": 0.980901247745682,
	"learning_rate": 3.455692545496483e-05,
	"loss": 0.837,
	"mean_token_accuracy": 0.7545093297958374,
	"step": 2330
	},
	{
	"epoch": 0.42946477837042485,
	"grad_norm": 0.9686839306544004,
	"learning_rate": 3.4491917953728396e-05,
	"loss": 0.8885,
	"mean_token_accuracy": 0.7428396463394165,
	"step": 2335
	},
	{
	"epoch": 0.4303844031635093,
	"grad_norm": 0.9388350160272184,
	"learning_rate": 3.442684578364897e-05,
	"loss": 0.8951,
	"mean_token_accuracy": 0.7408537268638611,
	"step": 2340
	},
	{
	"epoch": 0.4313040279565937,
	"grad_norm": 0.8933385447401438,
	"learning_rate": 3.4361709546584545e-05,
	"loss": 0.8689,
	"mean_token_accuracy": 0.7458449006080627,
	"step": 2345
	},
	{
	"epoch": 0.4322236527496781,
	"grad_norm": 0.9411177313363235,
	"learning_rate": 3.429650984498573e-05,
	"loss": 0.8417,
	"mean_token_accuracy": 0.7528134107589721,
	"step": 2350
	},
	{
	"epoch": 0.43314327754276255,
	"grad_norm": 0.9359109119006161,
	"learning_rate": 3.423124728189009e-05,
	"loss": 0.8737,
	"mean_token_accuracy": 0.7434362411499024,
	"step": 2355
	},
	{
	"epoch": 0.434062902335847,
	"grad_norm": 0.966957214742338,
	"learning_rate": 3.4165922460916635e-05,
	"loss": 0.8946,
	"mean_token_accuracy": 0.7397825956344605,
	"step": 2360
	},
	{
	"epoch": 0.4349825271289314,
	"grad_norm": 0.9950941777576424,
	"learning_rate": 3.410053598626016e-05,
	"loss": 0.8833,
	"mean_token_accuracy": 0.7447291493415833,
	"step": 2365
	},
	{
	"epoch": 0.4359021519220158,
	"grad_norm": 0.963560335329199,
	"learning_rate": 3.403508846268574e-05,
	"loss": 0.8675,
	"mean_token_accuracy": 0.7479366779327392,
	"step": 2370
	},
	{
	"epoch": 0.43682177671510025,
	"grad_norm": 0.9286384422364868,
	"learning_rate": 3.396958049552307e-05,
	"loss": 0.9171,
	"mean_token_accuracy": 0.7304298520088196,
	"step": 2375
	},
	{
	"epoch": 0.43774140150818464,
	"grad_norm": 0.9750119805406471,
	"learning_rate": 3.39040126906609e-05,
	"loss": 0.8858,
	"mean_token_accuracy": 0.742851734161377,
	"step": 2380
	},
	{
	"epoch": 0.4386610263012691,
	"grad_norm": 0.9160809046368507,
	"learning_rate": 3.383838565454144e-05,
	"loss": 0.9062,
	"mean_token_accuracy": 0.7335192441940308,
	"step": 2385
	},
	{
	"epoch": 0.4395806510943535,
	"grad_norm": 0.9668435486381742,
	"learning_rate": 3.37726999941547e-05,
	"loss": 0.9243,
	"mean_token_accuracy": 0.7276196122169495,
	"step": 2390
	},
	{
	"epoch": 0.4405002758874379,
	"grad_norm": 0.9935097247563913,
	"learning_rate": 3.3706956317032954e-05,
	"loss": 0.8678,
	"mean_token_accuracy": 0.7438644409179688,
	"step": 2395
	},
	{
	"epoch": 0.44141990068052234,
	"grad_norm": 0.9939894791042586,
	"learning_rate": 3.364115523124503e-05,
	"loss": 0.8904,
	"mean_token_accuracy": 0.7412869215011597,
	"step": 2400
	},
	{
	"epoch": 0.4423395254736068,
	"grad_norm": 0.9937645932689831,
	"learning_rate": 3.357529734539079e-05,
	"loss": 0.8455,
	"mean_token_accuracy": 0.7517339706420898,
	"step": 2405
	},
	{
	"epoch": 0.4432591502666912,
	"grad_norm": 0.9375114941684974,
	"learning_rate": 3.350938326859539e-05,
	"loss": 0.8468,
	"mean_token_accuracy": 0.7528372883796692,
	"step": 2410
	},
	{
	"epoch": 0.4441787750597756,
	"grad_norm": 0.8973960962242926,
	"learning_rate": 3.3443413610503735e-05,
	"loss": 0.878,
	"mean_token_accuracy": 0.7442919254302979,
	"step": 2415
	},
	{
	"epoch": 0.44509839985286004,
	"grad_norm": 1.0080330285869648,
	"learning_rate": 3.337738898127479e-05,
	"loss": 0.8785,
	"mean_token_accuracy": 0.7428927779197693,
	"step": 2420
	},
	{
	"epoch": 0.4460180246459445,
	"grad_norm": 0.8985281228115014,
	"learning_rate": 3.331130999157597e-05,
	"loss": 0.8644,
	"mean_token_accuracy": 0.7480224132537842,
	"step": 2425
	},
	{
	"epoch": 0.44693764943902886,
	"grad_norm": 0.9291069202904676,
	"learning_rate": 3.3245177252577454e-05,
	"loss": 0.8976,
	"mean_token_accuracy": 0.7383280873298645,
	"step": 2430
	},
	{
	"epoch": 0.4478572742321133,
	"grad_norm": 0.9623008963786942,
	"learning_rate": 3.317899137594656e-05,
	"loss": 0.9593,
	"mean_token_accuracy": 0.7246118664741517,
	"step": 2435
	},
	{
	"epoch": 0.44877689902519774,
	"grad_norm": 0.9234507163948065,
	"learning_rate": 3.311275297384208e-05,
	"loss": 0.8413,
	"mean_token_accuracy": 0.7528854846954346,
	"step": 2440
	},
	{
	"epoch": 0.4496965238182821,
	"grad_norm": 0.979267043456503,
	"learning_rate": 3.3046462658908636e-05,
	"loss": 0.845,
	"mean_token_accuracy": 0.7532721877098083,
	"step": 2445
	},
	{
	"epoch": 0.45061614861136656,
	"grad_norm": 0.9032231134895651,
	"learning_rate": 3.298012104427097e-05,
	"loss": 0.895,
	"mean_token_accuracy": 0.7396630644798279,
	"step": 2450
	},
	{
	"epoch": 0.451535773404451,
	"grad_norm": 0.9383158653652773,
	"learning_rate": 3.291372874352832e-05,
	"loss": 0.8943,
	"mean_token_accuracy": 0.73899405002594,
	"step": 2455
	},
	{
	"epoch": 0.4524553981975354,
	"grad_norm": 0.9664126873169693,
	"learning_rate": 3.284728637074869e-05,
	"loss": 0.869,
	"mean_token_accuracy": 0.746407687664032,
	"step": 2460
	},
	{
	"epoch": 0.4533750229906198,
	"grad_norm": 0.993853088939543,
	"learning_rate": 3.278079454046325e-05,
	"loss": 0.9011,
	"mean_token_accuracy": 0.7388368129730225,
	"step": 2465
	},
	{
	"epoch": 0.45429464778370426,
	"grad_norm": 0.8741206209918251,
	"learning_rate": 3.271425386766058e-05,
	"loss": 0.8388,
	"mean_token_accuracy": 0.7533232569694519,
	"step": 2470
	},
	{
	"epoch": 0.45521427257678865,
	"grad_norm": 0.9447835076472045,
	"learning_rate": 3.2647664967781035e-05,
	"loss": 0.8228,
	"mean_token_accuracy": 0.7583665132522583,
	"step": 2475
	},
	{
	"epoch": 0.4561338973698731,
	"grad_norm": 1.0045001891415821,
	"learning_rate": 3.258102845671097e-05,
	"loss": 0.8934,
	"mean_token_accuracy": 0.7414227366447449,
	"step": 2480
	},
	{
	"epoch": 0.4570535221629575,
	"grad_norm": 0.9475063098055461,
	"learning_rate": 3.251434495077716e-05,
	"loss": 0.9182,
	"mean_token_accuracy": 0.7303388476371765,
	"step": 2485
	},
	{
	"epoch": 0.4579731469560419,
	"grad_norm": 0.9775463234456495,
	"learning_rate": 3.2447615066741004e-05,
	"loss": 0.9361,
	"mean_token_accuracy": 0.7293364763259887,
	"step": 2490
	},
	{
	"epoch": 0.45889277174912635,
	"grad_norm": 0.9174334893241889,
	"learning_rate": 3.238083942179288e-05,
	"loss": 0.8474,
	"mean_token_accuracy": 0.7529029250144958,
	"step": 2495
	},
	{
	"epoch": 0.4598123965422108,
	"grad_norm": 0.9021239390235616,
	"learning_rate": 3.2314018633546375e-05,
	"loss": 0.8314,
	"mean_token_accuracy": 0.7585980296134949,
	"step": 2500
	},
	{
	"epoch": 0.46073202133529517,
	"grad_norm": 0.9231622515184421,
	"learning_rate": 3.224715332003265e-05,
	"loss": 0.8498,
	"mean_token_accuracy": 0.7502579808235168,
	"step": 2505
	},
	{
	"epoch": 0.4616516461283796,
	"grad_norm": 0.9279166556927757,
	"learning_rate": 3.218024409969468e-05,
	"loss": 0.899,
	"mean_token_accuracy": 0.7380064010620118,
	"step": 2510
	},
	{
	"epoch": 0.46257127092146405,
	"grad_norm": 0.9333611856920211,
	"learning_rate": 3.2113291591381516e-05,
	"loss": 0.9113,
	"mean_token_accuracy": 0.7354224920272827,
	"step": 2515
	},
	{
	"epoch": 0.4634908957145485,
	"grad_norm": 0.9585859302538061,
	"learning_rate": 3.204629641434259e-05,
	"loss": 0.912,
	"mean_token_accuracy": 0.7332522869110107,
	"step": 2520
	},
	{
	"epoch": 0.4644105205076329,
	"grad_norm": 1.0072945032594127,
	"learning_rate": 3.197925918822199e-05,
	"loss": 0.8615,
	"mean_token_accuracy": 0.7460902214050293,
	"step": 2525
	},
	{
	"epoch": 0.4653301453007173,
	"grad_norm": 0.9703474311506037,
	"learning_rate": 3.1912180533052716e-05,
	"loss": 0.9391,
	"mean_token_accuracy": 0.7272826433181763,
	"step": 2530
	},
	{
	"epoch": 0.46624977009380175,
	"grad_norm": 0.9701812144923739,
	"learning_rate": 3.184506106925094e-05,
	"loss": 0.8677,
	"mean_token_accuracy": 0.747051191329956,
	"step": 2535
	},
	{
	"epoch": 0.46716939488688614,
	"grad_norm": 0.9672451609696705,
	"learning_rate": 3.177790141761029e-05,
	"loss": 0.8627,
	"mean_token_accuracy": 0.7482078075408936,
	"step": 2540
	},
	{
	"epoch": 0.4680890196799706,
	"grad_norm": 0.9530973638849749,
	"learning_rate": 3.1710702199296085e-05,
	"loss": 0.8492,
	"mean_token_accuracy": 0.7528972029685974,
	"step": 2545
	},
	{
	"epoch": 0.469008644473055,
	"grad_norm": 0.9084239076489461,
	"learning_rate": 3.16434640358396e-05,
	"loss": 0.8653,
	"mean_token_accuracy": 0.746622622013092,
	"step": 2550
	},
	{
	"epoch": 0.4699282692661394,
	"grad_norm": 0.9998420571855022,
	"learning_rate": 3.157618754913233e-05,
	"loss": 0.8975,
	"mean_token_accuracy": 0.738722312450409,
	"step": 2555
	},
	{
	"epoch": 0.47084789405922384,
	"grad_norm": 0.9250250902872688,
	"learning_rate": 3.15088733614202e-05,
	"loss": 0.8551,
	"mean_token_accuracy": 0.750208032131195,
	"step": 2560
	},
	{
	"epoch": 0.4717675188523083,
	"grad_norm": 1.0106796436372896,
	"learning_rate": 3.144152209529786e-05,
	"loss": 0.9079,
	"mean_token_accuracy": 0.7350385189056396,
	"step": 2565
	},
	{
	"epoch": 0.47268714364539266,
	"grad_norm": 0.9619558970415346,
	"learning_rate": 3.137413437370289e-05,
	"loss": 0.91,
	"mean_token_accuracy": 0.7369326472282409,
	"step": 2570
	},
	{
	"epoch": 0.4736067684384771,
	"grad_norm": 1.0109885841238913,
	"learning_rate": 3.130671081991005e-05,
	"loss": 0.9084,
	"mean_token_accuracy": 0.7353306174278259,
	"step": 2575
	},
	{
	"epoch": 0.47452639323156154,
	"grad_norm": 0.9779190292756188,
	"learning_rate": 3.123925205752552e-05,
	"loss": 0.8556,
	"mean_token_accuracy": 0.7515247583389282,
	"step": 2580
	},
	{
	"epoch": 0.4754460180246459,
	"grad_norm": 0.9645840220644,
	"learning_rate": 3.1171758710481096e-05,
	"loss": 0.8755,
	"mean_token_accuracy": 0.7436783194541932,
	"step": 2585
	},
	{
	"epoch": 0.47636564281773036,
	"grad_norm": 1.001058541812525,
	"learning_rate": 3.110423140302852e-05,
	"loss": 0.9096,
	"mean_token_accuracy": 0.7341774582862854,
	"step": 2590
	},
	{
	"epoch": 0.4772852676108148,
	"grad_norm": 0.8974468409856537,
	"learning_rate": 3.103667075973356e-05,
	"loss": 0.9083,
	"mean_token_accuracy": 0.7359666705131531,
	"step": 2595
	},
	{
	"epoch": 0.4782048924038992,
	"grad_norm": 1.0374371477545201,
	"learning_rate": 3.096907740547036e-05,
	"loss": 0.9111,
	"mean_token_accuracy": 0.7324892163276673,
	"step": 2600
	},
	{
	"epoch": 0.4791245171969836,
	"grad_norm": 0.9405864234939062,
	"learning_rate": 3.0901451965415595e-05,
	"loss": 0.812,
	"mean_token_accuracy": 0.7602822542190552,
	"step": 2605
	},
	{
	"epoch": 0.48004414199006806,
	"grad_norm": 0.9654353230874346,
	"learning_rate": 3.08337950650427e-05,
	"loss": 0.8978,
	"mean_token_accuracy": 0.7364333510398865,
	"step": 2610
	},
	{
	"epoch": 0.48096376678315245,
	"grad_norm": 1.0011041381512356,
	"learning_rate": 3.076610733011609e-05,
	"loss": 0.9049,
	"mean_token_accuracy": 0.7363562822341919,
	"step": 2615
	},
	{
	"epoch": 0.4818833915762369,
	"grad_norm": 0.9686831090055986,
	"learning_rate": 3.069838938668538e-05,
	"loss": 0.8898,
	"mean_token_accuracy": 0.7398189902305603,
	"step": 2620
	},
	{
	"epoch": 0.4828030163693213,
	"grad_norm": 0.9318085356157495,
	"learning_rate": 3.063064186107957e-05,
	"loss": 0.8791,
	"mean_token_accuracy": 0.7449330806732177,
	"step": 2625
	},
	{
	"epoch": 0.48372264116240576,
	"grad_norm": 0.8934228857530689,
	"learning_rate": 3.056286537990129e-05,
	"loss": 0.8632,
	"mean_token_accuracy": 0.7459052681922913,
	"step": 2630
	},
	{
	"epoch": 0.48464226595549015,
	"grad_norm": 0.9725972260652284,
	"learning_rate": 3.049506057002098e-05,
	"loss": 0.8541,
	"mean_token_accuracy": 0.7478031516075134,
	"step": 2635
	},
	{
	"epoch": 0.4855618907485746,
	"grad_norm": 0.9452628770649284,
	"learning_rate": 3.042722805857106e-05,
	"loss": 0.8555,
	"mean_token_accuracy": 0.746888279914856,
	"step": 2640
	},
	{
	"epoch": 0.486481515541659,
	"grad_norm": 0.8806175124503305,
	"learning_rate": 3.0359368472940208e-05,
	"loss": 0.9035,
	"mean_token_accuracy": 0.7369076132774353,
	"step": 2645
	},
	{
	"epoch": 0.4874011403347434,
	"grad_norm": 0.8988265278259941,
	"learning_rate": 3.029148244076749e-05,
	"loss": 0.8643,
	"mean_token_accuracy": 0.7449605345726014,
	"step": 2650
	},
	{
	"epoch": 0.48832076512782785,
	"grad_norm": 0.9176861265880045,
	"learning_rate": 3.022357058993657e-05,
	"loss": 0.8643,
	"mean_token_accuracy": 0.7462789297103882,
	"step": 2655
	},
	{
	"epoch": 0.4892403899209123,
	"grad_norm": 0.9232400004776917,
	"learning_rate": 3.0155633548569955e-05,
	"loss": 0.903,
	"mean_token_accuracy": 0.7353234887123108,
	"step": 2660
	},
	{
	"epoch": 0.4901600147139967,
	"grad_norm": 0.9476269194909095,
	"learning_rate": 3.008767194502309e-05,
	"loss": 0.9035,
	"mean_token_accuracy": 0.7386479258537293,
	"step": 2665
	},
	{
	"epoch": 0.4910796395070811,
	"grad_norm": 0.931067111141978,
	"learning_rate": 3.0019686407878617e-05,
	"loss": 0.8883,
	"mean_token_accuracy": 0.7414939045906067,
	"step": 2670
	},
	{
	"epoch": 0.49199926430016555,
	"grad_norm": 0.9153445295986272,
	"learning_rate": 2.995167756594055e-05,
	"loss": 0.8625,
	"mean_token_accuracy": 0.7501867294311524,
	"step": 2675
	},
	{
	"epoch": 0.49291888909324993,
	"grad_norm": 0.9210143810764434,
	"learning_rate": 2.988364604822845e-05,
	"loss": 0.8972,
	"mean_token_accuracy": 0.7386625647544861,
	"step": 2680
	},
	{
	"epoch": 0.4938385138863344,
	"grad_norm": 0.9925053868796728,
	"learning_rate": 2.9815592483971584e-05,
	"loss": 0.8458,
	"mean_token_accuracy": 0.751643443107605,
	"step": 2685
	},
	{
	"epoch": 0.4947581386794188,
	"grad_norm": 1.006336852347141,
	"learning_rate": 2.9747517502603167e-05,
	"loss": 0.8721,
	"mean_token_accuracy": 0.7480525851249695,
	"step": 2690
	},
	{
	"epoch": 0.4956777634725032,
	"grad_norm": 0.9701598502406181,
	"learning_rate": 2.967942173375447e-05,
	"loss": 0.8818,
	"mean_token_accuracy": 0.740173089504242,
	"step": 2695
	},
	{
	"epoch": 0.49659738826558764,
	"grad_norm": 0.9431128523024928,
	"learning_rate": 2.9611305807249052e-05,
	"loss": 0.8344,
	"mean_token_accuracy": 0.7551051139831543,
	"step": 2700
	},
	{
	"epoch": 0.4975170130586721,
	"grad_norm": 0.9346714282194056,
	"learning_rate": 2.95431703530969e-05,
	"loss": 0.835,
	"mean_token_accuracy": 0.7544684171676636,
	"step": 2705
	},
	{
	"epoch": 0.49843663785175646,
	"grad_norm": 0.9358393411052466,
	"learning_rate": 2.9475016001488608e-05,
	"loss": 0.8906,
	"mean_token_accuracy": 0.7427068829536438,
	"step": 2710
	},
	{
	"epoch": 0.4993562626448409,
	"grad_norm": 0.8867163340537708,
	"learning_rate": 2.9406843382789583e-05,
	"loss": 0.8719,
	"mean_token_accuracy": 0.745942211151123,
	"step": 2715
	},
	{
	"epoch": 0.5002758874379253,
	"grad_norm": 0.9212664551640851,
	"learning_rate": 2.9338653127534148e-05,
	"loss": 0.8562,
	"mean_token_accuracy": 0.7497703909873963,
	"step": 2720
	},
	{
	"epoch": 0.5011955122310098,
	"grad_norm": 0.9432905808331339,
	"learning_rate": 2.9270445866419766e-05,
	"loss": 0.8741,
	"mean_token_accuracy": 0.7432116866111755,
	"step": 2725
	},
	{
	"epoch": 0.5021151370240942,
	"grad_norm": 0.9512906709412812,
	"learning_rate": 2.92022222303012e-05,
	"loss": 0.8818,
	"mean_token_accuracy": 0.7435823440551758,
	"step": 2730
	},
	{
	"epoch": 0.5030347618171785,
	"grad_norm": 0.9468765725989278,
	"learning_rate": 2.9133982850184645e-05,
	"loss": 0.8627,
	"mean_token_accuracy": 0.748947024345398,
	"step": 2735
	},
	{
	"epoch": 0.503954386610263,
	"grad_norm": 1.0112504748902342,
	"learning_rate": 2.9065728357221927e-05,
	"loss": 0.8508,
	"mean_token_accuracy": 0.7537087440490723,
	"step": 2740
	},
	{
	"epoch": 0.5048740114033474,
	"grad_norm": 0.9649262010355393,
	"learning_rate": 2.899745938270465e-05,
	"loss": 0.8819,
	"mean_token_accuracy": 0.7414289236068725,
	"step": 2745
	},
	{
	"epoch": 0.5057936361964318,
	"grad_norm": 0.9373961423715033,
	"learning_rate": 2.8929176558058352e-05,
	"loss": 0.8876,
	"mean_token_accuracy": 0.741254198551178,
	"step": 2750
	},
	{
	"epoch": 0.5067132609895163,
	"grad_norm": 0.9616567239953456,
	"learning_rate": 2.8860880514836687e-05,
	"loss": 0.8826,
	"mean_token_accuracy": 0.7436172485351562,
	"step": 2755
	},
	{
	"epoch": 0.5076328857826007,
	"grad_norm": 0.9367792403626876,
	"learning_rate": 2.8792571884715546e-05,
	"loss": 0.8482,
	"mean_token_accuracy": 0.7529447674751282,
	"step": 2760
	},
	{
	"epoch": 0.5085525105756851,
	"grad_norm": 0.9104599971108884,
	"learning_rate": 2.8724251299487263e-05,
	"loss": 0.8753,
	"mean_token_accuracy": 0.7427584528923035,
	"step": 2765
	},
	{
	"epoch": 0.5094721353687696,
	"grad_norm": 1.0105096627504964,
	"learning_rate": 2.8655919391054732e-05,
	"loss": 0.8641,
	"mean_token_accuracy": 0.7479874610900878,
	"step": 2770
	},
	{
	"epoch": 0.510391760161854,
	"grad_norm": 0.9279979512504474,
	"learning_rate": 2.8587576791425568e-05,
	"loss": 0.8317,
	"mean_token_accuracy": 0.7535252571105957,
	"step": 2775
	},
	{
	"epoch": 0.5113113849549383,
	"grad_norm": 0.9297465828114925,
	"learning_rate": 2.8519224132706297e-05,
	"loss": 0.8774,
	"mean_token_accuracy": 0.7402622103691101,
	"step": 2780
	},
	{
	"epoch": 0.5122310097480228,
	"grad_norm": 0.9452271860575534,
	"learning_rate": 2.845086204709645e-05,
	"loss": 0.8771,
	"mean_token_accuracy": 0.744519031047821,
	"step": 2785
	},
	{
	"epoch": 0.5131506345411072,
	"grad_norm": 0.9830981203343458,
	"learning_rate": 2.838249116688277e-05,
	"loss": 0.9289,
	"mean_token_accuracy": 0.7298115253448486,
	"step": 2790
	},
	{
	"epoch": 0.5140702593341917,
	"grad_norm": 1.041430018260559,
	"learning_rate": 2.8314112124433334e-05,
	"loss": 0.9045,
	"mean_token_accuracy": 0.7383831977844239,
	"step": 2795
	},
	{
	"epoch": 0.5149898841272761,
	"grad_norm": 0.9620402098071436,
	"learning_rate": 2.8245725552191703e-05,
	"loss": 0.8634,
	"mean_token_accuracy": 0.746962821483612,
	"step": 2800
	},
	{
	"epoch": 0.5159095089203605,
	"grad_norm": 0.9015921123510985,
	"learning_rate": 2.8177332082671117e-05,
	"loss": 0.853,
	"mean_token_accuracy": 0.7487654685974121,
	"step": 2805
	},
	{
	"epoch": 0.516829133713445,
	"grad_norm": 0.9007228615494444,
	"learning_rate": 2.8108932348448553e-05,
	"loss": 0.8428,
	"mean_token_accuracy": 0.7535581469535828,
	"step": 2810
	},
	{
	"epoch": 0.5177487585065293,
	"grad_norm": 0.9827577309973088,
	"learning_rate": 2.8040526982158993e-05,
	"loss": 0.8789,
	"mean_token_accuracy": 0.7432992815971374,
	"step": 2815
	},
	{
	"epoch": 0.5186683832996137,
	"grad_norm": 0.9633925171762643,
	"learning_rate": 2.7972116616489464e-05,
	"loss": 0.8397,
	"mean_token_accuracy": 0.752094304561615,
	"step": 2820
	},
	{
	"epoch": 0.5195880080926982,
	"grad_norm": 0.9281148435495344,
	"learning_rate": 2.790370188417324e-05,
	"loss": 0.8596,
	"mean_token_accuracy": 0.7485750317573547,
	"step": 2825
	},
	{
	"epoch": 0.5205076328857826,
	"grad_norm": 1.0029136932204825,
	"learning_rate": 2.7835283417984005e-05,
	"loss": 0.8718,
	"mean_token_accuracy": 0.7433583855628967,
	"step": 2830
	},
	{
	"epoch": 0.521427257678867,
	"grad_norm": 0.9621263162970809,
	"learning_rate": 2.7766861850729958e-05,
	"loss": 0.8955,
	"mean_token_accuracy": 0.7394774556159973,
	"step": 2835
	},
	{
	"epoch": 0.5223468824719515,
	"grad_norm": 0.9670299071015823,
	"learning_rate": 2.7698437815247995e-05,
	"loss": 0.8529,
	"mean_token_accuracy": 0.7500015497207642,
	"step": 2840
	},
	{
	"epoch": 0.5232665072650359,
	"grad_norm": 0.9398184622397476,
	"learning_rate": 2.763001194439782e-05,
	"loss": 0.8447,
	"mean_token_accuracy": 0.7504964828491211,
	"step": 2845
	},
	{
	"epoch": 0.5241861320581203,
	"grad_norm": 0.8869891271688453,
	"learning_rate": 2.756158487105613e-05,
	"loss": 0.8404,
	"mean_token_accuracy": 0.7549336075782775,
	"step": 2850
	},
	{
	"epoch": 0.5251057568512048,
	"grad_norm": 0.9965820824716972,
	"learning_rate": 2.749315722811073e-05,
	"loss": 0.9179,
	"mean_token_accuracy": 0.7317790746688843,
	"step": 2855
	},
	{
	"epoch": 0.5260253816442891,
	"grad_norm": 0.9304946857092635,
	"learning_rate": 2.7424729648454717e-05,
	"loss": 0.8874,
	"mean_token_accuracy": 0.7398088812828064,
	"step": 2860
	},
	{
	"epoch": 0.5269450064373735,
	"grad_norm": 0.9880649590404676,
	"learning_rate": 2.735630276498058e-05,
	"loss": 0.8738,
	"mean_token_accuracy": 0.7432942867279053,
	"step": 2865
	},
	{
	"epoch": 0.527864631230458,
	"grad_norm": 0.9350070938993663,
	"learning_rate": 2.728787721057437e-05,
	"loss": 0.8758,
	"mean_token_accuracy": 0.7431787729263306,
	"step": 2870
	},
	{
	"epoch": 0.5287842560235424,
	"grad_norm": 0.8997664568286488,
	"learning_rate": 2.7219453618109853e-05,
	"loss": 0.842,
	"mean_token_accuracy": 0.7523634552955627,
	"step": 2875
	},
	{
	"epoch": 0.5297038808166268,
	"grad_norm": 0.9519585493296138,
	"learning_rate": 2.715103262044265e-05,
	"loss": 0.8744,
	"mean_token_accuracy": 0.7417232871055603,
	"step": 2880
	},
	{
	"epoch": 0.5306235056097113,
	"grad_norm": 0.8836119550117293,
	"learning_rate": 2.708261485040439e-05,
	"loss": 0.856,
	"mean_token_accuracy": 0.7496297836303711,
	"step": 2885
	},
	{
	"epoch": 0.5315431304027957,
	"grad_norm": 0.9589883589041829,
	"learning_rate": 2.7014200940796824e-05,
	"loss": 0.8418,
	"mean_token_accuracy": 0.7520057439804078,
	"step": 2890
	},
	{
	"epoch": 0.53246275519588,
	"grad_norm": 0.9563207815434712,
	"learning_rate": 2.694579152438601e-05,
	"loss": 0.8936,
	"mean_token_accuracy": 0.7398610949516297,
	"step": 2895
	},
	{
	"epoch": 0.5333823799889645,
	"grad_norm": 0.9233468769288075,
	"learning_rate": 2.6877387233896472e-05,
	"loss": 0.8634,
	"mean_token_accuracy": 0.745741093158722,
	"step": 2900
	},
	{
	"epoch": 0.5343020047820489,
	"grad_norm": 0.9541286928919233,
	"learning_rate": 2.6808988702005285e-05,
	"loss": 0.868,
	"mean_token_accuracy": 0.7439489006996155,
	"step": 2905
	},
	{
	"epoch": 0.5352216295751333,
	"grad_norm": 0.9922987370495847,
	"learning_rate": 2.6740596561336275e-05,
	"loss": 0.8482,
	"mean_token_accuracy": 0.7504428863525391,
	"step": 2910
	},
	{
	"epoch": 0.5361412543682178,
	"grad_norm": 0.9722831543231532,
	"learning_rate": 2.667221144445418e-05,
	"loss": 0.8177,
	"mean_token_accuracy": 0.7608316302299499,
	"step": 2915
	},
	{
	"epoch": 0.5370608791613022,
	"grad_norm": 1.0275441684092577,
	"learning_rate": 2.6603833983858738e-05,
	"loss": 0.9398,
	"mean_token_accuracy": 0.7276052117347718,
	"step": 2920
	},
	{
	"epoch": 0.5379805039543866,
	"grad_norm": 1.0068511170391965,
	"learning_rate": 2.6535464811978894e-05,
	"loss": 0.8424,
	"mean_token_accuracy": 0.7531503081321717,
	"step": 2925
	},
	{
	"epoch": 0.5389001287474711,
	"grad_norm": 0.9554905959505885,
	"learning_rate": 2.6467104561166927e-05,
	"loss": 0.8671,
	"mean_token_accuracy": 0.7456499934196472,
	"step": 2930
	},
	{
	"epoch": 0.5398197535405554,
	"grad_norm": 0.9318421761107843,
	"learning_rate": 2.639875386369261e-05,
	"loss": 0.8674,
	"mean_token_accuracy": 0.7474814653396606,
	"step": 2935
	},
	{
	"epoch": 0.5407393783336398,
	"grad_norm": 0.9797586514540253,
	"learning_rate": 2.6330413351737336e-05,
	"loss": 0.893,
	"mean_token_accuracy": 0.7371798276901245,
	"step": 2940
	},
	{
	"epoch": 0.5416590031267243,
	"grad_norm": 0.9627863342351398,
	"learning_rate": 2.626208365738831e-05,
	"loss": 0.8662,
	"mean_token_accuracy": 0.7450501322746277,
	"step": 2945
	},
	{
	"epoch": 0.5425786279198087,
	"grad_norm": 0.9378560834404903,
	"learning_rate": 2.6193765412632677e-05,
	"loss": 0.8427,
	"mean_token_accuracy": 0.750009298324585,
	"step": 2950
	},
	{
	"epoch": 0.5434982527128931,
	"grad_norm": 0.9349477883280783,
	"learning_rate": 2.6125459249351697e-05,
	"loss": 0.8908,
	"mean_token_accuracy": 0.7386453747749329,
	"step": 2955
	},
	{
	"epoch": 0.5444178775059776,
	"grad_norm": 0.9298587181804499,
	"learning_rate": 2.6057165799314854e-05,
	"loss": 0.855,
	"mean_token_accuracy": 0.7491998553276062,
	"step": 2960
	},
	{
	"epoch": 0.545337502299062,
	"grad_norm": 0.9026144571758381,
	"learning_rate": 2.5988885694174085e-05,
	"loss": 0.8786,
	"mean_token_accuracy": 0.7437506198883057,
	"step": 2965
	},
	{
	"epoch": 0.5462571270921464,
	"grad_norm": 0.9408107824152944,
	"learning_rate": 2.5920619565457877e-05,
	"loss": 0.8758,
	"mean_token_accuracy": 0.7427832961082459,
	"step": 2970
	},
	{
	"epoch": 0.5471767518852308,
	"grad_norm": 0.9195819021761746,
	"learning_rate": 2.5852368044565452e-05,
	"loss": 0.9277,
	"mean_token_accuracy": 0.7323094010353088,
	"step": 2975
	},
	{
	"epoch": 0.5480963766783152,
	"grad_norm": 0.9586681296133412,
	"learning_rate": 2.5784131762760922e-05,
	"loss": 0.8334,
	"mean_token_accuracy": 0.7566598057746887,
	"step": 2980
	},
	{
	"epoch": 0.5490160014713996,
	"grad_norm": 0.9092467816987784,
	"learning_rate": 2.5715911351167465e-05,
	"loss": 0.9014,
	"mean_token_accuracy": 0.7390154361724853,
	"step": 2985
	},
	{
	"epoch": 0.5499356262644841,
	"grad_norm": 0.966449128998816,
	"learning_rate": 2.564770744076144e-05,
	"loss": 0.8959,
	"mean_token_accuracy": 0.7373208284378052,
	"step": 2990
	},
	{
	"epoch": 0.5508552510575685,
	"grad_norm": 1.0269176653506933,
	"learning_rate": 2.5579520662366618e-05,
	"loss": 0.8626,
	"mean_token_accuracy": 0.7471036791801453,
	"step": 2995
	},
	{
	"epoch": 0.5517748758506529,
	"grad_norm": 0.9705454615801481,
	"learning_rate": 2.5511351646648324e-05,
	"loss": 0.8761,
	"mean_token_accuracy": 0.7408113241195678,
	"step": 3000
	},
	{
	"epoch": 0.5526945006437374,
	"grad_norm": 0.9683019669667483,
	"learning_rate": 2.5443201024107537e-05,
	"loss": 0.8974,
	"mean_token_accuracy": 0.7345914959907531,
	"step": 3005
	},
	{
	"epoch": 0.5536141254368218,
	"grad_norm": 0.9328296833493311,
	"learning_rate": 2.5375069425075176e-05,
	"loss": 0.8629,
	"mean_token_accuracy": 0.7468894720077515,
	"step": 3010
	},
	{
	"epoch": 0.5545337502299063,
	"grad_norm": 0.9565417579373001,
	"learning_rate": 2.5306957479706196e-05,
	"loss": 0.8914,
	"mean_token_accuracy": 0.7373947501182556,
	"step": 3015
	},
	{
	"epoch": 0.5554533750229906,
	"grad_norm": 0.9439811181197841,
	"learning_rate": 2.5238865817973735e-05,
	"loss": 0.8264,
	"mean_token_accuracy": 0.7566876411437988,
	"step": 3020
	},
	{
	"epoch": 0.556372999816075,
	"grad_norm": 0.8918377804941932,
	"learning_rate": 2.5170795069663374e-05,
	"loss": 0.8384,
	"mean_token_accuracy": 0.7532538652420044,
	"step": 3025
	},
	{
	"epoch": 0.5572926246091595,
	"grad_norm": 0.9531681758263391,
	"learning_rate": 2.510274586436725e-05,
	"loss": 0.9137,
	"mean_token_accuracy": 0.7336269617080688,
	"step": 3030
	},
	{
	"epoch": 0.5582122494022439,
	"grad_norm": 0.9547809224031603,
	"learning_rate": 2.5034718831478236e-05,
	"loss": 0.8121,
	"mean_token_accuracy": 0.7607084512710571,
	"step": 3035
	},
	{
	"epoch": 0.5591318741953283,
	"grad_norm": 0.9101416039188879,
	"learning_rate": 2.496671460018414e-05,
	"loss": 0.8374,
	"mean_token_accuracy": 0.7512237310409546,
	"step": 3040
	},
	{
	"epoch": 0.5600514989884128,
	"grad_norm": 0.9591588974138807,
	"learning_rate": 2.4898733799461866e-05,
	"loss": 0.8691,
	"mean_token_accuracy": 0.7475574612617493,
	"step": 3045
	},
	{
	"epoch": 0.5609711237814972,
	"grad_norm": 0.9481182124754315,
	"learning_rate": 2.4830777058071623e-05,
	"loss": 0.8541,
	"mean_token_accuracy": 0.7470650672912598,
	"step": 3050
	},
	{
	"epoch": 0.5618907485745815,
	"grad_norm": 0.8991567391844545,
	"learning_rate": 2.4762845004551077e-05,
	"loss": 0.834,
	"mean_token_accuracy": 0.7513617157936097,
	"step": 3055
	},
	{
	"epoch": 0.562810373367666,
	"grad_norm": 0.8993594505060807,
	"learning_rate": 2.4694938267209567e-05,
	"loss": 0.8302,
	"mean_token_accuracy": 0.7539983510971069,
	"step": 3060
	},
	{
	"epoch": 0.5637299981607504,
	"grad_norm": 0.9212463554308379,
	"learning_rate": 2.4627057474122273e-05,
	"loss": 0.8598,
	"mean_token_accuracy": 0.747953188419342,
	"step": 3065
	},
	{
	"epoch": 0.5646496229538348,
	"grad_norm": 0.9155845020709076,
	"learning_rate": 2.4559203253124407e-05,
	"loss": 0.8728,
	"mean_token_accuracy": 0.7440886616706848,
	"step": 3070
	},
	{
	"epoch": 0.5655692477469193,
	"grad_norm": 0.9376543570110895,
	"learning_rate": 2.4491376231805428e-05,
	"loss": 0.8529,
	"mean_token_accuracy": 0.7518376111984253,
	"step": 3075
	},
	{
	"epoch": 0.5664888725400037,
	"grad_norm": 0.9720221730313491,
	"learning_rate": 2.442357703750322e-05,
	"loss": 0.8423,
	"mean_token_accuracy": 0.7525236487388611,
	"step": 3080
	},
	{
	"epoch": 0.5674084973330881,
	"grad_norm": 0.9013738631587733,
	"learning_rate": 2.4355806297298296e-05,
	"loss": 0.8422,
	"mean_token_accuracy": 0.7528858304023742,
	"step": 3085
	},
	{
	"epoch": 0.5683281221261726,
	"grad_norm": 0.9524358228393591,
	"learning_rate": 2.4288064638007974e-05,
	"loss": 0.8672,
	"mean_token_accuracy": 0.7468002319335938,
	"step": 3090
	},
	{
	"epoch": 0.569247746919257,
	"grad_norm": 0.9505409858129935,
	"learning_rate": 2.4220352686180613e-05,
	"loss": 0.8416,
	"mean_token_accuracy": 0.7486450433731079,
	"step": 3095
	},
	{
	"epoch": 0.5701673717123413,
	"grad_norm": 0.9615751645550065,
	"learning_rate": 2.415267106808983e-05,
	"loss": 0.803,
	"mean_token_accuracy": 0.7603586912155151,
	"step": 3100
	},
	{
	"epoch": 0.5710869965054258,
	"grad_norm": 0.9458073029155306,
	"learning_rate": 2.4085020409728633e-05,
	"loss": 0.8614,
	"mean_token_accuracy": 0.7483598232269287,
	"step": 3105
	},
	{
	"epoch": 0.5720066212985102,
	"grad_norm": 0.959427274017189,
	"learning_rate": 2.4017401336803713e-05,
	"loss": 0.8795,
	"mean_token_accuracy": 0.7383235573768616,
	"step": 3110
	},
	{
	"epoch": 0.5729262460915946,
	"grad_norm": 0.9688058239251538,
	"learning_rate": 2.394981447472963e-05,
	"loss": 0.8854,
	"mean_token_accuracy": 0.7413538813591003,
	"step": 3115
	},
	{
	"epoch": 0.5738458708846791,
	"grad_norm": 0.9543674760330169,
	"learning_rate": 2.3882260448623002e-05,
	"loss": 0.8924,
	"mean_token_accuracy": 0.739243483543396,
	"step": 3120
	},
	{
	"epoch": 0.5747654956777635,
	"grad_norm": 0.9565581088949338,
	"learning_rate": 2.381473988329675e-05,
	"loss": 0.8878,
	"mean_token_accuracy": 0.737128746509552,
	"step": 3125
	},
	{
	"epoch": 0.5756851204708479,
	"grad_norm": 0.9446263148140598,
	"learning_rate": 2.374725340325433e-05,
	"loss": 0.8771,
	"mean_token_accuracy": 0.7424870610237122,
	"step": 3130
	},
	{
	"epoch": 0.5766047452639324,
	"grad_norm": 0.9235345865848048,
	"learning_rate": 2.3679801632683927e-05,
	"loss": 0.8791,
	"mean_token_accuracy": 0.7413055062294006,
	"step": 3135
	},
	{
	"epoch": 0.5775243700570167,
	"grad_norm": 0.931358306977097,
	"learning_rate": 2.3612385195452687e-05,
	"loss": 0.8864,
	"mean_token_accuracy": 0.7415070414543152,
	"step": 3140
	},
	{
	"epoch": 0.5784439948501011,
	"grad_norm": 0.9366462545353926,
	"learning_rate": 2.3545004715100966e-05,
	"loss": 0.8791,
	"mean_token_accuracy": 0.7428970575332642,
	"step": 3145
	},
	{
	"epoch": 0.5793636196431856,
	"grad_norm": 0.9312216076414869,
	"learning_rate": 2.3477660814836562e-05,
	"loss": 0.8318,
	"mean_token_accuracy": 0.7540540814399719,
	"step": 3150
	},
	{
	"epoch": 0.58028324443627,
	"grad_norm": 0.9058432741408705,
	"learning_rate": 2.3410354117528904e-05,
	"loss": 0.9128,
	"mean_token_accuracy": 0.7328131318092346,
	"step": 3155
	},
	{
	"epoch": 0.5812028692293544,
	"grad_norm": 0.92693757568253,
	"learning_rate": 2.3343085245703373e-05,
	"loss": 0.8356,
	"mean_token_accuracy": 0.754761004447937,
	"step": 3160
	},
	{
	"epoch": 0.5821224940224389,
	"grad_norm": 0.9685552745916727,
	"learning_rate": 2.3275854821535476e-05,
	"loss": 0.8696,
	"mean_token_accuracy": 0.7423434615135193,
	"step": 3165
	},
	{
	"epoch": 0.5830421188155233,
	"grad_norm": 0.9530016316914325,
	"learning_rate": 2.3208663466845108e-05,
	"loss": 0.8239,
	"mean_token_accuracy": 0.7581414461135865,
	"step": 3170
	},
	{
	"epoch": 0.5839617436086076,
	"grad_norm": 0.9912981010776241,
	"learning_rate": 2.3141511803090815e-05,
	"loss": 0.8784,
	"mean_token_accuracy": 0.743216586112976,
	"step": 3175
	},
	{
	"epoch": 0.5848813684016921,
	"grad_norm": 0.8897494823501038,
	"learning_rate": 2.3074400451364048e-05,
	"loss": 0.8771,
	"mean_token_accuracy": 0.7422731041908264,
	"step": 3180
	},
	{
	"epoch": 0.5858009931947765,
	"grad_norm": 0.9087254524604537,
	"learning_rate": 2.300733003238339e-05,
	"loss": 0.8249,
	"mean_token_accuracy": 0.75495365858078,
	"step": 3185
	},
	{
	"epoch": 0.5867206179878609,
	"grad_norm": 0.9615326948623956,
	"learning_rate": 2.2940301166488846e-05,
	"loss": 0.7821,
	"mean_token_accuracy": 0.7687617659568786,
	"step": 3190
	},
	{
	"epoch": 0.5876402427809454,
	"grad_norm": 0.9239773147706558,
	"learning_rate": 2.28733144736361e-05,
	"loss": 0.8034,
	"mean_token_accuracy": 0.7630661010742188,
	"step": 3195
	},
	{
	"epoch": 0.5885598675740298,
	"grad_norm": 0.9271354944208791,
	"learning_rate": 2.2806370573390745e-05,
	"loss": 0.8377,
	"mean_token_accuracy": 0.7517584562301636,
	"step": 3200
	},
	{
	"epoch": 0.5894794923671142,
	"grad_norm": 0.9307261567222711,
	"learning_rate": 2.2739470084922608e-05,
	"loss": 0.9145,
	"mean_token_accuracy": 0.7307730317115784,
	"step": 3205
	},
	{
	"epoch": 0.5903991171601987,
	"grad_norm": 0.8708186634436479,
	"learning_rate": 2.2672613626999994e-05,
	"loss": 0.8495,
	"mean_token_accuracy": 0.7486128211021423,
	"step": 3210
	},
	{
	"epoch": 0.591318741953283,
	"grad_norm": 0.9473141853732495,
	"learning_rate": 2.2605801817983958e-05,
	"loss": 0.8341,
	"mean_token_accuracy": 0.7518749475479126,
	"step": 3215
	},
	{
	"epoch": 0.5922383667463674,
	"grad_norm": 0.9382593885727152,
	"learning_rate": 2.253903527582259e-05,
	"loss": 0.8447,
	"mean_token_accuracy": 0.7506359577178955,
	"step": 3220
	},
	{
	"epoch": 0.5931579915394519,
	"grad_norm": 0.9696123819996886,
	"learning_rate": 2.247231461804532e-05,
	"loss": 0.8266,
	"mean_token_accuracy": 0.7562480688095092,
	"step": 3225
	},
	{
	"epoch": 0.5940776163325363,
	"grad_norm": 0.8949351423802622,
	"learning_rate": 2.2405640461757176e-05,
	"loss": 0.814,
	"mean_token_accuracy": 0.7592174887657166,
	"step": 3230
	},
	{
	"epoch": 0.5949972411256208,
	"grad_norm": 0.9615311548799811,
	"learning_rate": 2.2339013423633083e-05,
	"loss": 0.8503,
	"mean_token_accuracy": 0.7499252796173096,
	"step": 3235
	},
	{
	"epoch": 0.5959168659187052,
	"grad_norm": 0.9086052926810453,
	"learning_rate": 2.2272434119912184e-05,
	"loss": 0.8754,
	"mean_token_accuracy": 0.7434251546859741,
	"step": 3240
	},
	{
	"epoch": 0.5968364907117896,
	"grad_norm": 0.9221742878259598,
	"learning_rate": 2.2205903166392113e-05,
	"loss": 0.8477,
	"mean_token_accuracy": 0.7485897660255432,
	"step": 3245
	},
	{
	"epoch": 0.5977561155048741,
	"grad_norm": 0.967041034869552,
	"learning_rate": 2.2139421178423307e-05,
	"loss": 0.8225,
	"mean_token_accuracy": 0.7570245742797852,
	"step": 3250
	},
	{
	"epoch": 0.5986757402979584,
	"grad_norm": 0.981067205830958,
	"learning_rate": 2.207298877090333e-05,
	"loss": 0.8701,
	"mean_token_accuracy": 0.7440281748771668,
	"step": 3255
	},
	{
	"epoch": 0.5995953650910428,
	"grad_norm": 0.989973298607582,
	"learning_rate": 2.2006606558271142e-05,
	"loss": 0.8713,
	"mean_token_accuracy": 0.7413482785224914,
	"step": 3260
	},
	{
	"epoch": 0.6005149898841273,
	"grad_norm": 0.8672144464089592,
	"learning_rate": 2.1940275154501482e-05,
	"loss": 0.87,
	"mean_token_accuracy": 0.743138313293457,
	"step": 3265
	},
	{
	"epoch": 0.6014346146772117,
	"grad_norm": 0.9653292378844739,
	"learning_rate": 2.187399517309914e-05,
	"loss": 0.8575,
	"mean_token_accuracy": 0.7464121103286743,
	"step": 3270
	},
	{
	"epoch": 0.6023542394702961,
	"grad_norm": 0.9239524199502155,
	"learning_rate": 2.1807767227093268e-05,
	"loss": 0.8236,
	"mean_token_accuracy": 0.7573307991027832,
	"step": 3275
	},
	{
	"epoch": 0.6032738642633806,
	"grad_norm": 0.9806975126747703,
	"learning_rate": 2.1741591929031795e-05,
	"loss": 0.878,
	"mean_token_accuracy": 0.7407856106758117,
	"step": 3280
	},
	{
	"epoch": 0.604193489056465,
	"grad_norm": 0.9640808408127749,
	"learning_rate": 2.167546989097566e-05,
	"loss": 0.8638,
	"mean_token_accuracy": 0.7459958910942077,
	"step": 3285
	},
	{
	"epoch": 0.6051131138495494,
	"grad_norm": 0.9656473527433518,
	"learning_rate": 2.16094017244932e-05,
	"loss": 0.8783,
	"mean_token_accuracy": 0.7419638872146607,
	"step": 3290
	},
	{
	"epoch": 0.6060327386426339,
	"grad_norm": 0.9930014003610543,
	"learning_rate": 2.154338804065451e-05,
	"loss": 0.8615,
	"mean_token_accuracy": 0.7456332087516785,
	"step": 3295
	},
	{
	"epoch": 0.6069523634357182,
	"grad_norm": 0.9330196848152268,
	"learning_rate": 2.1477429450025767e-05,
	"loss": 0.8352,
	"mean_token_accuracy": 0.7517044901847839,
	"step": 3300
	},
	{
	"epoch": 0.6078719882288026,
	"grad_norm": 0.8777553334567131,
	"learning_rate": 2.1411526562663554e-05,
	"loss": 0.8364,
	"mean_token_accuracy": 0.7501665949821472,
	"step": 3305
	},
	{
	"epoch": 0.6087916130218871,
	"grad_norm": 0.9315142599796349,
	"learning_rate": 2.1345679988109284e-05,
	"loss": 0.8378,
	"mean_token_accuracy": 0.7534802198410034,
	"step": 3310
	},
	{
	"epoch": 0.6097112378149715,
	"grad_norm": 0.9385962221597601,
	"learning_rate": 2.1279890335383534e-05,
	"loss": 0.8876,
	"mean_token_accuracy": 0.7398653388023376,
	"step": 3315
	},
	{
	"epoch": 0.6106308626080559,
	"grad_norm": 0.9451857651632474,
	"learning_rate": 2.1214158212980366e-05,
	"loss": 0.7988,
	"mean_token_accuracy": 0.7636669516563416,
	"step": 3320
	},
	{
	"epoch": 0.6115504874011404,
	"grad_norm": 0.9310680714278403,
	"learning_rate": 2.114848422886177e-05,
	"loss": 0.8417,
	"mean_token_accuracy": 0.7545873999595643,
	"step": 3325
	},
	{
	"epoch": 0.6124701121942248,
	"grad_norm": 0.9555284993925652,
	"learning_rate": 2.108286899045202e-05,
	"loss": 0.8906,
	"mean_token_accuracy": 0.7384588122367859,
	"step": 3330
	},
	{
	"epoch": 0.6133897369873091,
	"grad_norm": 0.9525478437560697,
	"learning_rate": 2.1017313104632003e-05,
	"loss": 0.844,
	"mean_token_accuracy": 0.7497392654418945,
	"step": 3335
	},
	{
	"epoch": 0.6143093617803936,
	"grad_norm": 0.9657934498214388,
	"learning_rate": 2.0951817177733684e-05,
	"loss": 0.8748,
	"mean_token_accuracy": 0.7426393389701843,
	"step": 3340
	},
	{
	"epoch": 0.615228986573478,
	"grad_norm": 0.9174407552166862,
	"learning_rate": 2.088638181553446e-05,
	"loss": 0.8727,
	"mean_token_accuracy": 0.742801570892334,
	"step": 3345
	},
	{
	"epoch": 0.6161486113665624,
	"grad_norm": 0.9106809477969502,
	"learning_rate": 2.0821007623251564e-05,
	"loss": 0.8227,
	"mean_token_accuracy": 0.7550573825836182,
	"step": 3350
	},
	{
	"epoch": 0.6170682361596469,
	"grad_norm": 0.8816231707997737,
	"learning_rate": 2.075569520553643e-05,
	"loss": 0.8066,
	"mean_token_accuracy": 0.7590124368667602,
	"step": 3355
	},
	{
	"epoch": 0.6179878609527313,
	"grad_norm": 0.9651791807712018,
	"learning_rate": 2.0690445166469158e-05,
	"loss": 0.8575,
	"mean_token_accuracy": 0.7481630921363831,
	"step": 3360
	},
	{
	"epoch": 0.6189074857458157,
	"grad_norm": 0.962161882798645,
	"learning_rate": 2.0625258109552926e-05,
	"loss": 0.8842,
	"mean_token_accuracy": 0.743985378742218,
	"step": 3365
	},
	{
	"epoch": 0.6198271105389002,
	"grad_norm": 0.955250281560398,
	"learning_rate": 2.0560134637708334e-05,
	"loss": 0.8413,
	"mean_token_accuracy": 0.7497357606887818,
	"step": 3370
	},
	{
	"epoch": 0.6207467353319845,
	"grad_norm": 1.0327175413319667,
	"learning_rate": 2.0495075353267913e-05,
	"loss": 0.8697,
	"mean_token_accuracy": 0.7445659875869751,
	"step": 3375
	},
	{
	"epoch": 0.6216663601250689,
	"grad_norm": 0.9525687098312168,
	"learning_rate": 2.043008085797052e-05,
	"loss": 0.8722,
	"mean_token_accuracy": 0.7410041093826294,
	"step": 3380
	},
	{
	"epoch": 0.6225859849181534,
	"grad_norm": 0.9275514977855014,
	"learning_rate": 2.036515175295574e-05,
	"loss": 0.8412,
	"mean_token_accuracy": 0.7507887959480286,
	"step": 3385
	},
	{
	"epoch": 0.6235056097112378,
	"grad_norm": 0.9493961658678648,
	"learning_rate": 2.03002886387584e-05,
	"loss": 0.8556,
	"mean_token_accuracy": 0.7469261646270752,
	"step": 3390
	},
	{
	"epoch": 0.6244252345043222,
	"grad_norm": 0.9292345545436532,
	"learning_rate": 2.0235492115302944e-05,
	"loss": 0.8301,
	"mean_token_accuracy": 0.7550871014595032,
	"step": 3395
	},
	{
	"epoch": 0.6253448592974067,
	"grad_norm": 0.9430411664378814,
	"learning_rate": 2.017076278189794e-05,
	"loss": 0.8321,
	"mean_token_accuracy": 0.7533326983451843,
	"step": 3400
	},
	{
	"epoch": 0.6262644840904911,
	"grad_norm": 0.8889521393845567,
	"learning_rate": 2.0106101237230455e-05,
	"loss": 0.8324,
	"mean_token_accuracy": 0.7539088129997253,
	"step": 3405
	},
	{
	"epoch": 0.6271841088835755,
	"grad_norm": 0.9180009901150891,
	"learning_rate": 2.0041508079360634e-05,
	"loss": 0.7898,
	"mean_token_accuracy": 0.761493980884552,
	"step": 3410
	},
	{
	"epoch": 0.62810373367666,
	"grad_norm": 0.9055995921329637,
	"learning_rate": 1.997698390571608e-05,
	"loss": 0.8419,
	"mean_token_accuracy": 0.7503387928009033,
	"step": 3415
	},
	{
	"epoch": 0.6290233584697443,
	"grad_norm": 0.9447591194939752,
	"learning_rate": 1.991252931308633e-05,
	"loss": 0.8692,
	"mean_token_accuracy": 0.7452242970466614,
	"step": 3420
	},
	{
	"epoch": 0.6299429832628287,
	"grad_norm": 0.9351426059072258,
	"learning_rate": 1.9848144897617417e-05,
	"loss": 0.8149,
	"mean_token_accuracy": 0.7568124055862426,
	"step": 3425
	},
	{
	"epoch": 0.6308626080559132,
	"grad_norm": 0.9168023134449134,
	"learning_rate": 1.9783831254806257e-05,
	"loss": 0.8157,
	"mean_token_accuracy": 0.7554953694343567,
	"step": 3430
	},
	{
	"epoch": 0.6317822328489976,
	"grad_norm": 1.027979530127791,
	"learning_rate": 1.971958897949518e-05,
	"loss": 0.8229,
	"mean_token_accuracy": 0.7550533413887024,
	"step": 3435
	},
	{
	"epoch": 0.632701857642082,
	"grad_norm": 0.8964633060914129,
	"learning_rate": 1.9655418665866465e-05,
	"loss": 0.7966,
	"mean_token_accuracy": 0.7639833688735962,
	"step": 3440
	},
	{
	"epoch": 0.6336214824351665,
	"grad_norm": 0.8702615238247585,
	"learning_rate": 1.9591320907436782e-05,
	"loss": 0.8502,
	"mean_token_accuracy": 0.74614177942276,
	"step": 3445
	},
	{
	"epoch": 0.6345411072282509,
	"grad_norm": 0.9157962896320851,
	"learning_rate": 1.9527296297051765e-05,
	"loss": 0.8026,
	"mean_token_accuracy": 0.758307683467865,
	"step": 3450
	},
	{
	"epoch": 0.6354607320213354,
	"grad_norm": 0.9465005665572019,
	"learning_rate": 1.9463345426880448e-05,
	"loss": 0.8036,
	"mean_token_accuracy": 0.7617629647254944,
	"step": 3455
	},
	{
	"epoch": 0.6363803568144197,
	"grad_norm": 0.9618417431183126,
	"learning_rate": 1.939946888840986e-05,
	"loss": 0.8819,
	"mean_token_accuracy": 0.7395693898200989,
	"step": 3460
	},
	{
	"epoch": 0.6372999816075041,
	"grad_norm": 0.9326022903907812,
	"learning_rate": 1.933566727243956e-05,
	"loss": 0.8384,
	"mean_token_accuracy": 0.7497618556022644,
	"step": 3465
	},
	{
	"epoch": 0.6382196064005886,
	"grad_norm": 0.942168299955769,
	"learning_rate": 1.927194116907608e-05,
	"loss": 0.8821,
	"mean_token_accuracy": 0.7422310829162597,
	"step": 3470
	},
	{
	"epoch": 0.639139231193673,
	"grad_norm": 0.930256851029374,
	"learning_rate": 1.9208291167727576e-05,
	"loss": 0.8293,
	"mean_token_accuracy": 0.7561385631561279,
	"step": 3475
	},
	{
	"epoch": 0.6400588559867574,
	"grad_norm": 0.8857746537604931,
	"learning_rate": 1.9144717857098328e-05,
	"loss": 0.8166,
	"mean_token_accuracy": 0.7583439826965332,
	"step": 3480
	},
	{
	"epoch": 0.6409784807798419,
	"grad_norm": 0.9519372824273006,
	"learning_rate": 1.908122182518326e-05,
	"loss": 0.8674,
	"mean_token_accuracy": 0.741856062412262,
	"step": 3485
	},
	{
	"epoch": 0.6418981055729263,
	"grad_norm": 0.9483959540274922,
	"learning_rate": 1.9017803659262583e-05,
	"loss": 0.8496,
	"mean_token_accuracy": 0.7491413950920105,
	"step": 3490
	},
	{
	"epoch": 0.6428177303660106,
	"grad_norm": 0.9729346329964175,
	"learning_rate": 1.8954463945896293e-05,
	"loss": 0.8554,
	"mean_token_accuracy": 0.7483752846717835,
	"step": 3495
	},
	{
	"epoch": 0.6437373551590951,
	"grad_norm": 0.910719020599245,
	"learning_rate": 1.889120327091879e-05,
	"loss": 0.8332,
	"mean_token_accuracy": 0.753311276435852,
	"step": 3500
	},
	{
	"epoch": 0.6446569799521795,
	"grad_norm": 0.8997078755147822,
	"learning_rate": 1.8828022219433413e-05,
	"loss": 0.8311,
	"mean_token_accuracy": 0.7538302779197693,
	"step": 3505
	},
	{
	"epoch": 0.6455766047452639,
	"grad_norm": 0.9097287217365273,
	"learning_rate": 1.8764921375807083e-05,
	"loss": 0.8573,
	"mean_token_accuracy": 0.74767564535141,
	"step": 3510
	},
	{
	"epoch": 0.6464962295383484,
	"grad_norm": 0.9420262116863728,
	"learning_rate": 1.8701901323664863e-05,
	"loss": 0.8551,
	"mean_token_accuracy": 0.7479906916618347,
	"step": 3515
	},
	{
	"epoch": 0.6474158543314328,
	"grad_norm": 0.9297816459092663,
	"learning_rate": 1.8638962645884565e-05,
	"loss": 0.8066,
	"mean_token_accuracy": 0.7580268263816834,
	"step": 3520
	},
	{
	"epoch": 0.6483354791245172,
	"grad_norm": 0.946031226164797,
	"learning_rate": 1.8576105924591357e-05,
	"loss": 0.8179,
	"mean_token_accuracy": 0.7542472004890441,
	"step": 3525
	},
	{
	"epoch": 0.6492551039176017,
	"grad_norm": 0.9036904422802344,
	"learning_rate": 1.8513331741152412e-05,
	"loss": 0.8261,
	"mean_token_accuracy": 0.7552783608436584,
	"step": 3530
	},
	{
	"epoch": 0.650174728710686,
	"grad_norm": 0.921905554132334,
	"learning_rate": 1.8450640676171472e-05,
	"loss": 0.8351,
	"mean_token_accuracy": 0.752598226070404,
	"step": 3535
	},
	{
	"epoch": 0.6510943535037704,
	"grad_norm": 1.0035005670649164,
	"learning_rate": 1.8388033309483522e-05,
	"loss": 0.8981,
	"mean_token_accuracy": 0.7371325850486755,
	"step": 3540
	},
	{
	"epoch": 0.6520139782968549,
	"grad_norm": 0.9724909600231612,
	"learning_rate": 1.8325510220149413e-05,
	"loss": 0.8327,
	"mean_token_accuracy": 0.751532518863678,
	"step": 3545
	},
	{
	"epoch": 0.6529336030899393,
	"grad_norm": 0.9664687506252672,
	"learning_rate": 1.8263071986450524e-05,
	"loss": 0.8336,
	"mean_token_accuracy": 0.7516280770301819,
	"step": 3550
	},
	{
	"epoch": 0.6538532278830237,
	"grad_norm": 0.9164445815967506,
	"learning_rate": 1.8200719185883358e-05,
	"loss": 0.8316,
	"mean_token_accuracy": 0.7544404864311218,
	"step": 3555
	},
	{
	"epoch": 0.6547728526761082,
	"grad_norm": 0.9293565126179983,
	"learning_rate": 1.813845239515427e-05,
	"loss": 0.8257,
	"mean_token_accuracy": 0.7552899837493896,
	"step": 3560
	},
	{
	"epoch": 0.6556924774691926,
	"grad_norm": 0.9010810987925738,
	"learning_rate": 1.8076272190174115e-05,
	"loss": 0.8201,
	"mean_token_accuracy": 0.7565722703933716,
	"step": 3565
	},
	{
	"epoch": 0.656612102262277,
	"grad_norm": 1.0075745989661558,
	"learning_rate": 1.801417914605286e-05,
	"loss": 0.869,
	"mean_token_accuracy": 0.7453143835067749,
	"step": 3570
	},
	{
	"epoch": 0.6575317270553614,
	"grad_norm": 0.935586367301874,
	"learning_rate": 1.795217383709437e-05,
	"loss": 0.8845,
	"mean_token_accuracy": 0.7403179168701172,
	"step": 3575
	},
	{
	"epoch": 0.6584513518484458,
	"grad_norm": 0.9872971011864189,
	"learning_rate": 1.7890256836791008e-05,
	"loss": 0.8052,
	"mean_token_accuracy": 0.7629344463348389,
	"step": 3580
	},
	{
	"epoch": 0.6593709766415302,
	"grad_norm": 0.9876503263464145,
	"learning_rate": 1.7828428717818353e-05,
	"loss": 0.8135,
	"mean_token_accuracy": 0.7590724229812622,
	"step": 3585
	},
	{
	"epoch": 0.6602906014346147,
	"grad_norm": 0.8811578706911977,
	"learning_rate": 1.7766690052029944e-05,
	"loss": 0.8221,
	"mean_token_accuracy": 0.7560603976249695,
	"step": 3590
	},
	{
	"epoch": 0.6612102262276991,
	"grad_norm": 0.9719326557742581,
	"learning_rate": 1.770504141045194e-05,
	"loss": 0.8342,
	"mean_token_accuracy": 0.7510559558868408,
	"step": 3595
	},
	{
	"epoch": 0.6621298510207835,
	"grad_norm": 1.0132470520749903,
	"learning_rate": 1.7643483363277874e-05,
	"loss": 0.8487,
	"mean_token_accuracy": 0.7500616908073425,
	"step": 3600
	},
	{
	"epoch": 0.663049475813868,
	"grad_norm": 1.0318932699213554,
	"learning_rate": 1.7582016479863327e-05,
	"loss": 0.8487,
	"mean_token_accuracy": 0.7490703582763671,
	"step": 3605
	},
	{
	"epoch": 0.6639691006069524,
	"grad_norm": 0.8658023921332224,
	"learning_rate": 1.7520641328720756e-05,
	"loss": 0.8238,
	"mean_token_accuracy": 0.7564070224761963,
	"step": 3610
	},
	{
	"epoch": 0.6648887254000367,
	"grad_norm": 0.9750052383478849,
	"learning_rate": 1.7459358477514122e-05,
	"loss": 0.8249,
	"mean_token_accuracy": 0.7549832344055176,
	"step": 3615
	},
	{
	"epoch": 0.6658083501931212,
	"grad_norm": 0.957114636285714,
	"learning_rate": 1.7398168493053723e-05,
	"loss": 0.7881,
	"mean_token_accuracy": 0.7615378856658935,
	"step": 3620
	},
	{
	"epoch": 0.6667279749862056,
	"grad_norm": 0.9148381033348181,
	"learning_rate": 1.7337071941290944e-05,
	"loss": 0.8196,
	"mean_token_accuracy": 0.7577734112739563,
	"step": 3625
	},
	{
	"epoch": 0.66764759977929,
	"grad_norm": 0.9583843198631806,
	"learning_rate": 1.7276069387312955e-05,
	"loss": 0.9,
	"mean_token_accuracy": 0.7367844343185425,
	"step": 3630
	},
	{
	"epoch": 0.6685672245723745,
	"grad_norm": 0.9525242256598431,
	"learning_rate": 1.7215161395337572e-05,
	"loss": 0.8351,
	"mean_token_accuracy": 0.7536734580993653,
	"step": 3635
	},
	{
	"epoch": 0.6694868493654589,
	"grad_norm": 0.9218486580963495,
	"learning_rate": 1.7154348528707992e-05,
	"loss": 0.8512,
	"mean_token_accuracy": 0.7513302564620972,
	"step": 3640
	},
	{
	"epoch": 0.6704064741585433,
	"grad_norm": 0.9497350819436411,
	"learning_rate": 1.709363134988757e-05,
	"loss": 0.8522,
	"mean_token_accuracy": 0.747953987121582,
	"step": 3645
	},
	{
	"epoch": 0.6713260989516278,
	"grad_norm": 0.9359833703344925,
	"learning_rate": 1.7033010420454655e-05,
	"loss": 0.8091,
	"mean_token_accuracy": 0.7576663970947266,
	"step": 3650
	},
	{
	"epoch": 0.6722457237447121,
	"grad_norm": 0.9884296155896105,
	"learning_rate": 1.6972486301097376e-05,
	"loss": 0.8185,
	"mean_token_accuracy": 0.7578543424606323,
	"step": 3655
	},
	{
	"epoch": 0.6731653485377965,
	"grad_norm": 0.885165473016121,
	"learning_rate": 1.691205955160845e-05,
	"loss": 0.8461,
	"mean_token_accuracy": 0.7491200208663941,
	"step": 3660
	},
	{
	"epoch": 0.674084973330881,
	"grad_norm": 0.9715821597591158,
	"learning_rate": 1.6851730730880012e-05,
	"loss": 0.8527,
	"mean_token_accuracy": 0.7483757376670838,
	"step": 3665
	},
	{
	"epoch": 0.6750045981239654,
	"grad_norm": 0.8871437133597592,
	"learning_rate": 1.679150039689846e-05,
	"loss": 0.8148,
	"mean_token_accuracy": 0.7578411340713501,
	"step": 3670
	},
	{
	"epoch": 0.6759242229170498,
	"grad_norm": 0.9530586600231223,
	"learning_rate": 1.673136910673926e-05,
	"loss": 0.8645,
	"mean_token_accuracy": 0.7451423764228821,
	"step": 3675
	},
	{
	"epoch": 0.6768438477101343,
	"grad_norm": 0.9427729850229866,
	"learning_rate": 1.6671337416561817e-05,
	"loss": 0.8432,
	"mean_token_accuracy": 0.7509079575538635,
	"step": 3680
	},
	{
	"epoch": 0.6777634725032187,
	"grad_norm": 0.9325142143827265,
	"learning_rate": 1.661140588160435e-05,
	"loss": 0.8347,
	"mean_token_accuracy": 0.7516968011856079,
	"step": 3685
	},
	{
	"epoch": 0.6786830972963032,
	"grad_norm": 0.9601757924065347,
	"learning_rate": 1.6551575056178695e-05,
	"loss": 0.8166,
	"mean_token_accuracy": 0.7589465737342834,
	"step": 3690
	},
	{
	"epoch": 0.6796027220893875,
	"grad_norm": 1.0086779966517565,
	"learning_rate": 1.649184549366525e-05,
	"loss": 0.8395,
	"mean_token_accuracy": 0.7520246505737305,
	"step": 3695
	},
	{
	"epoch": 0.6805223468824719,
	"grad_norm": 0.9707009645804029,
	"learning_rate": 1.6432217746507814e-05,
	"loss": 0.8382,
	"mean_token_accuracy": 0.7533354997634888,
	"step": 3700
	},
	{
	"epoch": 0.6814419716755564,
	"grad_norm": 0.9109669918450888,
	"learning_rate": 1.6372692366208476e-05,
	"loss": 0.8186,
	"mean_token_accuracy": 0.7560298204421997,
	"step": 3705
	},
	{
	"epoch": 0.6823615964686408,
	"grad_norm": 0.931556246223817,
	"learning_rate": 1.6313269903322536e-05,
	"loss": 0.8682,
	"mean_token_accuracy": 0.7464072823524475,
	"step": 3710
	},
	{
	"epoch": 0.6832812212617252,
	"grad_norm": 0.9316943141031991,
	"learning_rate": 1.6253950907453414e-05,
	"loss": 0.7891,
	"mean_token_accuracy": 0.7643645644187927,
	"step": 3715
	},
	{
	"epoch": 0.6842008460548097,
	"grad_norm": 0.9367407375514984,
	"learning_rate": 1.619473592724752e-05,
	"loss": 0.8489,
	"mean_token_accuracy": 0.7488224864006042,
	"step": 3720
	},
	{
	"epoch": 0.6851204708478941,
	"grad_norm": 0.96189736553831,
	"learning_rate": 1.613562551038925e-05,
	"loss": 0.7964,
	"mean_token_accuracy": 0.7625237464904785,
	"step": 3725
	},
	{
	"epoch": 0.6860400956409785,
	"grad_norm": 0.9170890141555628,
	"learning_rate": 1.607662020359587e-05,
	"loss": 0.8404,
	"mean_token_accuracy": 0.7529777765274048,
	"step": 3730
	},
	{
	"epoch": 0.686959720434063,
	"grad_norm": 0.9456438498787428,
	"learning_rate": 1.6017720552612462e-05,
	"loss": 0.8036,
	"mean_token_accuracy": 0.7614395618438721,
	"step": 3735
	},
	{
	"epoch": 0.6878793452271473,
	"grad_norm": 0.9544770877536788,
	"learning_rate": 1.595892710220691e-05,
	"loss": 0.8413,
	"mean_token_accuracy": 0.7519929647445679,
	"step": 3740
	},
	{
	"epoch": 0.6887989700202317,
	"grad_norm": 1.022115954707187,
	"learning_rate": 1.5900240396164835e-05,
	"loss": 0.8612,
	"mean_token_accuracy": 0.747264850139618,
	"step": 3745
	},
	{
	"epoch": 0.6897185948133162,
	"grad_norm": 0.9476824745559427,
	"learning_rate": 1.584166097728455e-05,
	"loss": 0.847,
	"mean_token_accuracy": 0.7491350531578064,
	"step": 3750
	},
	{
	"epoch": 0.6906382196064006,
	"grad_norm": 0.8827290010499629,
	"learning_rate": 1.578318938737209e-05,
	"loss": 0.8284,
	"mean_token_accuracy": 0.7547004818916321,
	"step": 3755
	},
	{
	"epoch": 0.691557844399485,
	"grad_norm": 0.9009975487421323,
	"learning_rate": 1.5724826167236146e-05,
	"loss": 0.8214,
	"mean_token_accuracy": 0.7568115711212158,
	"step": 3760
	},
	{
	"epoch": 0.6924774691925695,
	"grad_norm": 0.9187149873785133,
	"learning_rate": 1.5666571856683116e-05,
	"loss": 0.827,
	"mean_token_accuracy": 0.7550323009490967,
	"step": 3765
	},
	{
	"epoch": 0.6933970939856539,
	"grad_norm": 0.9280641474823987,
	"learning_rate": 1.560842699451204e-05,
	"loss": 0.7616,
	"mean_token_accuracy": 0.7714649677276612,
	"step": 3770
	},
	{
	"epoch": 0.6943167187787382,
	"grad_norm": 0.9038372482824055,
	"learning_rate": 1.5550392118509705e-05,
	"loss": 0.8028,
	"mean_token_accuracy": 0.760212504863739,
	"step": 3775
	},
	{
	"epoch": 0.6952363435718227,
	"grad_norm": 0.9201432901179558,
	"learning_rate": 1.5492467765445613e-05,
	"loss": 0.8241,
	"mean_token_accuracy": 0.754262363910675,
	"step": 3780
	},
	{
	"epoch": 0.6961559683649071,
	"grad_norm": 0.9031896471527984,
	"learning_rate": 1.5434654471067007e-05,
	"loss": 0.8078,
	"mean_token_accuracy": 0.7623116612434387,
	"step": 3785
	},
	{
	"epoch": 0.6970755931579915,
	"grad_norm": 0.928442088214151,
	"learning_rate": 1.537695277009396e-05,
	"loss": 0.8667,
	"mean_token_accuracy": 0.7442408680915833,
	"step": 3790
	},
	{
	"epoch": 0.697995217951076,
	"grad_norm": 0.9545685310758198,
	"learning_rate": 1.5319363196214427e-05,
	"loss": 0.8147,
	"mean_token_accuracy": 0.757679283618927,
	"step": 3795
	},
	{
	"epoch": 0.6989148427441604,
	"grad_norm": 0.957997913837239,
	"learning_rate": 1.526188628207924e-05,
	"loss": 0.8674,
	"mean_token_accuracy": 0.7406766414642334,
	"step": 3800
	},
	{
	"epoch": 0.6998344675372448,
	"grad_norm": 0.907233770113165,
	"learning_rate": 1.5204522559297275e-05,
	"loss": 0.8228,
	"mean_token_accuracy": 0.7550997257232666,
	"step": 3805
	},
	{
	"epoch": 0.7007540923303293,
	"grad_norm": 0.9753264400407652,
	"learning_rate": 1.5147272558430472e-05,
	"loss": 0.812,
	"mean_token_accuracy": 0.7584111213684082,
	"step": 3810
	},
	{
	"epoch": 0.7016737171234136,
	"grad_norm": 0.898583550613599,
	"learning_rate": 1.509013680898896e-05,
	"loss": 0.814,
	"mean_token_accuracy": 0.7574291110038758,
	"step": 3815
	},
	{
	"epoch": 0.702593341916498,
	"grad_norm": 0.9245046858803572,
	"learning_rate": 1.5033115839426127e-05,
	"loss": 0.8002,
	"mean_token_accuracy": 0.7631544828414917,
	"step": 3820
	},
	{
	"epoch": 0.7035129667095825,
	"grad_norm": 0.9501909113953771,
	"learning_rate": 1.4976210177133764e-05,
	"loss": 0.8284,
	"mean_token_accuracy": 0.7537835121154786,
	"step": 3825
	},
	{
	"epoch": 0.7044325915026669,
	"grad_norm": 0.9118736011138947,
	"learning_rate": 1.4919420348437189e-05,
	"loss": 0.8637,
	"mean_token_accuracy": 0.746515440940857,
	"step": 3830
	},
	{
	"epoch": 0.7053522162957513,
	"grad_norm": 0.9346208775326443,
	"learning_rate": 1.4862746878590329e-05,
	"loss": 0.8325,
	"mean_token_accuracy": 0.7536684751510621,
	"step": 3835
	},
	{
	"epoch": 0.7062718410888358,
	"grad_norm": 0.9644025251262837,
	"learning_rate": 1.4806190291770932e-05,
	"loss": 0.9199,
	"mean_token_accuracy": 0.728544807434082,
	"step": 3840
	},
	{
	"epoch": 0.7071914658819202,
	"grad_norm": 0.9316658230434494,
	"learning_rate": 1.4749751111075682e-05,
	"loss": 0.8478,
	"mean_token_accuracy": 0.7476451396942139,
	"step": 3845
	},
	{
	"epoch": 0.7081110906750046,
	"grad_norm": 0.8593875878005443,
	"learning_rate": 1.469342985851534e-05,
	"loss": 0.7931,
	"mean_token_accuracy": 0.7640434741973877,
	"step": 3850
	},
	{
	"epoch": 0.709030715468089,
	"grad_norm": 0.9379422901278587,
	"learning_rate": 1.4637227055009962e-05,
	"loss": 0.8228,
	"mean_token_accuracy": 0.7573190450668335,
	"step": 3855
	},
	{
	"epoch": 0.7099503402611734,
	"grad_norm": 0.9026485371540945,
	"learning_rate": 1.4581143220384047e-05,
	"loss": 0.82,
	"mean_token_accuracy": 0.756511640548706,
	"step": 3860
	},
	{
	"epoch": 0.7108699650542578,
	"grad_norm": 0.9796042273923296,
	"learning_rate": 1.4525178873361756e-05,
	"loss": 0.8242,
	"mean_token_accuracy": 0.7555618524551392,
	"step": 3865
	},
	{
	"epoch": 0.7117895898473423,
	"grad_norm": 0.9383990549827186,
	"learning_rate": 1.4469334531562067e-05,
	"loss": 0.8448,
	"mean_token_accuracy": 0.7482100129127502,
	"step": 3870
	},
	{
	"epoch": 0.7127092146404267,
	"grad_norm": 0.9602931261847705,
	"learning_rate": 1.4413610711494058e-05,
	"loss": 0.8365,
	"mean_token_accuracy": 0.7580392360687256,
	"step": 3875
	},
	{
	"epoch": 0.7136288394335111,
	"grad_norm": 0.943240285031073,
	"learning_rate": 1.4358007928552075e-05,
	"loss": 0.7861,
	"mean_token_accuracy": 0.7667181611061096,
	"step": 3880
	},
	{
	"epoch": 0.7145484642265956,
	"grad_norm": 0.9447898247986761,
	"learning_rate": 1.4302526697010964e-05,
	"loss": 0.8078,
	"mean_token_accuracy": 0.7595344543457031,
	"step": 3885
	},
	{
	"epoch": 0.71546808901968,
	"grad_norm": 0.9841983235190546,
	"learning_rate": 1.424716753002136e-05,
	"loss": 0.8597,
	"mean_token_accuracy": 0.7481236219406128,
	"step": 3890
	},
	{
	"epoch": 0.7163877138127643,
	"grad_norm": 0.9684153403690037,
	"learning_rate": 1.4191930939604908e-05,
	"loss": 0.8117,
	"mean_token_accuracy": 0.7613986849784851,
	"step": 3895
	},
	{
	"epoch": 0.7173073386058488,
	"grad_norm": 0.996877698893722,
	"learning_rate": 1.4136817436649502e-05,
	"loss": 0.8766,
	"mean_token_accuracy": 0.738961935043335,
	"step": 3900
	},
	{
	"epoch": 0.7182269633989332,
	"grad_norm": 0.9051545491177592,
	"learning_rate": 1.4081827530904624e-05,
	"loss": 0.8445,
	"mean_token_accuracy": 0.749999487400055,
	"step": 3905
	},
	{
	"epoch": 0.7191465881920177,
	"grad_norm": 0.9684927881965169,
	"learning_rate": 1.4026961730976584e-05,
	"loss": 0.8209,
	"mean_token_accuracy": 0.7576812863349914,
	"step": 3910
	},
	{
	"epoch": 0.7200662129851021,
	"grad_norm": 0.9610042841526357,
	"learning_rate": 1.3972220544323832e-05,
	"loss": 0.8131,
	"mean_token_accuracy": 0.7582221627235413,
	"step": 3915
	},
	{
	"epoch": 0.7209858377781865,
	"grad_norm": 0.9412320092723402,
	"learning_rate": 1.3917604477252238e-05,
	"loss": 0.7937,
	"mean_token_accuracy": 0.7617234110832214,
	"step": 3920
	},
	{
	"epoch": 0.721905462571271,
	"grad_norm": 0.9321659094215312,
	"learning_rate": 1.3863114034910452e-05,
	"loss": 0.8156,
	"mean_token_accuracy": 0.7598451256752015,
	"step": 3925
	},
	{
	"epoch": 0.7228250873643554,
	"grad_norm": 0.956577146254236,
	"learning_rate": 1.3808749721285214e-05,
	"loss": 0.8107,
	"mean_token_accuracy": 0.757847785949707,
	"step": 3930
	},
	{
	"epoch": 0.7237447121574397,
	"grad_norm": 0.9139917904820034,
	"learning_rate": 1.3754512039196658e-05,
	"loss": 0.8754,
	"mean_token_accuracy": 0.7391230940818787,
	"step": 3935
	},
	{
	"epoch": 0.7246643369505242,
	"grad_norm": 0.92757564731535,
	"learning_rate": 1.3700401490293718e-05,
	"loss": 0.8193,
	"mean_token_accuracy": 0.7570781588554383,
	"step": 3940
	},
	{
	"epoch": 0.7255839617436086,
	"grad_norm": 0.9533935473757719,
	"learning_rate": 1.3646418575049475e-05,
	"loss": 0.8244,
	"mean_token_accuracy": 0.756612241268158,
	"step": 3945
	},
	{
	"epoch": 0.726503586536693,
	"grad_norm": 0.9319033478082173,
	"learning_rate": 1.3592563792756468e-05,
	"loss": 0.7994,
	"mean_token_accuracy": 0.7616767644882202,
	"step": 3950
	},
	{
	"epoch": 0.7274232113297775,
	"grad_norm": 0.9659322616790049,
	"learning_rate": 1.3538837641522172e-05,
	"loss": 0.776,
	"mean_token_accuracy": 0.7666900753974915,
	"step": 3955
	},
	{
	"epoch": 0.7283428361228619,
	"grad_norm": 0.9715937702004781,
	"learning_rate": 1.3485240618264322e-05,
	"loss": 0.8707,
	"mean_token_accuracy": 0.742601501941681,
	"step": 3960
	},
	{
	"epoch": 0.7292624609159463,
	"grad_norm": 0.9279423695840053,
	"learning_rate": 1.3431773218706336e-05,
	"loss": 0.8435,
	"mean_token_accuracy": 0.7503429889678955,
	"step": 3965
	},
	{
	"epoch": 0.7301820857090308,
	"grad_norm": 0.9826978876425828,
	"learning_rate": 1.3378435937372729e-05,
	"loss": 0.8609,
	"mean_token_accuracy": 0.7491580963134765,
	"step": 3970
	},
	{
	"epoch": 0.7311017105021151,
	"grad_norm": 0.9333913123309906,
	"learning_rate": 1.3325229267584549e-05,
	"loss": 0.8771,
	"mean_token_accuracy": 0.7425579071044922,
	"step": 3975
	},
	{
	"epoch": 0.7320213352951995,
	"grad_norm": 0.9125063830711305,
	"learning_rate": 1.3272153701454809e-05,
	"loss": 0.8086,
	"mean_token_accuracy": 0.7603332042694092,
	"step": 3980
	},
	{
	"epoch": 0.732940960088284,
	"grad_norm": 0.9868481200984651,
	"learning_rate": 1.3219209729883918e-05,
	"loss": 0.7879,
	"mean_token_accuracy": 0.7675115823745727,
	"step": 3985
	},
	{
	"epoch": 0.7338605848813684,
	"grad_norm": 0.9006549103315062,
	"learning_rate": 1.3166397842555175e-05,
	"loss": 0.7923,
	"mean_token_accuracy": 0.7659124851226806,
	"step": 3990
	},
	{
	"epoch": 0.7347802096744528,
	"grad_norm": 0.9128416767290051,
	"learning_rate": 1.3113718527930214e-05,
	"loss": 0.8363,
	"mean_token_accuracy": 0.751650869846344,
	"step": 3995
	},
	{
	"epoch": 0.7356998344675373,
	"grad_norm": 0.93586974280188,
	"learning_rate": 1.3061172273244477e-05,
	"loss": 0.8634,
	"mean_token_accuracy": 0.7428792953491211,
	"step": 4000
	},
	{
	"epoch": 0.7366194592606217,
	"grad_norm": 0.9865948469992011,
	"learning_rate": 1.3008759564502742e-05,
	"loss": 0.8627,
	"mean_token_accuracy": 0.7454355955123901,
	"step": 4005
	},
	{
	"epoch": 0.737539084053706,
	"grad_norm": 0.9395366278250679,
	"learning_rate": 1.2956480886474609e-05,
	"loss": 0.8408,
	"mean_token_accuracy": 0.7488868713378907,
	"step": 4010
	},
	{
	"epoch": 0.7384587088467905,
	"grad_norm": 0.9259161411169768,
	"learning_rate": 1.2904336722690013e-05,
	"loss": 0.8474,
	"mean_token_accuracy": 0.7509873270988464,
	"step": 4015
	},
	{
	"epoch": 0.7393783336398749,
	"grad_norm": 0.8982963261004637,
	"learning_rate": 1.2852327555434743e-05,
	"loss": 0.8272,
	"mean_token_accuracy": 0.7562850832939148,
	"step": 4020
	},
	{
	"epoch": 0.7402979584329593,
	"grad_norm": 0.9145268063018638,
	"learning_rate": 1.280045386574601e-05,
	"loss": 0.7964,
	"mean_token_accuracy": 0.7601189255714417,
	"step": 4025
	},
	{
	"epoch": 0.7412175832260438,
	"grad_norm": 0.9417030319528836,
	"learning_rate": 1.2748716133407985e-05,
	"loss": 0.8243,
	"mean_token_accuracy": 0.7563821077346802,
	"step": 4030
	},
	{
	"epoch": 0.7421372080191282,
	"grad_norm": 0.9170391844634309,
	"learning_rate": 1.269711483694733e-05,
	"loss": 0.8071,
	"mean_token_accuracy": 0.7610970735549927,
	"step": 4035
	},
	{
	"epoch": 0.7430568328122126,
	"grad_norm": 0.927700931925603,
	"learning_rate": 1.264565045362883e-05,
	"loss": 0.83,
	"mean_token_accuracy": 0.7542360424995422,
	"step": 4040
	},
	{
	"epoch": 0.7439764576052971,
	"grad_norm": 0.902718257172033,
	"learning_rate": 1.259432345945094e-05,
	"loss": 0.8026,
	"mean_token_accuracy": 0.7602586507797241,
	"step": 4045
	},
	{
	"epoch": 0.7448960823983815,
	"grad_norm": 0.9732168765607019,
	"learning_rate": 1.2543134329141382e-05,
	"loss": 0.8166,
	"mean_token_accuracy": 0.7585108041763305,
	"step": 4050
	},
	{
	"epoch": 0.7458157071914658,
	"grad_norm": 0.9466993086607015,
	"learning_rate": 1.2492083536152772e-05,
	"loss": 0.8169,
	"mean_token_accuracy": 0.758376932144165,
	"step": 4055
	},
	{
	"epoch": 0.7467353319845503,
	"grad_norm": 0.9757475911083087,
	"learning_rate": 1.2441171552658228e-05,
	"loss": 0.8389,
	"mean_token_accuracy": 0.7498653650283813,
	"step": 4060
	},
	{
	"epoch": 0.7476549567776347,
	"grad_norm": 0.9151481291254611,
	"learning_rate": 1.2390398849547023e-05,
	"loss": 0.8006,
	"mean_token_accuracy": 0.7613858461380005,
	"step": 4065
	},
	{
	"epoch": 0.7485745815707191,
	"grad_norm": 0.8890653066533022,
	"learning_rate": 1.2339765896420178e-05,
	"loss": 0.8404,
	"mean_token_accuracy": 0.7510004043579102,
	"step": 4070
	},
	{
	"epoch": 0.7494942063638036,
	"grad_norm": 0.9533182704017102,
	"learning_rate": 1.2289273161586194e-05,
	"loss": 0.8234,
	"mean_token_accuracy": 0.7551814436912536,
	"step": 4075
	},
	{
	"epoch": 0.750413831156888,
	"grad_norm": 0.9407240854533703,
	"learning_rate": 1.2238921112056663e-05,
	"loss": 0.8635,
	"mean_token_accuracy": 0.7466271042823791,
	"step": 4080
	},
	{
	"epoch": 0.7513334559499724,
	"grad_norm": 0.8895247933273808,
	"learning_rate": 1.2188710213541957e-05,
	"loss": 0.8332,
	"mean_token_accuracy": 0.752234959602356,
	"step": 4085
	},
	{
	"epoch": 0.7522530807430569,
	"grad_norm": 0.9353802672482648,
	"learning_rate": 1.213864093044695e-05,
	"loss": 0.8448,
	"mean_token_accuracy": 0.7497453451156616,
	"step": 4090
	},
	{
	"epoch": 0.7531727055361412,
	"grad_norm": 0.946809122144392,
	"learning_rate": 1.2088713725866696e-05,
	"loss": 0.8088,
	"mean_token_accuracy": 0.758155906200409,
	"step": 4095
	},
	{
	"epoch": 0.7540923303292256,
	"grad_norm": 0.9340815348568988,
	"learning_rate": 1.203892906158214e-05,
	"loss": 0.8525,
	"mean_token_accuracy": 0.7470645427703857,
	"step": 4100
	},
	{
	"epoch": 0.7550119551223101,
	"grad_norm": 0.9903725518055015,
	"learning_rate": 1.1989287398055874e-05,
	"loss": 0.8406,
	"mean_token_accuracy": 0.7499817609786987,
	"step": 4105
	},
	{
	"epoch": 0.7559315799153945,
	"grad_norm": 0.9005006268013445,
	"learning_rate": 1.193978919442787e-05,
	"loss": 0.833,
	"mean_token_accuracy": 0.7508885979652404,
	"step": 4110
	},
	{
	"epoch": 0.7568512047084789,
	"grad_norm": 0.922000222155766,
	"learning_rate": 1.1890434908511212e-05,
	"loss": 0.8256,
	"mean_token_accuracy": 0.7544254660606384,
	"step": 4115
	},
	{
	"epoch": 0.7577708295015634,
	"grad_norm": 0.9147121717124462,
	"learning_rate": 1.1841224996787876e-05,
	"loss": 0.8119,
	"mean_token_accuracy": 0.7572540044784546,
	"step": 4120
	},
	{
	"epoch": 0.7586904542946478,
	"grad_norm": 0.9401032528457242,
	"learning_rate": 1.1792159914404518e-05,
	"loss": 0.8389,
	"mean_token_accuracy": 0.7547949194908142,
	"step": 4125
	},
	{
	"epoch": 0.7596100790877323,
	"grad_norm": 0.899746427074481,
	"learning_rate": 1.1743240115168262e-05,
	"loss": 0.8104,
	"mean_token_accuracy": 0.7588290691375732,
	"step": 4130
	},
	{
	"epoch": 0.7605297038808166,
	"grad_norm": 0.9377432106115406,
	"learning_rate": 1.1694466051542473e-05,
	"loss": 0.8155,
	"mean_token_accuracy": 0.7565756559371948,
	"step": 4135
	},
	{
	"epoch": 0.761449328673901,
	"grad_norm": 0.9436429623996605,
	"learning_rate": 1.1645838174642614e-05,
	"loss": 0.8167,
	"mean_token_accuracy": 0.7574901819229126,
	"step": 4140
	},
	{
	"epoch": 0.7623689534669855,
	"grad_norm": 0.9163014099905564,
	"learning_rate": 1.1597356934232053e-05,
	"loss": 0.8518,
	"mean_token_accuracy": 0.7465153455734252,
	"step": 4145
	},
	{
	"epoch": 0.7632885782600699,
	"grad_norm": 0.8716564591657281,
	"learning_rate": 1.1549022778717888e-05,
	"loss": 0.8572,
	"mean_token_accuracy": 0.7444779276847839,
	"step": 4150
	},
	{
	"epoch": 0.7642082030531543,
	"grad_norm": 0.9408396749893937,
	"learning_rate": 1.1500836155146839e-05,
	"loss": 0.83,
	"mean_token_accuracy": 0.7533326983451843,
	"step": 4155
	},
	{
	"epoch": 0.7651278278462388,
	"grad_norm": 0.9335839862612282,
	"learning_rate": 1.1452797509201083e-05,
	"loss": 0.8751,
	"mean_token_accuracy": 0.7398134231567383,
	"step": 4160
	},
	{
	"epoch": 0.7660474526393232,
	"grad_norm": 0.9850624435923674,
	"learning_rate": 1.1404907285194125e-05,
	"loss": 0.8523,
	"mean_token_accuracy": 0.7461954593658447,
	"step": 4165
	},
	{
	"epoch": 0.7669670774324076,
	"grad_norm": 0.9679449146346353,
	"learning_rate": 1.1357165926066716e-05,
	"loss": 0.7892,
	"mean_token_accuracy": 0.7605505466461182,
	"step": 4170
	},
	{
	"epoch": 0.767886702225492,
	"grad_norm": 0.9416265509404674,
	"learning_rate": 1.130957387338275e-05,
	"loss": 0.8221,
	"mean_token_accuracy": 0.7559242844581604,
	"step": 4175
	},
	{
	"epoch": 0.7688063270185764,
	"grad_norm": 0.909615601406411,
	"learning_rate": 1.1262131567325163e-05,
	"loss": 0.8357,
	"mean_token_accuracy": 0.7517993927001954,
	"step": 4180
	},
	{
	"epoch": 0.7697259518116608,
	"grad_norm": 0.9047722281799156,
	"learning_rate": 1.1214839446691869e-05,
	"loss": 0.8032,
	"mean_token_accuracy": 0.7601001501083374,
	"step": 4185
	},
	{
	"epoch": 0.7706455766047453,
	"grad_norm": 0.9246634008625312,
	"learning_rate": 1.1167697948891707e-05,
	"loss": 0.8249,
	"mean_token_accuracy": 0.7536085605621338,
	"step": 4190
	},
	{
	"epoch": 0.7715652013978297,
	"grad_norm": 0.9460638804791452,
	"learning_rate": 1.1120707509940403e-05,
	"loss": 0.8167,
	"mean_token_accuracy": 0.7593476176261902,
	"step": 4195
	},
	{
	"epoch": 0.7724848261909141,
	"grad_norm": 0.9221593736048895,
	"learning_rate": 1.1073868564456503e-05,
	"loss": 0.845,
	"mean_token_accuracy": 0.7480282187461853,
	"step": 4200
	},
	{
	"epoch": 0.7734044509839986,
	"grad_norm": 0.8888076192030434,
	"learning_rate": 1.1027181545657403e-05,
	"loss": 0.7794,
	"mean_token_accuracy": 0.76693354845047,
	"step": 4205
	},
	{
	"epoch": 0.774324075777083,
	"grad_norm": 0.8891810327123515,
	"learning_rate": 1.0980646885355313e-05,
	"loss": 0.7885,
	"mean_token_accuracy": 0.7628621697425843,
	"step": 4210
	},
	{
	"epoch": 0.7752437005701673,
	"grad_norm": 0.9743526817712896,
	"learning_rate": 1.0934265013953239e-05,
	"loss": 0.8478,
	"mean_token_accuracy": 0.7504450678825378,
	"step": 4215
	},
	{
	"epoch": 0.7761633253632518,
	"grad_norm": 0.9143999464853897,
	"learning_rate": 1.0888036360441066e-05,
	"loss": 0.8059,
	"mean_token_accuracy": 0.7603421926498413,
	"step": 4220
	},
	{
	"epoch": 0.7770829501563362,
	"grad_norm": 0.9734913517153475,
	"learning_rate": 1.0841961352391522e-05,
	"loss": 0.8159,
	"mean_token_accuracy": 0.7574024796485901,
	"step": 4225
	},
	{
	"epoch": 0.7780025749494206,
	"grad_norm": 0.935773373300799,
	"learning_rate": 1.079604041595628e-05,
	"loss": 0.8562,
	"mean_token_accuracy": 0.7468973875045777,
	"step": 4230
	},
	{
	"epoch": 0.7789221997425051,
	"grad_norm": 0.9031689337704597,
	"learning_rate": 1.075027397586198e-05,
	"loss": 0.8165,
	"mean_token_accuracy": 0.7566033601760864,
	"step": 4235
	},
	{
	"epoch": 0.7798418245355895,
	"grad_norm": 0.9138920947374664,
	"learning_rate": 1.0704662455406309e-05,
	"loss": 0.8137,
	"mean_token_accuracy": 0.7558243870735168,
	"step": 4240
	},
	{
	"epoch": 0.7807614493286739,
	"grad_norm": 0.942480721965923,
	"learning_rate": 1.06592062764541e-05,
	"loss": 0.8103,
	"mean_token_accuracy": 0.7595886349678039,
	"step": 4245
	},
	{
	"epoch": 0.7816810741217584,
	"grad_norm": 0.8995689595482391,
	"learning_rate": 1.0613905859433412e-05,
	"loss": 0.8158,
	"mean_token_accuracy": 0.7546827673912049,
	"step": 4250
	},
	{
	"epoch": 0.7826006989148427,
	"grad_norm": 0.8666864815369382,
	"learning_rate": 1.0568761623331642e-05,
	"loss": 0.8082,
	"mean_token_accuracy": 0.7590071558952332,
	"step": 4255
	},
	{
	"epoch": 0.7835203237079271,
	"grad_norm": 0.9696655409923509,
	"learning_rate": 1.0523773985691673e-05,
	"loss": 0.8556,
	"mean_token_accuracy": 0.7452132105827332,
	"step": 4260
	},
	{
	"epoch": 0.7844399485010116,
	"grad_norm": 0.9833829005536767,
	"learning_rate": 1.0478943362607984e-05,
	"loss": 0.8586,
	"mean_token_accuracy": 0.7462344169616699,
	"step": 4265
	},
	{
	"epoch": 0.785359573294096,
	"grad_norm": 0.9595206401213471,
	"learning_rate": 1.0434270168722813e-05,
	"loss": 0.8351,
	"mean_token_accuracy": 0.7498462796211243,
	"step": 4270
	},
	{
	"epoch": 0.7862791980871804,
	"grad_norm": 0.9261440611345254,
	"learning_rate": 1.0389754817222325e-05,
	"loss": 0.77,
	"mean_token_accuracy": 0.7716120958328248,
	"step": 4275
	},
	{
	"epoch": 0.7871988228802649,
	"grad_norm": 0.926036803637149,
	"learning_rate": 1.0345397719832791e-05,
	"loss": 0.8117,
	"mean_token_accuracy": 0.75774165391922,
	"step": 4280
	},
	{
	"epoch": 0.7881184476733493,
	"grad_norm": 0.9482199838406158,
	"learning_rate": 1.0301199286816768e-05,
	"loss": 0.7869,
	"mean_token_accuracy": 0.7647076845169067,
	"step": 4285
	},
	{
	"epoch": 0.7890380724664336,
	"grad_norm": 0.9249156078948935,
	"learning_rate": 1.0257159926969315e-05,
	"loss": 0.8379,
	"mean_token_accuracy": 0.7494875431060791,
	"step": 4290
	},
	{
	"epoch": 0.7899576972595181,
	"grad_norm": 0.9426764037549299,
	"learning_rate": 1.0213280047614224e-05,
	"loss": 0.8399,
	"mean_token_accuracy": 0.748091197013855,
	"step": 4295
	},
	{
	"epoch": 0.7908773220526025,
	"grad_norm": 0.9001227058548062,
	"learning_rate": 1.016956005460021e-05,
	"loss": 0.8151,
	"mean_token_accuracy": 0.7553766012191773,
	"step": 4300
	},
	{
	"epoch": 0.7917969468456869,
	"grad_norm": 0.9494070318147612,
	"learning_rate": 1.0126000352297207e-05,
	"loss": 0.8161,
	"mean_token_accuracy": 0.7553802728652954,
	"step": 4305
	},
	{
	"epoch": 0.7927165716387714,
	"grad_norm": 0.9634025237949015,
	"learning_rate": 1.0082601343592613e-05,
	"loss": 0.8375,
	"mean_token_accuracy": 0.7490672588348388,
	"step": 4310
	},
	{
	"epoch": 0.7936361964318558,
	"grad_norm": 0.918509774691625,
	"learning_rate": 1.0039363429887526e-05,
	"loss": 0.8027,
	"mean_token_accuracy": 0.7611651062965393,
	"step": 4315
	},
	{
	"epoch": 0.7945558212249402,
	"grad_norm": 0.9045021299622812,
	"learning_rate": 9.996287011093095e-06,
	"loss": 0.8194,
	"mean_token_accuracy": 0.7530111193656921,
	"step": 4320
	},
	{
	"epoch": 0.7954754460180247,
	"grad_norm": 0.9575102184844824,
	"learning_rate": 9.95337248562677e-06,
	"loss": 0.813,
	"mean_token_accuracy": 0.7606404304504395,
	"step": 4325
	},
	{
	"epoch": 0.796395070811109,
	"grad_norm": 0.9520723107616024,
	"learning_rate": 9.910620250408654e-06,
	"loss": 0.8219,
	"mean_token_accuracy": 0.7527819633483886,
	"step": 4330
	},
	{
	"epoch": 0.7973146956041934,
	"grad_norm": 0.9957772801943348,
	"learning_rate": 9.868030700857786e-06,
	"loss": 0.8527,
	"mean_token_accuracy": 0.7474417209625244,
	"step": 4335
	},
	{
	"epoch": 0.7982343203972779,
	"grad_norm": 0.9206334782903142,
	"learning_rate": 9.825604230888534e-06,
	"loss": 0.8013,
	"mean_token_accuracy": 0.7611706376075744,
	"step": 4340
	},
	{
	"epoch": 0.7991539451903623,
	"grad_norm": 0.9528692345244755,
	"learning_rate": 9.783341232906929e-06,
	"loss": 0.8452,
	"mean_token_accuracy": 0.7476886630058288,
	"step": 4345
	},
	{
	"epoch": 0.8000735699834468,
	"grad_norm": 0.9501814513029114,
	"learning_rate": 9.741242097807015e-06,
	"loss": 0.7998,
	"mean_token_accuracy": 0.7616806149482727,
	"step": 4350
	},
	{
	"epoch": 0.8009931947765312,
	"grad_norm": 0.9162860642484046,
	"learning_rate": 9.699307214967278e-06,
	"loss": 0.8154,
	"mean_token_accuracy": 0.7584839701652527,
	"step": 4355
	},
	{
	"epoch": 0.8019128195696156,
	"grad_norm": 1.0326738672670173,
	"learning_rate": 9.657536972247011e-06,
	"loss": 0.8364,
	"mean_token_accuracy": 0.7505152702331543,
	"step": 4360
	},
	{
	"epoch": 0.8028324443627001,
	"grad_norm": 0.9226495279325524,
	"learning_rate": 9.615931755982732e-06,
	"loss": 0.8249,
	"mean_token_accuracy": 0.7548305869102478,
	"step": 4365
	},
	{
	"epoch": 0.8037520691557845,
	"grad_norm": 0.9998522862414826,
	"learning_rate": 9.574491950984617e-06,
	"loss": 0.8713,
	"mean_token_accuracy": 0.7403565168380737,
	"step": 4370
	},
	{
	"epoch": 0.8046716939488688,
	"grad_norm": 0.9493513097435586,
	"learning_rate": 9.533217940532952e-06,
	"loss": 0.8295,
	"mean_token_accuracy": 0.7500657081604004,
	"step": 4375
	},
	{
	"epoch": 0.8055913187419533,
	"grad_norm": 0.9906056177459279,
	"learning_rate": 9.492110106374562e-06,
	"loss": 0.7962,
	"mean_token_accuracy": 0.7624237060546875,
	"step": 4380
	},
	{
	"epoch": 0.8065109435350377,
	"grad_norm": 0.9844968670498593,
	"learning_rate": 9.451168828719293e-06,
	"loss": 0.7978,
	"mean_token_accuracy": 0.7625670194625854,
	"step": 4385
	},
	{
	"epoch": 0.8074305683281221,
	"grad_norm": 0.9677134975970255,
	"learning_rate": 9.410394486236498e-06,
	"loss": 0.8635,
	"mean_token_accuracy": 0.7404338598251343,
	"step": 4390
	},
	{
	"epoch": 0.8083501931212066,
	"grad_norm": 0.9239280726012725,
	"learning_rate": 9.369787456051545e-06,
	"loss": 0.8134,
	"mean_token_accuracy": 0.75517338514328,
	"step": 4395
	},
	{
	"epoch": 0.809269817914291,
	"grad_norm": 0.9448230478695528,
	"learning_rate": 9.329348113742293e-06,
	"loss": 0.8304,
	"mean_token_accuracy": 0.7514260888099671,
	"step": 4400
	},
	{
	"epoch": 0.8101894427073754,
	"grad_norm": 0.9454127260499946,
	"learning_rate": 9.289076833335659e-06,
	"loss": 0.8097,
	"mean_token_accuracy": 0.7581054925918579,
	"step": 4405
	},
	{
	"epoch": 0.8111090675004599,
	"grad_norm": 0.9492270487120692,
	"learning_rate": 9.24897398730414e-06,
	"loss": 0.8527,
	"mean_token_accuracy": 0.7465508818626404,
	"step": 4410
	},
	{
	"epoch": 0.8120286922935442,
	"grad_norm": 0.9570757946856893,
	"learning_rate": 9.209039946562354e-06,
	"loss": 0.8267,
	"mean_token_accuracy": 0.755340301990509,
	"step": 4415
	},
	{
	"epoch": 0.8129483170866286,
	"grad_norm": 0.9284190475550864,
	"learning_rate": 9.169275080463641e-06,
	"loss": 0.7752,
	"mean_token_accuracy": 0.7686259269714355,
	"step": 4420
	},
	{
	"epoch": 0.8138679418797131,
	"grad_norm": 0.9501950391649288,
	"learning_rate": 9.129679756796622e-06,
	"loss": 0.8111,
	"mean_token_accuracy": 0.7585479974746704,
	"step": 4425
	},
	{
	"epoch": 0.8147875666727975,
	"grad_norm": 0.9046262111625721,
	"learning_rate": 9.090254341781824e-06,
	"loss": 0.802,
	"mean_token_accuracy": 0.7600291728973388,
	"step": 4430
	},
	{
	"epoch": 0.8157071914658819,
	"grad_norm": 0.9379329497256937,
	"learning_rate": 9.05099920006824e-06,
	"loss": 0.8206,
	"mean_token_accuracy": 0.754150140285492,
	"step": 4435
	},
	{
	"epoch": 0.8166268162589664,
	"grad_norm": 0.9034131325499937,
	"learning_rate": 9.011914694730014e-06,
	"loss": 0.7971,
	"mean_token_accuracy": 0.7597368478775024,
	"step": 4440
	},
	{
	"epoch": 0.8175464410520508,
	"grad_norm": 0.9338149471790205,
	"learning_rate": 8.973001187263069e-06,
	"loss": 0.8184,
	"mean_token_accuracy": 0.7545792698860169,
	"step": 4445
	},
	{
	"epoch": 0.8184660658451351,
	"grad_norm": 0.9541079918085381,
	"learning_rate": 8.934259037581725e-06,
	"loss": 0.8097,
	"mean_token_accuracy": 0.7586872816085816,
	"step": 4450
	},
	{
	"epoch": 0.8193856906382196,
	"grad_norm": 0.9233023020738409,
	"learning_rate": 8.895688604015418e-06,
	"loss": 0.8276,
	"mean_token_accuracy": 0.7541133642196656,
	"step": 4455
	},
	{
	"epoch": 0.820305315431304,
	"grad_norm": 0.9312024884427347,
	"learning_rate": 8.857290243305372e-06,
	"loss": 0.8242,
	"mean_token_accuracy": 0.7540480494499207,
	"step": 4460
	},
	{
	"epoch": 0.8212249402243884,
	"grad_norm": 0.9636521068626411,
	"learning_rate": 8.819064310601274e-06,
	"loss": 0.827,
	"mean_token_accuracy": 0.754251503944397,
	"step": 4465
	},
	{
	"epoch": 0.8221445650174729,
	"grad_norm": 0.9594804588793242,
	"learning_rate": 8.78101115945803e-06,
	"loss": 0.8195,
	"mean_token_accuracy": 0.7567231893539429,
	"step": 4470
	},
	{
	"epoch": 0.8230641898105573,
	"grad_norm": 0.946382911890805,
	"learning_rate": 8.743131141832466e-06,
	"loss": 0.8093,
	"mean_token_accuracy": 0.7608936429023743,
	"step": 4475
	},
	{
	"epoch": 0.8239838146036417,
	"grad_norm": 0.9662210178630657,
	"learning_rate": 8.705424608080091e-06,
	"loss": 0.845,
	"mean_token_accuracy": 0.7482501983642578,
	"step": 4480
	},
	{
	"epoch": 0.8249034393967262,
	"grad_norm": 1.0134277900865423,
	"learning_rate": 8.667891906951822e-06,
	"loss": 0.806,
	"mean_token_accuracy": 0.7607534885406494,
	"step": 4485
	},
	{
	"epoch": 0.8258230641898106,
	"grad_norm": 0.969259829449015,
	"learning_rate": 8.63053338559081e-06,
	"loss": 0.8301,
	"mean_token_accuracy": 0.7495483517646789,
	"step": 4490
	},
	{
	"epoch": 0.8267426889828949,
	"grad_norm": 0.973132836806053,
	"learning_rate": 8.593349389529194e-06,
	"loss": 0.8412,
	"mean_token_accuracy": 0.7499716639518738,
	"step": 4495
	},
	{
	"epoch": 0.8276623137759794,
	"grad_norm": 0.9074516956073079,
	"learning_rate": 8.556340262684901e-06,
	"loss": 0.8239,
	"mean_token_accuracy": 0.7554465770721436,
	"step": 4500
	},
	{
	"epoch": 0.8285819385690638,
	"grad_norm": 0.930234934487542,
	"learning_rate": 8.519506347358495e-06,
	"loss": 0.7947,
	"mean_token_accuracy": 0.7629730701446533,
	"step": 4505
	},
	{
	"epoch": 0.8295015633621482,
	"grad_norm": 0.8753133502304897,
	"learning_rate": 8.482847984229992e-06,
	"loss": 0.8461,
	"mean_token_accuracy": 0.747829282283783,
	"step": 4510
	},
	{
	"epoch": 0.8304211881552327,
	"grad_norm": 0.9490806269639048,
	"learning_rate": 8.446365512355697e-06,
	"loss": 0.809,
	"mean_token_accuracy": 0.7590258955955506,
	"step": 4515
	},
	{
	"epoch": 0.8313408129483171,
	"grad_norm": 0.945014272705201,
	"learning_rate": 8.410059269165094e-06,
	"loss": 0.858,
	"mean_token_accuracy": 0.7476967573165894,
	"step": 4520
	},
	{
	"epoch": 0.8322604377414015,
	"grad_norm": 0.9585805628825262,
	"learning_rate": 8.37392959045771e-06,
	"loss": 0.8276,
	"mean_token_accuracy": 0.7536361336708068,
	"step": 4525
	},
	{
	"epoch": 0.833180062534486,
	"grad_norm": 0.9798760065535969,
	"learning_rate": 8.337976810400024e-06,
	"loss": 0.8271,
	"mean_token_accuracy": 0.7538176774978638,
	"step": 4530
	},
	{
	"epoch": 0.8340996873275703,
	"grad_norm": 0.9885247811188054,
	"learning_rate": 8.30220126152233e-06,
	"loss": 0.8351,
	"mean_token_accuracy": 0.7511208415031433,
	"step": 4535
	},
	{
	"epoch": 0.8350193121206547,
	"grad_norm": 0.926636431875522,
	"learning_rate": 8.266603274715734e-06,
	"loss": 0.8536,
	"mean_token_accuracy": 0.7437230348587036,
	"step": 4540
	},
	{
	"epoch": 0.8359389369137392,
	"grad_norm": 0.9639989728106565,
	"learning_rate": 8.231183179229041e-06,
	"loss": 0.8337,
	"mean_token_accuracy": 0.749656867980957,
	"step": 4545
	},
	{
	"epoch": 0.8368585617068236,
	"grad_norm": 0.9810922714927505,
	"learning_rate": 8.19594130266571e-06,
	"loss": 0.8441,
	"mean_token_accuracy": 0.7471103310585022,
	"step": 4550
	},
	{
	"epoch": 0.837778186499908,
	"grad_norm": 0.940673214702186,
	"learning_rate": 8.16087797098086e-06,
	"loss": 0.8076,
	"mean_token_accuracy": 0.757796049118042,
	"step": 4555
	},
	{
	"epoch": 0.8386978112929925,
	"grad_norm": 0.9808241732647448,
	"learning_rate": 8.125993508478222e-06,
	"loss": 0.8107,
	"mean_token_accuracy": 0.7570709705352783,
	"step": 4560
	},
	{
	"epoch": 0.8396174360860769,
	"grad_norm": 0.9417309972023068,
	"learning_rate": 8.091288237807148e-06,
	"loss": 0.7918,
	"mean_token_accuracy": 0.7627918124198914,
	"step": 4565
	},
	{
	"epoch": 0.8405370608791614,
	"grad_norm": 0.9994759897340699,
	"learning_rate": 8.05676247995964e-06,
	"loss": 0.8308,
	"mean_token_accuracy": 0.7522749185562134,
	"step": 4570
	},
	{
	"epoch": 0.8414566856722457,
	"grad_norm": 0.9575333123064316,
	"learning_rate": 8.022416554267361e-06,
	"loss": 0.8249,
	"mean_token_accuracy": 0.7555456757545471,
	"step": 4575
	},
	{
	"epoch": 0.8423763104653301,
	"grad_norm": 0.9428369551875321,
	"learning_rate": 7.988250778398704e-06,
	"loss": 0.7799,
	"mean_token_accuracy": 0.7657583713531494,
	"step": 4580
	},
	{
	"epoch": 0.8432959352584146,
	"grad_norm": 0.9491493130691244,
	"learning_rate": 7.95426546835582e-06,
	"loss": 0.8463,
	"mean_token_accuracy": 0.7497212409973144,
	"step": 4585
	},
	{
	"epoch": 0.844215560051499,
	"grad_norm": 0.9279119840497574,
	"learning_rate": 7.92046093847173e-06,
	"loss": 0.7911,
	"mean_token_accuracy": 0.7641847729682922,
	"step": 4590
	},
	{
	"epoch": 0.8451351848445834,
	"grad_norm": 0.975196157389162,
	"learning_rate": 7.88683750140741e-06,
	"loss": 0.7829,
	"mean_token_accuracy": 0.76539067029953,
	"step": 4595
	},
	{
	"epoch": 0.8460548096376679,
	"grad_norm": 0.9630038826041202,
	"learning_rate": 7.853395468148877e-06,
	"loss": 0.8214,
	"mean_token_accuracy": 0.7576993346214295,
	"step": 4600
	},
	{
	"epoch": 0.8469744344307523,
	"grad_norm": 0.9547194790847711,
	"learning_rate": 7.82013514800434e-06,
	"loss": 0.8133,
	"mean_token_accuracy": 0.7594569325447083,
	"step": 4605
	},
	{
	"epoch": 0.8478940592238366,
	"grad_norm": 0.9804442806928446,
	"learning_rate": 7.787056848601327e-06,
	"loss": 0.826,
	"mean_token_accuracy": 0.7542958974838256,
	"step": 4610
	},
	{
	"epoch": 0.8488136840169211,
	"grad_norm": 0.987211519153664,
	"learning_rate": 7.754160875883835e-06,
	"loss": 0.859,
	"mean_token_accuracy": 0.7447464466094971,
	"step": 4615
	},
	{
	"epoch": 0.8497333088100055,
	"grad_norm": 0.9279113898182684,
	"learning_rate": 7.721447534109509e-06,
	"loss": 0.8318,
	"mean_token_accuracy": 0.7507144689559937,
	"step": 4620
	},
	{
	"epoch": 0.8506529336030899,
	"grad_norm": 0.9722340874170035,
	"learning_rate": 7.688917125846836e-06,
	"loss": 0.8354,
	"mean_token_accuracy": 0.7506987690925598,
	"step": 4625
	},
	{
	"epoch": 0.8515725583961744,
	"grad_norm": 0.9470559135859266,
	"learning_rate": 7.65656995197231e-06,
	"loss": 0.846,
	"mean_token_accuracy": 0.7494428992271424,
	"step": 4630
	},
	{
	"epoch": 0.8524921831892588,
	"grad_norm": 1.0085786438496558,
	"learning_rate": 7.6244063116676965e-06,
	"loss": 0.8048,
	"mean_token_accuracy": 0.7590271830558777,
	"step": 4635
	},
	{
	"epoch": 0.8534118079823432,
	"grad_norm": 0.9122173396588265,
	"learning_rate": 7.592426502417235e-06,
	"loss": 0.792,
	"mean_token_accuracy": 0.7632818222045898,
	"step": 4640
	},
	{
	"epoch": 0.8543314327754277,
	"grad_norm": 0.920428242471814,
	"learning_rate": 7.560630820004905e-06,
	"loss": 0.7682,
	"mean_token_accuracy": 0.768799901008606,
	"step": 4645
	},
	{
	"epoch": 0.855251057568512,
	"grad_norm": 0.9650658819203722,
	"learning_rate": 7.529019558511664e-06,
	"loss": 0.8591,
	"mean_token_accuracy": 0.7465671896934509,
	"step": 4650
	},
	{
	"epoch": 0.8561706823615964,
	"grad_norm": 0.941100631374564,
	"learning_rate": 7.4975930103127575e-06,
	"loss": 0.8133,
	"mean_token_accuracy": 0.7577845811843872,
	"step": 4655
	},
	{
	"epoch": 0.8570903071546809,
	"grad_norm": 0.911355294655365,
	"learning_rate": 7.466351466075003e-06,
	"loss": 0.776,
	"mean_token_accuracy": 0.7704600811004638,
	"step": 4660
	},
	{
	"epoch": 0.8580099319477653,
	"grad_norm": 0.9600196890925632,
	"learning_rate": 7.43529521475409e-06,
	"loss": 0.8356,
	"mean_token_accuracy": 0.752436888217926,
	"step": 4665
	},
	{
	"epoch": 0.8589295567408497,
	"grad_norm": 0.9096404947618868,
	"learning_rate": 7.404424543591926e-06,
	"loss": 0.8434,
	"mean_token_accuracy": 0.749167013168335,
	"step": 4670
	},
	{
	"epoch": 0.8598491815339342,
	"grad_norm": 0.9645413054824178,
	"learning_rate": 7.37373973811398e-06,
	"loss": 0.8422,
	"mean_token_accuracy": 0.7523573756217956,
	"step": 4675
	},
	{
	"epoch": 0.8607688063270186,
	"grad_norm": 0.9461536188211753,
	"learning_rate": 7.343241082126609e-06,
	"loss": 0.789,
	"mean_token_accuracy": 0.7644837021827697,
	"step": 4680
	},
	{
	"epoch": 0.861688431120103,
	"grad_norm": 0.9177981778366934,
	"learning_rate": 7.312928857714484e-06,
	"loss": 0.7912,
	"mean_token_accuracy": 0.7650796055793763,
	"step": 4685
	},
	{
	"epoch": 0.8626080559131875,
	"grad_norm": 0.9395263274096144,
	"learning_rate": 7.282803345237937e-06,
	"loss": 0.779,
	"mean_token_accuracy": 0.766014575958252,
	"step": 4690
	},
	{
	"epoch": 0.8635276807062718,
	"grad_norm": 0.974228845887035,
	"learning_rate": 7.252864823330397e-06,
	"loss": 0.8096,
	"mean_token_accuracy": 0.7609816431999207,
	"step": 4695
	},
	{
	"epoch": 0.8644473054993562,
	"grad_norm": 0.9138771854988429,
	"learning_rate": 7.223113568895791e-06,
	"loss": 0.8228,
	"mean_token_accuracy": 0.7533741354942322,
	"step": 4700
	},
	{
	"epoch": 0.8653669302924407,
	"grad_norm": 0.9230858356341091,
	"learning_rate": 7.193549857105998e-06,
	"loss": 0.7817,
	"mean_token_accuracy": 0.7645957589149475,
	"step": 4705
	},
	{
	"epoch": 0.8662865550855251,
	"grad_norm": 0.9248959407091435,
	"learning_rate": 7.164173961398307e-06,
	"loss": 0.8123,
	"mean_token_accuracy": 0.758608341217041,
	"step": 4710
	},
	{
	"epoch": 0.8672061798786095,
	"grad_norm": 0.920957739245226,
	"learning_rate": 7.134986153472864e-06,
	"loss": 0.8089,
	"mean_token_accuracy": 0.7574970960617066,
	"step": 4715
	},
	{
	"epoch": 0.868125804671694,
	"grad_norm": 0.9365387305302294,
	"learning_rate": 7.105986703290185e-06,
	"loss": 0.8207,
	"mean_token_accuracy": 0.7519280552864075,
	"step": 4720
	},
	{
	"epoch": 0.8690454294647784,
	"grad_norm": 0.9848472191309555,
	"learning_rate": 7.077175879068652e-06,
	"loss": 0.8318,
	"mean_token_accuracy": 0.7514313578605651,
	"step": 4725
	},
	{
	"epoch": 0.8699650542578627,
	"grad_norm": 0.9841439973977463,
	"learning_rate": 7.04855394728202e-06,
	"loss": 0.8254,
	"mean_token_accuracy": 0.7536401510238647,
	"step": 4730
	},
	{
	"epoch": 0.8708846790509472,
	"grad_norm": 0.9368690483918741,
	"learning_rate": 7.020121172656971e-06,
	"loss": 0.8079,
	"mean_token_accuracy": 0.7589451789855957,
	"step": 4735
	},
	{
	"epoch": 0.8718043038440316,
	"grad_norm": 0.9537367969880632,
	"learning_rate": 6.991877818170647e-06,
	"loss": 0.8105,
	"mean_token_accuracy": 0.7570921540260315,
	"step": 4740
	},
	{
	"epoch": 0.872723928637116,
	"grad_norm": 0.9771290706741976,
	"learning_rate": 6.963824145048245e-06,
	"loss": 0.8383,
	"mean_token_accuracy": 0.7482818961143494,
	"step": 4745
	},
	{
	"epoch": 0.8736435534302005,
	"grad_norm": 0.9167489506515816,
	"learning_rate": 6.935960412760554e-06,
	"loss": 0.7956,
	"mean_token_accuracy": 0.7615381121635437,
	"step": 4750
	},
	{
	"epoch": 0.8745631782232849,
	"grad_norm": 0.9509142520738616,
	"learning_rate": 6.908286879021611e-06,
	"loss": 0.8272,
	"mean_token_accuracy": 0.7538857817649841,
	"step": 4755
	},
	{
	"epoch": 0.8754828030163693,
	"grad_norm": 0.9492010037774332,
	"learning_rate": 6.880803799786282e-06,
	"loss": 0.8083,
	"mean_token_accuracy": 0.7596304178237915,
	"step": 4760
	},
	{
	"epoch": 0.8764024278094538,
	"grad_norm": 0.9879455089380224,
	"learning_rate": 6.853511429247891e-06,
	"loss": 0.8501,
	"mean_token_accuracy": 0.7443594694137573,
	"step": 4765
	},
	{
	"epoch": 0.8773220526025381,
	"grad_norm": 0.900884905164465,
	"learning_rate": 6.826410019835897e-06,
	"loss": 0.8388,
	"mean_token_accuracy": 0.75017911195755,
	"step": 4770
	},
	{
	"epoch": 0.8782416773956225,
	"grad_norm": 0.9347399353088925,
	"learning_rate": 6.7994998222135415e-06,
	"loss": 0.8338,
	"mean_token_accuracy": 0.7503747582435608,
	"step": 4775
	},
	{
	"epoch": 0.879161302188707,
	"grad_norm": 0.9313447849733553,
	"learning_rate": 6.77278108527552e-06,
	"loss": 0.8223,
	"mean_token_accuracy": 0.7531881928443909,
	"step": 4780
	},
	{
	"epoch": 0.8800809269817914,
	"grad_norm": 0.9749122247147805,
	"learning_rate": 6.7462540561457035e-06,
	"loss": 0.8078,
	"mean_token_accuracy": 0.7597910761833191,
	"step": 4785
	},
	{
	"epoch": 0.8810005517748758,
	"grad_norm": 0.9459726297921652,
	"learning_rate": 6.719918980174842e-06,
	"loss": 0.7735,
	"mean_token_accuracy": 0.7680148124694824,
	"step": 4790
	},
	{
	"epoch": 0.8819201765679603,
	"grad_norm": 0.9477334526426899,
	"learning_rate": 6.6937761009382816e-06,
	"loss": 0.8025,
	"mean_token_accuracy": 0.759226131439209,
	"step": 4795
	},
	{
	"epoch": 0.8828398013610447,
	"grad_norm": 0.9350684746914302,
	"learning_rate": 6.667825660233736e-06,
	"loss": 0.8141,
	"mean_token_accuracy": 0.7565145611763,
	"step": 4800
	},
	{
	"epoch": 0.8837594261541292,
	"grad_norm": 0.9492764392082258,
	"learning_rate": 6.642067898079038e-06,
	"loss": 0.8311,
	"mean_token_accuracy": 0.7527845025062561,
	"step": 4805
	},
	{
	"epoch": 0.8846790509472136,
	"grad_norm": 0.8598768439927121,
	"learning_rate": 6.616503052709914e-06,
	"loss": 0.7896,
	"mean_token_accuracy": 0.7648340344429017,
	"step": 4810
	},
	{
	"epoch": 0.8855986757402979,
	"grad_norm": 0.9446656437839204,
	"learning_rate": 6.591131360577795e-06,
	"loss": 0.8052,
	"mean_token_accuracy": 0.7575154542922974,
	"step": 4815
	},
	{
	"epoch": 0.8865183005333824,
	"grad_norm": 0.8652514268793213,
	"learning_rate": 6.565953056347608e-06,
	"loss": 0.7534,
	"mean_token_accuracy": 0.7725171089172364,
	"step": 4820
	},
	{
	"epoch": 0.8874379253264668,
	"grad_norm": 0.9422431334861092,
	"learning_rate": 6.540968372895634e-06,
	"loss": 0.7977,
	"mean_token_accuracy": 0.7611649394035339,
	"step": 4825
	},
	{
	"epoch": 0.8883575501195512,
	"grad_norm": 0.9384703132768932,
	"learning_rate": 6.516177541307333e-06,
	"loss": 0.7995,
	"mean_token_accuracy": 0.7624763369560241,
	"step": 4830
	},
	{
	"epoch": 0.8892771749126357,
	"grad_norm": 1.015847599195386,
	"learning_rate": 6.491580790875209e-06,
	"loss": 0.7916,
	"mean_token_accuracy": 0.7621793508529663,
	"step": 4835
	},
	{
	"epoch": 0.8901967997057201,
	"grad_norm": 0.9098096698494834,
	"learning_rate": 6.4671783490966945e-06,
	"loss": 0.8088,
	"mean_token_accuracy": 0.7614699125289917,
	"step": 4840
	},
	{
	"epoch": 0.8911164244988045,
	"grad_norm": 0.9558674059824713,
	"learning_rate": 6.442970441672051e-06,
	"loss": 0.8545,
	"mean_token_accuracy": 0.7470506310462952,
	"step": 4845
	},
	{
	"epoch": 0.892036049291889,
	"grad_norm": 0.9590352976202275,
	"learning_rate": 6.4189572925022655e-06,
	"loss": 0.8363,
	"mean_token_accuracy": 0.7472939848899841,
	"step": 4850
	},
	{
	"epoch": 0.8929556740849733,
	"grad_norm": 0.8982751392912057,
	"learning_rate": 6.3951391236869985e-06,
	"loss": 0.8259,
	"mean_token_accuracy": 0.7548177719116211,
	"step": 4855
	},
	{
	"epoch": 0.8938752988780577,
	"grad_norm": 0.9627549202883984,
	"learning_rate": 6.371516155522513e-06,
	"loss": 0.8035,
	"mean_token_accuracy": 0.7578222513198852,
	"step": 4860
	},
	{
	"epoch": 0.8947949236711422,
	"grad_norm": 0.962995623951893,
	"learning_rate": 6.3480886064996484e-06,
	"loss": 0.8119,
	"mean_token_accuracy": 0.7579006910324096,
	"step": 4865
	},
	{
	"epoch": 0.8957145484642266,
	"grad_norm": 0.99045632467858,
	"learning_rate": 6.3248566933017975e-06,
	"loss": 0.7942,
	"mean_token_accuracy": 0.75965256690979,
	"step": 4870
	},
	{
	"epoch": 0.896634173257311,
	"grad_norm": 0.9510071830298487,
	"learning_rate": 6.3018206308028975e-06,
	"loss": 0.8185,
	"mean_token_accuracy": 0.7584743499755859,
	"step": 4875
	},
	{
	"epoch": 0.8975537980503955,
	"grad_norm": 0.9703791789576997,
	"learning_rate": 6.2789806320654456e-06,
	"loss": 0.7816,
	"mean_token_accuracy": 0.7649904489517212,
	"step": 4880
	},
	{
	"epoch": 0.8984734228434799,
	"grad_norm": 0.9398378664335288,
	"learning_rate": 6.256336908338531e-06,
	"loss": 0.78,
	"mean_token_accuracy": 0.767956817150116,
	"step": 4885
	},
	{
	"epoch": 0.8993930476365642,
	"grad_norm": 0.987114293205303,
	"learning_rate": 6.233889669055878e-06,
	"loss": 0.8443,
	"mean_token_accuracy": 0.7497469425201416,
	"step": 4890
	},
	{
	"epoch": 0.9003126724296487,
	"grad_norm": 0.9343500174042304,
	"learning_rate": 6.211639121833912e-06,
	"loss": 0.7931,
	"mean_token_accuracy": 0.763602340221405,
	"step": 4895
	},
	{
	"epoch": 0.9012322972227331,
	"grad_norm": 0.9262644956755969,
	"learning_rate": 6.189585472469829e-06,
	"loss": 0.7792,
	"mean_token_accuracy": 0.7697998642921448,
	"step": 4900
	},
	{
	"epoch": 0.9021519220158175,
	"grad_norm": 0.9622834108867682,
	"learning_rate": 6.167728924939705e-06,
	"loss": 0.797,
	"mean_token_accuracy": 0.7625941157341003,
	"step": 4905
	},
	{
	"epoch": 0.903071546808902,
	"grad_norm": 0.9190192726730757,
	"learning_rate": 6.146069681396612e-06,
	"loss": 0.8253,
	"mean_token_accuracy": 0.7542304992675781,
	"step": 4910
	},
	{
	"epoch": 0.9039911716019864,
	"grad_norm": 0.9361246140345745,
	"learning_rate": 6.124607942168726e-06,
	"loss": 0.8031,
	"mean_token_accuracy": 0.7584469556808472,
	"step": 4915
	},
	{
	"epoch": 0.9049107963950708,
	"grad_norm": 0.9457716726884055,
	"learning_rate": 6.1033439057574965e-06,
	"loss": 0.8153,
	"mean_token_accuracy": 0.758701741695404,
	"step": 4920
	},
	{
	"epoch": 0.9058304211881553,
	"grad_norm": 0.8853750515926242,
	"learning_rate": 6.082277768835807e-06,
	"loss": 0.7921,
	"mean_token_accuracy": 0.763675856590271,
	"step": 4925
	},
	{
	"epoch": 0.9067500459812396,
	"grad_norm": 0.9702784866596219,
	"learning_rate": 6.061409726246143e-06,
	"loss": 0.7851,
	"mean_token_accuracy": 0.7646818399429322,
	"step": 4930
	},
	{
	"epoch": 0.907669670774324,
	"grad_norm": 0.9693421985103569,
	"learning_rate": 6.040739970998802e-06,
	"loss": 0.8346,
	"mean_token_accuracy": 0.7530786991119385,
	"step": 4935
	},
	{
	"epoch": 0.9085892955674085,
	"grad_norm": 0.8930655347204544,
	"learning_rate": 6.020268694270109e-06,
	"loss": 0.7966,
	"mean_token_accuracy": 0.7641753435134888,
	"step": 4940
	},
	{
	"epoch": 0.9095089203604929,
	"grad_norm": 0.908390221485836,
	"learning_rate": 5.999996085400643e-06,
	"loss": 0.7995,
	"mean_token_accuracy": 0.7642928123474121,
	"step": 4945
	},
	{
	"epoch": 0.9104285451535773,
	"grad_norm": 0.9291773666129768,
	"learning_rate": 5.9799223318934765e-06,
	"loss": 0.801,
	"mean_token_accuracy": 0.7588168382644653,
	"step": 4950
	},
	{
	"epoch": 0.9113481699466618,
	"grad_norm": 0.9290002720904244,
	"learning_rate": 5.9600476194124675e-06,
	"loss": 0.7973,
	"mean_token_accuracy": 0.763935673236847,
	"step": 4955
	},
	{
	"epoch": 0.9122677947397462,
	"grad_norm": 0.9446442087955222,
	"learning_rate": 5.9403721317805245e-06,
	"loss": 0.801,
	"mean_token_accuracy": 0.7578533172607422,
	"step": 4960
	},
	{
	"epoch": 0.9131874195328306,
	"grad_norm": 0.9568316679901518,
	"learning_rate": 5.920896050977891e-06,
	"loss": 0.8926,
	"mean_token_accuracy": 0.7361096501350403,
	"step": 4965
	},
	{
	"epoch": 0.914107044325915,
	"grad_norm": 0.9761363167639366,
	"learning_rate": 5.901619557140502e-06,
	"loss": 0.8302,
	"mean_token_accuracy": 0.7517902731895447,
	"step": 4970
	},
	{
	"epoch": 0.9150266691189994,
	"grad_norm": 0.9363921634925068,
	"learning_rate": 5.882542828558286e-06,
	"loss": 0.8066,
	"mean_token_accuracy": 0.7580497026443481,
	"step": 4975
	},
	{
	"epoch": 0.9159462939120838,
	"grad_norm": 0.9898749363112332,
	"learning_rate": 5.86366604167352e-06,
	"loss": 0.7785,
	"mean_token_accuracy": 0.7676722645759583,
	"step": 4980
	},
	{
	"epoch": 0.9168659187051683,
	"grad_norm": 0.9461120512925497,
	"learning_rate": 5.844989371079215e-06,
	"loss": 0.7655,
	"mean_token_accuracy": 0.7703205943107605,
	"step": 4985
	},
	{
	"epoch": 0.9177855434982527,
	"grad_norm": 0.9340964548547984,
	"learning_rate": 5.826512989517478e-06,
	"loss": 0.8243,
	"mean_token_accuracy": 0.7529069542884826,
	"step": 4990
	},
	{
	"epoch": 0.9187051682913371,
	"grad_norm": 0.9542091804584825,
	"learning_rate": 5.808237067877942e-06,
	"loss": 0.7869,
	"mean_token_accuracy": 0.7639023303985596,
	"step": 4995
	},
	{
	"epoch": 0.9196247930844216,
	"grad_norm": 0.9799469338180448,
	"learning_rate": 5.790161775196144e-06,
	"loss": 0.7942,
	"mean_token_accuracy": 0.7624092340469361,
	"step": 5000
	},
	{
	"epoch": 0.920544417877506,
	"grad_norm": 0.9533254080832144,
	"learning_rate": 5.772287278652012e-06,
	"loss": 0.8109,
	"mean_token_accuracy": 0.7598010182380677,
	"step": 5005
	},
	{
	"epoch": 0.9214640426705903,
	"grad_norm": 0.9311527277134242,
	"learning_rate": 5.754613743568279e-06,
	"loss": 0.7906,
	"mean_token_accuracy": 0.7638931751251221,
	"step": 5010
	},
	{
	"epoch": 0.9223836674636748,
	"grad_norm": 0.9812836116539834,
	"learning_rate": 5.737141333408972e-06,
	"loss": 0.8008,
	"mean_token_accuracy": 0.7612162590026855,
	"step": 5015
	},
	{
	"epoch": 0.9233032922567592,
	"grad_norm": 0.9745443553849291,
	"learning_rate": 5.719870209777896e-06,
	"loss": 0.8417,
	"mean_token_accuracy": 0.7509512066841125,
	"step": 5020
	},
	{
	"epoch": 0.9242229170498437,
	"grad_norm": 0.9530895065948418,
	"learning_rate": 5.702800532417144e-06,
	"loss": 0.7899,
	"mean_token_accuracy": 0.7625620007514954,
	"step": 5025
	},
	{
	"epoch": 0.9251425418429281,
	"grad_norm": 0.9106620317823355,
	"learning_rate": 5.685932459205606e-06,
	"loss": 0.8075,
	"mean_token_accuracy": 0.7597783088684082,
	"step": 5030
	},
	{
	"epoch": 0.9260621666360125,
	"grad_norm": 0.9016062622069709,
	"learning_rate": 5.669266146157527e-06,
	"loss": 0.7956,
	"mean_token_accuracy": 0.7618203997612,
	"step": 5035
	},
	{
	"epoch": 0.926981791429097,
	"grad_norm": 0.9311871037406105,
	"learning_rate": 5.652801747421053e-06,
	"loss": 0.7755,
	"mean_token_accuracy": 0.7672530770301819,
	"step": 5040
	},
	{
	"epoch": 0.9279014162221814,
	"grad_norm": 0.9289149914362874,
	"learning_rate": 5.636539415276807e-06,
	"loss": 0.7971,
	"mean_token_accuracy": 0.7606992840766906,
	"step": 5045
	},
	{
	"epoch": 0.9288210410152657,
	"grad_norm": 0.9265920738234094,
	"learning_rate": 5.620479300136475e-06,
	"loss": 0.7675,
	"mean_token_accuracy": 0.7715546011924743,
	"step": 5050
	},
	{
	"epoch": 0.9297406658083502,
	"grad_norm": 1.001963123510446,
	"learning_rate": 5.604621550541429e-06,
	"loss": 0.8426,
	"mean_token_accuracy": 0.7474547743797302,
	"step": 5055
	},
	{
	"epoch": 0.9306602906014346,
	"grad_norm": 0.9062392197653472,
	"learning_rate": 5.5889663131613465e-06,
	"loss": 0.8237,
	"mean_token_accuracy": 0.7512851595878601,
	"step": 5060
	},
	{
	"epoch": 0.931579915394519,
	"grad_norm": 0.9878466692235598,
	"learning_rate": 5.5735137327928384e-06,
	"loss": 0.8018,
	"mean_token_accuracy": 0.7595331549644471,
	"step": 5065
	},
	{
	"epoch": 0.9324995401876035,
	"grad_norm": 0.911756127989921,
	"learning_rate": 5.558263952358139e-06,
	"loss": 0.8146,
	"mean_token_accuracy": 0.7572713255882263,
	"step": 5070
	},
	{
	"epoch": 0.9334191649806879,
	"grad_norm": 0.9534452188147857,
	"learning_rate": 5.543217112903766e-06,
	"loss": 0.8092,
	"mean_token_accuracy": 0.7591339111328125,
	"step": 5075
	},
	{
	"epoch": 0.9343387897737723,
	"grad_norm": 0.94136690175154,
	"learning_rate": 5.528373353599207e-06,
	"loss": 0.7945,
	"mean_token_accuracy": 0.7594197154045105,
	"step": 5080
	},
	{
	"epoch": 0.9352584145668568,
	"grad_norm": 0.9367268234664168,
	"learning_rate": 5.513732811735657e-06,
	"loss": 0.8123,
	"mean_token_accuracy": 0.7594240307807922,
	"step": 5085
	},
	{
	"epoch": 0.9361780393599411,
	"grad_norm": 0.8975989192963018,
	"learning_rate": 5.4992956227247345e-06,
	"loss": 0.7715,
	"mean_token_accuracy": 0.7677939176559448,
	"step": 5090
	},
	{
	"epoch": 0.9370976641530255,
	"grad_norm": 0.9987125543689239,
	"learning_rate": 5.48506192009722e-06,
	"loss": 0.8051,
	"mean_token_accuracy": 0.7597865104675293,
	"step": 5095
	},
	{
	"epoch": 0.93801728894611,
	"grad_norm": 0.9396093256392507,
	"learning_rate": 5.4710318355018435e-06,
	"loss": 0.8248,
	"mean_token_accuracy": 0.7557710766792297,
	"step": 5100
	},
	{
	"epoch": 0.9389369137391944,
	"grad_norm": 0.907072734656757,
	"learning_rate": 5.457205498704046e-06,
	"loss": 0.8104,
	"mean_token_accuracy": 0.7568627595901489,
	"step": 5105
	},
	{
	"epoch": 0.9398565385322788,
	"grad_norm": 0.9498606808400206,
	"learning_rate": 5.443583037584792e-06,
	"loss": 0.829,
	"mean_token_accuracy": 0.7537372469902038,
	"step": 5110
	},
	{
	"epoch": 0.9407761633253633,
	"grad_norm": 0.9500188031150016,
	"learning_rate": 5.430164578139382e-06,
	"loss": 0.771,
	"mean_token_accuracy": 0.7692322492599487,
	"step": 5115
	},
	{
	"epoch": 0.9416957881184477,
	"grad_norm": 0.9133488515736051,
	"learning_rate": 5.4169502444762836e-06,
	"loss": 0.8203,
	"mean_token_accuracy": 0.7578924179077149,
	"step": 5120
	},
	{
	"epoch": 0.9426154129115321,
	"grad_norm": 0.9585342004886042,
	"learning_rate": 5.403940158815996e-06,
	"loss": 0.8209,
	"mean_token_accuracy": 0.7570155620574951,
	"step": 5125
	},
	{
	"epoch": 0.9435350377046166,
	"grad_norm": 0.9797939933864984,
	"learning_rate": 5.391134441489905e-06,
	"loss": 0.7937,
	"mean_token_accuracy": 0.7618912696838379,
	"step": 5130
	},
	{
	"epoch": 0.9444546624977009,
	"grad_norm": 0.9293935572688817,
	"learning_rate": 5.378533210939176e-06,
	"loss": 0.7948,
	"mean_token_accuracy": 0.7596281886100769,
	"step": 5135
	},
	{
	"epoch": 0.9453742872907853,
	"grad_norm": 0.9221042858985046,
	"learning_rate": 5.366136583713665e-06,
	"loss": 0.7717,
	"mean_token_accuracy": 0.7698543071746826,
	"step": 5140
	},
	{
	"epoch": 0.9462939120838698,
	"grad_norm": 1.025946124148099,
	"learning_rate": 5.353944674470823e-06,
	"loss": 0.8213,
	"mean_token_accuracy": 0.7552660465240478,
	"step": 5145
	},
	{
	"epoch": 0.9472135368769542,
	"grad_norm": 0.984504169212397,
	"learning_rate": 5.341957595974662e-06,
	"loss": 0.8392,
	"mean_token_accuracy": 0.7498656630516052,
	"step": 5150
	},
	{
	"epoch": 0.9481331616700386,
	"grad_norm": 0.9188252633726173,
	"learning_rate": 5.3301754590946824e-06,
	"loss": 0.8166,
	"mean_token_accuracy": 0.7552522420883179,
	"step": 5155
	},
	{
	"epoch": 0.9490527864631231,
	"grad_norm": 0.8673224532160614,
	"learning_rate": 5.318598372804873e-06,
	"loss": 0.7689,
	"mean_token_accuracy": 0.7689907431602478,
	"step": 5160
	},
	{
	"epoch": 0.9499724112562075,
	"grad_norm": 0.9392909148393203,
	"learning_rate": 5.307226444182686e-06,
	"loss": 0.7877,
	"mean_token_accuracy": 0.7654459595680236,
	"step": 5165
	},
	{
	"epoch": 0.9508920360492918,
	"grad_norm": 1.0092515399603914,
	"learning_rate": 5.296059778408057e-06,
	"loss": 0.8228,
	"mean_token_accuracy": 0.7547815799713135,
	"step": 5170
	},
	{
	"epoch": 0.9518116608423763,
	"grad_norm": 0.9724478118701938,
	"learning_rate": 5.2850984787624264e-06,
	"loss": 0.8068,
	"mean_token_accuracy": 0.757933521270752,
	"step": 5175
	},
	{
	"epoch": 0.9527312856354607,
	"grad_norm": 0.9595437776833703,
	"learning_rate": 5.274342646627783e-06,
	"loss": 0.8612,
	"mean_token_accuracy": 0.7451163768768311,
	"step": 5180
	},
	{
	"epoch": 0.9536509104285451,
	"grad_norm": 0.9035621461181421,
	"learning_rate": 5.263792381485733e-06,
	"loss": 0.7942,
	"mean_token_accuracy": 0.7612574458122253,
	"step": 5185
	},
	{
	"epoch": 0.9545705352216296,
	"grad_norm": 0.9369759529937411,
	"learning_rate": 5.253447780916577e-06,
	"loss": 0.8199,
	"mean_token_accuracy": 0.755517327785492,
	"step": 5190
	},
	{
	"epoch": 0.955490160014714,
	"grad_norm": 0.9223279306007958,
	"learning_rate": 5.2433089405984e-06,
	"loss": 0.7855,
	"mean_token_accuracy": 0.7672001838684082,
	"step": 5195
	},
	{
	"epoch": 0.9564097848077984,
	"grad_norm": 0.9093658718364905,
	"learning_rate": 5.233375954306199e-06,
	"loss": 0.7588,
	"mean_token_accuracy": 0.7701982975006103,
	"step": 5200
	},
	{
	"epoch": 0.9573294096008829,
	"grad_norm": 0.9756234794282658,
	"learning_rate": 5.22364891391101e-06,
	"loss": 0.8294,
	"mean_token_accuracy": 0.75344318151474,
	"step": 5205
	},
	{
	"epoch": 0.9582490343939672,
	"grad_norm": 0.910212786589889,
	"learning_rate": 5.2141279093790575e-06,
	"loss": 0.7894,
	"mean_token_accuracy": 0.7678821444511413,
	"step": 5210
	},
	{
	"epoch": 0.9591686591870516,
	"grad_norm": 0.9474929875705357,
	"learning_rate": 5.204813028770913e-06,
	"loss": 0.7891,
	"mean_token_accuracy": 0.7625754833221435,
	"step": 5215
	},
	{
	"epoch": 0.9600882839801361,
	"grad_norm": 0.9344552952746554,
	"learning_rate": 5.195704358240704e-06,
	"loss": 0.8059,
	"mean_token_accuracy": 0.759453558921814,
	"step": 5220
	},
	{
	"epoch": 0.9610079087732205,
	"grad_norm": 0.9060367178226402,
	"learning_rate": 5.186801982035298e-06,
	"loss": 0.7846,
	"mean_token_accuracy": 0.7654222846031189,
	"step": 5225
	},
	{
	"epoch": 0.9619275335663049,
	"grad_norm": 0.9799737312884412,
	"learning_rate": 5.178105982493528e-06,
	"loss": 0.813,
	"mean_token_accuracy": 0.7591325879096985,
	"step": 5230
	},
	{
	"epoch": 0.9628471583593894,
	"grad_norm": 0.9419373863409995,
	"learning_rate": 5.169616440045433e-06,
	"loss": 0.7933,
	"mean_token_accuracy": 0.7605907201766968,
	"step": 5235
	},
	{
	"epoch": 0.9637667831524738,
	"grad_norm": 0.904753211539841,
	"learning_rate": 5.16133343321151e-06,
	"loss": 0.796,
	"mean_token_accuracy": 0.7628448724746704,
	"step": 5240
	},
	{
	"epoch": 0.9646864079455583,
	"grad_norm": 0.9588441625989744,
	"learning_rate": 5.1532570386019944e-06,
	"loss": 0.7746,
	"mean_token_accuracy": 0.7675014138221741,
	"step": 5245
	},
	{
	"epoch": 0.9656060327386427,
	"grad_norm": 0.8875696215604679,
	"learning_rate": 5.145387330916144e-06,
	"loss": 0.7988,
	"mean_token_accuracy": 0.7614070296287536,
	"step": 5250
	},
	{
	"epoch": 0.966525657531727,
	"grad_norm": 0.9405630235157387,
	"learning_rate": 5.137724382941557e-06,
	"loss": 0.7918,
	"mean_token_accuracy": 0.7650785088539124,
	"step": 5255
	},
	{
	"epoch": 0.9674452823248115,
	"grad_norm": 0.9562043810312459,
	"learning_rate": 5.130268265553487e-06,
	"loss": 0.8144,
	"mean_token_accuracy": 0.7557086706161499,
	"step": 5260
	},
	{
	"epoch": 0.9683649071178959,
	"grad_norm": 0.9274811086930055,
	"learning_rate": 5.123019047714198e-06,
	"loss": 0.7576,
	"mean_token_accuracy": 0.7753474235534668,
	"step": 5265
	},
	{
	"epoch": 0.9692845319109803,
	"grad_norm": 0.9409745943869224,
	"learning_rate": 5.115976796472322e-06,
	"loss": 0.8328,
	"mean_token_accuracy": 0.7535906672477722,
	"step": 5270
	},
	{
	"epoch": 0.9702041567040648,
	"grad_norm": 0.919927159373234,
	"learning_rate": 5.109141576962239e-06,
	"loss": 0.7912,
	"mean_token_accuracy": 0.7655844688415527,
	"step": 5275
	},
	{
	"epoch": 0.9711237814971492,
	"grad_norm": 0.951329112362283,
	"learning_rate": 5.102513452403473e-06,
	"loss": 0.7683,
	"mean_token_accuracy": 0.7696467399597168,
	"step": 5280
	},
	{
	"epoch": 0.9720434062902336,
	"grad_norm": 0.9201946233258363,
	"learning_rate": 5.0960924841001155e-06,
	"loss": 0.7988,
	"mean_token_accuracy": 0.7610312700271606,
	"step": 5285
	},
	{
	"epoch": 0.972963031083318,
	"grad_norm": 1.0032717462292577,
	"learning_rate": 5.089878731440241e-06,
	"loss": 0.821,
	"mean_token_accuracy": 0.7543939590454102,
	"step": 5290
	},
	{
	"epoch": 0.9738826558764024,
	"grad_norm": 0.9429172545610519,
	"learning_rate": 5.0838722518953816e-06,
	"loss": 0.7989,
	"mean_token_accuracy": 0.7595749855041504,
	"step": 5295
	},
	{
	"epoch": 0.9748022806694868,
	"grad_norm": 0.9007616401314099,
	"learning_rate": 5.078073101019974e-06,
	"loss": 0.8083,
	"mean_token_accuracy": 0.7579713940620423,
	"step": 5300
	},
	{
	"epoch": 0.9757219054625713,
	"grad_norm": 0.8990406462252963,
	"learning_rate": 5.072481332450857e-06,
	"loss": 0.8114,
	"mean_token_accuracy": 0.7577333807945251,
	"step": 5305
	},
	{
	"epoch": 0.9766415302556557,
	"grad_norm": 0.9615340254243923,
	"learning_rate": 5.067096997906774e-06,
	"loss": 0.7715,
	"mean_token_accuracy": 0.7705414056777954,
	"step": 5310
	},
	{
	"epoch": 0.9775611550487401,
	"grad_norm": 0.8455749234692341,
	"learning_rate": 5.06192014718789e-06,
	"loss": 0.7642,
	"mean_token_accuracy": 0.7697661995887757,
	"step": 5315
	},
	{
	"epoch": 0.9784807798418246,
	"grad_norm": 0.9292612449999305,
	"learning_rate": 5.05695082817534e-06,
	"loss": 0.7789,
	"mean_token_accuracy": 0.7671653866767884,
	"step": 5320
	},
	{
	"epoch": 0.979400404634909,
	"grad_norm": 0.9275056123774931,
	"learning_rate": 5.052189086830779e-06,
	"loss": 0.8018,
	"mean_token_accuracy": 0.7623230576515198,
	"step": 5325
	},
	{
	"epoch": 0.9803200294279933,
	"grad_norm": 0.9703545231339168,
	"learning_rate": 5.047634967195952e-06,
	"loss": 0.7877,
	"mean_token_accuracy": 0.7638481616973877,
	"step": 5330
	},
	{
	"epoch": 0.9812396542210778,
	"grad_norm": 0.955542417327297,
	"learning_rate": 5.043288511392302e-06,
	"loss": 0.7891,
	"mean_token_accuracy": 0.7614734530448913,
	"step": 5335
	},
	{
	"epoch": 0.9821592790141622,
	"grad_norm": 0.9645172124378145,
	"learning_rate": 5.039149759620569e-06,
	"loss": 0.7624,
	"mean_token_accuracy": 0.7724639177322388,
	"step": 5340
	},
	{
	"epoch": 0.9830789038072466,
	"grad_norm": 0.9734387825498484,
	"learning_rate": 5.0352187501604155e-06,
	"loss": 0.8579,
	"mean_token_accuracy": 0.746760880947113,
	"step": 5345
	},
	{
	"epoch": 0.9839985286003311,
	"grad_norm": 0.9730228991663388,
	"learning_rate": 5.031495519370083e-06,
	"loss": 0.8102,
	"mean_token_accuracy": 0.758979082107544,
	"step": 5350
	},
	{
	"epoch": 0.9849181533934155,
	"grad_norm": 1.0013660074202417,
	"learning_rate": 5.027980101686053e-06,
	"loss": 0.8396,
	"mean_token_accuracy": 0.7509408593177795,
	"step": 5355
	},
	{
	"epoch": 0.9858377781864999,
	"grad_norm": 0.9817157587290055,
	"learning_rate": 5.024672529622717e-06,
	"loss": 0.7935,
	"mean_token_accuracy": 0.7596516370773315,
	"step": 5360
	},
	{
	"epoch": 0.9867574029795844,
	"grad_norm": 0.9800745490721745,
	"learning_rate": 5.0215728337720955e-06,
	"loss": 0.7491,
	"mean_token_accuracy": 0.7768563270568848,
	"step": 5365
	},
	{
	"epoch": 0.9876770277726687,
	"grad_norm": 0.99189390574119,
	"learning_rate": 5.018681042803533e-06,
	"loss": 0.7759,
	"mean_token_accuracy": 0.7670275330543518,
	"step": 5370
	},
	{
	"epoch": 0.9885966525657531,
	"grad_norm": 0.9673022649880465,
	"learning_rate": 5.0159971834634545e-06,
	"loss": 0.7867,
	"mean_token_accuracy": 0.764349353313446,
	"step": 5375
	},
	{
	"epoch": 0.9895162773588376,
	"grad_norm": 1.0182176113772272,
	"learning_rate": 5.013521280575099e-06,
	"loss": 0.799,
	"mean_token_accuracy": 0.7618956327438354,
	"step": 5380
	},
	{
	"epoch": 0.990435902151922,
	"grad_norm": 0.9959171759739962,
	"learning_rate": 5.011253357038306e-06,
	"loss": 0.8392,
	"mean_token_accuracy": 0.7527823686599732,
	"step": 5385
	},
	{
	"epoch": 0.9913555269450064,
	"grad_norm": 0.8997528487054468,
	"learning_rate": 5.0091934338292915e-06,
	"loss": 0.7615,
	"mean_token_accuracy": 0.7715205192565918,
	"step": 5390
	},
	{
	"epoch": 0.9922751517380909,
	"grad_norm": 0.919462849827096,
	"learning_rate": 5.00734153000046e-06,
	"loss": 0.7409,
	"mean_token_accuracy": 0.77668297290802,
	"step": 5395
	},
	{
	"epoch": 0.9931947765311753,
	"grad_norm": 0.984326555402561,
	"learning_rate": 5.005697662680227e-06,
	"loss": 0.7989,
	"mean_token_accuracy": 0.7626922607421875,
	"step": 5400
	},
	{
	"epoch": 0.9941144013242597,
	"grad_norm": 0.9499542228497883,
	"learning_rate": 5.004261847072863e-06,
	"loss": 0.8283,
	"mean_token_accuracy": 0.7542143225669861,
	"step": 5405
	},
	{
	"epoch": 0.9950340261173442,
	"grad_norm": 0.9585799297597308,
	"learning_rate": 5.003034096458347e-06,
	"loss": 0.835,
	"mean_token_accuracy": 0.7544377326965332,
	"step": 5410
	},
	{
	"epoch": 0.9959536509104285,
	"grad_norm": 0.9165677599227604,
	"learning_rate": 5.0020144221922466e-06,
	"loss": 0.8013,
	"mean_token_accuracy": 0.7582892417907715,
	"step": 5415
	},
	{
	"epoch": 0.9968732757035129,
	"grad_norm": 0.9449991405622632,
	"learning_rate": 5.001202833705621e-06,
	"loss": 0.8352,
	"mean_token_accuracy": 0.7502840042114258,
	"step": 5420
	},
	{
	"epoch": 0.9977929004965974,
	"grad_norm": 0.9827477783752422,
	"learning_rate": 5.000599338504916e-06,
	"loss": 0.7931,
	"mean_token_accuracy": 0.762959897518158,
	"step": 5425
	},
	{
	"epoch": 0.9987125252896818,
	"grad_norm": 0.9751233701044131,
	"learning_rate": 5.0002039421719105e-06,
	"loss": 0.7978,
	"mean_token_accuracy": 0.7619426846504211,
	"step": 5430
	},
	{
	"epoch": 0.9996321500827662,
	"grad_norm": 0.971614941671036,
	"learning_rate": 5.000016648363663e-06,
	"loss": 0.801,
	"mean_token_accuracy": 0.7594120621681213,
	"step": 5435
	},
	{
	"epoch": 1.0,
	"mean_token_accuracy": 0.779580146074295,
	"step": 5437,
	"total_flos": 77442066677760.0,
	"train_loss": 0.8871173100675843,
	"train_runtime": 5515.7519,
	"train_samples_per_second": 15.771,
	"train_steps_per_second": 0.986
	}
	],
	"logging_steps": 5,
	"max_steps": 5437,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 77442066677760.0,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}