Qwen2.5-1.5B-Open-R1-Distill / trainer_state.json

Model save

b3e8f7d verified 12 months ago

244 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 5442,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0009187798603454612,
	"grad_norm": 3.0641477925906218,
	"learning_rate": 9.157509157509158e-07,
	"loss": 1.1494,
	"mean_token_accuracy": 0.6977963209152221,
	"step": 5
	},
	{
	"epoch": 0.0018375597206909224,
	"grad_norm": 3.2105399334572433,
	"learning_rate": 1.8315018315018316e-06,
	"loss": 1.1392,
	"mean_token_accuracy": 0.7049754142761231,
	"step": 10
	},
	{
	"epoch": 0.0027563395810363835,
	"grad_norm": 2.9642594903358033,
	"learning_rate": 2.747252747252747e-06,
	"loss": 1.115,
	"mean_token_accuracy": 0.7039887428283691,
	"step": 15
	},
	{
	"epoch": 0.003675119441381845,
	"grad_norm": 2.220104102612778,
	"learning_rate": 3.663003663003663e-06,
	"loss": 0.9948,
	"mean_token_accuracy": 0.7305674076080322,
	"step": 20
	},
	{
	"epoch": 0.004593899301727306,
	"grad_norm": 1.9105601134372614,
	"learning_rate": 4.578754578754579e-06,
	"loss": 0.9409,
	"mean_token_accuracy": 0.7411547303199768,
	"step": 25
	},
	{
	"epoch": 0.005512679162072767,
	"grad_norm": 1.8598985707265425,
	"learning_rate": 5.494505494505494e-06,
	"loss": 0.9798,
	"mean_token_accuracy": 0.7281824707984924,
	"step": 30
	},
	{
	"epoch": 0.006431459022418228,
	"grad_norm": 2.585520808525946,
	"learning_rate": 6.41025641025641e-06,
	"loss": 0.9642,
	"mean_token_accuracy": 0.7303176164627075,
	"step": 35
	},
	{
	"epoch": 0.00735023888276369,
	"grad_norm": 3.0068202552964665,
	"learning_rate": 7.326007326007326e-06,
	"loss": 0.9358,
	"mean_token_accuracy": 0.7378472447395324,
	"step": 40
	},
	{
	"epoch": 0.008269018743109152,
	"grad_norm": 1.6811073433803756,
	"learning_rate": 8.241758241758243e-06,
	"loss": 0.959,
	"mean_token_accuracy": 0.7312322854995728,
	"step": 45
	},
	{
	"epoch": 0.009187798603454611,
	"grad_norm": 1.8266484737246598,
	"learning_rate": 9.157509157509158e-06,
	"loss": 0.8436,
	"mean_token_accuracy": 0.7629137873649597,
	"step": 50
	},
	{
	"epoch": 0.010106578463800073,
	"grad_norm": 1.7588858560286977,
	"learning_rate": 1.0073260073260074e-05,
	"loss": 0.8931,
	"mean_token_accuracy": 0.7447961091995239,
	"step": 55
	},
	{
	"epoch": 0.011025358324145534,
	"grad_norm": 1.9424500939228353,
	"learning_rate": 1.0989010989010989e-05,
	"loss": 0.9072,
	"mean_token_accuracy": 0.7389389991760253,
	"step": 60
	},
	{
	"epoch": 0.011944138184490995,
	"grad_norm": 1.93385540963114,
	"learning_rate": 1.1904761904761905e-05,
	"loss": 0.8793,
	"mean_token_accuracy": 0.748711359500885,
	"step": 65
	},
	{
	"epoch": 0.012862918044836457,
	"grad_norm": 1.5600948544295363,
	"learning_rate": 1.282051282051282e-05,
	"loss": 0.9042,
	"mean_token_accuracy": 0.7399611473083496,
	"step": 70
	},
	{
	"epoch": 0.013781697905181918,
	"grad_norm": 1.7742267258287694,
	"learning_rate": 1.3736263736263738e-05,
	"loss": 0.9196,
	"mean_token_accuracy": 0.7337918877601624,
	"step": 75
	},
	{
	"epoch": 0.01470047776552738,
	"grad_norm": 1.7237265700273807,
	"learning_rate": 1.4652014652014653e-05,
	"loss": 0.8143,
	"mean_token_accuracy": 0.7621858239173889,
	"step": 80
	},
	{
	"epoch": 0.01561925762587284,
	"grad_norm": 2.032178530068195,
	"learning_rate": 1.556776556776557e-05,
	"loss": 0.881,
	"mean_token_accuracy": 0.7456439375877381,
	"step": 85
	},
	{
	"epoch": 0.016538037486218304,
	"grad_norm": 1.5476057141233361,
	"learning_rate": 1.6483516483516486e-05,
	"loss": 0.774,
	"mean_token_accuracy": 0.7747476458549499,
	"step": 90
	},
	{
	"epoch": 0.017456817346563763,
	"grad_norm": 1.7859288763560526,
	"learning_rate": 1.73992673992674e-05,
	"loss": 0.8551,
	"mean_token_accuracy": 0.7515540599822998,
	"step": 95
	},
	{
	"epoch": 0.018375597206909223,
	"grad_norm": 1.7870239578433738,
	"learning_rate": 1.8315018315018315e-05,
	"loss": 0.8048,
	"mean_token_accuracy": 0.7651323318481446,
	"step": 100
	},
	{
	"epoch": 0.019294377067254686,
	"grad_norm": 2.0924810885176077,
	"learning_rate": 1.923076923076923e-05,
	"loss": 0.8006,
	"mean_token_accuracy": 0.76546790599823,
	"step": 105
	},
	{
	"epoch": 0.020213156927600145,
	"grad_norm": 1.7880225651210455,
	"learning_rate": 2.0146520146520148e-05,
	"loss": 0.8121,
	"mean_token_accuracy": 0.7632635951042175,
	"step": 110
	},
	{
	"epoch": 0.02113193678794561,
	"grad_norm": 1.6627547537831113,
	"learning_rate": 2.1062271062271064e-05,
	"loss": 0.7817,
	"mean_token_accuracy": 0.772648024559021,
	"step": 115
	},
	{
	"epoch": 0.022050716648291068,
	"grad_norm": 1.820743441798809,
	"learning_rate": 2.1978021978021977e-05,
	"loss": 0.8784,
	"mean_token_accuracy": 0.7446165084838867,
	"step": 120
	},
	{
	"epoch": 0.02296949650863653,
	"grad_norm": 2.099675060940829,
	"learning_rate": 2.2893772893772894e-05,
	"loss": 0.8524,
	"mean_token_accuracy": 0.749963927268982,
	"step": 125
	},
	{
	"epoch": 0.02388827636898199,
	"grad_norm": 1.954655640615228,
	"learning_rate": 2.380952380952381e-05,
	"loss": 0.8528,
	"mean_token_accuracy": 0.7490226745605468,
	"step": 130
	},
	{
	"epoch": 0.024807056229327454,
	"grad_norm": 1.6762777606996013,
	"learning_rate": 2.4725274725274727e-05,
	"loss": 0.7488,
	"mean_token_accuracy": 0.7781027436256409,
	"step": 135
	},
	{
	"epoch": 0.025725836089672913,
	"grad_norm": 1.818950775045492,
	"learning_rate": 2.564102564102564e-05,
	"loss": 0.8932,
	"mean_token_accuracy": 0.7370708823204041,
	"step": 140
	},
	{
	"epoch": 0.026644615950018376,
	"grad_norm": 1.7549497495325217,
	"learning_rate": 2.655677655677656e-05,
	"loss": 0.8299,
	"mean_token_accuracy": 0.7562183260917663,
	"step": 145
	},
	{
	"epoch": 0.027563395810363836,
	"grad_norm": 1.9651810255018103,
	"learning_rate": 2.7472527472527476e-05,
	"loss": 0.8961,
	"mean_token_accuracy": 0.7379685401916504,
	"step": 150
	},
	{
	"epoch": 0.0284821756707093,
	"grad_norm": 1.7437158607043617,
	"learning_rate": 2.838827838827839e-05,
	"loss": 0.8796,
	"mean_token_accuracy": 0.7450518012046814,
	"step": 155
	},
	{
	"epoch": 0.02940095553105476,
	"grad_norm": 1.6994422932790823,
	"learning_rate": 2.9304029304029305e-05,
	"loss": 0.8178,
	"mean_token_accuracy": 0.7607359051704407,
	"step": 160
	},
	{
	"epoch": 0.03031973539140022,
	"grad_norm": 1.858782783599879,
	"learning_rate": 3.021978021978022e-05,
	"loss": 0.8074,
	"mean_token_accuracy": 0.7634272456169129,
	"step": 165
	},
	{
	"epoch": 0.03123851525174568,
	"grad_norm": 1.8619803118890237,
	"learning_rate": 3.113553113553114e-05,
	"loss": 0.8546,
	"mean_token_accuracy": 0.7492664337158204,
	"step": 170
	},
	{
	"epoch": 0.032157295112091144,
	"grad_norm": 1.609592048201869,
	"learning_rate": 3.205128205128206e-05,
	"loss": 0.7985,
	"mean_token_accuracy": 0.7690797805786133,
	"step": 175
	},
	{
	"epoch": 0.03307607497243661,
	"grad_norm": 1.6908537703053188,
	"learning_rate": 3.296703296703297e-05,
	"loss": 0.8704,
	"mean_token_accuracy": 0.744064450263977,
	"step": 180
	},
	{
	"epoch": 0.033994854832782063,
	"grad_norm": 1.8165162354197588,
	"learning_rate": 3.3882783882783884e-05,
	"loss": 0.8849,
	"mean_token_accuracy": 0.7387139916419982,
	"step": 185
	},
	{
	"epoch": 0.03491363469312753,
	"grad_norm": 1.8897649307357878,
	"learning_rate": 3.47985347985348e-05,
	"loss": 0.9233,
	"mean_token_accuracy": 0.7323238730430603,
	"step": 190
	},
	{
	"epoch": 0.03583241455347299,
	"grad_norm": 1.7585678570520256,
	"learning_rate": 3.571428571428572e-05,
	"loss": 0.9059,
	"mean_token_accuracy": 0.7369635701179504,
	"step": 195
	},
	{
	"epoch": 0.036751194413818446,
	"grad_norm": 1.8196207496857761,
	"learning_rate": 3.663003663003663e-05,
	"loss": 0.7984,
	"mean_token_accuracy": 0.7655532121658325,
	"step": 200
	},
	{
	"epoch": 0.03766997427416391,
	"grad_norm": 1.8001783116526198,
	"learning_rate": 3.754578754578755e-05,
	"loss": 0.9032,
	"mean_token_accuracy": 0.7356508016586304,
	"step": 205
	},
	{
	"epoch": 0.03858875413450937,
	"grad_norm": 2.1616041041174143,
	"learning_rate": 3.846153846153846e-05,
	"loss": 0.8959,
	"mean_token_accuracy": 0.7379406213760376,
	"step": 210
	},
	{
	"epoch": 0.039507533994854835,
	"grad_norm": 1.6869890778597507,
	"learning_rate": 3.9377289377289376e-05,
	"loss": 0.7926,
	"mean_token_accuracy": 0.7656057000160217,
	"step": 215
	},
	{
	"epoch": 0.04042631385520029,
	"grad_norm": 1.5982107775692642,
	"learning_rate": 4.0293040293040296e-05,
	"loss": 0.8742,
	"mean_token_accuracy": 0.743067741394043,
	"step": 220
	},
	{
	"epoch": 0.041345093715545754,
	"grad_norm": 1.8744347527261311,
	"learning_rate": 4.120879120879121e-05,
	"loss": 0.8344,
	"mean_token_accuracy": 0.7555591464042664,
	"step": 225
	},
	{
	"epoch": 0.04226387357589122,
	"grad_norm": 1.7387305953271162,
	"learning_rate": 4.212454212454213e-05,
	"loss": 0.8268,
	"mean_token_accuracy": 0.7600399851799011,
	"step": 230
	},
	{
	"epoch": 0.04318265343623668,
	"grad_norm": 1.5706104238018215,
	"learning_rate": 4.304029304029304e-05,
	"loss": 0.8534,
	"mean_token_accuracy": 0.7509700894355774,
	"step": 235
	},
	{
	"epoch": 0.044101433296582136,
	"grad_norm": 2.3765119929284566,
	"learning_rate": 4.3956043956043955e-05,
	"loss": 0.833,
	"mean_token_accuracy": 0.7555877804756165,
	"step": 240
	},
	{
	"epoch": 0.0450202131569276,
	"grad_norm": 1.8036798399760634,
	"learning_rate": 4.4871794871794874e-05,
	"loss": 0.9457,
	"mean_token_accuracy": 0.7283176898956298,
	"step": 245
	},
	{
	"epoch": 0.04593899301727306,
	"grad_norm": 1.5687281786415206,
	"learning_rate": 4.578754578754579e-05,
	"loss": 0.9033,
	"mean_token_accuracy": 0.7391088247299195,
	"step": 250
	},
	{
	"epoch": 0.046857772877618525,
	"grad_norm": 1.906886876307677,
	"learning_rate": 4.670329670329671e-05,
	"loss": 0.8814,
	"mean_token_accuracy": 0.7455077290534973,
	"step": 255
	},
	{
	"epoch": 0.04777655273796398,
	"grad_norm": 2.459151452178755,
	"learning_rate": 4.761904761904762e-05,
	"loss": 0.8482,
	"mean_token_accuracy": 0.7487390875816345,
	"step": 260
	},
	{
	"epoch": 0.048695332598309445,
	"grad_norm": 2.090972233335094,
	"learning_rate": 4.8534798534798533e-05,
	"loss": 0.8361,
	"mean_token_accuracy": 0.7550442337989807,
	"step": 265
	},
	{
	"epoch": 0.04961411245865491,
	"grad_norm": 2.3215263657474834,
	"learning_rate": 4.945054945054945e-05,
	"loss": 0.9193,
	"mean_token_accuracy": 0.7319010257720947,
	"step": 270
	},
	{
	"epoch": 0.05053289231900037,
	"grad_norm": 1.603682503261401,
	"learning_rate": 4.999998337739284e-05,
	"loss": 0.8252,
	"mean_token_accuracy": 0.7569657444953919,
	"step": 275
	},
	{
	"epoch": 0.05145167217934583,
	"grad_norm": 1.5710545327372318,
	"learning_rate": 4.999979637334437e-05,
	"loss": 0.8146,
	"mean_token_accuracy": 0.7597472548484803,
	"step": 280
	},
	{
	"epoch": 0.05237045203969129,
	"grad_norm": 1.7769444956116853,
	"learning_rate": 4.9999401588721174e-05,
	"loss": 0.922,
	"mean_token_accuracy": 0.7304396867752075,
	"step": 285
	},
	{
	"epoch": 0.05328923190003675,
	"grad_norm": 1.5021517935884932,
	"learning_rate": 4.999879902716899e-05,
	"loss": 0.7971,
	"mean_token_accuracy": 0.7652329564094543,
	"step": 290
	},
	{
	"epoch": 0.05420801176038221,
	"grad_norm": 1.7950075085630441,
	"learning_rate": 4.999798869425236e-05,
	"loss": 0.9554,
	"mean_token_accuracy": 0.7232900500297547,
	"step": 295
	},
	{
	"epoch": 0.05512679162072767,
	"grad_norm": 1.5725822266760454,
	"learning_rate": 4.999697059745451e-05,
	"loss": 0.8468,
	"mean_token_accuracy": 0.7524639129638672,
	"step": 300
	},
	{
	"epoch": 0.056045571481073135,
	"grad_norm": 1.6589539268411269,
	"learning_rate": 4.999574474617734e-05,
	"loss": 0.9022,
	"mean_token_accuracy": 0.7418521285057068,
	"step": 305
	},
	{
	"epoch": 0.0569643513414186,
	"grad_norm": 1.6096903752899234,
	"learning_rate": 4.999431115174131e-05,
	"loss": 0.8665,
	"mean_token_accuracy": 0.7496641755104065,
	"step": 310
	},
	{
	"epoch": 0.057883131201764054,
	"grad_norm": 1.4434886028998843,
	"learning_rate": 4.999266982738535e-05,
	"loss": 0.9006,
	"mean_token_accuracy": 0.737899649143219,
	"step": 315
	},
	{
	"epoch": 0.05880191106210952,
	"grad_norm": 1.3481221265945444,
	"learning_rate": 4.999082078826671e-05,
	"loss": 0.8867,
	"mean_token_accuracy": 0.744273555278778,
	"step": 320
	},
	{
	"epoch": 0.05972069092245498,
	"grad_norm": 1.4681948954197888,
	"learning_rate": 4.998876405146087e-05,
	"loss": 0.9196,
	"mean_token_accuracy": 0.7311511278152466,
	"step": 325
	},
	{
	"epoch": 0.06063947078280044,
	"grad_norm": 1.4689641413707268,
	"learning_rate": 4.998649963596131e-05,
	"loss": 0.9618,
	"mean_token_accuracy": 0.7219404339790344,
	"step": 330
	},
	{
	"epoch": 0.0615582506431459,
	"grad_norm": 1.5996506188069943,
	"learning_rate": 4.998402756267943e-05,
	"loss": 0.8775,
	"mean_token_accuracy": 0.7418051362037659,
	"step": 335
	},
	{
	"epoch": 0.06247703050349136,
	"grad_norm": 1.3723739821198824,
	"learning_rate": 4.998134785444425e-05,
	"loss": 0.8755,
	"mean_token_accuracy": 0.7445154070854187,
	"step": 340
	},
	{
	"epoch": 0.06339581036383682,
	"grad_norm": 1.5484060868058451,
	"learning_rate": 4.997846053600227e-05,
	"loss": 0.8893,
	"mean_token_accuracy": 0.7417627811431885,
	"step": 345
	},
	{
	"epoch": 0.06431459022418229,
	"grad_norm": 1.374032479571469,
	"learning_rate": 4.997536563401724e-05,
	"loss": 0.926,
	"mean_token_accuracy": 0.7293352723121643,
	"step": 350
	},
	{
	"epoch": 0.06523337008452774,
	"grad_norm": 1.3396355962311042,
	"learning_rate": 4.9972063177069894e-05,
	"loss": 0.8363,
	"mean_token_accuracy": 0.7584239602088928,
	"step": 355
	},
	{
	"epoch": 0.06615214994487321,
	"grad_norm": 1.4157203063425363,
	"learning_rate": 4.9968553195657665e-05,
	"loss": 0.796,
	"mean_token_accuracy": 0.7692983031272889,
	"step": 360
	},
	{
	"epoch": 0.06707092980521867,
	"grad_norm": 1.4641176633277067,
	"learning_rate": 4.9964835722194455e-05,
	"loss": 0.8386,
	"mean_token_accuracy": 0.7571163177490234,
	"step": 365
	},
	{
	"epoch": 0.06798970966556413,
	"grad_norm": 1.3754550053722292,
	"learning_rate": 4.996091079101028e-05,
	"loss": 0.8487,
	"mean_token_accuracy": 0.7535093784332275,
	"step": 370
	},
	{
	"epoch": 0.0689084895259096,
	"grad_norm": 1.434562106690179,
	"learning_rate": 4.995677843835103e-05,
	"loss": 0.9616,
	"mean_token_accuracy": 0.7227682590484619,
	"step": 375
	},
	{
	"epoch": 0.06982726938625505,
	"grad_norm": 1.625727387715634,
	"learning_rate": 4.995243870237803e-05,
	"loss": 0.8748,
	"mean_token_accuracy": 0.7452502608299255,
	"step": 380
	},
	{
	"epoch": 0.07074604924660051,
	"grad_norm": 1.377875493136272,
	"learning_rate": 4.994789162316778e-05,
	"loss": 0.8707,
	"mean_token_accuracy": 0.7500712752342225,
	"step": 385
	},
	{
	"epoch": 0.07166482910694598,
	"grad_norm": 1.4193673422415896,
	"learning_rate": 4.994313724271153e-05,
	"loss": 0.9701,
	"mean_token_accuracy": 0.720650053024292,
	"step": 390
	},
	{
	"epoch": 0.07258360896729144,
	"grad_norm": 1.3011757424952435,
	"learning_rate": 4.993817560491493e-05,
	"loss": 0.9133,
	"mean_token_accuracy": 0.7373546719551086,
	"step": 395
	},
	{
	"epoch": 0.07350238882763689,
	"grad_norm": 1.53341664668217,
	"learning_rate": 4.993300675559757e-05,
	"loss": 0.903,
	"mean_token_accuracy": 0.7406406998634338,
	"step": 400
	},
	{
	"epoch": 0.07442116868798236,
	"grad_norm": 1.2526811498029908,
	"learning_rate": 4.9927630742492644e-05,
	"loss": 0.8457,
	"mean_token_accuracy": 0.7558913826942444,
	"step": 405
	},
	{
	"epoch": 0.07533994854832782,
	"grad_norm": 1.2395634856051558,
	"learning_rate": 4.992204761524641e-05,
	"loss": 0.7751,
	"mean_token_accuracy": 0.7746022939682007,
	"step": 410
	},
	{
	"epoch": 0.07625872840867329,
	"grad_norm": 1.500918488887097,
	"learning_rate": 4.9916257425417796e-05,
	"loss": 0.9186,
	"mean_token_accuracy": 0.7323673367500305,
	"step": 415
	},
	{
	"epoch": 0.07717750826901874,
	"grad_norm": 1.4971365871256093,
	"learning_rate": 4.99102602264779e-05,
	"loss": 0.8465,
	"mean_token_accuracy": 0.7565265655517578,
	"step": 420
	},
	{
	"epoch": 0.0780962881293642,
	"grad_norm": 1.2649360311231244,
	"learning_rate": 4.990405607380953e-05,
	"loss": 0.9161,
	"mean_token_accuracy": 0.7346989989280701,
	"step": 425
	},
	{
	"epoch": 0.07901506798970967,
	"grad_norm": 1.2585193614261605,
	"learning_rate": 4.9897645024706634e-05,
	"loss": 0.8489,
	"mean_token_accuracy": 0.7520861387252807,
	"step": 430
	},
	{
	"epoch": 0.07993384785005513,
	"grad_norm": 1.4511781114343052,
	"learning_rate": 4.989102713837381e-05,
	"loss": 0.8646,
	"mean_token_accuracy": 0.7488693952560425,
	"step": 435
	},
	{
	"epoch": 0.08085262771040058,
	"grad_norm": 1.3187982044036815,
	"learning_rate": 4.9884202475925754e-05,
	"loss": 0.8395,
	"mean_token_accuracy": 0.7578373312950134,
	"step": 440
	},
	{
	"epoch": 0.08177140757074605,
	"grad_norm": 1.3677439877875948,
	"learning_rate": 4.9877171100386704e-05,
	"loss": 0.8294,
	"mean_token_accuracy": 0.7562382102012635,
	"step": 445
	},
	{
	"epoch": 0.08269018743109151,
	"grad_norm": 1.4162808960942412,
	"learning_rate": 4.9869933076689826e-05,
	"loss": 0.9207,
	"mean_token_accuracy": 0.7346067547798156,
	"step": 450
	},
	{
	"epoch": 0.08360896729143698,
	"grad_norm": 1.3055956101463557,
	"learning_rate": 4.9862488471676646e-05,
	"loss": 0.863,
	"mean_token_accuracy": 0.749237322807312,
	"step": 455
	},
	{
	"epoch": 0.08452774715178243,
	"grad_norm": 1.273094086173784,
	"learning_rate": 4.985483735409643e-05,
	"loss": 0.869,
	"mean_token_accuracy": 0.7482211112976074,
	"step": 460
	},
	{
	"epoch": 0.08544652701212789,
	"grad_norm": 1.4557355335456608,
	"learning_rate": 4.9846979794605526e-05,
	"loss": 0.8914,
	"mean_token_accuracy": 0.7409134864807129,
	"step": 465
	},
	{
	"epoch": 0.08636530687247336,
	"grad_norm": 1.3769618557958148,
	"learning_rate": 4.983891586576674e-05,
	"loss": 0.9477,
	"mean_token_accuracy": 0.7257415533065796,
	"step": 470
	},
	{
	"epoch": 0.08728408673281882,
	"grad_norm": 1.2865943966930515,
	"learning_rate": 4.983064564204864e-05,
	"loss": 0.8597,
	"mean_token_accuracy": 0.7478152275085449,
	"step": 475
	},
	{
	"epoch": 0.08820286659316427,
	"grad_norm": 1.5688420565520587,
	"learning_rate": 4.98221691998249e-05,
	"loss": 0.9275,
	"mean_token_accuracy": 0.7304094076156616,
	"step": 480
	},
	{
	"epoch": 0.08912164645350974,
	"grad_norm": 1.518182798525247,
	"learning_rate": 4.9813486617373545e-05,
	"loss": 0.9003,
	"mean_token_accuracy": 0.7381687164306641,
	"step": 485
	},
	{
	"epoch": 0.0900404263138552,
	"grad_norm": 1.2240176455308946,
	"learning_rate": 4.980459797487629e-05,
	"loss": 0.8663,
	"mean_token_accuracy": 0.7481726765632629,
	"step": 490
	},
	{
	"epoch": 0.09095920617420065,
	"grad_norm": 1.348170741270758,
	"learning_rate": 4.979550335441776e-05,
	"loss": 0.9427,
	"mean_token_accuracy": 0.7272454261779785,
	"step": 495
	},
	{
	"epoch": 0.09187798603454612,
	"grad_norm": 1.3960656738373651,
	"learning_rate": 4.978620283998472e-05,
	"loss": 0.8659,
	"mean_token_accuracy": 0.7438789248466492,
	"step": 500
	},
	{
	"epoch": 0.09279676589489158,
	"grad_norm": 1.3587049381306813,
	"learning_rate": 4.977669651746534e-05,
	"loss": 0.9216,
	"mean_token_accuracy": 0.7308396458625793,
	"step": 505
	},
	{
	"epoch": 0.09371554575523705,
	"grad_norm": 1.2831086518032893,
	"learning_rate": 4.976698447464839e-05,
	"loss": 0.8296,
	"mean_token_accuracy": 0.7564551353454589,
	"step": 510
	},
	{
	"epoch": 0.0946343256155825,
	"grad_norm": 1.3126315362065073,
	"learning_rate": 4.975706680122239e-05,
	"loss": 0.8901,
	"mean_token_accuracy": 0.7394080519676208,
	"step": 515
	},
	{
	"epoch": 0.09555310547592796,
	"grad_norm": 1.326727886512097,
	"learning_rate": 4.9746943588774845e-05,
	"loss": 0.8862,
	"mean_token_accuracy": 0.7405213117599487,
	"step": 520
	},
	{
	"epoch": 0.09647188533627343,
	"grad_norm": 1.1564203773195028,
	"learning_rate": 4.9736614930791345e-05,
	"loss": 0.8734,
	"mean_token_accuracy": 0.7428488969802857,
	"step": 525
	},
	{
	"epoch": 0.09739066519661889,
	"grad_norm": 1.32950010677836,
	"learning_rate": 4.972608092265473e-05,
	"loss": 0.9342,
	"mean_token_accuracy": 0.7337097644805908,
	"step": 530
	},
	{
	"epoch": 0.09830944505696435,
	"grad_norm": 1.465381788689711,
	"learning_rate": 4.971534166164421e-05,
	"loss": 0.873,
	"mean_token_accuracy": 0.7453126430511474,
	"step": 535
	},
	{
	"epoch": 0.09922822491730982,
	"grad_norm": 1.2034166956705263,
	"learning_rate": 4.970439724693445e-05,
	"loss": 0.8915,
	"mean_token_accuracy": 0.7360377907752991,
	"step": 540
	},
	{
	"epoch": 0.10014700477765527,
	"grad_norm": 1.411243613830083,
	"learning_rate": 4.969324777959465e-05,
	"loss": 0.881,
	"mean_token_accuracy": 0.7421476721763611,
	"step": 545
	},
	{
	"epoch": 0.10106578463800074,
	"grad_norm": 1.2799706017877437,
	"learning_rate": 4.968189336258767e-05,
	"loss": 0.8403,
	"mean_token_accuracy": 0.7561326265335083,
	"step": 550
	},
	{
	"epoch": 0.1019845644983462,
	"grad_norm": 1.4044688342965088,
	"learning_rate": 4.967033410076898e-05,
	"loss": 0.9382,
	"mean_token_accuracy": 0.7271358609199524,
	"step": 555
	},
	{
	"epoch": 0.10290334435869165,
	"grad_norm": 1.4228321929552081,
	"learning_rate": 4.965857010088579e-05,
	"loss": 0.7972,
	"mean_token_accuracy": 0.7670902132987976,
	"step": 560
	},
	{
	"epoch": 0.10382212421903712,
	"grad_norm": 1.2255950177016557,
	"learning_rate": 4.964660147157599e-05,
	"loss": 0.8801,
	"mean_token_accuracy": 0.7435322165489197,
	"step": 565
	},
	{
	"epoch": 0.10474090407938258,
	"grad_norm": 1.2075368004666547,
	"learning_rate": 4.9634428323367184e-05,
	"loss": 0.807,
	"mean_token_accuracy": 0.7603043556213379,
	"step": 570
	},
	{
	"epoch": 0.10565968393972804,
	"grad_norm": 1.2015436573449916,
	"learning_rate": 4.962205076867567e-05,
	"loss": 0.8521,
	"mean_token_accuracy": 0.7509374380111694,
	"step": 575
	},
	{
	"epoch": 0.1065784638000735,
	"grad_norm": 1.2414360388934507,
	"learning_rate": 4.96094689218054e-05,
	"loss": 0.8354,
	"mean_token_accuracy": 0.7580932378768921,
	"step": 580
	},
	{
	"epoch": 0.10749724366041896,
	"grad_norm": 1.4551894189161494,
	"learning_rate": 4.959668289894691e-05,
	"loss": 0.9427,
	"mean_token_accuracy": 0.7268964529037476,
	"step": 585
	},
	{
	"epoch": 0.10841602352076442,
	"grad_norm": 1.1543433517316415,
	"learning_rate": 4.9583692818176224e-05,
	"loss": 0.8493,
	"mean_token_accuracy": 0.7501084446907044,
	"step": 590
	},
	{
	"epoch": 0.10933480338110989,
	"grad_norm": 1.320648188350521,
	"learning_rate": 4.9570498799453864e-05,
	"loss": 0.8808,
	"mean_token_accuracy": 0.7438010811805725,
	"step": 595
	},
	{
	"epoch": 0.11025358324145534,
	"grad_norm": 1.2877252561167056,
	"learning_rate": 4.955710096462362e-05,
	"loss": 0.8779,
	"mean_token_accuracy": 0.7458134055137634,
	"step": 600
	},
	{
	"epoch": 0.11117236310180081,
	"grad_norm": 1.3602330448083289,
	"learning_rate": 4.954349943741148e-05,
	"loss": 0.8569,
	"mean_token_accuracy": 0.7528672575950622,
	"step": 605
	},
	{
	"epoch": 0.11209114296214627,
	"grad_norm": 1.3741249752237,
	"learning_rate": 4.952969434342452e-05,
	"loss": 0.9154,
	"mean_token_accuracy": 0.7366644501686096,
	"step": 610
	},
	{
	"epoch": 0.11300992282249173,
	"grad_norm": 1.2731189631033297,
	"learning_rate": 4.951568581014967e-05,
	"loss": 0.8101,
	"mean_token_accuracy": 0.7622666001319885,
	"step": 615
	},
	{
	"epoch": 0.1139287026828372,
	"grad_norm": 1.3238359092320755,
	"learning_rate": 4.95014739669526e-05,
	"loss": 0.8681,
	"mean_token_accuracy": 0.7467660307884216,
	"step": 620
	},
	{
	"epoch": 0.11484748254318265,
	"grad_norm": 1.202393469716897,
	"learning_rate": 4.94870589450765e-05,
	"loss": 0.8455,
	"mean_token_accuracy": 0.7547730088233948,
	"step": 625
	},
	{
	"epoch": 0.11576626240352811,
	"grad_norm": 1.1456259434669744,
	"learning_rate": 4.9472440877640856e-05,
	"loss": 0.9136,
	"mean_token_accuracy": 0.7327568888664245,
	"step": 630
	},
	{
	"epoch": 0.11668504226387358,
	"grad_norm": 1.3091846984844044,
	"learning_rate": 4.945761989964025e-05,
	"loss": 0.8093,
	"mean_token_accuracy": 0.7623311281204224,
	"step": 635
	},
	{
	"epoch": 0.11760382212421903,
	"grad_norm": 1.2205761022635602,
	"learning_rate": 4.9442596147943095e-05,
	"loss": 0.8025,
	"mean_token_accuracy": 0.7651844978332519,
	"step": 640
	},
	{
	"epoch": 0.1185226019845645,
	"grad_norm": 1.3351343961105993,
	"learning_rate": 4.942736976129035e-05,
	"loss": 0.8144,
	"mean_token_accuracy": 0.7613680481910705,
	"step": 645
	},
	{
	"epoch": 0.11944138184490996,
	"grad_norm": 1.430243553624981,
	"learning_rate": 4.941194088029431e-05,
	"loss": 0.9086,
	"mean_token_accuracy": 0.7342401266098022,
	"step": 650
	},
	{
	"epoch": 0.12036016170525542,
	"grad_norm": 1.2556349548265657,
	"learning_rate": 4.939630964743721e-05,
	"loss": 0.8369,
	"mean_token_accuracy": 0.7542879939079284,
	"step": 655
	},
	{
	"epoch": 0.12127894156560089,
	"grad_norm": 1.3152471325239643,
	"learning_rate": 4.9380476207069984e-05,
	"loss": 0.8687,
	"mean_token_accuracy": 0.7439038634300232,
	"step": 660
	},
	{
	"epoch": 0.12219772142594634,
	"grad_norm": 1.3345822562447953,
	"learning_rate": 4.936444070541091e-05,
	"loss": 0.8826,
	"mean_token_accuracy": 0.7404947400093078,
	"step": 665
	},
	{
	"epoch": 0.1231165012862918,
	"grad_norm": 1.1814130966039975,
	"learning_rate": 4.9348203290544245e-05,
	"loss": 0.8797,
	"mean_token_accuracy": 0.7429808259010315,
	"step": 670
	},
	{
	"epoch": 0.12403528114663727,
	"grad_norm": 1.2046715413009972,
	"learning_rate": 4.933176411241888e-05,
	"loss": 0.7764,
	"mean_token_accuracy": 0.7709425568580628,
	"step": 675
	},
	{
	"epoch": 0.12495406100698273,
	"grad_norm": 1.2359612025083841,
	"learning_rate": 4.9315123322846934e-05,
	"loss": 0.8757,
	"mean_token_accuracy": 0.7420969247817993,
	"step": 680
	},
	{
	"epoch": 0.1258728408673282,
	"grad_norm": 1.1918939688175052,
	"learning_rate": 4.929828107550237e-05,
	"loss": 0.8439,
	"mean_token_accuracy": 0.7540834426879883,
	"step": 685
	},
	{
	"epoch": 0.12679162072767364,
	"grad_norm": 1.1826184909342607,
	"learning_rate": 4.928123752591957e-05,
	"loss": 0.8801,
	"mean_token_accuracy": 0.7422125935554504,
	"step": 690
	},
	{
	"epoch": 0.1277104005880191,
	"grad_norm": 1.255648051492681,
	"learning_rate": 4.926399283149188e-05,
	"loss": 0.8429,
	"mean_token_accuracy": 0.7524136543273926,
	"step": 695
	},
	{
	"epoch": 0.12862918044836458,
	"grad_norm": 1.1605510458950452,
	"learning_rate": 4.9246547151470205e-05,
	"loss": 0.9021,
	"mean_token_accuracy": 0.7373670816421509,
	"step": 700
	},
	{
	"epoch": 0.12954796030871002,
	"grad_norm": 1.3238344494004473,
	"learning_rate": 4.9228900646961474e-05,
	"loss": 0.9057,
	"mean_token_accuracy": 0.7368204951286316,
	"step": 705
	},
	{
	"epoch": 0.1304667401690555,
	"grad_norm": 1.4306839271560785,
	"learning_rate": 4.921105348092721e-05,
	"loss": 0.7625,
	"mean_token_accuracy": 0.7744701862335205,
	"step": 710
	},
	{
	"epoch": 0.13138552002940096,
	"grad_norm": 1.2165530726795277,
	"learning_rate": 4.919300581818197e-05,
	"loss": 0.9154,
	"mean_token_accuracy": 0.7359979271888732,
	"step": 715
	},
	{
	"epoch": 0.13230429988974643,
	"grad_norm": 1.286173428804154,
	"learning_rate": 4.91747578253919e-05,
	"loss": 0.8585,
	"mean_token_accuracy": 0.7492180824279785,
	"step": 720
	},
	{
	"epoch": 0.13322307975009187,
	"grad_norm": 1.1184283075387254,
	"learning_rate": 4.91563096710731e-05,
	"loss": 0.8903,
	"mean_token_accuracy": 0.7384656071662903,
	"step": 725
	},
	{
	"epoch": 0.13414185961043734,
	"grad_norm": 1.3568563512463876,
	"learning_rate": 4.913766152559015e-05,
	"loss": 0.9028,
	"mean_token_accuracy": 0.7395498275756835,
	"step": 730
	},
	{
	"epoch": 0.1350606394707828,
	"grad_norm": 1.4808915141658863,
	"learning_rate": 4.911881356115449e-05,
	"loss": 0.9084,
	"mean_token_accuracy": 0.7352772116661072,
	"step": 735
	},
	{
	"epoch": 0.13597941933112825,
	"grad_norm": 1.2602878053642064,
	"learning_rate": 4.909976595182285e-05,
	"loss": 0.8593,
	"mean_token_accuracy": 0.7459996342658997,
	"step": 740
	},
	{
	"epoch": 0.13689819919147372,
	"grad_norm": 1.1270873445880305,
	"learning_rate": 4.908051887349562e-05,
	"loss": 0.85,
	"mean_token_accuracy": 0.751087772846222,
	"step": 745
	},
	{
	"epoch": 0.1378169790518192,
	"grad_norm": 1.2900722126857331,
	"learning_rate": 4.906107250391527e-05,
	"loss": 0.8333,
	"mean_token_accuracy": 0.755375337600708,
	"step": 750
	},
	{
	"epoch": 0.13873575891216464,
	"grad_norm": 1.3067285908120727,
	"learning_rate": 4.9041427022664645e-05,
	"loss": 0.8661,
	"mean_token_accuracy": 0.7458638072013855,
	"step": 755
	},
	{
	"epoch": 0.1396545387725101,
	"grad_norm": 1.1705361580698839,
	"learning_rate": 4.902158261116537e-05,
	"loss": 0.9127,
	"mean_token_accuracy": 0.736179769039154,
	"step": 760
	},
	{
	"epoch": 0.14057331863285558,
	"grad_norm": 1.0599820145259966,
	"learning_rate": 4.900153945267612e-05,
	"loss": 0.8433,
	"mean_token_accuracy": 0.7551376700401307,
	"step": 765
	},
	{
	"epoch": 0.14149209849320102,
	"grad_norm": 1.282905055646039,
	"learning_rate": 4.8981297732291e-05,
	"loss": 0.8554,
	"mean_token_accuracy": 0.7511672616004944,
	"step": 770
	},
	{
	"epoch": 0.1424108783535465,
	"grad_norm": 1.3437700886513289,
	"learning_rate": 4.896085763693773e-05,
	"loss": 0.9227,
	"mean_token_accuracy": 0.733566403388977,
	"step": 775
	},
	{
	"epoch": 0.14332965821389196,
	"grad_norm": 1.1297724344725806,
	"learning_rate": 4.894021935537603e-05,
	"loss": 0.8507,
	"mean_token_accuracy": 0.7513582468032837,
	"step": 780
	},
	{
	"epoch": 0.1442484380742374,
	"grad_norm": 1.3689332887934986,
	"learning_rate": 4.891938307819578e-05,
	"loss": 0.8849,
	"mean_token_accuracy": 0.7436878085136414,
	"step": 785
	},
	{
	"epoch": 0.14516721793458287,
	"grad_norm": 1.1498634876050613,
	"learning_rate": 4.889834899781535e-05,
	"loss": 0.8429,
	"mean_token_accuracy": 0.753303873538971,
	"step": 790
	},
	{
	"epoch": 0.14608599779492834,
	"grad_norm": 1.140208758740646,
	"learning_rate": 4.887711730847975e-05,
	"loss": 0.7601,
	"mean_token_accuracy": 0.773739755153656,
	"step": 795
	},
	{
	"epoch": 0.14700477765527378,
	"grad_norm": 1.3016614852116664,
	"learning_rate": 4.885568820625885e-05,
	"loss": 0.9065,
	"mean_token_accuracy": 0.738306713104248,
	"step": 800
	},
	{
	"epoch": 0.14792355751561925,
	"grad_norm": 1.2509551297005208,
	"learning_rate": 4.883406188904564e-05,
	"loss": 0.7737,
	"mean_token_accuracy": 0.7723647236824036,
	"step": 805
	},
	{
	"epoch": 0.14884233737596472,
	"grad_norm": 1.2304502037360896,
	"learning_rate": 4.8812238556554284e-05,
	"loss": 0.9195,
	"mean_token_accuracy": 0.7318793773651123,
	"step": 810
	},
	{
	"epoch": 0.1497611172363102,
	"grad_norm": 1.160104764900568,
	"learning_rate": 4.8790218410318374e-05,
	"loss": 0.8646,
	"mean_token_accuracy": 0.7459649324417115,
	"step": 815
	},
	{
	"epoch": 0.15067989709665564,
	"grad_norm": 1.4673570710895905,
	"learning_rate": 4.8768001653689024e-05,
	"loss": 0.9062,
	"mean_token_accuracy": 0.7345248699188233,
	"step": 820
	},
	{
	"epoch": 0.1515986769570011,
	"grad_norm": 1.171954013640319,
	"learning_rate": 4.874558849183299e-05,
	"loss": 0.8867,
	"mean_token_accuracy": 0.7401813983917236,
	"step": 825
	},
	{
	"epoch": 0.15251745681734658,
	"grad_norm": 1.1448163904842934,
	"learning_rate": 4.872297913173081e-05,
	"loss": 0.8006,
	"mean_token_accuracy": 0.7656459212303162,
	"step": 830
	},
	{
	"epoch": 0.15343623667769202,
	"grad_norm": 1.2603194785671739,
	"learning_rate": 4.870017378217485e-05,
	"loss": 0.9037,
	"mean_token_accuracy": 0.7398361563682556,
	"step": 835
	},
	{
	"epoch": 0.1543550165380375,
	"grad_norm": 1.3408423677606498,
	"learning_rate": 4.86771726537674e-05,
	"loss": 0.9383,
	"mean_token_accuracy": 0.7285741686820983,
	"step": 840
	},
	{
	"epoch": 0.15527379639838296,
	"grad_norm": 1.2835325171738854,
	"learning_rate": 4.865397595891872e-05,
	"loss": 0.8478,
	"mean_token_accuracy": 0.75036780834198,
	"step": 845
	},
	{
	"epoch": 0.1561925762587284,
	"grad_norm": 1.1980068838306206,
	"learning_rate": 4.8630583911845084e-05,
	"loss": 0.7627,
	"mean_token_accuracy": 0.7726967930793762,
	"step": 850
	},
	{
	"epoch": 0.15711135611907387,
	"grad_norm": 1.34919534477724,
	"learning_rate": 4.860699672856682e-05,
	"loss": 0.8838,
	"mean_token_accuracy": 0.7415394306182861,
	"step": 855
	},
	{
	"epoch": 0.15803013597941934,
	"grad_norm": 0.9624608396618806,
	"learning_rate": 4.8583214626906246e-05,
	"loss": 0.8601,
	"mean_token_accuracy": 0.7497328519821167,
	"step": 860
	},
	{
	"epoch": 0.15894891583976478,
	"grad_norm": 1.1697672429495145,
	"learning_rate": 4.8559237826485766e-05,
	"loss": 0.8228,
	"mean_token_accuracy": 0.7570769906044006,
	"step": 865
	},
	{
	"epoch": 0.15986769570011025,
	"grad_norm": 1.1935364635660837,
	"learning_rate": 4.853506654872575e-05,
	"loss": 0.9142,
	"mean_token_accuracy": 0.7316269755363465,
	"step": 870
	},
	{
	"epoch": 0.16078647556045572,
	"grad_norm": 1.2042547413733748,
	"learning_rate": 4.851070101684252e-05,
	"loss": 0.8742,
	"mean_token_accuracy": 0.7418438553810119,
	"step": 875
	},
	{
	"epoch": 0.16170525542080116,
	"grad_norm": 1.0707432913591217,
	"learning_rate": 4.84861414558463e-05,
	"loss": 0.8196,
	"mean_token_accuracy": 0.759805703163147,
	"step": 880
	},
	{
	"epoch": 0.16262403528114663,
	"grad_norm": 1.0629646526131367,
	"learning_rate": 4.846138809253914e-05,
	"loss": 0.874,
	"mean_token_accuracy": 0.7462024927139282,
	"step": 885
	},
	{
	"epoch": 0.1635428151414921,
	"grad_norm": 1.2106261509029042,
	"learning_rate": 4.843644115551279e-05,
	"loss": 0.9328,
	"mean_token_accuracy": 0.7267791390419006,
	"step": 890
	},
	{
	"epoch": 0.16446159500183755,
	"grad_norm": 1.1324590773137175,
	"learning_rate": 4.841130087514662e-05,
	"loss": 0.9211,
	"mean_token_accuracy": 0.7309597492218017,
	"step": 895
	},
	{
	"epoch": 0.16538037486218302,
	"grad_norm": 1.184689325779188,
	"learning_rate": 4.8385967483605496e-05,
	"loss": 0.8618,
	"mean_token_accuracy": 0.7446626782417297,
	"step": 900
	},
	{
	"epoch": 0.16629915472252849,
	"grad_norm": 1.138313035203993,
	"learning_rate": 4.836044121483759e-05,
	"loss": 0.8447,
	"mean_token_accuracy": 0.7529171824455261,
	"step": 905
	},
	{
	"epoch": 0.16721793458287396,
	"grad_norm": 1.1673447148654126,
	"learning_rate": 4.833472230457229e-05,
	"loss": 0.8979,
	"mean_token_accuracy": 0.7358499765396118,
	"step": 910
	},
	{
	"epoch": 0.1681367144432194,
	"grad_norm": 1.084780317701543,
	"learning_rate": 4.830881099031795e-05,
	"loss": 0.9185,
	"mean_token_accuracy": 0.7328409552574158,
	"step": 915
	},
	{
	"epoch": 0.16905549430356487,
	"grad_norm": 1.1240239095787248,
	"learning_rate": 4.828270751135975e-05,
	"loss": 0.7975,
	"mean_token_accuracy": 0.7656158566474914,
	"step": 920
	},
	{
	"epoch": 0.16997427416391034,
	"grad_norm": 1.2150981390103572,
	"learning_rate": 4.8256412108757466e-05,
	"loss": 0.9078,
	"mean_token_accuracy": 0.7345719337463379,
	"step": 925
	},
	{
	"epoch": 0.17089305402425578,
	"grad_norm": 1.1664463354681245,
	"learning_rate": 4.822992502534325e-05,
	"loss": 0.9038,
	"mean_token_accuracy": 0.7323048114776611,
	"step": 930
	},
	{
	"epoch": 0.17181183388460125,
	"grad_norm": 1.3331259616500464,
	"learning_rate": 4.820324650571938e-05,
	"loss": 0.8287,
	"mean_token_accuracy": 0.7578937888145447,
	"step": 935
	},
	{
	"epoch": 0.17273061374494672,
	"grad_norm": 1.2600746932123381,
	"learning_rate": 4.8176376796256e-05,
	"loss": 0.9795,
	"mean_token_accuracy": 0.7109430193901062,
	"step": 940
	},
	{
	"epoch": 0.17364939360529216,
	"grad_norm": 1.4190547333037917,
	"learning_rate": 4.814931614508884e-05,
	"loss": 0.8004,
	"mean_token_accuracy": 0.7619459390640259,
	"step": 945
	},
	{
	"epoch": 0.17456817346563763,
	"grad_norm": 1.149443686205735,
	"learning_rate": 4.812206480211697e-05,
	"loss": 0.8498,
	"mean_token_accuracy": 0.7484025120735168,
	"step": 950
	},
	{
	"epoch": 0.1754869533259831,
	"grad_norm": 1.717641721438028,
	"learning_rate": 4.809462301900042e-05,
	"loss": 0.8926,
	"mean_token_accuracy": 0.7387519717216492,
	"step": 955
	},
	{
	"epoch": 0.17640573318632854,
	"grad_norm": 1.286493811954347,
	"learning_rate": 4.806699104915789e-05,
	"loss": 0.9063,
	"mean_token_accuracy": 0.733875036239624,
	"step": 960
	},
	{
	"epoch": 0.17732451304667401,
	"grad_norm": 0.9127620652567309,
	"learning_rate": 4.803916914776445e-05,
	"loss": 0.7582,
	"mean_token_accuracy": 0.7734929203987122,
	"step": 965
	},
	{
	"epoch": 0.17824329290701948,
	"grad_norm": 1.1385225837750934,
	"learning_rate": 4.801115757174911e-05,
	"loss": 0.8003,
	"mean_token_accuracy": 0.7619274735450745,
	"step": 970
	},
	{
	"epoch": 0.17916207276736493,
	"grad_norm": 1.0365511688061633,
	"learning_rate": 4.798295657979249e-05,
	"loss": 0.8788,
	"mean_token_accuracy": 0.7446885228157043,
	"step": 975
	},
	{
	"epoch": 0.1800808526277104,
	"grad_norm": 1.168341096775078,
	"learning_rate": 4.795456643232444e-05,
	"loss": 0.8201,
	"mean_token_accuracy": 0.7583209872245789,
	"step": 980
	},
	{
	"epoch": 0.18099963248805587,
	"grad_norm": 1.2070861524091874,
	"learning_rate": 4.79259873915216e-05,
	"loss": 0.8247,
	"mean_token_accuracy": 0.754137146472931,
	"step": 985
	},
	{
	"epoch": 0.1819184123484013,
	"grad_norm": 1.1865394539255603,
	"learning_rate": 4.789721972130499e-05,
	"loss": 0.8068,
	"mean_token_accuracy": 0.7631414651870727,
	"step": 990
	},
	{
	"epoch": 0.18283719220874678,
	"grad_norm": 1.052924845633483,
	"learning_rate": 4.7868263687337613e-05,
	"loss": 0.7659,
	"mean_token_accuracy": 0.7754044890403747,
	"step": 995
	},
	{
	"epoch": 0.18375597206909225,
	"grad_norm": 1.1878988268801094,
	"learning_rate": 4.783911955702196e-05,
	"loss": 0.8474,
	"mean_token_accuracy": 0.7484631299972534,
	"step": 1000
	},
	{
	"epoch": 0.18467475192943772,
	"grad_norm": 1.2268828963125744,
	"learning_rate": 4.7809787599497504e-05,
	"loss": 0.8361,
	"mean_token_accuracy": 0.756050968170166,
	"step": 1005
	},
	{
	"epoch": 0.18559353178978316,
	"grad_norm": 1.1621815374305198,
	"learning_rate": 4.778026808563833e-05,
	"loss": 0.8081,
	"mean_token_accuracy": 0.7624092817306518,
	"step": 1010
	},
	{
	"epoch": 0.18651231165012863,
	"grad_norm": 1.3537024766805776,
	"learning_rate": 4.775056128805051e-05,
	"loss": 0.8903,
	"mean_token_accuracy": 0.7347793221473694,
	"step": 1015
	},
	{
	"epoch": 0.1874310915104741,
	"grad_norm": 1.1053617147333854,
	"learning_rate": 4.772066748106967e-05,
	"loss": 0.8345,
	"mean_token_accuracy": 0.7528262138366699,
	"step": 1020
	},
	{
	"epoch": 0.18834987137081954,
	"grad_norm": 1.270871735891865,
	"learning_rate": 4.7690586940758405e-05,
	"loss": 0.8519,
	"mean_token_accuracy": 0.7496292948722839,
	"step": 1025
	},
	{
	"epoch": 0.189268651231165,
	"grad_norm": 1.1951114465300396,
	"learning_rate": 4.766031994490377e-05,
	"loss": 0.8632,
	"mean_token_accuracy": 0.7459157705307007,
	"step": 1030
	},
	{
	"epoch": 0.19018743109151048,
	"grad_norm": 1.2145135516278585,
	"learning_rate": 4.762986677301468e-05,
	"loss": 0.7844,
	"mean_token_accuracy": 0.7638005137443542,
	"step": 1035
	},
	{
	"epoch": 0.19110621095185593,
	"grad_norm": 1.2377029681542826,
	"learning_rate": 4.759922770631935e-05,
	"loss": 0.8294,
	"mean_token_accuracy": 0.7549967885017395,
	"step": 1040
	},
	{
	"epoch": 0.1920249908122014,
	"grad_norm": 1.2317484830433059,
	"learning_rate": 4.7568403027762696e-05,
	"loss": 0.7993,
	"mean_token_accuracy": 0.763549017906189,
	"step": 1045
	},
	{
	"epoch": 0.19294377067254687,
	"grad_norm": 1.106617224635935,
	"learning_rate": 4.75373930220037e-05,
	"loss": 0.8114,
	"mean_token_accuracy": 0.7601318001747132,
	"step": 1050
	},
	{
	"epoch": 0.1938625505328923,
	"grad_norm": 1.2406149376598858,
	"learning_rate": 4.7506197975412826e-05,
	"loss": 0.901,
	"mean_token_accuracy": 0.7375799655914307,
	"step": 1055
	},
	{
	"epoch": 0.19478133039323778,
	"grad_norm": 1.368471676340253,
	"learning_rate": 4.747481817606933e-05,
	"loss": 0.9158,
	"mean_token_accuracy": 0.730099368095398,
	"step": 1060
	},
	{
	"epoch": 0.19570011025358325,
	"grad_norm": 1.2045592901618265,
	"learning_rate": 4.7443253913758617e-05,
	"loss": 0.8766,
	"mean_token_accuracy": 0.7418853521347046,
	"step": 1065
	},
	{
	"epoch": 0.1966188901139287,
	"grad_norm": 1.0674799173203142,
	"learning_rate": 4.741150547996958e-05,
	"loss": 0.8079,
	"mean_token_accuracy": 0.763364028930664,
	"step": 1070
	},
	{
	"epoch": 0.19753766997427416,
	"grad_norm": 1.3569414017684345,
	"learning_rate": 4.737957316789189e-05,
	"loss": 0.8038,
	"mean_token_accuracy": 0.7652618408203125,
	"step": 1075
	},
	{
	"epoch": 0.19845644983461963,
	"grad_norm": 1.237112155686031,
	"learning_rate": 4.734745727241328e-05,
	"loss": 0.9153,
	"mean_token_accuracy": 0.7342644929885864,
	"step": 1080
	},
	{
	"epoch": 0.19937522969496507,
	"grad_norm": 1.1267547624767125,
	"learning_rate": 4.7315158090116854e-05,
	"loss": 0.8808,
	"mean_token_accuracy": 0.7401048541069031,
	"step": 1085
	},
	{
	"epoch": 0.20029400955531054,
	"grad_norm": 1.1393796581940456,
	"learning_rate": 4.728267591927831e-05,
	"loss": 0.8232,
	"mean_token_accuracy": 0.7574564695358277,
	"step": 1090
	},
	{
	"epoch": 0.201212789415656,
	"grad_norm": 1.0439059841475136,
	"learning_rate": 4.7250011059863207e-05,
	"loss": 0.8255,
	"mean_token_accuracy": 0.7512354731559754,
	"step": 1095
	},
	{
	"epoch": 0.20213156927600148,
	"grad_norm": 1.1400055909091193,
	"learning_rate": 4.721716381352422e-05,
	"loss": 0.8547,
	"mean_token_accuracy": 0.7499767065048217,
	"step": 1100
	},
	{
	"epoch": 0.20305034913634692,
	"grad_norm": 1.1315286051266153,
	"learning_rate": 4.718413448359828e-05,
	"loss": 0.8083,
	"mean_token_accuracy": 0.7595677256584168,
	"step": 1105
	},
	{
	"epoch": 0.2039691289966924,
	"grad_norm": 1.1864811752644395,
	"learning_rate": 4.715092337510386e-05,
	"loss": 0.8823,
	"mean_token_accuracy": 0.7407166361808777,
	"step": 1110
	},
	{
	"epoch": 0.20488790885703786,
	"grad_norm": 1.1151247170457734,
	"learning_rate": 4.711753079473809e-05,
	"loss": 0.8344,
	"mean_token_accuracy": 0.7524962782859802,
	"step": 1115
	},
	{
	"epoch": 0.2058066887173833,
	"grad_norm": 1.1211350911528808,
	"learning_rate": 4.7083957050873965e-05,
	"loss": 0.8168,
	"mean_token_accuracy": 0.755139684677124,
	"step": 1120
	},
	{
	"epoch": 0.20672546857772878,
	"grad_norm": 1.2831690134615248,
	"learning_rate": 4.705020245355749e-05,
	"loss": 0.9413,
	"mean_token_accuracy": 0.72357656955719,
	"step": 1125
	},
	{
	"epoch": 0.20764424843807425,
	"grad_norm": 1.034972121395733,
	"learning_rate": 4.701626731450479e-05,
	"loss": 0.8167,
	"mean_token_accuracy": 0.7568554997444152,
	"step": 1130
	},
	{
	"epoch": 0.2085630282984197,
	"grad_norm": 1.012657589652359,
	"learning_rate": 4.6982151947099276e-05,
	"loss": 0.833,
	"mean_token_accuracy": 0.7557546138763428,
	"step": 1135
	},
	{
	"epoch": 0.20948180815876516,
	"grad_norm": 1.1282926356775929,
	"learning_rate": 4.694785666638871e-05,
	"loss": 0.8341,
	"mean_token_accuracy": 0.7547509074211121,
	"step": 1140
	},
	{
	"epoch": 0.21040058801911063,
	"grad_norm": 1.0977221337381091,
	"learning_rate": 4.691338178908232e-05,
	"loss": 0.8154,
	"mean_token_accuracy": 0.7610322952270507,
	"step": 1145
	},
	{
	"epoch": 0.21131936787945607,
	"grad_norm": 1.093844804786045,
	"learning_rate": 4.687872763354788e-05,
	"loss": 0.8406,
	"mean_token_accuracy": 0.7520750164985657,
	"step": 1150
	},
	{
	"epoch": 0.21223814773980154,
	"grad_norm": 1.0307882599984655,
	"learning_rate": 4.684389451980873e-05,
	"loss": 0.7764,
	"mean_token_accuracy": 0.7720999121665955,
	"step": 1155
	},
	{
	"epoch": 0.213156927600147,
	"grad_norm": 1.2074018111359583,
	"learning_rate": 4.680888276954087e-05,
	"loss": 0.8309,
	"mean_token_accuracy": 0.7553021907806396,
	"step": 1160
	},
	{
	"epoch": 0.21407570746049245,
	"grad_norm": 1.0917419046828303,
	"learning_rate": 4.677369270606997e-05,
	"loss": 0.8418,
	"mean_token_accuracy": 0.7502257823944092,
	"step": 1165
	},
	{
	"epoch": 0.21499448732083792,
	"grad_norm": 1.0820900629957635,
	"learning_rate": 4.673832465436837e-05,
	"loss": 0.7671,
	"mean_token_accuracy": 0.7708743929862976,
	"step": 1170
	},
	{
	"epoch": 0.2159132671811834,
	"grad_norm": 1.089247755922322,
	"learning_rate": 4.67027789410521e-05,
	"loss": 0.8538,
	"mean_token_accuracy": 0.7494909524917602,
	"step": 1175
	},
	{
	"epoch": 0.21683204704152884,
	"grad_norm": 1.1197011602210687,
	"learning_rate": 4.6667055894377857e-05,
	"loss": 0.8645,
	"mean_token_accuracy": 0.7444219350814819,
	"step": 1180
	},
	{
	"epoch": 0.2177508269018743,
	"grad_norm": 1.1249433607043806,
	"learning_rate": 4.663115584423995e-05,
	"loss": 0.7794,
	"mean_token_accuracy": 0.7685939073562622,
	"step": 1185
	},
	{
	"epoch": 0.21866960676221978,
	"grad_norm": 1.0486000440190792,
	"learning_rate": 4.659507912216732e-05,
	"loss": 0.9305,
	"mean_token_accuracy": 0.7281524419784546,
	"step": 1190
	},
	{
	"epoch": 0.21958838662256525,
	"grad_norm": 1.167591023080102,
	"learning_rate": 4.6558826061320384e-05,
	"loss": 0.7969,
	"mean_token_accuracy": 0.7660298943519592,
	"step": 1195
	},
	{
	"epoch": 0.2205071664829107,
	"grad_norm": 1.1633015665730886,
	"learning_rate": 4.652239699648803e-05,
	"loss": 0.8005,
	"mean_token_accuracy": 0.7678845167160034,
	"step": 1200
	},
	{
	"epoch": 0.22142594634325616,
	"grad_norm": 1.1234875884233444,
	"learning_rate": 4.648579226408452e-05,
	"loss": 0.8267,
	"mean_token_accuracy": 0.7536736965179444,
	"step": 1205
	},
	{
	"epoch": 0.22234472620360163,
	"grad_norm": 1.1117529930711065,
	"learning_rate": 4.644901220214634e-05,
	"loss": 0.8249,
	"mean_token_accuracy": 0.7595484375953674,
	"step": 1210
	},
	{
	"epoch": 0.22326350606394707,
	"grad_norm": 1.3136389068951135,
	"learning_rate": 4.641205715032912e-05,
	"loss": 0.7867,
	"mean_token_accuracy": 0.7665369153022766,
	"step": 1215
	},
	{
	"epoch": 0.22418228592429254,
	"grad_norm": 1.1409276324481026,
	"learning_rate": 4.637492744990448e-05,
	"loss": 0.8867,
	"mean_token_accuracy": 0.7416447997093201,
	"step": 1220
	},
	{
	"epoch": 0.225101065784638,
	"grad_norm": 1.2345145683805576,
	"learning_rate": 4.6337623443756866e-05,
	"loss": 0.7859,
	"mean_token_accuracy": 0.7682509303092957,
	"step": 1225
	},
	{
	"epoch": 0.22601984564498345,
	"grad_norm": 1.052220032293985,
	"learning_rate": 4.630014547638043e-05,
	"loss": 0.8437,
	"mean_token_accuracy": 0.7497885942459106,
	"step": 1230
	},
	{
	"epoch": 0.22693862550532892,
	"grad_norm": 1.1364062731073377,
	"learning_rate": 4.626249389387577e-05,
	"loss": 0.7733,
	"mean_token_accuracy": 0.769334900379181,
	"step": 1235
	},
	{
	"epoch": 0.2278574053656744,
	"grad_norm": 1.21546684775545,
	"learning_rate": 4.622466904394683e-05,
	"loss": 0.8526,
	"mean_token_accuracy": 0.7492899537086487,
	"step": 1240
	},
	{
	"epoch": 0.22877618522601983,
	"grad_norm": 1.2541380409672236,
	"learning_rate": 4.6186671275897615e-05,
	"loss": 0.8368,
	"mean_token_accuracy": 0.7558955073356628,
	"step": 1245
	},
	{
	"epoch": 0.2296949650863653,
	"grad_norm": 1.2101979681857873,
	"learning_rate": 4.614850094062899e-05,
	"loss": 0.8771,
	"mean_token_accuracy": 0.7446130990982056,
	"step": 1250
	},
	{
	"epoch": 0.23061374494671077,
	"grad_norm": 1.0752792678811776,
	"learning_rate": 4.6110158390635444e-05,
	"loss": 0.8294,
	"mean_token_accuracy": 0.7560481548309326,
	"step": 1255
	},
	{
	"epoch": 0.23153252480705622,
	"grad_norm": 1.0122734972045033,
	"learning_rate": 4.6071643980001825e-05,
	"loss": 0.8331,
	"mean_token_accuracy": 0.7490222334861756,
	"step": 1260
	},
	{
	"epoch": 0.2324513046674017,
	"grad_norm": 1.1910590877588172,
	"learning_rate": 4.603295806440009e-05,
	"loss": 0.7723,
	"mean_token_accuracy": 0.7715782880783081,
	"step": 1265
	},
	{
	"epoch": 0.23337008452774716,
	"grad_norm": 1.0660522556095817,
	"learning_rate": 4.599410100108598e-05,
	"loss": 0.8337,
	"mean_token_accuracy": 0.7520880579948426,
	"step": 1270
	},
	{
	"epoch": 0.2342888643880926,
	"grad_norm": 0.9720081756723926,
	"learning_rate": 4.5955073148895784e-05,
	"loss": 0.8179,
	"mean_token_accuracy": 0.7595946788787842,
	"step": 1275
	},
	{
	"epoch": 0.23520764424843807,
	"grad_norm": 1.1185494512129268,
	"learning_rate": 4.5915874868242944e-05,
	"loss": 0.8655,
	"mean_token_accuracy": 0.7462962985038757,
	"step": 1280
	},
	{
	"epoch": 0.23612642410878354,
	"grad_norm": 1.2897065646338821,
	"learning_rate": 4.5876506521114805e-05,
	"loss": 0.8233,
	"mean_token_accuracy": 0.7591111898422241,
	"step": 1285
	},
	{
	"epoch": 0.237045203969129,
	"grad_norm": 1.1197184208975648,
	"learning_rate": 4.583696847106923e-05,
	"loss": 0.8585,
	"mean_token_accuracy": 0.7474006295204163,
	"step": 1290
	},
	{
	"epoch": 0.23796398382947445,
	"grad_norm": 1.2068264298929217,
	"learning_rate": 4.579726108323123e-05,
	"loss": 0.9136,
	"mean_token_accuracy": 0.7314973592758178,
	"step": 1295
	},
	{
	"epoch": 0.23888276368981992,
	"grad_norm": 1.109906508524664,
	"learning_rate": 4.5757384724289646e-05,
	"loss": 0.7947,
	"mean_token_accuracy": 0.765422809123993,
	"step": 1300
	},
	{
	"epoch": 0.2398015435501654,
	"grad_norm": 1.2554961190022804,
	"learning_rate": 4.57173397624937e-05,
	"loss": 0.8618,
	"mean_token_accuracy": 0.7456292510032654,
	"step": 1305
	},
	{
	"epoch": 0.24072032341051083,
	"grad_norm": 1.358639687516225,
	"learning_rate": 4.567712656764964e-05,
	"loss": 0.9191,
	"mean_token_accuracy": 0.734754741191864,
	"step": 1310
	},
	{
	"epoch": 0.2416391032708563,
	"grad_norm": 1.088229104509902,
	"learning_rate": 4.5636745511117305e-05,
	"loss": 0.8064,
	"mean_token_accuracy": 0.7617093205451966,
	"step": 1315
	},
	{
	"epoch": 0.24255788313120177,
	"grad_norm": 0.9758498688217456,
	"learning_rate": 4.559619696580671e-05,
	"loss": 0.7845,
	"mean_token_accuracy": 0.7633411526679993,
	"step": 1320
	},
	{
	"epoch": 0.24347666299154722,
	"grad_norm": 1.2094716352749706,
	"learning_rate": 4.555548130617455e-05,
	"loss": 0.7992,
	"mean_token_accuracy": 0.7611837387084961,
	"step": 1325
	},
	{
	"epoch": 0.24439544285189269,
	"grad_norm": 1.1427008905651062,
	"learning_rate": 4.551459890822083e-05,
	"loss": 0.9158,
	"mean_token_accuracy": 0.733444607257843,
	"step": 1330
	},
	{
	"epoch": 0.24531422271223816,
	"grad_norm": 1.1713473006194377,
	"learning_rate": 4.547355014948534e-05,
	"loss": 0.845,
	"mean_token_accuracy": 0.7504712104797363,
	"step": 1335
	},
	{
	"epoch": 0.2462330025725836,
	"grad_norm": 1.2702712471344686,
	"learning_rate": 4.543233540904414e-05,
	"loss": 0.8789,
	"mean_token_accuracy": 0.7380323767662048,
	"step": 1340
	},
	{
	"epoch": 0.24715178243292907,
	"grad_norm": 0.9938570050140668,
	"learning_rate": 4.539095506750614e-05,
	"loss": 0.8884,
	"mean_token_accuracy": 0.7428679585456848,
	"step": 1345
	},
	{
	"epoch": 0.24807056229327454,
	"grad_norm": 1.1279522970582605,
	"learning_rate": 4.534940950700949e-05,
	"loss": 0.8753,
	"mean_token_accuracy": 0.7421611309051513,
	"step": 1350
	},
	{
	"epoch": 0.24898934215361998,
	"grad_norm": 1.2588052277827508,
	"learning_rate": 4.530769911121815e-05,
	"loss": 0.8473,
	"mean_token_accuracy": 0.7505762934684753,
	"step": 1355
	},
	{
	"epoch": 0.24990812201396545,
	"grad_norm": 1.096669421502074,
	"learning_rate": 4.526582426531826e-05,
	"loss": 0.8353,
	"mean_token_accuracy": 0.7524473786354064,
	"step": 1360
	},
	{
	"epoch": 0.2508269018743109,
	"grad_norm": 1.0282246931353665,
	"learning_rate": 4.5223785356014634e-05,
	"loss": 0.8702,
	"mean_token_accuracy": 0.7407379150390625,
	"step": 1365
	},
	{
	"epoch": 0.2517456817346564,
	"grad_norm": 1.093689037275291,
	"learning_rate": 4.518158277152717e-05,
	"loss": 0.8428,
	"mean_token_accuracy": 0.7473413228988648,
	"step": 1370
	},
	{
	"epoch": 0.25266446159500183,
	"grad_norm": 1.0139841625812813,
	"learning_rate": 4.51392169015873e-05,
	"loss": 0.7938,
	"mean_token_accuracy": 0.7664546370506287,
	"step": 1375
	},
	{
	"epoch": 0.2535832414553473,
	"grad_norm": 1.1094571215928501,
	"learning_rate": 4.509668813743429e-05,
	"loss": 0.8017,
	"mean_token_accuracy": 0.7636664628982544,
	"step": 1380
	},
	{
	"epoch": 0.2545020213156928,
	"grad_norm": 1.2159505822364018,
	"learning_rate": 4.505399687181178e-05,
	"loss": 0.8561,
	"mean_token_accuracy": 0.7478325366973877,
	"step": 1385
	},
	{
	"epoch": 0.2554208011760382,
	"grad_norm": 1.0494835563541474,
	"learning_rate": 4.501114349896401e-05,
	"loss": 0.8611,
	"mean_token_accuracy": 0.7463506817817688,
	"step": 1390
	},
	{
	"epoch": 0.25633958103638366,
	"grad_norm": 1.5114697063891234,
	"learning_rate": 4.496812841463229e-05,
	"loss": 0.755,
	"mean_token_accuracy": 0.7759661912918091,
	"step": 1395
	},
	{
	"epoch": 0.25725836089672915,
	"grad_norm": 1.0714063923864912,
	"learning_rate": 4.492495201605126e-05,
	"loss": 0.7358,
	"mean_token_accuracy": 0.7826925754547119,
	"step": 1400
	},
	{
	"epoch": 0.2581771407570746,
	"grad_norm": 1.0758074940838653,
	"learning_rate": 4.4881614701945296e-05,
	"loss": 0.8875,
	"mean_token_accuracy": 0.7398916482925415,
	"step": 1405
	},
	{
	"epoch": 0.25909592061742004,
	"grad_norm": 1.215294771351842,
	"learning_rate": 4.483811687252477e-05,
	"loss": 0.8486,
	"mean_token_accuracy": 0.7489311933517456,
	"step": 1410
	},
	{
	"epoch": 0.26001470047776554,
	"grad_norm": 1.0794344380786876,
	"learning_rate": 4.479445892948238e-05,
	"loss": 0.7227,
	"mean_token_accuracy": 0.784658420085907,
	"step": 1415
	},
	{
	"epoch": 0.260933480338111,
	"grad_norm": 1.069221904312748,
	"learning_rate": 4.4750641275989454e-05,
	"loss": 0.8486,
	"mean_token_accuracy": 0.7488225340843201,
	"step": 1420
	},
	{
	"epoch": 0.2618522601984565,
	"grad_norm": 0.9620708178874104,
	"learning_rate": 4.470666431669217e-05,
	"loss": 0.8034,
	"mean_token_accuracy": 0.764237916469574,
	"step": 1425
	},
	{
	"epoch": 0.2627710400588019,
	"grad_norm": 1.638007368384327,
	"learning_rate": 4.4662528457707925e-05,
	"loss": 0.8552,
	"mean_token_accuracy": 0.7481104493141174,
	"step": 1430
	},
	{
	"epoch": 0.26368981991914736,
	"grad_norm": 1.057487407894169,
	"learning_rate": 4.4618234106621464e-05,
	"loss": 0.8672,
	"mean_token_accuracy": 0.7452296495437623,
	"step": 1435
	},
	{
	"epoch": 0.26460859977949286,
	"grad_norm": 0.9574304406812039,
	"learning_rate": 4.457378167248117e-05,
	"loss": 0.834,
	"mean_token_accuracy": 0.7546884775161743,
	"step": 1440
	},
	{
	"epoch": 0.2655273796398383,
	"grad_norm": 0.9556755030834319,
	"learning_rate": 4.452917156579533e-05,
	"loss": 0.8089,
	"mean_token_accuracy": 0.7618599176406861,
	"step": 1445
	},
	{
	"epoch": 0.26644615950018374,
	"grad_norm": 1.0854572977327381,
	"learning_rate": 4.4484404198528275e-05,
	"loss": 0.8759,
	"mean_token_accuracy": 0.7410173654556275,
	"step": 1450
	},
	{
	"epoch": 0.26736493936052924,
	"grad_norm": 1.2057318993172499,
	"learning_rate": 4.443947998409658e-05,
	"loss": 0.8436,
	"mean_token_accuracy": 0.7513974785804749,
	"step": 1455
	},
	{
	"epoch": 0.2682837192208747,
	"grad_norm": 1.0376956546110065,
	"learning_rate": 4.439439933736532e-05,
	"loss": 0.849,
	"mean_token_accuracy": 0.7492346167564392,
	"step": 1460
	},
	{
	"epoch": 0.2692024990812201,
	"grad_norm": 1.1016805520406512,
	"learning_rate": 4.434916267464416e-05,
	"loss": 0.7783,
	"mean_token_accuracy": 0.7683018922805787,
	"step": 1465
	},
	{
	"epoch": 0.2701212789415656,
	"grad_norm": 1.2408322866975516,
	"learning_rate": 4.430377041368351e-05,
	"loss": 0.8772,
	"mean_token_accuracy": 0.738334059715271,
	"step": 1470
	},
	{
	"epoch": 0.27104005880191107,
	"grad_norm": 1.090229737310603,
	"learning_rate": 4.425822297367075e-05,
	"loss": 0.7981,
	"mean_token_accuracy": 0.7645934343338012,
	"step": 1475
	},
	{
	"epoch": 0.2719588386622565,
	"grad_norm": 1.1864254928194882,
	"learning_rate": 4.4212520775226256e-05,
	"loss": 0.8155,
	"mean_token_accuracy": 0.7581284165382385,
	"step": 1480
	},
	{
	"epoch": 0.272877618522602,
	"grad_norm": 0.9904815545158214,
	"learning_rate": 4.4166664240399606e-05,
	"loss": 0.8076,
	"mean_token_accuracy": 0.7610304713249206,
	"step": 1485
	},
	{
	"epoch": 0.27379639838294745,
	"grad_norm": 1.0991992028451756,
	"learning_rate": 4.412065379266559e-05,
	"loss": 0.9142,
	"mean_token_accuracy": 0.7303188562393188,
	"step": 1490
	},
	{
	"epoch": 0.2747151782432929,
	"grad_norm": 1.0413802785892232,
	"learning_rate": 4.4074489856920406e-05,
	"loss": 0.8434,
	"mean_token_accuracy": 0.7503148317337036,
	"step": 1495
	},
	{
	"epoch": 0.2756339581036384,
	"grad_norm": 0.8788289426619142,
	"learning_rate": 4.4028172859477626e-05,
	"loss": 0.7476,
	"mean_token_accuracy": 0.7781436324119568,
	"step": 1500
	},
	{
	"epoch": 0.27655273796398383,
	"grad_norm": 1.1409867687324795,
	"learning_rate": 4.398170322806435e-05,
	"loss": 0.9066,
	"mean_token_accuracy": 0.7312582850456237,
	"step": 1505
	},
	{
	"epoch": 0.2774715178243293,
	"grad_norm": 1.0726549315103535,
	"learning_rate": 4.3935081391817194e-05,
	"loss": 0.8533,
	"mean_token_accuracy": 0.7442232012748718,
	"step": 1510
	},
	{
	"epoch": 0.27839029768467477,
	"grad_norm": 1.0743736375904043,
	"learning_rate": 4.388830778127837e-05,
	"loss": 0.8109,
	"mean_token_accuracy": 0.755815064907074,
	"step": 1515
	},
	{
	"epoch": 0.2793090775450202,
	"grad_norm": 1.1737139300743868,
	"learning_rate": 4.3841382828391684e-05,
	"loss": 0.783,
	"mean_token_accuracy": 0.770452618598938,
	"step": 1520
	},
	{
	"epoch": 0.28022785740536565,
	"grad_norm": 0.9732962716875773,
	"learning_rate": 4.379430696649856e-05,
	"loss": 0.8423,
	"mean_token_accuracy": 0.7509778499603271,
	"step": 1525
	},
	{
	"epoch": 0.28114663726571115,
	"grad_norm": 1.2143466656736133,
	"learning_rate": 4.374708063033403e-05,
	"loss": 0.8262,
	"mean_token_accuracy": 0.7557825446128845,
	"step": 1530
	},
	{
	"epoch": 0.2820654171260566,
	"grad_norm": 1.1347429120882544,
	"learning_rate": 4.369970425602269e-05,
	"loss": 0.7872,
	"mean_token_accuracy": 0.7643797039985657,
	"step": 1535
	},
	{
	"epoch": 0.28298419698640204,
	"grad_norm": 1.0471262947053317,
	"learning_rate": 4.365217828107476e-05,
	"loss": 0.8227,
	"mean_token_accuracy": 0.7580597996711731,
	"step": 1540
	},
	{
	"epoch": 0.28390297684674753,
	"grad_norm": 0.9720065253460837,
	"learning_rate": 4.3604503144381964e-05,
	"loss": 0.8133,
	"mean_token_accuracy": 0.7570616483688355,
	"step": 1545
	},
	{
	"epoch": 0.284821756707093,
	"grad_norm": 1.0983353140713001,
	"learning_rate": 4.3556679286213495e-05,
	"loss": 0.8416,
	"mean_token_accuracy": 0.7502852201461792,
	"step": 1550
	},
	{
	"epoch": 0.2857405365674384,
	"grad_norm": 0.9936040636732534,
	"learning_rate": 4.3508707148211946e-05,
	"loss": 0.7351,
	"mean_token_accuracy": 0.7779555797576905,
	"step": 1555
	},
	{
	"epoch": 0.2866593164277839,
	"grad_norm": 1.0923713064546872,
	"learning_rate": 4.3460587173389284e-05,
	"loss": 0.8502,
	"mean_token_accuracy": 0.7482675671577453,
	"step": 1560
	},
	{
	"epoch": 0.28757809628812936,
	"grad_norm": 1.0011444400816414,
	"learning_rate": 4.341231980612266e-05,
	"loss": 0.8008,
	"mean_token_accuracy": 0.7629394650459289,
	"step": 1565
	},
	{
	"epoch": 0.2884968761484748,
	"grad_norm": 1.057600337329318,
	"learning_rate": 4.336390549215041e-05,
	"loss": 0.8052,
	"mean_token_accuracy": 0.7602485775947571,
	"step": 1570
	},
	{
	"epoch": 0.2894156560088203,
	"grad_norm": 0.9400172537775919,
	"learning_rate": 4.331534467856785e-05,
	"loss": 0.8037,
	"mean_token_accuracy": 0.7623314976692199,
	"step": 1575
	},
	{
	"epoch": 0.29033443586916574,
	"grad_norm": 1.1540389749120974,
	"learning_rate": 4.3266637813823216e-05,
	"loss": 0.8087,
	"mean_token_accuracy": 0.7602805018424987,
	"step": 1580
	},
	{
	"epoch": 0.2912532157295112,
	"grad_norm": 1.1256888029606915,
	"learning_rate": 4.3217785347713486e-05,
	"loss": 0.8196,
	"mean_token_accuracy": 0.7612602710723877,
	"step": 1585
	},
	{
	"epoch": 0.2921719955898567,
	"grad_norm": 1.1230902967533625,
	"learning_rate": 4.3168787731380224e-05,
	"loss": 0.7872,
	"mean_token_accuracy": 0.7645440459251404,
	"step": 1590
	},
	{
	"epoch": 0.2930907754502021,
	"grad_norm": 1.0556955876997007,
	"learning_rate": 4.3119645417305435e-05,
	"loss": 0.8697,
	"mean_token_accuracy": 0.7421263337135315,
	"step": 1595
	},
	{
	"epoch": 0.29400955531054757,
	"grad_norm": 1.2917611391283017,
	"learning_rate": 4.307035885930736e-05,
	"loss": 0.7776,
	"mean_token_accuracy": 0.7674265027046203,
	"step": 1600
	},
	{
	"epoch": 0.29492833517089306,
	"grad_norm": 1.1648596155514652,
	"learning_rate": 4.3020928512536326e-05,
	"loss": 0.7851,
	"mean_token_accuracy": 0.7669198989868165,
	"step": 1605
	},
	{
	"epoch": 0.2958471150312385,
	"grad_norm": 1.0970597977003158,
	"learning_rate": 4.29713548334705e-05,
	"loss": 0.8279,
	"mean_token_accuracy": 0.7507619738578797,
	"step": 1610
	},
	{
	"epoch": 0.296765894891584,
	"grad_norm": 1.054076923212483,
	"learning_rate": 4.292163827991168e-05,
	"loss": 0.7722,
	"mean_token_accuracy": 0.7705003499984742,
	"step": 1615
	},
	{
	"epoch": 0.29768467475192945,
	"grad_norm": 1.2125775832361394,
	"learning_rate": 4.2871779310981114e-05,
	"loss": 0.8192,
	"mean_token_accuracy": 0.7588199496269226,
	"step": 1620
	},
	{
	"epoch": 0.2986034546122749,
	"grad_norm": 0.9888172610894965,
	"learning_rate": 4.282177838711518e-05,
	"loss": 0.7953,
	"mean_token_accuracy": 0.7682381868362427,
	"step": 1625
	},
	{
	"epoch": 0.2995222344726204,
	"grad_norm": 0.9981457336248658,
	"learning_rate": 4.277163597006121e-05,
	"loss": 0.824,
	"mean_token_accuracy": 0.7541024565696717,
	"step": 1630
	},
	{
	"epoch": 0.30044101433296583,
	"grad_norm": 1.036834210307202,
	"learning_rate": 4.2721352522873184e-05,
	"loss": 0.7632,
	"mean_token_accuracy": 0.7723967909812928,
	"step": 1635
	},
	{
	"epoch": 0.30135979419331127,
	"grad_norm": 1.1851229887536607,
	"learning_rate": 4.2670928509907446e-05,
	"loss": 0.8349,
	"mean_token_accuracy": 0.7524407744407654,
	"step": 1640
	},
	{
	"epoch": 0.30227857405365677,
	"grad_norm": 1.0536941977185987,
	"learning_rate": 4.262036439681847e-05,
	"loss": 0.8138,
	"mean_token_accuracy": 0.7575963020324707,
	"step": 1645
	},
	{
	"epoch": 0.3031973539140022,
	"grad_norm": 1.0372574521222562,
	"learning_rate": 4.256966065055449e-05,
	"loss": 0.7325,
	"mean_token_accuracy": 0.7790537357330323,
	"step": 1650
	},
	{
	"epoch": 0.30411613377434765,
	"grad_norm": 1.0174389909956805,
	"learning_rate": 4.251881773935325e-05,
	"loss": 0.864,
	"mean_token_accuracy": 0.74665367603302,
	"step": 1655
	},
	{
	"epoch": 0.30503491363469315,
	"grad_norm": 0.9845084927156172,
	"learning_rate": 4.246783613273761e-05,
	"loss": 0.7645,
	"mean_token_accuracy": 0.7687517642974854,
	"step": 1660
	},
	{
	"epoch": 0.3059536934950386,
	"grad_norm": 1.0336916342848663,
	"learning_rate": 4.2416716301511305e-05,
	"loss": 0.8479,
	"mean_token_accuracy": 0.7481852293014526,
	"step": 1665
	},
	{
	"epoch": 0.30687247335538403,
	"grad_norm": 1.0381531094343786,
	"learning_rate": 4.2365458717754494e-05,
	"loss": 0.8085,
	"mean_token_accuracy": 0.75991370677948,
	"step": 1670
	},
	{
	"epoch": 0.30779125321572953,
	"grad_norm": 1.110015448227854,
	"learning_rate": 4.231406385481947e-05,
	"loss": 0.7717,
	"mean_token_accuracy": 0.7670859694480896,
	"step": 1675
	},
	{
	"epoch": 0.308710033076075,
	"grad_norm": 1.036136344871459,
	"learning_rate": 4.226253218732629e-05,
	"loss": 0.7949,
	"mean_token_accuracy": 0.7634945988655091,
	"step": 1680
	},
	{
	"epoch": 0.3096288129364204,
	"grad_norm": 1.0484877630675096,
	"learning_rate": 4.221086419115832e-05,
	"loss": 0.8448,
	"mean_token_accuracy": 0.751638388633728,
	"step": 1685
	},
	{
	"epoch": 0.3105475927967659,
	"grad_norm": 6.349506903012944,
	"learning_rate": 4.2159060343457947e-05,
	"loss": 0.9101,
	"mean_token_accuracy": 0.7370145440101623,
	"step": 1690
	},
	{
	"epoch": 0.31146637265711136,
	"grad_norm": 1.1977614262895908,
	"learning_rate": 4.2107121122622066e-05,
	"loss": 0.8389,
	"mean_token_accuracy": 0.7488813638687134,
	"step": 1695
	},
	{
	"epoch": 0.3123851525174568,
	"grad_norm": 1.2380653768153889,
	"learning_rate": 4.2055047008297757e-05,
	"loss": 0.8342,
	"mean_token_accuracy": 0.7505980730056763,
	"step": 1700
	},
	{
	"epoch": 0.3133039323778023,
	"grad_norm": 0.9546362693630366,
	"learning_rate": 4.200283848137777e-05,
	"loss": 0.7855,
	"mean_token_accuracy": 0.7642045140266418,
	"step": 1705
	},
	{
	"epoch": 0.31422271223814774,
	"grad_norm": 1.022441012881404,
	"learning_rate": 4.195049602399616e-05,
	"loss": 0.7877,
	"mean_token_accuracy": 0.7621595740318299,
	"step": 1710
	},
	{
	"epoch": 0.3151414920984932,
	"grad_norm": 1.0392246094486983,
	"learning_rate": 4.189802011952378e-05,
	"loss": 0.878,
	"mean_token_accuracy": 0.744194757938385,
	"step": 1715
	},
	{
	"epoch": 0.3160602719588387,
	"grad_norm": 1.077282143260173,
	"learning_rate": 4.184541125256385e-05,
	"loss": 0.7917,
	"mean_token_accuracy": 0.7647501945495605,
	"step": 1720
	},
	{
	"epoch": 0.3169790518191841,
	"grad_norm": 0.9775790537668483,
	"learning_rate": 4.1792669908947436e-05,
	"loss": 0.8597,
	"mean_token_accuracy": 0.74363933801651,
	"step": 1725
	},
	{
	"epoch": 0.31789783167952956,
	"grad_norm": 1.1117317785310954,
	"learning_rate": 4.1739796575729045e-05,
	"loss": 0.8114,
	"mean_token_accuracy": 0.7558189272880554,
	"step": 1730
	},
	{
	"epoch": 0.31881661153987506,
	"grad_norm": 1.1369274014331534,
	"learning_rate": 4.168679174118205e-05,
	"loss": 0.8715,
	"mean_token_accuracy": 0.7428115725517273,
	"step": 1735
	},
	{
	"epoch": 0.3197353914002205,
	"grad_norm": 1.0490276575831161,
	"learning_rate": 4.1633655894794206e-05,
	"loss": 0.8579,
	"mean_token_accuracy": 0.7467806100845337,
	"step": 1740
	},
	{
	"epoch": 0.32065417126056595,
	"grad_norm": 1.0117146921952147,
	"learning_rate": 4.158038952726315e-05,
	"loss": 0.7832,
	"mean_token_accuracy": 0.7676323890686035,
	"step": 1745
	},
	{
	"epoch": 0.32157295112091144,
	"grad_norm": 1.0514207056273204,
	"learning_rate": 4.1526993130491834e-05,
	"loss": 0.7417,
	"mean_token_accuracy": 0.779768443107605,
	"step": 1750
	},
	{
	"epoch": 0.3224917309812569,
	"grad_norm": 1.1710593436653487,
	"learning_rate": 4.147346719758401e-05,
	"loss": 0.759,
	"mean_token_accuracy": 0.7754043459892273,
	"step": 1755
	},
	{
	"epoch": 0.32341051084160233,
	"grad_norm": 1.1210033487742597,
	"learning_rate": 4.141981222283969e-05,
	"loss": 0.8426,
	"mean_token_accuracy": 0.7512526273727417,
	"step": 1760
	},
	{
	"epoch": 0.3243292907019478,
	"grad_norm": 1.067779284913716,
	"learning_rate": 4.136602870175049e-05,
	"loss": 0.7312,
	"mean_token_accuracy": 0.7808745861053467,
	"step": 1765
	},
	{
	"epoch": 0.32524807056229327,
	"grad_norm": 0.9739576922638749,
	"learning_rate": 4.131211713099522e-05,
	"loss": 0.7442,
	"mean_token_accuracy": 0.7744468688964844,
	"step": 1770
	},
	{
	"epoch": 0.3261668504226387,
	"grad_norm": 1.013655175975763,
	"learning_rate": 4.1258078008435103e-05,
	"loss": 0.7824,
	"mean_token_accuracy": 0.7647914290428162,
	"step": 1775
	},
	{
	"epoch": 0.3270856302829842,
	"grad_norm": 0.9850930887046532,
	"learning_rate": 4.120391183310934e-05,
	"loss": 0.7274,
	"mean_token_accuracy": 0.7834605932235718,
	"step": 1780
	},
	{
	"epoch": 0.32800441014332965,
	"grad_norm": 1.323489905547871,
	"learning_rate": 4.114961910523042e-05,
	"loss": 0.8074,
	"mean_token_accuracy": 0.7612802505493164,
	"step": 1785
	},
	{
	"epoch": 0.3289231900036751,
	"grad_norm": 1.035219788914723,
	"learning_rate": 4.109520032617952e-05,
	"loss": 0.8369,
	"mean_token_accuracy": 0.7539438486099244,
	"step": 1790
	},
	{
	"epoch": 0.3298419698640206,
	"grad_norm": 0.984325460018373,
	"learning_rate": 4.104065599850183e-05,
	"loss": 0.8593,
	"mean_token_accuracy": 0.7480033159255981,
	"step": 1795
	},
	{
	"epoch": 0.33076074972436603,
	"grad_norm": 1.1555611010512028,
	"learning_rate": 4.098598662590202e-05,
	"loss": 0.7045,
	"mean_token_accuracy": 0.7892690062522888,
	"step": 1800
	},
	{
	"epoch": 0.33167952958471153,
	"grad_norm": 1.0781062858261419,
	"learning_rate": 4.093119271323947e-05,
	"loss": 0.8231,
	"mean_token_accuracy": 0.75406334400177,
	"step": 1805
	},
	{
	"epoch": 0.33259830944505697,
	"grad_norm": 1.0129880605444779,
	"learning_rate": 4.0876274766523674e-05,
	"loss": 0.9059,
	"mean_token_accuracy": 0.7340885043144226,
	"step": 1810
	},
	{
	"epoch": 0.3335170893054024,
	"grad_norm": 1.214320088802432,
	"learning_rate": 4.0821233292909575e-05,
	"loss": 0.8751,
	"mean_token_accuracy": 0.7407148957252503,
	"step": 1815
	},
	{
	"epoch": 0.3344358691657479,
	"grad_norm": 1.000936871191356,
	"learning_rate": 4.076606880069283e-05,
	"loss": 0.7856,
	"mean_token_accuracy": 0.7644298434257507,
	"step": 1820
	},
	{
	"epoch": 0.33535464902609335,
	"grad_norm": 1.1385038309062536,
	"learning_rate": 4.0710781799305146e-05,
	"loss": 0.8165,
	"mean_token_accuracy": 0.7551571488380432,
	"step": 1825
	},
	{
	"epoch": 0.3362734288864388,
	"grad_norm": 1.308386913579212,
	"learning_rate": 4.065537279930961e-05,
	"loss": 0.8436,
	"mean_token_accuracy": 0.7464751482009888,
	"step": 1830
	},
	{
	"epoch": 0.3371922087467843,
	"grad_norm": 1.1854394162632642,
	"learning_rate": 4.059984231239587e-05,
	"loss": 0.8499,
	"mean_token_accuracy": 0.7523553133010864,
	"step": 1835
	},
	{
	"epoch": 0.33811098860712974,
	"grad_norm": 1.0597911593288654,
	"learning_rate": 4.054419085137558e-05,
	"loss": 0.7912,
	"mean_token_accuracy": 0.7623480677604675,
	"step": 1840
	},
	{
	"epoch": 0.3390297684674752,
	"grad_norm": 1.1332445452310214,
	"learning_rate": 4.0488418930177464e-05,
	"loss": 0.7861,
	"mean_token_accuracy": 0.7626782655715942,
	"step": 1845
	},
	{
	"epoch": 0.3399485483278207,
	"grad_norm": 1.1468762268738129,
	"learning_rate": 4.043252706384273e-05,
	"loss": 0.8866,
	"mean_token_accuracy": 0.7364044427871704,
	"step": 1850
	},
	{
	"epoch": 0.3408673281881661,
	"grad_norm": 1.0468393046787807,
	"learning_rate": 4.037651576852021e-05,
	"loss": 0.8192,
	"mean_token_accuracy": 0.7569101452827454,
	"step": 1855
	},
	{
	"epoch": 0.34178610804851156,
	"grad_norm": 1.034873991581434,
	"learning_rate": 4.032038556146167e-05,
	"loss": 0.7799,
	"mean_token_accuracy": 0.7652035236358643,
	"step": 1860
	},
	{
	"epoch": 0.34270488790885706,
	"grad_norm": 1.0816344286074944,
	"learning_rate": 4.0264136961017e-05,
	"loss": 0.8062,
	"mean_token_accuracy": 0.7586339831352233,
	"step": 1865
	},
	{
	"epoch": 0.3436236677692025,
	"grad_norm": 1.1216437423138468,
	"learning_rate": 4.020777048662939e-05,
	"loss": 0.8526,
	"mean_token_accuracy": 0.7471354722976684,
	"step": 1870
	},
	{
	"epoch": 0.34454244762954794,
	"grad_norm": 1.2787020788596146,
	"learning_rate": 4.01512866588306e-05,
	"loss": 0.8337,
	"mean_token_accuracy": 0.7524662256240845,
	"step": 1875
	},
	{
	"epoch": 0.34546122748989344,
	"grad_norm": 0.9726950672685023,
	"learning_rate": 4.009468599923613e-05,
	"loss": 0.8254,
	"mean_token_accuracy": 0.7547502636909484,
	"step": 1880
	},
	{
	"epoch": 0.3463800073502389,
	"grad_norm": 1.1522393714280965,
	"learning_rate": 4.0037969030540356e-05,
	"loss": 0.8788,
	"mean_token_accuracy": 0.7409179091453553,
	"step": 1885
	},
	{
	"epoch": 0.3472987872105843,
	"grad_norm": 1.0134958833049312,
	"learning_rate": 3.9981136276511786e-05,
	"loss": 0.7966,
	"mean_token_accuracy": 0.7628639936447144,
	"step": 1890
	},
	{
	"epoch": 0.3482175670709298,
	"grad_norm": 1.0067212082614574,
	"learning_rate": 3.992418826198816e-05,
	"loss": 0.7483,
	"mean_token_accuracy": 0.7759244441986084,
	"step": 1895
	},
	{
	"epoch": 0.34913634693127527,
	"grad_norm": 1.1440056397503298,
	"learning_rate": 3.9867125512871604e-05,
	"loss": 0.8465,
	"mean_token_accuracy": 0.7483215093612671,
	"step": 1900
	},
	{
	"epoch": 0.3500551267916207,
	"grad_norm": 1.015411004374869,
	"learning_rate": 3.980994855612384e-05,
	"loss": 0.7634,
	"mean_token_accuracy": 0.768380320072174,
	"step": 1905
	},
	{
	"epoch": 0.3509739066519662,
	"grad_norm": 1.0214270916485333,
	"learning_rate": 3.975265791976122e-05,
	"loss": 0.8031,
	"mean_token_accuracy": 0.7592991948127746,
	"step": 1910
	},
	{
	"epoch": 0.35189268651231165,
	"grad_norm": 1.0257322832506945,
	"learning_rate": 3.969525413284994e-05,
	"loss": 0.7808,
	"mean_token_accuracy": 0.7686658024787902,
	"step": 1915
	},
	{
	"epoch": 0.3528114663726571,
	"grad_norm": 1.0256575127828191,
	"learning_rate": 3.96377377255011e-05,
	"loss": 0.8711,
	"mean_token_accuracy": 0.7431510090827942,
	"step": 1920
	},
	{
	"epoch": 0.3537302462330026,
	"grad_norm": 1.2324007321771868,
	"learning_rate": 3.958010922886582e-05,
	"loss": 0.8813,
	"mean_token_accuracy": 0.7428903222084046,
	"step": 1925
	},
	{
	"epoch": 0.35464902609334803,
	"grad_norm": 1.3413818534531692,
	"learning_rate": 3.9522369175130345e-05,
	"loss": 0.8645,
	"mean_token_accuracy": 0.7381167054176331,
	"step": 1930
	},
	{
	"epoch": 0.35556780595369347,
	"grad_norm": 1.1450695156011848,
	"learning_rate": 3.946451809751114e-05,
	"loss": 0.8475,
	"mean_token_accuracy": 0.7497512817382812,
	"step": 1935
	},
	{
	"epoch": 0.35648658581403897,
	"grad_norm": 1.2054216083900955,
	"learning_rate": 3.9406556530249905e-05,
	"loss": 0.8103,
	"mean_token_accuracy": 0.7571905732154847,
	"step": 1940
	},
	{
	"epoch": 0.3574053656743844,
	"grad_norm": 1.06377210645749,
	"learning_rate": 3.934848500860875e-05,
	"loss": 0.7883,
	"mean_token_accuracy": 0.7618215918540955,
	"step": 1945
	},
	{
	"epoch": 0.35832414553472985,
	"grad_norm": 1.0312951220792854,
	"learning_rate": 3.9290304068865144e-05,
	"loss": 0.8129,
	"mean_token_accuracy": 0.7582242131233216,
	"step": 1950
	},
	{
	"epoch": 0.35924292539507535,
	"grad_norm": 0.9872094884682482,
	"learning_rate": 3.923201424830701e-05,
	"loss": 0.7861,
	"mean_token_accuracy": 0.765390944480896,
	"step": 1955
	},
	{
	"epoch": 0.3601617052554208,
	"grad_norm": 0.9446381855103185,
	"learning_rate": 3.917361608522778e-05,
	"loss": 0.8067,
	"mean_token_accuracy": 0.7581991076469421,
	"step": 1960
	},
	{
	"epoch": 0.36108048511576624,
	"grad_norm": 1.0047794050440646,
	"learning_rate": 3.911511011892141e-05,
	"loss": 0.815,
	"mean_token_accuracy": 0.7577335119247437,
	"step": 1965
	},
	{
	"epoch": 0.36199926497611173,
	"grad_norm": 1.0514135855864823,
	"learning_rate": 3.905649688967736e-05,
	"loss": 0.8003,
	"mean_token_accuracy": 0.7607754588127136,
	"step": 1970
	},
	{
	"epoch": 0.3629180448364572,
	"grad_norm": 0.9011315096836434,
	"learning_rate": 3.8997776938775664e-05,
	"loss": 0.8548,
	"mean_token_accuracy": 0.748826515674591,
	"step": 1975
	},
	{
	"epoch": 0.3638368246968026,
	"grad_norm": 1.0629251850472634,
	"learning_rate": 3.893895080848192e-05,
	"loss": 0.8871,
	"mean_token_accuracy": 0.7375021696090698,
	"step": 1980
	},
	{
	"epoch": 0.3647556045571481,
	"grad_norm": 1.002663862883126,
	"learning_rate": 3.888001904204223e-05,
	"loss": 0.7724,
	"mean_token_accuracy": 0.769203269481659,
	"step": 1985
	},
	{
	"epoch": 0.36567438441749356,
	"grad_norm": 0.9877909023393563,
	"learning_rate": 3.882098218367826e-05,
	"loss": 0.7703,
	"mean_token_accuracy": 0.7695886373519898,
	"step": 1990
	},
	{
	"epoch": 0.36659316427783906,
	"grad_norm": 1.148691358597791,
	"learning_rate": 3.876184077858214e-05,
	"loss": 0.707,
	"mean_token_accuracy": 0.7888103008270264,
	"step": 1995
	},
	{
	"epoch": 0.3675119441381845,
	"grad_norm": 0.9571216367735665,
	"learning_rate": 3.8702595372911524e-05,
	"loss": 0.7846,
	"mean_token_accuracy": 0.769954240322113,
	"step": 2000
	},
	{
	"epoch": 0.36843072399852994,
	"grad_norm": 0.8971436133233381,
	"learning_rate": 3.86432465137844e-05,
	"loss": 0.783,
	"mean_token_accuracy": 0.7654212713241577,
	"step": 2005
	},
	{
	"epoch": 0.36934950385887544,
	"grad_norm": 1.0855213777834216,
	"learning_rate": 3.8583794749274197e-05,
	"loss": 0.7858,
	"mean_token_accuracy": 0.7648387908935547,
	"step": 2010
	},
	{
	"epoch": 0.3702682837192209,
	"grad_norm": 1.0016490287283184,
	"learning_rate": 3.852424062840465e-05,
	"loss": 0.7997,
	"mean_token_accuracy": 0.7611153483390808,
	"step": 2015
	},
	{
	"epoch": 0.3711870635795663,
	"grad_norm": 1.0410544587880413,
	"learning_rate": 3.846458470114469e-05,
	"loss": 0.8434,
	"mean_token_accuracy": 0.745345389842987,
	"step": 2020
	},
	{
	"epoch": 0.3721058434399118,
	"grad_norm": 1.0734066596059144,
	"learning_rate": 3.8404827518403424e-05,
	"loss": 0.8303,
	"mean_token_accuracy": 0.7534924626350403,
	"step": 2025
	},
	{
	"epoch": 0.37302462330025726,
	"grad_norm": 1.1067287910564152,
	"learning_rate": 3.834496963202506e-05,
	"loss": 0.7138,
	"mean_token_accuracy": 0.7858679056167602,
	"step": 2030
	},
	{
	"epoch": 0.3739434031606027,
	"grad_norm": 1.0240680595901026,
	"learning_rate": 3.828501159478374e-05,
	"loss": 0.7816,
	"mean_token_accuracy": 0.767118227481842,
	"step": 2035
	},
	{
	"epoch": 0.3748621830209482,
	"grad_norm": 0.9108092672977341,
	"learning_rate": 3.822495396037849e-05,
	"loss": 0.7888,
	"mean_token_accuracy": 0.7624866485595703,
	"step": 2040
	},
	{
	"epoch": 0.37578096288129365,
	"grad_norm": 0.9408803997681696,
	"learning_rate": 3.816479728342811e-05,
	"loss": 0.7799,
	"mean_token_accuracy": 0.7651725172996521,
	"step": 2045
	},
	{
	"epoch": 0.3766997427416391,
	"grad_norm": 1.0909405717967111,
	"learning_rate": 3.8104542119466024e-05,
	"loss": 0.8526,
	"mean_token_accuracy": 0.7467872500419617,
	"step": 2050
	},
	{
	"epoch": 0.3776185226019846,
	"grad_norm": 1.0413672136227896,
	"learning_rate": 3.804418902493515e-05,
	"loss": 0.8557,
	"mean_token_accuracy": 0.7429945468902588,
	"step": 2055
	},
	{
	"epoch": 0.37853730246233,
	"grad_norm": 1.013837379671012,
	"learning_rate": 3.798373855718281e-05,
	"loss": 0.7514,
	"mean_token_accuracy": 0.7755364179611206,
	"step": 2060
	},
	{
	"epoch": 0.37945608232267547,
	"grad_norm": 1.1123775153381206,
	"learning_rate": 3.7923191274455485e-05,
	"loss": 0.8503,
	"mean_token_accuracy": 0.746312165260315,
	"step": 2065
	},
	{
	"epoch": 0.38037486218302097,
	"grad_norm": 1.1418197878690564,
	"learning_rate": 3.786254773589378e-05,
	"loss": 0.8214,
	"mean_token_accuracy": 0.7556997299194336,
	"step": 2070
	},
	{
	"epoch": 0.3812936420433664,
	"grad_norm": 1.067367442039563,
	"learning_rate": 3.780180850152716e-05,
	"loss": 0.8306,
	"mean_token_accuracy": 0.7545937180519104,
	"step": 2075
	},
	{
	"epoch": 0.38221242190371185,
	"grad_norm": 0.9953541285561653,
	"learning_rate": 3.774097413226885e-05,
	"loss": 0.8767,
	"mean_token_accuracy": 0.7388915061950684,
	"step": 2080
	},
	{
	"epoch": 0.38313120176405735,
	"grad_norm": 0.9620898865674795,
	"learning_rate": 3.768004518991061e-05,
	"loss": 0.8024,
	"mean_token_accuracy": 0.7610628366470337,
	"step": 2085
	},
	{
	"epoch": 0.3840499816244028,
	"grad_norm": 1.040454257360025,
	"learning_rate": 3.761902223711754e-05,
	"loss": 0.837,
	"mean_token_accuracy": 0.749622106552124,
	"step": 2090
	},
	{
	"epoch": 0.38496876148474823,
	"grad_norm": 0.9516590882481228,
	"learning_rate": 3.755790583742296e-05,
	"loss": 0.8153,
	"mean_token_accuracy": 0.758633291721344,
	"step": 2095
	},
	{
	"epoch": 0.38588754134509373,
	"grad_norm": 1.0838072652279054,
	"learning_rate": 3.749669655522308e-05,
	"loss": 0.8902,
	"mean_token_accuracy": 0.7317674040794373,
	"step": 2100
	},
	{
	"epoch": 0.3868063212054392,
	"grad_norm": 0.9749499461968839,
	"learning_rate": 3.743539495577193e-05,
	"loss": 0.8897,
	"mean_token_accuracy": 0.739715039730072,
	"step": 2105
	},
	{
	"epoch": 0.3877251010657846,
	"grad_norm": 0.9972815952612917,
	"learning_rate": 3.7374001605176026e-05,
	"loss": 0.7977,
	"mean_token_accuracy": 0.7625495314598083,
	"step": 2110
	},
	{
	"epoch": 0.3886438809261301,
	"grad_norm": 0.9037607701703367,
	"learning_rate": 3.731251707038919e-05,
	"loss": 0.7822,
	"mean_token_accuracy": 0.7656629920005799,
	"step": 2115
	},
	{
	"epoch": 0.38956266078647556,
	"grad_norm": 1.0416251065743547,
	"learning_rate": 3.725094191920731e-05,
	"loss": 0.8298,
	"mean_token_accuracy": 0.7543026089668274,
	"step": 2120
	},
	{
	"epoch": 0.390481440646821,
	"grad_norm": 0.947462414303698,
	"learning_rate": 3.7189276720263124e-05,
	"loss": 0.7782,
	"mean_token_accuracy": 0.7649134397506714,
	"step": 2125
	},
	{
	"epoch": 0.3914002205071665,
	"grad_norm": 0.8871190316863635,
	"learning_rate": 3.712752204302089e-05,
	"loss": 0.8158,
	"mean_token_accuracy": 0.7549549221992493,
	"step": 2130
	},
	{
	"epoch": 0.39231900036751194,
	"grad_norm": 1.0445560118226038,
	"learning_rate": 3.7065678457771224e-05,
	"loss": 0.817,
	"mean_token_accuracy": 0.7530762314796448,
	"step": 2135
	},
	{
	"epoch": 0.3932377802278574,
	"grad_norm": 0.9686024583555402,
	"learning_rate": 3.700374653562577e-05,
	"loss": 0.7923,
	"mean_token_accuracy": 0.7622018694877625,
	"step": 2140
	},
	{
	"epoch": 0.3941565600882029,
	"grad_norm": 0.9213469714809804,
	"learning_rate": 3.694172684851193e-05,
	"loss": 0.7721,
	"mean_token_accuracy": 0.7674794912338256,
	"step": 2145
	},
	{
	"epoch": 0.3950753399485483,
	"grad_norm": 0.9345497817342381,
	"learning_rate": 3.6879619969167614e-05,
	"loss": 0.7492,
	"mean_token_accuracy": 0.776430857181549,
	"step": 2150
	},
	{
	"epoch": 0.39599411980889376,
	"grad_norm": 1.0666312061499093,
	"learning_rate": 3.681742647113594e-05,
	"loss": 0.8168,
	"mean_token_accuracy": 0.7584180355072021,
	"step": 2155
	},
	{
	"epoch": 0.39691289966923926,
	"grad_norm": 1.1091479631196337,
	"learning_rate": 3.67551469287599e-05,
	"loss": 0.8346,
	"mean_token_accuracy": 0.7529264330863953,
	"step": 2160
	},
	{
	"epoch": 0.3978316795295847,
	"grad_norm": 1.0802706313899886,
	"learning_rate": 3.669278191717712e-05,
	"loss": 0.8326,
	"mean_token_accuracy": 0.748162055015564,
	"step": 2165
	},
	{
	"epoch": 0.39875045938993015,
	"grad_norm": 1.2155117409623286,
	"learning_rate": 3.6630332012314485e-05,
	"loss": 0.8257,
	"mean_token_accuracy": 0.7545464992523193,
	"step": 2170
	},
	{
	"epoch": 0.39966923925027564,
	"grad_norm": 1.0387043754774363,
	"learning_rate": 3.656779779088287e-05,
	"loss": 0.7581,
	"mean_token_accuracy": 0.769706928730011,
	"step": 2175
	},
	{
	"epoch": 0.4005880191106211,
	"grad_norm": 0.9698917316969403,
	"learning_rate": 3.650517983037179e-05,
	"loss": 0.7412,
	"mean_token_accuracy": 0.7771862506866455,
	"step": 2180
	},
	{
	"epoch": 0.4015067989709666,
	"grad_norm": 0.9123240142029096,
	"learning_rate": 3.6442478709044065e-05,
	"loss": 0.7079,
	"mean_token_accuracy": 0.7833864569664002,
	"step": 2185
	},
	{
	"epoch": 0.402425578831312,
	"grad_norm": 1.0355123737426308,
	"learning_rate": 3.6379695005930504e-05,
	"loss": 0.7094,
	"mean_token_accuracy": 0.7866922855377197,
	"step": 2190
	},
	{
	"epoch": 0.40334435869165747,
	"grad_norm": 1.1267999437797982,
	"learning_rate": 3.6316829300824514e-05,
	"loss": 0.7638,
	"mean_token_accuracy": 0.7694135665893554,
	"step": 2195
	},
	{
	"epoch": 0.40426313855200297,
	"grad_norm": 0.9483752352311176,
	"learning_rate": 3.6253882174276784e-05,
	"loss": 0.8328,
	"mean_token_accuracy": 0.7523651957511902,
	"step": 2200
	},
	{
	"epoch": 0.4051819184123484,
	"grad_norm": 1.081747935405834,
	"learning_rate": 3.619085420758994e-05,
	"loss": 0.8821,
	"mean_token_accuracy": 0.7345280289649964,
	"step": 2205
	},
	{
	"epoch": 0.40610069827269385,
	"grad_norm": 1.2409774807789806,
	"learning_rate": 3.612774598281309e-05,
	"loss": 0.8638,
	"mean_token_accuracy": 0.7448987007141114,
	"step": 2210
	},
	{
	"epoch": 0.40701947813303935,
	"grad_norm": 1.0398975018242138,
	"learning_rate": 3.606455808273656e-05,
	"loss": 0.7303,
	"mean_token_accuracy": 0.7799215197563172,
	"step": 2215
	},
	{
	"epoch": 0.4079382579933848,
	"grad_norm": 1.1058430385137907,
	"learning_rate": 3.600129109088644e-05,
	"loss": 0.7463,
	"mean_token_accuracy": 0.7737818479537963,
	"step": 2220
	},
	{
	"epoch": 0.40885703785373023,
	"grad_norm": 2.3840075862300405,
	"learning_rate": 3.593794559151921e-05,
	"loss": 0.827,
	"mean_token_accuracy": 0.7540715932846069,
	"step": 2225
	},
	{
	"epoch": 0.40977581771407573,
	"grad_norm": 1.0043211971634207,
	"learning_rate": 3.5874522169616346e-05,
	"loss": 0.8156,
	"mean_token_accuracy": 0.7552896976470947,
	"step": 2230
	},
	{
	"epoch": 0.41069459757442117,
	"grad_norm": 1.040415072100305,
	"learning_rate": 3.581102141087893e-05,
	"loss": 0.7356,
	"mean_token_accuracy": 0.7774260997772217,
	"step": 2235
	},
	{
	"epoch": 0.4116133774347666,
	"grad_norm": 1.0107449068601633,
	"learning_rate": 3.5747443901722246e-05,
	"loss": 0.8332,
	"mean_token_accuracy": 0.7481484651565552,
	"step": 2240
	},
	{
	"epoch": 0.4125321572951121,
	"grad_norm": 1.0982955854264607,
	"learning_rate": 3.568379022927032e-05,
	"loss": 0.8514,
	"mean_token_accuracy": 0.7456109881401062,
	"step": 2245
	},
	{
	"epoch": 0.41345093715545755,
	"grad_norm": 0.9554863556690953,
	"learning_rate": 3.562006098135056e-05,
	"loss": 0.8014,
	"mean_token_accuracy": 0.7609956502914429,
	"step": 2250
	},
	{
	"epoch": 0.414369717015803,
	"grad_norm": 1.076779827899152,
	"learning_rate": 3.5556256746488256e-05,
	"loss": 0.7832,
	"mean_token_accuracy": 0.7661887645721436,
	"step": 2255
	},
	{
	"epoch": 0.4152884968761485,
	"grad_norm": 0.9529179922047704,
	"learning_rate": 3.549237811390125e-05,
	"loss": 0.8153,
	"mean_token_accuracy": 0.7538660645484925,
	"step": 2260
	},
	{
	"epoch": 0.41620727673649394,
	"grad_norm": 1.1195875955943517,
	"learning_rate": 3.542842567349435e-05,
	"loss": 0.7221,
	"mean_token_accuracy": 0.7824627161026001,
	"step": 2265
	},
	{
	"epoch": 0.4171260565968394,
	"grad_norm": 0.92653979162294,
	"learning_rate": 3.536440001585405e-05,
	"loss": 0.7777,
	"mean_token_accuracy": 0.7661702513694764,
	"step": 2270
	},
	{
	"epoch": 0.4180448364571849,
	"grad_norm": 1.1097040235889317,
	"learning_rate": 3.5300301732242894e-05,
	"loss": 0.6985,
	"mean_token_accuracy": 0.7891063332557678,
	"step": 2275
	},
	{
	"epoch": 0.4189636163175303,
	"grad_norm": 1.008299555421031,
	"learning_rate": 3.523613141459418e-05,
	"loss": 0.7802,
	"mean_token_accuracy": 0.7641416311264038,
	"step": 2280
	},
	{
	"epoch": 0.41988239617787576,
	"grad_norm": 1.032289956768311,
	"learning_rate": 3.5171889655506415e-05,
	"loss": 0.8249,
	"mean_token_accuracy": 0.7521484732627869,
	"step": 2285
	},
	{
	"epoch": 0.42080117603822126,
	"grad_norm": 1.0467412920187205,
	"learning_rate": 3.510757704823784e-05,
	"loss": 0.858,
	"mean_token_accuracy": 0.746031641960144,
	"step": 2290
	},
	{
	"epoch": 0.4217199558985667,
	"grad_norm": 0.9244613024912548,
	"learning_rate": 3.5043194186700936e-05,
	"loss": 0.7074,
	"mean_token_accuracy": 0.7865028500556945,
	"step": 2295
	},
	{
	"epoch": 0.42263873575891214,
	"grad_norm": 1.2481817962042026,
	"learning_rate": 3.4978741665457025e-05,
	"loss": 0.8653,
	"mean_token_accuracy": 0.7401462674140931,
	"step": 2300
	},
	{
	"epoch": 0.42355751561925764,
	"grad_norm": 1.1106698371323385,
	"learning_rate": 3.4914220079710666e-05,
	"loss": 0.7935,
	"mean_token_accuracy": 0.7622707843780517,
	"step": 2305
	},
	{
	"epoch": 0.4244762954796031,
	"grad_norm": 1.0106898769557273,
	"learning_rate": 3.484963002530425e-05,
	"loss": 0.7434,
	"mean_token_accuracy": 0.7763538002967835,
	"step": 2310
	},
	{
	"epoch": 0.4253950753399485,
	"grad_norm": 0.8849864404343236,
	"learning_rate": 3.478497209871245e-05,
	"loss": 0.6992,
	"mean_token_accuracy": 0.7923735499382019,
	"step": 2315
	},
	{
	"epoch": 0.426313855200294,
	"grad_norm": 0.9563259804283883,
	"learning_rate": 3.472024689703671e-05,
	"loss": 0.7486,
	"mean_token_accuracy": 0.7754692554473877,
	"step": 2320
	},
	{
	"epoch": 0.42723263506063947,
	"grad_norm": 0.9606543568940551,
	"learning_rate": 3.465545501799976e-05,
	"loss": 0.7453,
	"mean_token_accuracy": 0.7748713374137879,
	"step": 2325
	},
	{
	"epoch": 0.4281514149209849,
	"grad_norm": 0.9591747976619429,
	"learning_rate": 3.4590597059940075e-05,
	"loss": 0.7557,
	"mean_token_accuracy": 0.7716753005981445,
	"step": 2330
	},
	{
	"epoch": 0.4290701947813304,
	"grad_norm": 1.0062222102856666,
	"learning_rate": 3.4525673621806365e-05,
	"loss": 0.7196,
	"mean_token_accuracy": 0.7826886892318725,
	"step": 2335
	},
	{
	"epoch": 0.42998897464167585,
	"grad_norm": 0.9978547883457327,
	"learning_rate": 3.4460685303152014e-05,
	"loss": 0.7528,
	"mean_token_accuracy": 0.773649275302887,
	"step": 2340
	},
	{
	"epoch": 0.4309077545020213,
	"grad_norm": 1.0567272451689054,
	"learning_rate": 3.4395632704129565e-05,
	"loss": 0.7358,
	"mean_token_accuracy": 0.7783871531486511,
	"step": 2345
	},
	{
	"epoch": 0.4318265343623668,
	"grad_norm": 0.9796518204189265,
	"learning_rate": 3.43305164254852e-05,
	"loss": 0.8094,
	"mean_token_accuracy": 0.7556680321693421,
	"step": 2350
	},
	{
	"epoch": 0.43274531422271223,
	"grad_norm": 1.2145226004304532,
	"learning_rate": 3.426533706855314e-05,
	"loss": 0.8687,
	"mean_token_accuracy": 0.7412409901618957,
	"step": 2355
	},
	{
	"epoch": 0.43366409408305767,
	"grad_norm": 1.07424243219785,
	"learning_rate": 3.420009523525016e-05,
	"loss": 0.798,
	"mean_token_accuracy": 0.7611199259757996,
	"step": 2360
	},
	{
	"epoch": 0.43458287394340317,
	"grad_norm": 0.9910321317767857,
	"learning_rate": 3.4134791528069924e-05,
	"loss": 0.7826,
	"mean_token_accuracy": 0.7638975620269776,
	"step": 2365
	},
	{
	"epoch": 0.4355016538037486,
	"grad_norm": 0.9247920341694345,
	"learning_rate": 3.406942655007755e-05,
	"loss": 0.8644,
	"mean_token_accuracy": 0.7422878861427307,
	"step": 2370
	},
	{
	"epoch": 0.4364204336640941,
	"grad_norm": 1.1061133237797016,
	"learning_rate": 3.400400090490394e-05,
	"loss": 0.7632,
	"mean_token_accuracy": 0.7687703609466553,
	"step": 2375
	},
	{
	"epoch": 0.43733921352443955,
	"grad_norm": 1.0542956872190579,
	"learning_rate": 3.393851519674027e-05,
	"loss": 0.7244,
	"mean_token_accuracy": 0.7811267971992493,
	"step": 2380
	},
	{
	"epoch": 0.438257993384785,
	"grad_norm": 0.9897649894527137,
	"learning_rate": 3.387297003033237e-05,
	"loss": 0.8368,
	"mean_token_accuracy": 0.7458428382873535,
	"step": 2385
	},
	{
	"epoch": 0.4391767732451305,
	"grad_norm": 0.9767768078602704,
	"learning_rate": 3.380736601097514e-05,
	"loss": 0.764,
	"mean_token_accuracy": 0.7723331332206727,
	"step": 2390
	},
	{
	"epoch": 0.44009555310547593,
	"grad_norm": 0.9595716112205526,
	"learning_rate": 3.374170374450701e-05,
	"loss": 0.7663,
	"mean_token_accuracy": 0.7720773100852967,
	"step": 2395
	},
	{
	"epoch": 0.4410143329658214,
	"grad_norm": 1.076074919473048,
	"learning_rate": 3.367598383730429e-05,
	"loss": 0.7088,
	"mean_token_accuracy": 0.785472309589386,
	"step": 2400
	},
	{
	"epoch": 0.4419331128261669,
	"grad_norm": 1.082210949676486,
	"learning_rate": 3.361020689627556e-05,
	"loss": 0.7326,
	"mean_token_accuracy": 0.7807153582572937,
	"step": 2405
	},
	{
	"epoch": 0.4428518926865123,
	"grad_norm": 0.9481216990417377,
	"learning_rate": 3.354437352885616e-05,
	"loss": 0.7801,
	"mean_token_accuracy": 0.7678476572036743,
	"step": 2410
	},
	{
	"epoch": 0.44377067254685776,
	"grad_norm": 0.9841501438162628,
	"learning_rate": 3.347848434300244e-05,
	"loss": 0.774,
	"mean_token_accuracy": 0.7663671970367432,
	"step": 2415
	},
	{
	"epoch": 0.44468945240720326,
	"grad_norm": 1.0107998180735964,
	"learning_rate": 3.341253994718628e-05,
	"loss": 0.7629,
	"mean_token_accuracy": 0.7694483995437622,
	"step": 2420
	},
	{
	"epoch": 0.4456082322675487,
	"grad_norm": 1.0972419453877216,
	"learning_rate": 3.334654095038939e-05,
	"loss": 0.8412,
	"mean_token_accuracy": 0.7457273244857788,
	"step": 2425
	},
	{
	"epoch": 0.44652701212789414,
	"grad_norm": 1.2432204140882914,
	"learning_rate": 3.3280487962097696e-05,
	"loss": 0.8691,
	"mean_token_accuracy": 0.7431544780731201,
	"step": 2430
	},
	{
	"epoch": 0.44744579198823964,
	"grad_norm": 0.9401271930787076,
	"learning_rate": 3.3214381592295743e-05,
	"loss": 0.7024,
	"mean_token_accuracy": 0.784889030456543,
	"step": 2435
	},
	{
	"epoch": 0.4483645718485851,
	"grad_norm": 1.041383480262174,
	"learning_rate": 3.3148222451461035e-05,
	"loss": 0.8058,
	"mean_token_accuracy": 0.7577178955078125,
	"step": 2440
	},
	{
	"epoch": 0.4492833517089305,
	"grad_norm": 1.0194759744273139,
	"learning_rate": 3.308201115055841e-05,
	"loss": 0.712,
	"mean_token_accuracy": 0.7870323181152343,
	"step": 2445
	},
	{
	"epoch": 0.450202131569276,
	"grad_norm": 1.4686250705410333,
	"learning_rate": 3.301574830103437e-05,
	"loss": 0.8155,
	"mean_token_accuracy": 0.7529638648033142,
	"step": 2450
	},
	{
	"epoch": 0.45112091142962146,
	"grad_norm": 1.031770370598432,
	"learning_rate": 3.294943451481148e-05,
	"loss": 0.7707,
	"mean_token_accuracy": 0.7680568814277648,
	"step": 2455
	},
	{
	"epoch": 0.4520396912899669,
	"grad_norm": 1.0322162169498617,
	"learning_rate": 3.288307040428269e-05,
	"loss": 0.7308,
	"mean_token_accuracy": 0.7787389516830444,
	"step": 2460
	},
	{
	"epoch": 0.4529584711503124,
	"grad_norm": 0.9740443305657719,
	"learning_rate": 3.281665658230568e-05,
	"loss": 0.7369,
	"mean_token_accuracy": 0.7813670396804809,
	"step": 2465
	},
	{
	"epoch": 0.45387725101065785,
	"grad_norm": 0.9656209530299383,
	"learning_rate": 3.2750193662197196e-05,
	"loss": 0.799,
	"mean_token_accuracy": 0.7627607464790345,
	"step": 2470
	},
	{
	"epoch": 0.4547960308710033,
	"grad_norm": 0.9955461958313095,
	"learning_rate": 3.2683682257727424e-05,
	"loss": 0.7435,
	"mean_token_accuracy": 0.7717449307441712,
	"step": 2475
	},
	{
	"epoch": 0.4557148107313488,
	"grad_norm": 1.0088438877085566,
	"learning_rate": 3.261712298311425e-05,
	"loss": 0.8432,
	"mean_token_accuracy": 0.7495060801506043,
	"step": 2480
	},
	{
	"epoch": 0.4566335905916942,
	"grad_norm": 0.9852421798418514,
	"learning_rate": 3.255051645301766e-05,
	"loss": 0.7598,
	"mean_token_accuracy": 0.7723948240280152,
	"step": 2485
	},
	{
	"epoch": 0.45755237045203967,
	"grad_norm": 1.1475584718237826,
	"learning_rate": 3.2483863282534034e-05,
	"loss": 0.7946,
	"mean_token_accuracy": 0.7613343358039856,
	"step": 2490
	},
	{
	"epoch": 0.45847115031238517,
	"grad_norm": 0.9748547683528608,
	"learning_rate": 3.241716408719044e-05,
	"loss": 0.7791,
	"mean_token_accuracy": 0.7649445414543152,
	"step": 2495
	},
	{
	"epoch": 0.4593899301727306,
	"grad_norm": 1.0462773904867664,
	"learning_rate": 3.2350419482939006e-05,
	"loss": 0.7762,
	"mean_token_accuracy": 0.7663216352462768,
	"step": 2500
	},
	{
	"epoch": 0.46030871003307605,
	"grad_norm": 1.0030710057983563,
	"learning_rate": 3.228363008615117e-05,
	"loss": 0.8001,
	"mean_token_accuracy": 0.7575832843780518,
	"step": 2505
	},
	{
	"epoch": 0.46122748989342155,
	"grad_norm": 0.9883286938382098,
	"learning_rate": 3.2216796513612063e-05,
	"loss": 0.7871,
	"mean_token_accuracy": 0.7624288439750672,
	"step": 2510
	},
	{
	"epoch": 0.462146269753767,
	"grad_norm": 1.0525039212029965,
	"learning_rate": 3.214991938251472e-05,
	"loss": 0.7558,
	"mean_token_accuracy": 0.7720568418502808,
	"step": 2515
	},
	{
	"epoch": 0.46306504961411243,
	"grad_norm": 1.0429696791102898,
	"learning_rate": 3.208299931045446e-05,
	"loss": 0.7642,
	"mean_token_accuracy": 0.7731514692306518,
	"step": 2520
	},
	{
	"epoch": 0.46398382947445793,
	"grad_norm": 1.0242365972013217,
	"learning_rate": 3.2016036915423145e-05,
	"loss": 0.7633,
	"mean_token_accuracy": 0.7699605584144592,
	"step": 2525
	},
	{
	"epoch": 0.4649026093348034,
	"grad_norm": 1.2324183314573516,
	"learning_rate": 3.1949032815803475e-05,
	"loss": 0.7682,
	"mean_token_accuracy": 0.7663087368011474,
	"step": 2530
	},
	{
	"epoch": 0.4658213891951488,
	"grad_norm": 0.9943168933618857,
	"learning_rate": 3.188198763036329e-05,
	"loss": 0.8362,
	"mean_token_accuracy": 0.7509650230407715,
	"step": 2535
	},
	{
	"epoch": 0.4667401690554943,
	"grad_norm": 0.9854698386880044,
	"learning_rate": 3.181490197824985e-05,
	"loss": 0.7956,
	"mean_token_accuracy": 0.7612180948257447,
	"step": 2540
	},
	{
	"epoch": 0.46765894891583976,
	"grad_norm": 0.960141519847968,
	"learning_rate": 3.1747776478984096e-05,
	"loss": 0.7204,
	"mean_token_accuracy": 0.7808646440505982,
	"step": 2545
	},
	{
	"epoch": 0.4685777287761852,
	"grad_norm": 1.1016288208270253,
	"learning_rate": 3.168061175245497e-05,
	"loss": 0.8181,
	"mean_token_accuracy": 0.7522975325584411,
	"step": 2550
	},
	{
	"epoch": 0.4694965086365307,
	"grad_norm": 1.0470917775420199,
	"learning_rate": 3.1613408418913676e-05,
	"loss": 0.7684,
	"mean_token_accuracy": 0.7654074668884278,
	"step": 2555
	},
	{
	"epoch": 0.47041528849687614,
	"grad_norm": 1.0068385295701907,
	"learning_rate": 3.154616709896791e-05,
	"loss": 0.8036,
	"mean_token_accuracy": 0.7603312849998474,
	"step": 2560
	},
	{
	"epoch": 0.47133406835722164,
	"grad_norm": 0.9829615470201221,
	"learning_rate": 3.147888841357619e-05,
	"loss": 0.813,
	"mean_token_accuracy": 0.759647810459137,
	"step": 2565
	},
	{
	"epoch": 0.4722528482175671,
	"grad_norm": 0.8978243887281022,
	"learning_rate": 3.141157298404211e-05,
	"loss": 0.7915,
	"mean_token_accuracy": 0.7597061276435852,
	"step": 2570
	},
	{
	"epoch": 0.4731716280779125,
	"grad_norm": 1.0947782890080606,
	"learning_rate": 3.134422143200854e-05,
	"loss": 0.8269,
	"mean_token_accuracy": 0.7519834399223327,
	"step": 2575
	},
	{
	"epoch": 0.474090407938258,
	"grad_norm": 0.9630113626806391,
	"learning_rate": 3.127683437945199e-05,
	"loss": 0.8306,
	"mean_token_accuracy": 0.7524376153945923,
	"step": 2580
	},
	{
	"epoch": 0.47500918779860346,
	"grad_norm": 0.912625232111843,
	"learning_rate": 3.120941244867675e-05,
	"loss": 0.7851,
	"mean_token_accuracy": 0.7631929993629456,
	"step": 2585
	},
	{
	"epoch": 0.4759279676589489,
	"grad_norm": 1.0798990597432274,
	"learning_rate": 3.1141956262309265e-05,
	"loss": 0.8272,
	"mean_token_accuracy": 0.7549837350845336,
	"step": 2590
	},
	{
	"epoch": 0.4768467475192944,
	"grad_norm": 0.9446129759073334,
	"learning_rate": 3.1074466443292276e-05,
	"loss": 0.7756,
	"mean_token_accuracy": 0.7657612562179565,
	"step": 2595
	},
	{
	"epoch": 0.47776552737963984,
	"grad_norm": 0.9259352218504912,
	"learning_rate": 3.1006943614879127e-05,
	"loss": 0.7342,
	"mean_token_accuracy": 0.7782540440559387,
	"step": 2600
	},
	{
	"epoch": 0.4786843072399853,
	"grad_norm": 1.0388874910734989,
	"learning_rate": 3.0939388400628e-05,
	"loss": 0.8209,
	"mean_token_accuracy": 0.757353937625885,
	"step": 2605
	},
	{
	"epoch": 0.4796030871003308,
	"grad_norm": 1.0351799688172598,
	"learning_rate": 3.087180142439615e-05,
	"loss": 0.7712,
	"mean_token_accuracy": 0.7672750115394592,
	"step": 2610
	},
	{
	"epoch": 0.4805218669606762,
	"grad_norm": 0.994898643969558,
	"learning_rate": 3.080418331033416e-05,
	"loss": 0.7542,
	"mean_token_accuracy": 0.7735359907150269,
	"step": 2615
	},
	{
	"epoch": 0.48144064682102167,
	"grad_norm": 0.8832020370330693,
	"learning_rate": 3.073653468288014e-05,
	"loss": 0.6924,
	"mean_token_accuracy": 0.792470920085907,
	"step": 2620
	},
	{
	"epoch": 0.48235942668136716,
	"grad_norm": 1.0051745659888849,
	"learning_rate": 3.0668856166754014e-05,
	"loss": 0.8004,
	"mean_token_accuracy": 0.7600342750549316,
	"step": 2625
	},
	{
	"epoch": 0.4832782065417126,
	"grad_norm": 1.0055252007007038,
	"learning_rate": 3.060114838695168e-05,
	"loss": 0.8243,
	"mean_token_accuracy": 0.7516715884208679,
	"step": 2630
	},
	{
	"epoch": 0.48419698640205805,
	"grad_norm": 1.0629225726483997,
	"learning_rate": 3.0533411968739315e-05,
	"loss": 0.7152,
	"mean_token_accuracy": 0.7828492283821106,
	"step": 2635
	},
	{
	"epoch": 0.48511576626240355,
	"grad_norm": 1.018552086343459,
	"learning_rate": 3.0465647537647564e-05,
	"loss": 0.7561,
	"mean_token_accuracy": 0.7733739614486694,
	"step": 2640
	},
	{
	"epoch": 0.486034546122749,
	"grad_norm": 1.110183845818711,
	"learning_rate": 3.0397855719465736e-05,
	"loss": 0.8057,
	"mean_token_accuracy": 0.7568628549575805,
	"step": 2645
	},
	{
	"epoch": 0.48695332598309443,
	"grad_norm": 0.9676140585791341,
	"learning_rate": 3.0330037140236083e-05,
	"loss": 0.795,
	"mean_token_accuracy": 0.7640480756759643,
	"step": 2650
	},
	{
	"epoch": 0.48787210584343993,
	"grad_norm": 0.9401353123276465,
	"learning_rate": 3.026219242624797e-05,
	"loss": 0.8139,
	"mean_token_accuracy": 0.7546276330947876,
	"step": 2655
	},
	{
	"epoch": 0.48879088570378537,
	"grad_norm": 1.0235062426914774,
	"learning_rate": 3.019432220403212e-05,
	"loss": 0.7659,
	"mean_token_accuracy": 0.7717217683792115,
	"step": 2660
	},
	{
	"epoch": 0.4897096655641308,
	"grad_norm": 1.1394523922744142,
	"learning_rate": 3.012642710035484e-05,
	"loss": 0.8078,
	"mean_token_accuracy": 0.7566407918930054,
	"step": 2665
	},
	{
	"epoch": 0.4906284454244763,
	"grad_norm": 1.059673146029454,
	"learning_rate": 3.0058507742212162e-05,
	"loss": 0.7741,
	"mean_token_accuracy": 0.7690371632575989,
	"step": 2670
	},
	{
	"epoch": 0.49154722528482175,
	"grad_norm": 0.9607137840570246,
	"learning_rate": 2.999056475682414e-05,
	"loss": 0.7948,
	"mean_token_accuracy": 0.7632219791412354,
	"step": 2675
	},
	{
	"epoch": 0.4924660051451672,
	"grad_norm": 0.9922439140299888,
	"learning_rate": 2.9922598771629005e-05,
	"loss": 0.7874,
	"mean_token_accuracy": 0.7601206183433533,
	"step": 2680
	},
	{
	"epoch": 0.4933847850055127,
	"grad_norm": 0.9338793477773762,
	"learning_rate": 2.9854610414277402e-05,
	"loss": 0.7693,
	"mean_token_accuracy": 0.7690744280815125,
	"step": 2685
	},
	{
	"epoch": 0.49430356486585814,
	"grad_norm": 1.0330996973903106,
	"learning_rate": 2.9786600312626563e-05,
	"loss": 0.7401,
	"mean_token_accuracy": 0.7735617399215698,
	"step": 2690
	},
	{
	"epoch": 0.4952223447262036,
	"grad_norm": 1.020650007316944,
	"learning_rate": 2.9718569094734515e-05,
	"loss": 0.8004,
	"mean_token_accuracy": 0.7575301885604858,
	"step": 2695
	},
	{
	"epoch": 0.4961411245865491,
	"grad_norm": 0.8826033529136437,
	"learning_rate": 2.965051738885432e-05,
	"loss": 0.7503,
	"mean_token_accuracy": 0.773734736442566,
	"step": 2700
	},
	{
	"epoch": 0.4970599044468945,
	"grad_norm": 1.2165920422760765,
	"learning_rate": 2.958244582342822e-05,
	"loss": 0.8248,
	"mean_token_accuracy": 0.7535989284515381,
	"step": 2705
	},
	{
	"epoch": 0.49797868430723996,
	"grad_norm": 0.978788492706274,
	"learning_rate": 2.9514355027081846e-05,
	"loss": 0.7831,
	"mean_token_accuracy": 0.7655808568000794,
	"step": 2710
	},
	{
	"epoch": 0.49889746416758546,
	"grad_norm": 0.9950576805013585,
	"learning_rate": 2.944624562861845e-05,
	"loss": 0.807,
	"mean_token_accuracy": 0.7562234044075012,
	"step": 2715
	},
	{
	"epoch": 0.4998162440279309,
	"grad_norm": 1.0612404822026047,
	"learning_rate": 2.9378118257013054e-05,
	"loss": 0.7904,
	"mean_token_accuracy": 0.7584082007408142,
	"step": 2720
	},
	{
	"epoch": 0.5007350238882764,
	"grad_norm": 0.915675944397533,
	"learning_rate": 2.930997354140665e-05,
	"loss": 0.7464,
	"mean_token_accuracy": 0.7732234835624695,
	"step": 2725
	},
	{
	"epoch": 0.5016538037486218,
	"grad_norm": 0.9232965003519343,
	"learning_rate": 2.9241812111100414e-05,
	"loss": 0.8088,
	"mean_token_accuracy": 0.7525614619255065,
	"step": 2730
	},
	{
	"epoch": 0.5025725836089673,
	"grad_norm": 1.52977648060804,
	"learning_rate": 2.9173634595549876e-05,
	"loss": 0.8046,
	"mean_token_accuracy": 0.7584918379783631,
	"step": 2735
	},
	{
	"epoch": 0.5034913634693128,
	"grad_norm": 0.9438156907635481,
	"learning_rate": 2.910544162435909e-05,
	"loss": 0.832,
	"mean_token_accuracy": 0.751025402545929,
	"step": 2740
	},
	{
	"epoch": 0.5044101433296582,
	"grad_norm": 0.9428923251443018,
	"learning_rate": 2.9037233827274885e-05,
	"loss": 0.8152,
	"mean_token_accuracy": 0.7552414298057556,
	"step": 2745
	},
	{
	"epoch": 0.5053289231900037,
	"grad_norm": 1.0224336975686246,
	"learning_rate": 2.8969011834180937e-05,
	"loss": 0.8284,
	"mean_token_accuracy": 0.7509586930274963,
	"step": 2750
	},
	{
	"epoch": 0.5062477030503492,
	"grad_norm": 0.985144401173651,
	"learning_rate": 2.8900776275092083e-05,
	"loss": 0.7888,
	"mean_token_accuracy": 0.7600571990013123,
	"step": 2755
	},
	{
	"epoch": 0.5071664829106945,
	"grad_norm": 0.9789390297665671,
	"learning_rate": 2.8832527780148406e-05,
	"loss": 0.7962,
	"mean_token_accuracy": 0.7582376718521118,
	"step": 2760
	},
	{
	"epoch": 0.50808526277104,
	"grad_norm": 1.0148219491244725,
	"learning_rate": 2.8764266979609445e-05,
	"loss": 0.8469,
	"mean_token_accuracy": 0.7480961322784424,
	"step": 2765
	},
	{
	"epoch": 0.5090040426313855,
	"grad_norm": 1.0037544910691434,
	"learning_rate": 2.8695994503848395e-05,
	"loss": 0.7421,
	"mean_token_accuracy": 0.7739938139915467,
	"step": 2770
	},
	{
	"epoch": 0.5099228224917309,
	"grad_norm": 0.9754806954239216,
	"learning_rate": 2.8627710983346262e-05,
	"loss": 0.7697,
	"mean_token_accuracy": 0.7668745636940002,
	"step": 2775
	},
	{
	"epoch": 0.5108416023520764,
	"grad_norm": 0.8806986584931391,
	"learning_rate": 2.855941704868605e-05,
	"loss": 0.7866,
	"mean_token_accuracy": 0.7633078217506408,
	"step": 2780
	},
	{
	"epoch": 0.5117603822124219,
	"grad_norm": 1.091789028436644,
	"learning_rate": 2.8491113330546925e-05,
	"loss": 0.8046,
	"mean_token_accuracy": 0.7567707419395446,
	"step": 2785
	},
	{
	"epoch": 0.5126791620727673,
	"grad_norm": 1.061632989714619,
	"learning_rate": 2.8422800459698423e-05,
	"loss": 0.7922,
	"mean_token_accuracy": 0.7623422026634217,
	"step": 2790
	},
	{
	"epoch": 0.5135979419331128,
	"grad_norm": 0.939885286311399,
	"learning_rate": 2.835447906699457e-05,
	"loss": 0.7691,
	"mean_token_accuracy": 0.7693052887916565,
	"step": 2795
	},
	{
	"epoch": 0.5145167217934583,
	"grad_norm": 0.9959159666772467,
	"learning_rate": 2.8286149783368132e-05,
	"loss": 0.7627,
	"mean_token_accuracy": 0.7660305023193359,
	"step": 2800
	},
	{
	"epoch": 0.5154355016538037,
	"grad_norm": 1.0033698323194213,
	"learning_rate": 2.82178132398247e-05,
	"loss": 0.7825,
	"mean_token_accuracy": 0.7651003241539002,
	"step": 2805
	},
	{
	"epoch": 0.5163542815141492,
	"grad_norm": 1.0942052865929373,
	"learning_rate": 2.8149470067436945e-05,
	"loss": 0.8091,
	"mean_token_accuracy": 0.7585999965667725,
	"step": 2810
	},
	{
	"epoch": 0.5172730613744947,
	"grad_norm": 1.0275503721326753,
	"learning_rate": 2.8081120897338748e-05,
	"loss": 0.7622,
	"mean_token_accuracy": 0.7666819214820861,
	"step": 2815
	},
	{
	"epoch": 0.5181918412348401,
	"grad_norm": 1.0162262995217026,
	"learning_rate": 2.8012766360719346e-05,
	"loss": 0.8351,
	"mean_token_accuracy": 0.7463697791099548,
	"step": 2820
	},
	{
	"epoch": 0.5191106210951856,
	"grad_norm": 0.8735638518849154,
	"learning_rate": 2.794440708881758e-05,
	"loss": 0.7526,
	"mean_token_accuracy": 0.7740337014198303,
	"step": 2825
	},
	{
	"epoch": 0.5200294009555311,
	"grad_norm": 0.8889407557447864,
	"learning_rate": 2.787604371291599e-05,
	"loss": 0.686,
	"mean_token_accuracy": 0.7896162033081054,
	"step": 2830
	},
	{
	"epoch": 0.5209481808158766,
	"grad_norm": 0.9682433350662344,
	"learning_rate": 2.780767686433502e-05,
	"loss": 0.7646,
	"mean_token_accuracy": 0.7699775457382202,
	"step": 2835
	},
	{
	"epoch": 0.521866960676222,
	"grad_norm": 1.0567812728267838,
	"learning_rate": 2.7739307174427204e-05,
	"loss": 0.769,
	"mean_token_accuracy": 0.7676406979560852,
	"step": 2840
	},
	{
	"epoch": 0.5227857405365675,
	"grad_norm": 0.8954213877251977,
	"learning_rate": 2.767093527457128e-05,
	"loss": 0.7958,
	"mean_token_accuracy": 0.7604862689971924,
	"step": 2845
	},
	{
	"epoch": 0.523704520396913,
	"grad_norm": 0.9391105206530606,
	"learning_rate": 2.7602561796166426e-05,
	"loss": 0.7794,
	"mean_token_accuracy": 0.7647231101989747,
	"step": 2850
	},
	{
	"epoch": 0.5246233002572583,
	"grad_norm": 0.952523275474733,
	"learning_rate": 2.753418737062638e-05,
	"loss": 0.7628,
	"mean_token_accuracy": 0.7682720065116883,
	"step": 2855
	},
	{
	"epoch": 0.5255420801176038,
	"grad_norm": 0.9201973347920627,
	"learning_rate": 2.746581262937363e-05,
	"loss": 0.7777,
	"mean_token_accuracy": 0.7642363786697388,
	"step": 2860
	},
	{
	"epoch": 0.5264608599779493,
	"grad_norm": 0.9335982392105177,
	"learning_rate": 2.739743820383358e-05,
	"loss": 0.7338,
	"mean_token_accuracy": 0.7742905497550965,
	"step": 2865
	},
	{
	"epoch": 0.5273796398382947,
	"grad_norm": 0.9846844485906041,
	"learning_rate": 2.732906472542872e-05,
	"loss": 0.7486,
	"mean_token_accuracy": 0.7750791192054749,
	"step": 2870
	},
	{
	"epoch": 0.5282984196986402,
	"grad_norm": 0.9865121950565456,
	"learning_rate": 2.7260692825572808e-05,
	"loss": 0.7584,
	"mean_token_accuracy": 0.7667729616165161,
	"step": 2875
	},
	{
	"epoch": 0.5292171995589857,
	"grad_norm": 1.0573279084656204,
	"learning_rate": 2.7192323135664988e-05,
	"loss": 0.8901,
	"mean_token_accuracy": 0.7370211601257324,
	"step": 2880
	},
	{
	"epoch": 0.5301359794193311,
	"grad_norm": 1.0198244813321502,
	"learning_rate": 2.712395628708402e-05,
	"loss": 0.7471,
	"mean_token_accuracy": 0.771734893321991,
	"step": 2885
	},
	{
	"epoch": 0.5310547592796766,
	"grad_norm": 1.0967316052811202,
	"learning_rate": 2.7055592911182425e-05,
	"loss": 0.7543,
	"mean_token_accuracy": 0.7691154241561889,
	"step": 2890
	},
	{
	"epoch": 0.5319735391400221,
	"grad_norm": 0.9658875640110149,
	"learning_rate": 2.6987233639280656e-05,
	"loss": 0.6979,
	"mean_token_accuracy": 0.7853469371795654,
	"step": 2895
	},
	{
	"epoch": 0.5328923190003675,
	"grad_norm": 1.041207894864275,
	"learning_rate": 2.6918879102661264e-05,
	"loss": 0.7403,
	"mean_token_accuracy": 0.7763397812843322,
	"step": 2900
	},
	{
	"epoch": 0.533811098860713,
	"grad_norm": 0.9959626369836271,
	"learning_rate": 2.6850529932563057e-05,
	"loss": 0.7526,
	"mean_token_accuracy": 0.7707386016845703,
	"step": 2905
	},
	{
	"epoch": 0.5347298787210585,
	"grad_norm": 0.994177922519465,
	"learning_rate": 2.6782186760175303e-05,
	"loss": 0.8229,
	"mean_token_accuracy": 0.754144036769867,
	"step": 2910
	},
	{
	"epoch": 0.5356486585814039,
	"grad_norm": 1.0745632939643772,
	"learning_rate": 2.6713850216631876e-05,
	"loss": 0.8191,
	"mean_token_accuracy": 0.7573227047920227,
	"step": 2915
	},
	{
	"epoch": 0.5365674384417494,
	"grad_norm": 1.0072152395633065,
	"learning_rate": 2.6645520933005432e-05,
	"loss": 0.7212,
	"mean_token_accuracy": 0.7815118074417114,
	"step": 2920
	},
	{
	"epoch": 0.5374862183020949,
	"grad_norm": 0.9856013490140734,
	"learning_rate": 2.6577199540301583e-05,
	"loss": 0.8058,
	"mean_token_accuracy": 0.7568701386451722,
	"step": 2925
	},
	{
	"epoch": 0.5384049981624403,
	"grad_norm": 1.0799881365103963,
	"learning_rate": 2.6508886669453077e-05,
	"loss": 0.722,
	"mean_token_accuracy": 0.7820630311965943,
	"step": 2930
	},
	{
	"epoch": 0.5393237780227857,
	"grad_norm": 0.9808614748561544,
	"learning_rate": 2.6440582951313958e-05,
	"loss": 0.7312,
	"mean_token_accuracy": 0.7761293530464173,
	"step": 2935
	},
	{
	"epoch": 0.5402425578831312,
	"grad_norm": 0.9988071044503206,
	"learning_rate": 2.6372289016653747e-05,
	"loss": 0.8052,
	"mean_token_accuracy": 0.755142867565155,
	"step": 2940
	},
	{
	"epoch": 0.5411613377434766,
	"grad_norm": 0.9640983566459411,
	"learning_rate": 2.6304005496151607e-05,
	"loss": 0.7501,
	"mean_token_accuracy": 0.7724974870681762,
	"step": 2945
	},
	{
	"epoch": 0.5420801176038221,
	"grad_norm": 0.9753132303800915,
	"learning_rate": 2.6235733020390557e-05,
	"loss": 0.7507,
	"mean_token_accuracy": 0.7731342792510987,
	"step": 2950
	},
	{
	"epoch": 0.5429988974641676,
	"grad_norm": 0.9941788148526961,
	"learning_rate": 2.6167472219851606e-05,
	"loss": 0.7777,
	"mean_token_accuracy": 0.7659435391426086,
	"step": 2955
	},
	{
	"epoch": 0.543917677324513,
	"grad_norm": 1.0342888870006444,
	"learning_rate": 2.6099223724907922e-05,
	"loss": 0.7954,
	"mean_token_accuracy": 0.7611855626106262,
	"step": 2960
	},
	{
	"epoch": 0.5448364571848585,
	"grad_norm": 0.9947482977334893,
	"learning_rate": 2.603098816581907e-05,
	"loss": 0.79,
	"mean_token_accuracy": 0.7604100823402404,
	"step": 2965
	},
	{
	"epoch": 0.545755237045204,
	"grad_norm": 0.9369443584148152,
	"learning_rate": 2.5962766172725127e-05,
	"loss": 0.7501,
	"mean_token_accuracy": 0.7741901755332947,
	"step": 2970
	},
	{
	"epoch": 0.5466740169055494,
	"grad_norm": 1.018205972168573,
	"learning_rate": 2.589455837564091e-05,
	"loss": 0.8146,
	"mean_token_accuracy": 0.7549449682235718,
	"step": 2975
	},
	{
	"epoch": 0.5475927967658949,
	"grad_norm": 0.9840855304963227,
	"learning_rate": 2.5826365404450136e-05,
	"loss": 0.6928,
	"mean_token_accuracy": 0.7882686018943786,
	"step": 2980
	},
	{
	"epoch": 0.5485115766262404,
	"grad_norm": 0.9765299396635874,
	"learning_rate": 2.57581878888996e-05,
	"loss": 0.7904,
	"mean_token_accuracy": 0.7627172827720642,
	"step": 2985
	},
	{
	"epoch": 0.5494303564865858,
	"grad_norm": 0.9611858171978122,
	"learning_rate": 2.5690026458593362e-05,
	"loss": 0.7849,
	"mean_token_accuracy": 0.7626663684844971,
	"step": 2990
	},
	{
	"epoch": 0.5503491363469313,
	"grad_norm": 0.9918441521186859,
	"learning_rate": 2.562188174298695e-05,
	"loss": 0.7139,
	"mean_token_accuracy": 0.7834156632423401,
	"step": 2995
	},
	{
	"epoch": 0.5512679162072768,
	"grad_norm": 0.9168184741389104,
	"learning_rate": 2.5553754371381555e-05,
	"loss": 0.7595,
	"mean_token_accuracy": 0.7676758289337158,
	"step": 3000
	},
	{
	"epoch": 0.5521866960676222,
	"grad_norm": 0.9307353989568666,
	"learning_rate": 2.5485644972918153e-05,
	"loss": 0.7309,
	"mean_token_accuracy": 0.7800590991973877,
	"step": 3005
	},
	{
	"epoch": 0.5531054759279677,
	"grad_norm": 0.9683740817546714,
	"learning_rate": 2.541755417657179e-05,
	"loss": 0.7913,
	"mean_token_accuracy": 0.7614364624023438,
	"step": 3010
	},
	{
	"epoch": 0.5540242557883132,
	"grad_norm": 0.9961298115995415,
	"learning_rate": 2.5349482611145685e-05,
	"loss": 0.8041,
	"mean_token_accuracy": 0.7568534970283508,
	"step": 3015
	},
	{
	"epoch": 0.5549430356486585,
	"grad_norm": 0.981662259480835,
	"learning_rate": 2.528143090526549e-05,
	"loss": 0.6952,
	"mean_token_accuracy": 0.7897186994552612,
	"step": 3020
	},
	{
	"epoch": 0.555861815509004,
	"grad_norm": 0.9140182959744487,
	"learning_rate": 2.5213399687373446e-05,
	"loss": 0.6967,
	"mean_token_accuracy": 0.7841851711273193,
	"step": 3025
	},
	{
	"epoch": 0.5567805953693495,
	"grad_norm": 1.05668077131703,
	"learning_rate": 2.51453895857226e-05,
	"loss": 0.751,
	"mean_token_accuracy": 0.7735855102539062,
	"step": 3030
	},
	{
	"epoch": 0.5576993752296949,
	"grad_norm": 0.9377501197010149,
	"learning_rate": 2.5077401228371007e-05,
	"loss": 0.7319,
	"mean_token_accuracy": 0.7791807889938355,
	"step": 3035
	},
	{
	"epoch": 0.5586181550900404,
	"grad_norm": 1.116838452205624,
	"learning_rate": 2.5009435243175865e-05,
	"loss": 0.8436,
	"mean_token_accuracy": 0.7444709777832031,
	"step": 3040
	},
	{
	"epoch": 0.5595369349503859,
	"grad_norm": 1.133786669142971,
	"learning_rate": 2.4941492257787847e-05,
	"loss": 0.7451,
	"mean_token_accuracy": 0.7729416728019715,
	"step": 3045
	},
	{
	"epoch": 0.5604557148107313,
	"grad_norm": 1.0531439168923706,
	"learning_rate": 2.4873572899645164e-05,
	"loss": 0.7914,
	"mean_token_accuracy": 0.7595977902412414,
	"step": 3050
	},
	{
	"epoch": 0.5613744946710768,
	"grad_norm": 0.9370063066983946,
	"learning_rate": 2.4805677795967874e-05,
	"loss": 0.7787,
	"mean_token_accuracy": 0.762716269493103,
	"step": 3055
	},
	{
	"epoch": 0.5622932745314223,
	"grad_norm": 0.994949145579561,
	"learning_rate": 2.4737807573752036e-05,
	"loss": 0.7431,
	"mean_token_accuracy": 0.7747965931892395,
	"step": 3060
	},
	{
	"epoch": 0.5632120543917677,
	"grad_norm": 1.0671188110858503,
	"learning_rate": 2.466996285976393e-05,
	"loss": 0.7917,
	"mean_token_accuracy": 0.7583362698554993,
	"step": 3065
	},
	{
	"epoch": 0.5641308342521132,
	"grad_norm": 0.892710934926214,
	"learning_rate": 2.4602144280534273e-05,
	"loss": 0.7498,
	"mean_token_accuracy": 0.7732946038246155,
	"step": 3070
	},
	{
	"epoch": 0.5650496141124587,
	"grad_norm": 0.99980677185357,
	"learning_rate": 2.4534352462352445e-05,
	"loss": 0.8074,
	"mean_token_accuracy": 0.7578684329986572,
	"step": 3075
	},
	{
	"epoch": 0.5659683939728041,
	"grad_norm": 0.9159293875905319,
	"learning_rate": 2.4466588031260684e-05,
	"loss": 0.7809,
	"mean_token_accuracy": 0.7624441385269165,
	"step": 3080
	},
	{
	"epoch": 0.5668871738331496,
	"grad_norm": 1.0362770618116839,
	"learning_rate": 2.4398851613048322e-05,
	"loss": 0.797,
	"mean_token_accuracy": 0.760871410369873,
	"step": 3085
	},
	{
	"epoch": 0.5678059536934951,
	"grad_norm": 1.0847148009284608,
	"learning_rate": 2.4331143833245994e-05,
	"loss": 0.7395,
	"mean_token_accuracy": 0.7746615648269654,
	"step": 3090
	},
	{
	"epoch": 0.5687247335538405,
	"grad_norm": 1.0671537398957074,
	"learning_rate": 2.426346531711986e-05,
	"loss": 0.774,
	"mean_token_accuracy": 0.7641933798789978,
	"step": 3095
	},
	{
	"epoch": 0.569643513414186,
	"grad_norm": 1.0063509161122495,
	"learning_rate": 2.4195816689665847e-05,
	"loss": 0.7038,
	"mean_token_accuracy": 0.7864096641540528,
	"step": 3100
	},
	{
	"epoch": 0.5705622932745315,
	"grad_norm": 0.9712630519098367,
	"learning_rate": 2.4128198575603857e-05,
	"loss": 0.7839,
	"mean_token_accuracy": 0.7611940979957581,
	"step": 3105
	},
	{
	"epoch": 0.5714810731348768,
	"grad_norm": 0.9158850127968227,
	"learning_rate": 2.4060611599372007e-05,
	"loss": 0.775,
	"mean_token_accuracy": 0.7655367732048035,
	"step": 3110
	},
	{
	"epoch": 0.5723998529952223,
	"grad_norm": 0.9829867717200517,
	"learning_rate": 2.399305638512089e-05,
	"loss": 0.8531,
	"mean_token_accuracy": 0.742165744304657,
	"step": 3115
	},
	{
	"epoch": 0.5733186328555678,
	"grad_norm": 0.9676209759663041,
	"learning_rate": 2.3925533556707736e-05,
	"loss": 0.7669,
	"mean_token_accuracy": 0.7683526515960694,
	"step": 3120
	},
	{
	"epoch": 0.5742374127159132,
	"grad_norm": 0.9456863854288068,
	"learning_rate": 2.385804373769074e-05,
	"loss": 0.736,
	"mean_token_accuracy": 0.7773837327957154,
	"step": 3125
	},
	{
	"epoch": 0.5751561925762587,
	"grad_norm": 1.042769286037687,
	"learning_rate": 2.3790587551323252e-05,
	"loss": 0.7869,
	"mean_token_accuracy": 0.761770761013031,
	"step": 3130
	},
	{
	"epoch": 0.5760749724366042,
	"grad_norm": 0.898131943412606,
	"learning_rate": 2.372316562054802e-05,
	"loss": 0.7311,
	"mean_token_accuracy": 0.780720841884613,
	"step": 3135
	},
	{
	"epoch": 0.5769937522969496,
	"grad_norm": 0.937736313205156,
	"learning_rate": 2.3655778567991456e-05,
	"loss": 0.8486,
	"mean_token_accuracy": 0.7416357159614563,
	"step": 3140
	},
	{
	"epoch": 0.5779125321572951,
	"grad_norm": 0.9983900168625015,
	"learning_rate": 2.3588427015957904e-05,
	"loss": 0.7432,
	"mean_token_accuracy": 0.7713735103607178,
	"step": 3145
	},
	{
	"epoch": 0.5788313120176406,
	"grad_norm": 1.0896357887586694,
	"learning_rate": 2.352111158642381e-05,
	"loss": 0.7843,
	"mean_token_accuracy": 0.76038818359375,
	"step": 3150
	},
	{
	"epoch": 0.579750091877986,
	"grad_norm": 0.9547336671541522,
	"learning_rate": 2.3453832901032097e-05,
	"loss": 0.7723,
	"mean_token_accuracy": 0.7679526925086975,
	"step": 3155
	},
	{
	"epoch": 0.5806688717383315,
	"grad_norm": 0.9486005629151948,
	"learning_rate": 2.3386591581086333e-05,
	"loss": 0.6867,
	"mean_token_accuracy": 0.7872913122177124,
	"step": 3160
	},
	{
	"epoch": 0.581587651598677,
	"grad_norm": 1.4360094460321793,
	"learning_rate": 2.3319388247545026e-05,
	"loss": 0.6946,
	"mean_token_accuracy": 0.7893529891967773,
	"step": 3165
	},
	{
	"epoch": 0.5825064314590224,
	"grad_norm": 0.9675717631201467,
	"learning_rate": 2.325222352101591e-05,
	"loss": 0.794,
	"mean_token_accuracy": 0.7627562046051025,
	"step": 3170
	},
	{
	"epoch": 0.5834252113193679,
	"grad_norm": 0.8611284135924058,
	"learning_rate": 2.3185098021750163e-05,
	"loss": 0.7647,
	"mean_token_accuracy": 0.7697438478469849,
	"step": 3175
	},
	{
	"epoch": 0.5843439911797134,
	"grad_norm": 1.0945648293831518,
	"learning_rate": 2.3118012369636715e-05,
	"loss": 0.7374,
	"mean_token_accuracy": 0.7741273403167724,
	"step": 3180
	},
	{
	"epoch": 0.5852627710400587,
	"grad_norm": 0.9850152813442956,
	"learning_rate": 2.3050967184196526e-05,
	"loss": 0.7387,
	"mean_token_accuracy": 0.7777738809585572,
	"step": 3185
	},
	{
	"epoch": 0.5861815509004042,
	"grad_norm": 0.8639589995274697,
	"learning_rate": 2.2983963084576854e-05,
	"loss": 0.77,
	"mean_token_accuracy": 0.7680123209953308,
	"step": 3190
	},
	{
	"epoch": 0.5871003307607497,
	"grad_norm": 0.969485320702538,
	"learning_rate": 2.2917000689545535e-05,
	"loss": 0.8023,
	"mean_token_accuracy": 0.759474766254425,
	"step": 3195
	},
	{
	"epoch": 0.5880191106210951,
	"grad_norm": 0.9691992055808628,
	"learning_rate": 2.2850080617485286e-05,
	"loss": 0.7576,
	"mean_token_accuracy": 0.7699379682540893,
	"step": 3200
	},
	{
	"epoch": 0.5889378904814406,
	"grad_norm": 0.9709025550626744,
	"learning_rate": 2.2783203486387945e-05,
	"loss": 0.764,
	"mean_token_accuracy": 0.7677761912345886,
	"step": 3205
	},
	{
	"epoch": 0.5898566703417861,
	"grad_norm": 0.9395191069096172,
	"learning_rate": 2.2716369913848827e-05,
	"loss": 0.7572,
	"mean_token_accuracy": 0.7745106220245361,
	"step": 3210
	},
	{
	"epoch": 0.5907754502021316,
	"grad_norm": 0.9777159547594203,
	"learning_rate": 2.2649580517061003e-05,
	"loss": 0.7136,
	"mean_token_accuracy": 0.7840847253799439,
	"step": 3215
	},
	{
	"epoch": 0.591694230062477,
	"grad_norm": 0.9390454307687789,
	"learning_rate": 2.2582835912809564e-05,
	"loss": 0.7614,
	"mean_token_accuracy": 0.7697038054466248,
	"step": 3220
	},
	{
	"epoch": 0.5926130099228225,
	"grad_norm": 1.0367038259917516,
	"learning_rate": 2.251613671746598e-05,
	"loss": 0.7796,
	"mean_token_accuracy": 0.7627864122390747,
	"step": 3225
	},
	{
	"epoch": 0.593531789783168,
	"grad_norm": 0.9251948352297976,
	"learning_rate": 2.2449483546982347e-05,
	"loss": 0.6893,
	"mean_token_accuracy": 0.7888349413871765,
	"step": 3230
	},
	{
	"epoch": 0.5944505696435134,
	"grad_norm": 1.05108523432423,
	"learning_rate": 2.2382877016885757e-05,
	"loss": 0.7052,
	"mean_token_accuracy": 0.7855964303016663,
	"step": 3235
	},
	{
	"epoch": 0.5953693495038589,
	"grad_norm": 0.9994956513098704,
	"learning_rate": 2.2316317742272585e-05,
	"loss": 0.7682,
	"mean_token_accuracy": 0.7651132106781006,
	"step": 3240
	},
	{
	"epoch": 0.5962881293642044,
	"grad_norm": 0.9539355388832639,
	"learning_rate": 2.224980633780281e-05,
	"loss": 0.7181,
	"mean_token_accuracy": 0.7789011836051941,
	"step": 3245
	},
	{
	"epoch": 0.5972069092245498,
	"grad_norm": 0.9721681364733832,
	"learning_rate": 2.2183343417694334e-05,
	"loss": 0.7583,
	"mean_token_accuracy": 0.7710484743118287,
	"step": 3250
	},
	{
	"epoch": 0.5981256890848953,
	"grad_norm": 1.0132996609635718,
	"learning_rate": 2.2116929595717317e-05,
	"loss": 0.7719,
	"mean_token_accuracy": 0.765598726272583,
	"step": 3255
	},
	{
	"epoch": 0.5990444689452408,
	"grad_norm": 0.9659020670904003,
	"learning_rate": 2.205056548518853e-05,
	"loss": 0.7958,
	"mean_token_accuracy": 0.7573135375976563,
	"step": 3260
	},
	{
	"epoch": 0.5999632488055862,
	"grad_norm": 1.0145461160760352,
	"learning_rate": 2.1984251698965637e-05,
	"loss": 0.7506,
	"mean_token_accuracy": 0.7711923003196717,
	"step": 3265
	},
	{
	"epoch": 0.6008820286659317,
	"grad_norm": 1.0804834048147398,
	"learning_rate": 2.1917988849441594e-05,
	"loss": 0.8049,
	"mean_token_accuracy": 0.755113685131073,
	"step": 3270
	},
	{
	"epoch": 0.6018008085262772,
	"grad_norm": 0.9733796804471042,
	"learning_rate": 2.185177754853896e-05,
	"loss": 0.6773,
	"mean_token_accuracy": 0.7920406103134155,
	"step": 3275
	},
	{
	"epoch": 0.6027195883866225,
	"grad_norm": 0.990871804097787,
	"learning_rate": 2.1785618407704255e-05,
	"loss": 0.7619,
	"mean_token_accuracy": 0.7680476665496826,
	"step": 3280
	},
	{
	"epoch": 0.603638368246968,
	"grad_norm": 0.9094240503163677,
	"learning_rate": 2.1719512037902306e-05,
	"loss": 0.758,
	"mean_token_accuracy": 0.7682316303253174,
	"step": 3285
	},
	{
	"epoch": 0.6045571481073135,
	"grad_norm": 0.9504426996357046,
	"learning_rate": 2.1653459049610618e-05,
	"loss": 0.7037,
	"mean_token_accuracy": 0.7844570279121399,
	"step": 3290
	},
	{
	"epoch": 0.6054759279676589,
	"grad_norm": 1.0419237413786735,
	"learning_rate": 2.1587460052813724e-05,
	"loss": 0.7797,
	"mean_token_accuracy": 0.7651678204536438,
	"step": 3295
	},
	{
	"epoch": 0.6063947078280044,
	"grad_norm": 1.0189296741711382,
	"learning_rate": 2.1521515656997567e-05,
	"loss": 0.8125,
	"mean_token_accuracy": 0.7538291454315186,
	"step": 3300
	},
	{
	"epoch": 0.6073134876883499,
	"grad_norm": 0.9647782169864347,
	"learning_rate": 2.145562647114386e-05,
	"loss": 0.7115,
	"mean_token_accuracy": 0.7819002747535706,
	"step": 3305
	},
	{
	"epoch": 0.6082322675486953,
	"grad_norm": 0.8719676861547915,
	"learning_rate": 2.1389793103724443e-05,
	"loss": 0.7175,
	"mean_token_accuracy": 0.7793567061424256,
	"step": 3310
	},
	{
	"epoch": 0.6091510474090408,
	"grad_norm": 0.9761609575734019,
	"learning_rate": 2.1324016162695722e-05,
	"loss": 0.6784,
	"mean_token_accuracy": 0.7919653534889222,
	"step": 3315
	},
	{
	"epoch": 0.6100698272693863,
	"grad_norm": 0.8974448563579739,
	"learning_rate": 2.125829625549299e-05,
	"loss": 0.6786,
	"mean_token_accuracy": 0.7931641936302185,
	"step": 3320
	},
	{
	"epoch": 0.6109886071297317,
	"grad_norm": 1.0099374622071293,
	"learning_rate": 2.1192633989024856e-05,
	"loss": 0.8367,
	"mean_token_accuracy": 0.7453663229942322,
	"step": 3325
	},
	{
	"epoch": 0.6119073869900772,
	"grad_norm": 1.0422892359273228,
	"learning_rate": 2.112702996966764e-05,
	"loss": 0.7187,
	"mean_token_accuracy": 0.7798493385314942,
	"step": 3330
	},
	{
	"epoch": 0.6128261668504227,
	"grad_norm": 1.1083604247420085,
	"learning_rate": 2.106148480325974e-05,
	"loss": 0.7806,
	"mean_token_accuracy": 0.761151397228241,
	"step": 3335
	},
	{
	"epoch": 0.6137449467107681,
	"grad_norm": 1.0270421311335494,
	"learning_rate": 2.0995999095096068e-05,
	"loss": 0.7843,
	"mean_token_accuracy": 0.7627219676971435,
	"step": 3340
	},
	{
	"epoch": 0.6146637265711136,
	"grad_norm": 1.215757454497741,
	"learning_rate": 2.0930573449922457e-05,
	"loss": 0.7597,
	"mean_token_accuracy": 0.769752562046051,
	"step": 3345
	},
	{
	"epoch": 0.6155825064314591,
	"grad_norm": 1.2153983619499056,
	"learning_rate": 2.086520847193008e-05,
	"loss": 0.7792,
	"mean_token_accuracy": 0.7656338334083557,
	"step": 3350
	},
	{
	"epoch": 0.6165012862918045,
	"grad_norm": 0.952171476221175,
	"learning_rate": 2.079990476474985e-05,
	"loss": 0.683,
	"mean_token_accuracy": 0.7914249539375305,
	"step": 3355
	},
	{
	"epoch": 0.61742006615215,
	"grad_norm": 1.037769469357623,
	"learning_rate": 2.0734662931446858e-05,
	"loss": 0.7692,
	"mean_token_accuracy": 0.7642071366310119,
	"step": 3360
	},
	{
	"epoch": 0.6183388460124954,
	"grad_norm": 0.9750207162668445,
	"learning_rate": 2.0669483574514807e-05,
	"loss": 0.8355,
	"mean_token_accuracy": 0.7468725085258484,
	"step": 3365
	},
	{
	"epoch": 0.6192576258728408,
	"grad_norm": 1.0187302049829796,
	"learning_rate": 2.060436729587044e-05,
	"loss": 0.7502,
	"mean_token_accuracy": 0.7742531776428223,
	"step": 3370
	},
	{
	"epoch": 0.6201764057331863,
	"grad_norm": 0.943777765061105,
	"learning_rate": 2.0539314696848e-05,
	"loss": 0.7062,
	"mean_token_accuracy": 0.7855054616928101,
	"step": 3375
	},
	{
	"epoch": 0.6210951855935318,
	"grad_norm": 0.8930105332009788,
	"learning_rate": 2.0474326378193637e-05,
	"loss": 0.7458,
	"mean_token_accuracy": 0.773654580116272,
	"step": 3380
	},
	{
	"epoch": 0.6220139654538772,
	"grad_norm": 0.9035160403431316,
	"learning_rate": 2.0409402940059937e-05,
	"loss": 0.7268,
	"mean_token_accuracy": 0.7792444586753845,
	"step": 3385
	},
	{
	"epoch": 0.6229327453142227,
	"grad_norm": 1.0410393906012252,
	"learning_rate": 2.0344544982000246e-05,
	"loss": 0.7038,
	"mean_token_accuracy": 0.7828059315681457,
	"step": 3390
	},
	{
	"epoch": 0.6238515251745682,
	"grad_norm": 0.9123527907550557,
	"learning_rate": 2.0279753102963296e-05,
	"loss": 0.667,
	"mean_token_accuracy": 0.7945937156677246,
	"step": 3395
	},
	{
	"epoch": 0.6247703050349136,
	"grad_norm": 1.0453020521936442,
	"learning_rate": 2.0215027901287555e-05,
	"loss": 0.7062,
	"mean_token_accuracy": 0.7823508858680726,
	"step": 3400
	},
	{
	"epoch": 0.6256890848952591,
	"grad_norm": 0.9075834943890148,
	"learning_rate": 2.0150369974695755e-05,
	"loss": 0.7027,
	"mean_token_accuracy": 0.7846097946166992,
	"step": 3405
	},
	{
	"epoch": 0.6266078647556046,
	"grad_norm": 0.9405566568561052,
	"learning_rate": 2.008577992028934e-05,
	"loss": 0.7387,
	"mean_token_accuracy": 0.7755053520202637,
	"step": 3410
	},
	{
	"epoch": 0.62752664461595,
	"grad_norm": 0.9311470578940665,
	"learning_rate": 2.0021258334542987e-05,
	"loss": 0.7867,
	"mean_token_accuracy": 0.7582219243049622,
	"step": 3415
	},
	{
	"epoch": 0.6284454244762955,
	"grad_norm": 0.9465824966191277,
	"learning_rate": 1.9956805813299066e-05,
	"loss": 0.7295,
	"mean_token_accuracy": 0.7787384033203125,
	"step": 3420
	},
	{
	"epoch": 0.629364204336641,
	"grad_norm": 0.9314873192239379,
	"learning_rate": 1.9892422951762167e-05,
	"loss": 0.7732,
	"mean_token_accuracy": 0.7635803461074829,
	"step": 3425
	},
	{
	"epoch": 0.6302829841969864,
	"grad_norm": 1.0303249115412232,
	"learning_rate": 1.9828110344493583e-05,
	"loss": 0.8374,
	"mean_token_accuracy": 0.7502556920051575,
	"step": 3430
	},
	{
	"epoch": 0.6312017640573319,
	"grad_norm": 0.8566968324816928,
	"learning_rate": 1.9763868585405813e-05,
	"loss": 0.6606,
	"mean_token_accuracy": 0.7972531080245971,
	"step": 3435
	},
	{
	"epoch": 0.6321205439176774,
	"grad_norm": 1.0376272306600982,
	"learning_rate": 1.9699698267757115e-05,
	"loss": 0.6992,
	"mean_token_accuracy": 0.784684681892395,
	"step": 3440
	},
	{
	"epoch": 0.6330393237780227,
	"grad_norm": 1.0897400517305982,
	"learning_rate": 1.9635599984145965e-05,
	"loss": 0.8341,
	"mean_token_accuracy": 0.7503707766532898,
	"step": 3445
	},
	{
	"epoch": 0.6339581036383682,
	"grad_norm": 0.9399776090183068,
	"learning_rate": 1.9571574326505648e-05,
	"loss": 0.7555,
	"mean_token_accuracy": 0.7727354645729065,
	"step": 3450
	},
	{
	"epoch": 0.6348768834987137,
	"grad_norm": 1.422297410503556,
	"learning_rate": 1.950762188609876e-05,
	"loss": 0.7891,
	"mean_token_accuracy": 0.761411714553833,
	"step": 3455
	},
	{
	"epoch": 0.6357956633590591,
	"grad_norm": 0.9985847497683605,
	"learning_rate": 1.9443743253511736e-05,
	"loss": 0.773,
	"mean_token_accuracy": 0.7664777278900147,
	"step": 3460
	},
	{
	"epoch": 0.6367144432194046,
	"grad_norm": 0.8928670622147518,
	"learning_rate": 1.9379939018649447e-05,
	"loss": 0.6888,
	"mean_token_accuracy": 0.7935372710227966,
	"step": 3465
	},
	{
	"epoch": 0.6376332230797501,
	"grad_norm": 0.8818099232101203,
	"learning_rate": 1.9316209770729686e-05,
	"loss": 0.6876,
	"mean_token_accuracy": 0.7872507929801941,
	"step": 3470
	},
	{
	"epoch": 0.6385520029400955,
	"grad_norm": 1.0220008034223411,
	"learning_rate": 1.9252556098277762e-05,
	"loss": 0.7423,
	"mean_token_accuracy": 0.7761957883834839,
	"step": 3475
	},
	{
	"epoch": 0.639470782800441,
	"grad_norm": 1.00646363617204,
	"learning_rate": 1.9188978589121076e-05,
	"loss": 0.7799,
	"mean_token_accuracy": 0.763306987285614,
	"step": 3480
	},
	{
	"epoch": 0.6403895626607865,
	"grad_norm": 1.0853274497927512,
	"learning_rate": 1.9125477830383663e-05,
	"loss": 0.7638,
	"mean_token_accuracy": 0.7669495463371276,
	"step": 3485
	},
	{
	"epoch": 0.6413083425211319,
	"grad_norm": 1.065184143072551,
	"learning_rate": 1.9062054408480804e-05,
	"loss": 0.7743,
	"mean_token_accuracy": 0.7621343255043029,
	"step": 3490
	},
	{
	"epoch": 0.6422271223814774,
	"grad_norm": 0.9447419338666605,
	"learning_rate": 1.899870890911357e-05,
	"loss": 0.6677,
	"mean_token_accuracy": 0.7952073097229004,
	"step": 3495
	},
	{
	"epoch": 0.6431459022418229,
	"grad_norm": 1.0005267248842091,
	"learning_rate": 1.8935441917263448e-05,
	"loss": 0.6775,
	"mean_token_accuracy": 0.7901732444763183,
	"step": 3500
	},
	{
	"epoch": 0.6440646821021683,
	"grad_norm": 1.0892429541179653,
	"learning_rate": 1.8872254017186915e-05,
	"loss": 0.7837,
	"mean_token_accuracy": 0.7588755011558532,
	"step": 3505
	},
	{
	"epoch": 0.6449834619625138,
	"grad_norm": 1.0127229878185544,
	"learning_rate": 1.880914579241007e-05,
	"loss": 0.7123,
	"mean_token_accuracy": 0.7827209591865539,
	"step": 3510
	},
	{
	"epoch": 0.6459022418228593,
	"grad_norm": 1.0281554271788436,
	"learning_rate": 1.8746117825723214e-05,
	"loss": 0.6835,
	"mean_token_accuracy": 0.7939071655273438,
	"step": 3515
	},
	{
	"epoch": 0.6468210216832047,
	"grad_norm": 0.8913736086248946,
	"learning_rate": 1.86831706991755e-05,
	"loss": 0.7223,
	"mean_token_accuracy": 0.7790691494941712,
	"step": 3520
	},
	{
	"epoch": 0.6477398015435502,
	"grad_norm": 1.0046759104597491,
	"learning_rate": 1.8620304994069508e-05,
	"loss": 0.7165,
	"mean_token_accuracy": 0.7822145223617554,
	"step": 3525
	},
	{
	"epoch": 0.6486585814038957,
	"grad_norm": 0.8761990362360018,
	"learning_rate": 1.8557521290955943e-05,
	"loss": 0.6898,
	"mean_token_accuracy": 0.7909232258796692,
	"step": 3530
	},
	{
	"epoch": 0.649577361264241,
	"grad_norm": 1.0010762980226218,
	"learning_rate": 1.849482016962822e-05,
	"loss": 0.7426,
	"mean_token_accuracy": 0.773716127872467,
	"step": 3535
	},
	{
	"epoch": 0.6504961411245865,
	"grad_norm": 0.8997455734948419,
	"learning_rate": 1.8432202209117132e-05,
	"loss": 0.7354,
	"mean_token_accuracy": 0.7769456744194031,
	"step": 3540
	},
	{
	"epoch": 0.651414920984932,
	"grad_norm": 1.0530586816733762,
	"learning_rate": 1.8369667987685517e-05,
	"loss": 0.7285,
	"mean_token_accuracy": 0.7756595969200134,
	"step": 3545
	},
	{
	"epoch": 0.6523337008452774,
	"grad_norm": 0.9090366247053898,
	"learning_rate": 1.830721808282289e-05,
	"loss": 0.7539,
	"mean_token_accuracy": 0.7681886911392212,
	"step": 3550
	},
	{
	"epoch": 0.6532524807056229,
	"grad_norm": 0.8963988021562999,
	"learning_rate": 1.8244853071240103e-05,
	"loss": 0.7189,
	"mean_token_accuracy": 0.7818469524383544,
	"step": 3555
	},
	{
	"epoch": 0.6541712605659684,
	"grad_norm": 1.0901215733279344,
	"learning_rate": 1.8182573528864066e-05,
	"loss": 0.8269,
	"mean_token_accuracy": 0.7504664659500122,
	"step": 3560
	},
	{
	"epoch": 0.6550900404263138,
	"grad_norm": 1.1645208492459995,
	"learning_rate": 1.812038003083239e-05,
	"loss": 0.7093,
	"mean_token_accuracy": 0.7835473537445068,
	"step": 3565
	},
	{
	"epoch": 0.6560088202866593,
	"grad_norm": 1.0256562034267807,
	"learning_rate": 1.805827315148808e-05,
	"loss": 0.8014,
	"mean_token_accuracy": 0.7579211831092835,
	"step": 3570
	},
	{
	"epoch": 0.6569276001470048,
	"grad_norm": 0.9529727803585198,
	"learning_rate": 1.799625346437424e-05,
	"loss": 0.7738,
	"mean_token_accuracy": 0.7688822269439697,
	"step": 3575
	},
	{
	"epoch": 0.6578463800073502,
	"grad_norm": 0.94739155264938,
	"learning_rate": 1.793432154222878e-05,
	"loss": 0.7292,
	"mean_token_accuracy": 0.7785593032836914,
	"step": 3580
	},
	{
	"epoch": 0.6587651598676957,
	"grad_norm": 0.9662895425381987,
	"learning_rate": 1.7872477956979117e-05,
	"loss": 0.7436,
	"mean_token_accuracy": 0.7758478641510009,
	"step": 3585
	},
	{
	"epoch": 0.6596839397280412,
	"grad_norm": 0.9840960134871575,
	"learning_rate": 1.7810723279736885e-05,
	"loss": 0.7916,
	"mean_token_accuracy": 0.7603202104568482,
	"step": 3590
	},
	{
	"epoch": 0.6606027195883867,
	"grad_norm": 1.0261319427030933,
	"learning_rate": 1.774905808079269e-05,
	"loss": 0.6979,
	"mean_token_accuracy": 0.7864163637161254,
	"step": 3595
	},
	{
	"epoch": 0.6615214994487321,
	"grad_norm": 1.0500468697129208,
	"learning_rate": 1.768748292961082e-05,
	"loss": 0.8148,
	"mean_token_accuracy": 0.7488227248191833,
	"step": 3600
	},
	{
	"epoch": 0.6624402793090776,
	"grad_norm": 1.0731369628716187,
	"learning_rate": 1.7625998394823983e-05,
	"loss": 0.8241,
	"mean_token_accuracy": 0.7512738227844238,
	"step": 3605
	},
	{
	"epoch": 0.6633590591694231,
	"grad_norm": 1.034876172959453,
	"learning_rate": 1.756460504422807e-05,
	"loss": 0.7318,
	"mean_token_accuracy": 0.7753666043281555,
	"step": 3610
	},
	{
	"epoch": 0.6642778390297684,
	"grad_norm": 0.9683609087211331,
	"learning_rate": 1.750330344477692e-05,
	"loss": 0.7759,
	"mean_token_accuracy": 0.7623879432678222,
	"step": 3615
	},
	{
	"epoch": 0.6651966188901139,
	"grad_norm": 1.0746172926951512,
	"learning_rate": 1.7442094162577048e-05,
	"loss": 0.7414,
	"mean_token_accuracy": 0.7732792139053345,
	"step": 3620
	},
	{
	"epoch": 0.6661153987504594,
	"grad_norm": 1.0348081377114133,
	"learning_rate": 1.7380977762882462e-05,
	"loss": 0.7379,
	"mean_token_accuracy": 0.7739031314849854,
	"step": 3625
	},
	{
	"epoch": 0.6670341786108048,
	"grad_norm": 1.0461877004048412,
	"learning_rate": 1.731995481008941e-05,
	"loss": 0.7448,
	"mean_token_accuracy": 0.773258650302887,
	"step": 3630
	},
	{
	"epoch": 0.6679529584711503,
	"grad_norm": 0.9323745094099202,
	"learning_rate": 1.725902586773116e-05,
	"loss": 0.6793,
	"mean_token_accuracy": 0.7933961987495423,
	"step": 3635
	},
	{
	"epoch": 0.6688717383314958,
	"grad_norm": 1.046949059494339,
	"learning_rate": 1.7198191498472838e-05,
	"loss": 0.7922,
	"mean_token_accuracy": 0.7601482748985291,
	"step": 3640
	},
	{
	"epoch": 0.6697905181918412,
	"grad_norm": 1.022387930805979,
	"learning_rate": 1.7137452264106223e-05,
	"loss": 0.7352,
	"mean_token_accuracy": 0.7750853300094604,
	"step": 3645
	},
	{
	"epoch": 0.6707092980521867,
	"grad_norm": 1.0168638470278177,
	"learning_rate": 1.7076808725544513e-05,
	"loss": 0.7946,
	"mean_token_accuracy": 0.76027911901474,
	"step": 3650
	},
	{
	"epoch": 0.6716280779125322,
	"grad_norm": 1.011273043579098,
	"learning_rate": 1.7016261442817195e-05,
	"loss": 0.7686,
	"mean_token_accuracy": 0.7633870005607605,
	"step": 3655
	},
	{
	"epoch": 0.6725468577728776,
	"grad_norm": 1.0527976338992284,
	"learning_rate": 1.6955810975064852e-05,
	"loss": 0.744,
	"mean_token_accuracy": 0.7737329721450805,
	"step": 3660
	},
	{
	"epoch": 0.6734656376332231,
	"grad_norm": 0.9597608034824768,
	"learning_rate": 1.689545788053398e-05,
	"loss": 0.7701,
	"mean_token_accuracy": 0.7696826219558716,
	"step": 3665
	},
	{
	"epoch": 0.6743844174935686,
	"grad_norm": 1.0258518237885876,
	"learning_rate": 1.6835202716571896e-05,
	"loss": 0.7254,
	"mean_token_accuracy": 0.7749346971511841,
	"step": 3670
	},
	{
	"epoch": 0.675303197353914,
	"grad_norm": 0.9578329259933241,
	"learning_rate": 1.677504603962151e-05,
	"loss": 0.7372,
	"mean_token_accuracy": 0.7727353811264038,
	"step": 3675
	},
	{
	"epoch": 0.6762219772142595,
	"grad_norm": 0.9425151659951094,
	"learning_rate": 1.6714988405216268e-05,
	"loss": 0.7622,
	"mean_token_accuracy": 0.768218743801117,
	"step": 3680
	},
	{
	"epoch": 0.677140757074605,
	"grad_norm": 0.9402489651093421,
	"learning_rate": 1.6655030367974956e-05,
	"loss": 0.7042,
	"mean_token_accuracy": 0.7838626861572265,
	"step": 3685
	},
	{
	"epoch": 0.6780595369349504,
	"grad_norm": 0.9434658856603072,
	"learning_rate": 1.659517248159658e-05,
	"loss": 0.6985,
	"mean_token_accuracy": 0.7856457352638244,
	"step": 3690
	},
	{
	"epoch": 0.6789783167952959,
	"grad_norm": 0.9784597438802801,
	"learning_rate": 1.6535415298855327e-05,
	"loss": 0.724,
	"mean_token_accuracy": 0.7787894964218139,
	"step": 3695
	},
	{
	"epoch": 0.6798970966556414,
	"grad_norm": 0.9287408780062713,
	"learning_rate": 1.6475759371595363e-05,
	"loss": 0.7246,
	"mean_token_accuracy": 0.7800618410110474,
	"step": 3700
	},
	{
	"epoch": 0.6808158765159867,
	"grad_norm": 0.8854707560115899,
	"learning_rate": 1.6416205250725805e-05,
	"loss": 0.7302,
	"mean_token_accuracy": 0.7747718214988708,
	"step": 3705
	},
	{
	"epoch": 0.6817346563763322,
	"grad_norm": 1.0559953134942033,
	"learning_rate": 1.635675348621561e-05,
	"loss": 0.7812,
	"mean_token_accuracy": 0.7618914604187011,
	"step": 3710
	},
	{
	"epoch": 0.6826534362366777,
	"grad_norm": 0.904527688485687,
	"learning_rate": 1.6297404627088495e-05,
	"loss": 0.6821,
	"mean_token_accuracy": 0.7847250699996948,
	"step": 3715
	},
	{
	"epoch": 0.6835722160970231,
	"grad_norm": 0.9469214300582695,
	"learning_rate": 1.623815922141786e-05,
	"loss": 0.7542,
	"mean_token_accuracy": 0.7689258933067322,
	"step": 3720
	},
	{
	"epoch": 0.6844909959573686,
	"grad_norm": 0.967860721114202,
	"learning_rate": 1.6179017816321747e-05,
	"loss": 0.7363,
	"mean_token_accuracy": 0.7743378639221191,
	"step": 3725
	},
	{
	"epoch": 0.6854097758177141,
	"grad_norm": 0.8886741465453643,
	"learning_rate": 1.6119980957957777e-05,
	"loss": 0.6988,
	"mean_token_accuracy": 0.7837384343147278,
	"step": 3730
	},
	{
	"epoch": 0.6863285556780595,
	"grad_norm": 0.8776280447144813,
	"learning_rate": 1.6061049191518085e-05,
	"loss": 0.7209,
	"mean_token_accuracy": 0.7783106327056885,
	"step": 3735
	},
	{
	"epoch": 0.687247335538405,
	"grad_norm": 0.9158307911784594,
	"learning_rate": 1.6002223061224335e-05,
	"loss": 0.7088,
	"mean_token_accuracy": 0.781765878200531,
	"step": 3740
	},
	{
	"epoch": 0.6881661153987505,
	"grad_norm": 1.162396078380293,
	"learning_rate": 1.5943503110322645e-05,
	"loss": 0.7807,
	"mean_token_accuracy": 0.7625959992408753,
	"step": 3745
	},
	{
	"epoch": 0.6890848952590959,
	"grad_norm": 1.0152287109252447,
	"learning_rate": 1.5884889881078597e-05,
	"loss": 0.7434,
	"mean_token_accuracy": 0.7718896269798279,
	"step": 3750
	},
	{
	"epoch": 0.6900036751194414,
	"grad_norm": 1.008310002000136,
	"learning_rate": 1.5826383914772224e-05,
	"loss": 0.7251,
	"mean_token_accuracy": 0.7803327202796936,
	"step": 3755
	},
	{
	"epoch": 0.6909224549797869,
	"grad_norm": 0.9966365535572344,
	"learning_rate": 1.5767985751693e-05,
	"loss": 0.7973,
	"mean_token_accuracy": 0.755574083328247,
	"step": 3760
	},
	{
	"epoch": 0.6918412348401323,
	"grad_norm": 0.9091331211868702,
	"learning_rate": 1.5709695931134865e-05,
	"loss": 0.6733,
	"mean_token_accuracy": 0.7941539287567139,
	"step": 3765
	},
	{
	"epoch": 0.6927600147004778,
	"grad_norm": 0.9104102247083076,
	"learning_rate": 1.5651514991391257e-05,
	"loss": 0.776,
	"mean_token_accuracy": 0.7669570446014404,
	"step": 3770
	},
	{
	"epoch": 0.6936787945608233,
	"grad_norm": 1.0293997774105645,
	"learning_rate": 1.5593443469750096e-05,
	"loss": 0.8177,
	"mean_token_accuracy": 0.7502638220787048,
	"step": 3775
	},
	{
	"epoch": 0.6945975744211687,
	"grad_norm": 0.929448240683312,
	"learning_rate": 1.5535481902488867e-05,
	"loss": 0.7637,
	"mean_token_accuracy": 0.7701873660087586,
	"step": 3780
	},
	{
	"epoch": 0.6955163542815141,
	"grad_norm": 0.9731391197018507,
	"learning_rate": 1.5477630824869654e-05,
	"loss": 0.7091,
	"mean_token_accuracy": 0.7808983325958252,
	"step": 3785
	},
	{
	"epoch": 0.6964351341418596,
	"grad_norm": 1.0202913846698398,
	"learning_rate": 1.541989077113418e-05,
	"loss": 0.7465,
	"mean_token_accuracy": 0.7717735052108765,
	"step": 3790
	},
	{
	"epoch": 0.697353914002205,
	"grad_norm": 0.9301401711992584,
	"learning_rate": 1.5362262274498905e-05,
	"loss": 0.6822,
	"mean_token_accuracy": 0.7897647023200989,
	"step": 3795
	},
	{
	"epoch": 0.6982726938625505,
	"grad_norm": 1.0207577033975543,
	"learning_rate": 1.5304745867150057e-05,
	"loss": 0.7438,
	"mean_token_accuracy": 0.774781858921051,
	"step": 3800
	},
	{
	"epoch": 0.699191473722896,
	"grad_norm": 1.0524548953066566,
	"learning_rate": 1.524734208023878e-05,
	"loss": 0.7102,
	"mean_token_accuracy": 0.781788682937622,
	"step": 3805
	},
	{
	"epoch": 0.7001102535832414,
	"grad_norm": 1.5303502399912878,
	"learning_rate": 1.5190051443876164e-05,
	"loss": 0.75,
	"mean_token_accuracy": 0.7729594349861145,
	"step": 3810
	},
	{
	"epoch": 0.7010290334435869,
	"grad_norm": 0.9420746725481757,
	"learning_rate": 1.5132874487128395e-05,
	"loss": 0.7092,
	"mean_token_accuracy": 0.7798316001892089,
	"step": 3815
	},
	{
	"epoch": 0.7019478133039324,
	"grad_norm": 0.9519856865931159,
	"learning_rate": 1.5075811738011856e-05,
	"loss": 0.7228,
	"mean_token_accuracy": 0.7796306014060974,
	"step": 3820
	},
	{
	"epoch": 0.7028665931642778,
	"grad_norm": 0.9860104895952649,
	"learning_rate": 1.5018863723488225e-05,
	"loss": 0.7966,
	"mean_token_accuracy": 0.7599681258201599,
	"step": 3825
	},
	{
	"epoch": 0.7037853730246233,
	"grad_norm": 1.0271424947345908,
	"learning_rate": 1.4962030969459653e-05,
	"loss": 0.7635,
	"mean_token_accuracy": 0.7661967992782592,
	"step": 3830
	},
	{
	"epoch": 0.7047041528849688,
	"grad_norm": 0.9528580532465843,
	"learning_rate": 1.4905314000763879e-05,
	"loss": 0.8305,
	"mean_token_accuracy": 0.748454475402832,
	"step": 3835
	},
	{
	"epoch": 0.7056229327453142,
	"grad_norm": 1.127501991853972,
	"learning_rate": 1.48487133411694e-05,
	"loss": 0.7435,
	"mean_token_accuracy": 0.7706256151199341,
	"step": 3840
	},
	{
	"epoch": 0.7065417126056597,
	"grad_norm": 0.9715164350420321,
	"learning_rate": 1.4792229513370623e-05,
	"loss": 0.7749,
	"mean_token_accuracy": 0.7648235201835633,
	"step": 3845
	},
	{
	"epoch": 0.7074604924660052,
	"grad_norm": 1.0410599346511435,
	"learning_rate": 1.4735863038983017e-05,
	"loss": 0.7929,
	"mean_token_accuracy": 0.7620292901992798,
	"step": 3850
	},
	{
	"epoch": 0.7083792723263506,
	"grad_norm": 1.0230288642653715,
	"learning_rate": 1.4679614438538336e-05,
	"loss": 0.7096,
	"mean_token_accuracy": 0.7822004795074463,
	"step": 3855
	},
	{
	"epoch": 0.7092980521866961,
	"grad_norm": 0.9688977031604671,
	"learning_rate": 1.4623484231479797e-05,
	"loss": 0.7349,
	"mean_token_accuracy": 0.7777714133262634,
	"step": 3860
	},
	{
	"epoch": 0.7102168320470416,
	"grad_norm": 0.9626561356173854,
	"learning_rate": 1.4567472936157272e-05,
	"loss": 0.7146,
	"mean_token_accuracy": 0.781309711933136,
	"step": 3865
	},
	{
	"epoch": 0.7111356119073869,
	"grad_norm": 0.9708419426566777,
	"learning_rate": 1.451158106982253e-05,
	"loss": 0.7092,
	"mean_token_accuracy": 0.783543837070465,
	"step": 3870
	},
	{
	"epoch": 0.7120543917677324,
	"grad_norm": 1.109902456844337,
	"learning_rate": 1.4455809148624427e-05,
	"loss": 0.6661,
	"mean_token_accuracy": 0.7925106644630432,
	"step": 3875
	},
	{
	"epoch": 0.7129731716280779,
	"grad_norm": 1.0531361212213257,
	"learning_rate": 1.4400157687604127e-05,
	"loss": 0.7478,
	"mean_token_accuracy": 0.7699988007545471,
	"step": 3880
	},
	{
	"epoch": 0.7138919514884233,
	"grad_norm": 0.9181223816529849,
	"learning_rate": 1.4344627200690408e-05,
	"loss": 0.7828,
	"mean_token_accuracy": 0.7599815845489502,
	"step": 3885
	},
	{
	"epoch": 0.7148107313487688,
	"grad_norm": 0.960236605434846,
	"learning_rate": 1.4289218200694863e-05,
	"loss": 0.6859,
	"mean_token_accuracy": 0.7898363471031189,
	"step": 3890
	},
	{
	"epoch": 0.7157295112091143,
	"grad_norm": 1.0122066887422,
	"learning_rate": 1.4233931199307182e-05,
	"loss": 0.7232,
	"mean_token_accuracy": 0.7770133495330811,
	"step": 3895
	},
	{
	"epoch": 0.7166482910694597,
	"grad_norm": 1.040565449358011,
	"learning_rate": 1.4178766707090435e-05,
	"loss": 0.6839,
	"mean_token_accuracy": 0.7898031234741211,
	"step": 3900
	},
	{
	"epoch": 0.7175670709298052,
	"grad_norm": 1.0510693995270706,
	"learning_rate": 1.4123725233476331e-05,
	"loss": 0.7013,
	"mean_token_accuracy": 0.7850608229637146,
	"step": 3905
	},
	{
	"epoch": 0.7184858507901507,
	"grad_norm": 0.9406082797289776,
	"learning_rate": 1.406880728676054e-05,
	"loss": 0.694,
	"mean_token_accuracy": 0.7835015416145324,
	"step": 3910
	},
	{
	"epoch": 0.7194046306504961,
	"grad_norm": 0.86803820647997,
	"learning_rate": 1.401401337409799e-05,
	"loss": 0.7519,
	"mean_token_accuracy": 0.7705330729484559,
	"step": 3915
	},
	{
	"epoch": 0.7203234105108416,
	"grad_norm": 1.004330967776519,
	"learning_rate": 1.3959344001498173e-05,
	"loss": 0.7427,
	"mean_token_accuracy": 0.775149667263031,
	"step": 3920
	},
	{
	"epoch": 0.7212421903711871,
	"grad_norm": 0.9559190227857477,
	"learning_rate": 1.390479967382049e-05,
	"loss": 0.791,
	"mean_token_accuracy": 0.7609505772590637,
	"step": 3925
	},
	{
	"epoch": 0.7221609702315325,
	"grad_norm": 1.028049651883388,
	"learning_rate": 1.3850380894769577e-05,
	"loss": 0.7556,
	"mean_token_accuracy": 0.76885005235672,
	"step": 3930
	},
	{
	"epoch": 0.723079750091878,
	"grad_norm": 0.9303174472709201,
	"learning_rate": 1.3796088166890658e-05,
	"loss": 0.7354,
	"mean_token_accuracy": 0.7731772422790527,
	"step": 3935
	},
	{
	"epoch": 0.7239985299522235,
	"grad_norm": 0.9187982243033715,
	"learning_rate": 1.3741921991564902e-05,
	"loss": 0.7279,
	"mean_token_accuracy": 0.7771438717842102,
	"step": 3940
	},
	{
	"epoch": 0.7249173098125689,
	"grad_norm": 1.0153656088945144,
	"learning_rate": 1.3687882869004793e-05,
	"loss": 0.7822,
	"mean_token_accuracy": 0.7594830989837646,
	"step": 3945
	},
	{
	"epoch": 0.7258360896729144,
	"grad_norm": 0.9068523793270754,
	"learning_rate": 1.3633971298249509e-05,
	"loss": 0.726,
	"mean_token_accuracy": 0.7766485810279846,
	"step": 3950
	},
	{
	"epoch": 0.7267548695332599,
	"grad_norm": 0.9192709791074424,
	"learning_rate": 1.358018777716033e-05,
	"loss": 0.6736,
	"mean_token_accuracy": 0.7924223423004151,
	"step": 3955
	},
	{
	"epoch": 0.7276736493936052,
	"grad_norm": 0.9362834673989403,
	"learning_rate": 1.3526532802415986e-05,
	"loss": 0.7237,
	"mean_token_accuracy": 0.7815822243690491,
	"step": 3960
	},
	{
	"epoch": 0.7285924292539507,
	"grad_norm": 0.9618182073527164,
	"learning_rate": 1.347300686950817e-05,
	"loss": 0.7136,
	"mean_token_accuracy": 0.7804886937141419,
	"step": 3965
	},
	{
	"epoch": 0.7295112091142962,
	"grad_norm": 1.0033704504611825,
	"learning_rate": 1.3419610472736854e-05,
	"loss": 0.7774,
	"mean_token_accuracy": 0.7617066621780395,
	"step": 3970
	},
	{
	"epoch": 0.7304299889746417,
	"grad_norm": 0.9824057566253805,
	"learning_rate": 1.3366344105205795e-05,
	"loss": 0.7415,
	"mean_token_accuracy": 0.7728252649307251,
	"step": 3975
	},
	{
	"epoch": 0.7313487688349871,
	"grad_norm": 0.9259208825526174,
	"learning_rate": 1.3313208258817961e-05,
	"loss": 0.668,
	"mean_token_accuracy": 0.7945244908332825,
	"step": 3980
	},
	{
	"epoch": 0.7322675486953326,
	"grad_norm": 1.0678551747273641,
	"learning_rate": 1.3260203424270962e-05,
	"loss": 0.6779,
	"mean_token_accuracy": 0.7914282798767089,
	"step": 3985
	},
	{
	"epoch": 0.7331863285556781,
	"grad_norm": 0.9074661173815383,
	"learning_rate": 1.3207330091052564e-05,
	"loss": 0.7319,
	"mean_token_accuracy": 0.7765037894248963,
	"step": 3990
	},
	{
	"epoch": 0.7341051084160235,
	"grad_norm": 0.9568097933924034,
	"learning_rate": 1.3154588747436159e-05,
	"loss": 0.7078,
	"mean_token_accuracy": 0.7828231930732727,
	"step": 3995
	},
	{
	"epoch": 0.735023888276369,
	"grad_norm": 0.9371717410955112,
	"learning_rate": 1.310197988047622e-05,
	"loss": 0.6858,
	"mean_token_accuracy": 0.7882918357849121,
	"step": 4000
	},
	{
	"epoch": 0.7359426681367145,
	"grad_norm": 0.9954273414248298,
	"learning_rate": 1.3049503976003838e-05,
	"loss": 0.7514,
	"mean_token_accuracy": 0.7692143678665161,
	"step": 4005
	},
	{
	"epoch": 0.7368614479970599,
	"grad_norm": 0.9856979788439847,
	"learning_rate": 1.2997161518622236e-05,
	"loss": 0.7208,
	"mean_token_accuracy": 0.7764803051948548,
	"step": 4010
	},
	{
	"epoch": 0.7377802278574054,
	"grad_norm": 0.9346284220975282,
	"learning_rate": 1.2944952991702252e-05,
	"loss": 0.6963,
	"mean_token_accuracy": 0.7852182865142823,
	"step": 4015
	},
	{
	"epoch": 0.7386990077177509,
	"grad_norm": 1.013720256514248,
	"learning_rate": 1.289287887737794e-05,
	"loss": 0.7001,
	"mean_token_accuracy": 0.7830116629600525,
	"step": 4020
	},
	{
	"epoch": 0.7396177875780963,
	"grad_norm": 0.9031619991653583,
	"learning_rate": 1.2840939656542055e-05,
	"loss": 0.6997,
	"mean_token_accuracy": 0.7874221801757812,
	"step": 4025
	},
	{
	"epoch": 0.7405365674384418,
	"grad_norm": 0.9825845455381703,
	"learning_rate": 1.2789135808841677e-05,
	"loss": 0.6957,
	"mean_token_accuracy": 0.7857596635818481,
	"step": 4030
	},
	{
	"epoch": 0.7414553472987873,
	"grad_norm": 0.9061423884854145,
	"learning_rate": 1.2737467812673723e-05,
	"loss": 0.7169,
	"mean_token_accuracy": 0.781167495250702,
	"step": 4035
	},
	{
	"epoch": 0.7423741271591326,
	"grad_norm": 0.9638102626531402,
	"learning_rate": 1.2685936145180532e-05,
	"loss": 0.69,
	"mean_token_accuracy": 0.7890314221382141,
	"step": 4040
	},
	{
	"epoch": 0.7432929070194781,
	"grad_norm": 1.0053384054052024,
	"learning_rate": 1.2634541282245516e-05,
	"loss": 0.807,
	"mean_token_accuracy": 0.7533567190170288,
	"step": 4045
	},
	{
	"epoch": 0.7442116868798236,
	"grad_norm": 1.04109340250319,
	"learning_rate": 1.2583283698488704e-05,
	"loss": 0.7067,
	"mean_token_accuracy": 0.7812132358551025,
	"step": 4050
	},
	{
	"epoch": 0.745130466740169,
	"grad_norm": 1.0112381563115767,
	"learning_rate": 1.2532163867262392e-05,
	"loss": 0.7399,
	"mean_token_accuracy": 0.7726234674453736,
	"step": 4055
	},
	{
	"epoch": 0.7460492466005145,
	"grad_norm": 0.8721284775041804,
	"learning_rate": 1.2481182260646752e-05,
	"loss": 0.7306,
	"mean_token_accuracy": 0.7757495403289795,
	"step": 4060
	},
	{
	"epoch": 0.74696802646086,
	"grad_norm": 1.0082015116923577,
	"learning_rate": 1.2430339349445513e-05,
	"loss": 0.7431,
	"mean_token_accuracy": 0.7711400389671326,
	"step": 4065
	},
	{
	"epoch": 0.7478868063212054,
	"grad_norm": 0.9592384870972069,
	"learning_rate": 1.2379635603181537e-05,
	"loss": 0.7367,
	"mean_token_accuracy": 0.7738732933998108,
	"step": 4070
	},
	{
	"epoch": 0.7488055861815509,
	"grad_norm": 1.0584048963162198,
	"learning_rate": 1.2329071490092558e-05,
	"loss": 0.768,
	"mean_token_accuracy": 0.7642792701721192,
	"step": 4075
	},
	{
	"epoch": 0.7497243660418964,
	"grad_norm": 1.006126544893952,
	"learning_rate": 1.2278647477126825e-05,
	"loss": 0.7155,
	"mean_token_accuracy": 0.7793737649917603,
	"step": 4080
	},
	{
	"epoch": 0.7506431459022418,
	"grad_norm": 0.9059136663503262,
	"learning_rate": 1.2228364029938794e-05,
	"loss": 0.6934,
	"mean_token_accuracy": 0.7861241817474365,
	"step": 4085
	},
	{
	"epoch": 0.7515619257625873,
	"grad_norm": 0.9164252616053726,
	"learning_rate": 1.2178221612884821e-05,
	"loss": 0.6858,
	"mean_token_accuracy": 0.7915996551513672,
	"step": 4090
	},
	{
	"epoch": 0.7524807056229328,
	"grad_norm": 0.9705885896913202,
	"learning_rate": 1.212822068901889e-05,
	"loss": 0.7124,
	"mean_token_accuracy": 0.7814687609672546,
	"step": 4095
	},
	{
	"epoch": 0.7533994854832782,
	"grad_norm": 0.9020603765566574,
	"learning_rate": 1.2078361720088317e-05,
	"loss": 0.6295,
	"mean_token_accuracy": 0.8092963337898255,
	"step": 4100
	},
	{
	"epoch": 0.7543182653436237,
	"grad_norm": 1.0248400255161636,
	"learning_rate": 1.2028645166529502e-05,
	"loss": 0.6836,
	"mean_token_accuracy": 0.7892769694328308,
	"step": 4105
	},
	{
	"epoch": 0.7552370452039692,
	"grad_norm": 0.9961571096740167,
	"learning_rate": 1.1979071487463676e-05,
	"loss": 0.7571,
	"mean_token_accuracy": 0.7688749432563782,
	"step": 4110
	},
	{
	"epoch": 0.7561558250643146,
	"grad_norm": 0.944702960313809,
	"learning_rate": 1.1929641140692642e-05,
	"loss": 0.7449,
	"mean_token_accuracy": 0.7719345092773438,
	"step": 4115
	},
	{
	"epoch": 0.75707460492466,
	"grad_norm": 0.901399230174195,
	"learning_rate": 1.1880354582694574e-05,
	"loss": 0.7247,
	"mean_token_accuracy": 0.7755969166755676,
	"step": 4120
	},
	{
	"epoch": 0.7579933847850056,
	"grad_norm": 0.8741911991495609,
	"learning_rate": 1.183121226861978e-05,
	"loss": 0.6733,
	"mean_token_accuracy": 0.791340708732605,
	"step": 4125
	},
	{
	"epoch": 0.7589121646453509,
	"grad_norm": 0.9630743810579115,
	"learning_rate": 1.1782214652286517e-05,
	"loss": 0.7611,
	"mean_token_accuracy": 0.7667882919311524,
	"step": 4130
	},
	{
	"epoch": 0.7598309445056964,
	"grad_norm": 0.9810984916908249,
	"learning_rate": 1.1733362186176783e-05,
	"loss": 0.7248,
	"mean_token_accuracy": 0.7780536890029908,
	"step": 4135
	},
	{
	"epoch": 0.7607497243660419,
	"grad_norm": 1.0335671142572738,
	"learning_rate": 1.1684655321432151e-05,
	"loss": 0.8171,
	"mean_token_accuracy": 0.7540881991386413,
	"step": 4140
	},
	{
	"epoch": 0.7616685042263873,
	"grad_norm": 1.131108893177244,
	"learning_rate": 1.1636094507849602e-05,
	"loss": 0.8238,
	"mean_token_accuracy": 0.7476210117340087,
	"step": 4145
	},
	{
	"epoch": 0.7625872840867328,
	"grad_norm": 0.936028514421637,
	"learning_rate": 1.1587680193877339e-05,
	"loss": 0.7193,
	"mean_token_accuracy": 0.778421950340271,
	"step": 4150
	},
	{
	"epoch": 0.7635060639470783,
	"grad_norm": 1.0740607162155091,
	"learning_rate": 1.153941282661072e-05,
	"loss": 0.7396,
	"mean_token_accuracy": 0.7715651631355286,
	"step": 4155
	},
	{
	"epoch": 0.7644248438074237,
	"grad_norm": 1.0319017337525411,
	"learning_rate": 1.149129285178805e-05,
	"loss": 0.7647,
	"mean_token_accuracy": 0.7646437525749207,
	"step": 4160
	},
	{
	"epoch": 0.7653436236677692,
	"grad_norm": 1.0657076517097614,
	"learning_rate": 1.1443320713786512e-05,
	"loss": 0.761,
	"mean_token_accuracy": 0.7698405861854554,
	"step": 4165
	},
	{
	"epoch": 0.7662624035281147,
	"grad_norm": 1.1933980574421776,
	"learning_rate": 1.1395496855618047e-05,
	"loss": 0.6857,
	"mean_token_accuracy": 0.786463487148285,
	"step": 4170
	},
	{
	"epoch": 0.7671811833884601,
	"grad_norm": 1.0399268658004284,
	"learning_rate": 1.1347821718925246e-05,
	"loss": 0.6951,
	"mean_token_accuracy": 0.7830422759056092,
	"step": 4175
	},
	{
	"epoch": 0.7680999632488056,
	"grad_norm": 0.9523591554987267,
	"learning_rate": 1.1300295743977319e-05,
	"loss": 0.7314,
	"mean_token_accuracy": 0.7771936178207397,
	"step": 4180
	},
	{
	"epoch": 0.7690187431091511,
	"grad_norm": 0.9704227649157859,
	"learning_rate": 1.1252919369665982e-05,
	"loss": 0.6644,
	"mean_token_accuracy": 0.7947867512702942,
	"step": 4185
	},
	{
	"epoch": 0.7699375229694965,
	"grad_norm": 1.1427236915156969,
	"learning_rate": 1.1205693033501438e-05,
	"loss": 0.8105,
	"mean_token_accuracy": 0.7546621441841126,
	"step": 4190
	},
	{
	"epoch": 0.770856302829842,
	"grad_norm": 0.9971989693482147,
	"learning_rate": 1.115861717160831e-05,
	"loss": 0.7324,
	"mean_token_accuracy": 0.7745411634445191,
	"step": 4195
	},
	{
	"epoch": 0.7717750826901875,
	"grad_norm": 0.9708619660373234,
	"learning_rate": 1.1111692218721634e-05,
	"loss": 0.7248,
	"mean_token_accuracy": 0.7753921389579773,
	"step": 4200
	},
	{
	"epoch": 0.7726938625505329,
	"grad_norm": 1.0024258510538886,
	"learning_rate": 1.1064918608182811e-05,
	"loss": 0.7042,
	"mean_token_accuracy": 0.7805647253990173,
	"step": 4205
	},
	{
	"epoch": 0.7736126424108783,
	"grad_norm": 1.043536654965297,
	"learning_rate": 1.1018296771935662e-05,
	"loss": 0.7479,
	"mean_token_accuracy": 0.7747788667678833,
	"step": 4210
	},
	{
	"epoch": 0.7745314222712238,
	"grad_norm": 0.9600156217205023,
	"learning_rate": 1.097182714052238e-05,
	"loss": 0.7103,
	"mean_token_accuracy": 0.7833921790122986,
	"step": 4215
	},
	{
	"epoch": 0.7754502021315692,
	"grad_norm": 1.0045159954634846,
	"learning_rate": 1.0925510143079597e-05,
	"loss": 0.7374,
	"mean_token_accuracy": 0.7714961647987366,
	"step": 4220
	},
	{
	"epoch": 0.7763689819919147,
	"grad_norm": 0.9309385715533749,
	"learning_rate": 1.0879346207334413e-05,
	"loss": 0.7726,
	"mean_token_accuracy": 0.7604559183120727,
	"step": 4225
	},
	{
	"epoch": 0.7772877618522602,
	"grad_norm": 1.0081696884584601,
	"learning_rate": 1.0833335759600405e-05,
	"loss": 0.7722,
	"mean_token_accuracy": 0.7622892618179321,
	"step": 4230
	},
	{
	"epoch": 0.7782065417126056,
	"grad_norm": 1.0452970764251144,
	"learning_rate": 1.0787479224773747e-05,
	"loss": 0.828,
	"mean_token_accuracy": 0.7479719400405884,
	"step": 4235
	},
	{
	"epoch": 0.7791253215729511,
	"grad_norm": 1.0247302466447017,
	"learning_rate": 1.0741777026329258e-05,
	"loss": 0.7903,
	"mean_token_accuracy": 0.7618830919265747,
	"step": 4240
	},
	{
	"epoch": 0.7800441014332966,
	"grad_norm": 0.9573944252741409,
	"learning_rate": 1.0696229586316494e-05,
	"loss": 0.7805,
	"mean_token_accuracy": 0.7581877827644348,
	"step": 4245
	},
	{
	"epoch": 0.780962881293642,
	"grad_norm": 0.9549288805564692,
	"learning_rate": 1.065083732535585e-05,
	"loss": 0.7232,
	"mean_token_accuracy": 0.7758707642555237,
	"step": 4250
	},
	{
	"epoch": 0.7818816611539875,
	"grad_norm": 1.0135283642977615,
	"learning_rate": 1.060560066263468e-05,
	"loss": 0.6985,
	"mean_token_accuracy": 0.7865156173706055,
	"step": 4255
	},
	{
	"epoch": 0.782800441014333,
	"grad_norm": 0.9768410936733116,
	"learning_rate": 1.0560520015903421e-05,
	"loss": 0.6995,
	"mean_token_accuracy": 0.7879634141921997,
	"step": 4260
	},
	{
	"epoch": 0.7837192208746784,
	"grad_norm": 1.0406851160802406,
	"learning_rate": 1.0515595801471734e-05,
	"loss": 0.7099,
	"mean_token_accuracy": 0.7844684720039368,
	"step": 4265
	},
	{
	"epoch": 0.7846380007350239,
	"grad_norm": 1.1640626929289857,
	"learning_rate": 1.0470828434204672e-05,
	"loss": 0.7507,
	"mean_token_accuracy": 0.7699440717697144,
	"step": 4270
	},
	{
	"epoch": 0.7855567805953694,
	"grad_norm": 0.9770361775953404,
	"learning_rate": 1.0426218327518831e-05,
	"loss": 0.7241,
	"mean_token_accuracy": 0.7754392981529236,
	"step": 4275
	},
	{
	"epoch": 0.7864755604557148,
	"grad_norm": 0.9511388600942011,
	"learning_rate": 1.0381765893378545e-05,
	"loss": 0.7491,
	"mean_token_accuracy": 0.768705952167511,
	"step": 4280
	},
	{
	"epoch": 0.7873943403160603,
	"grad_norm": 0.8951535359455135,
	"learning_rate": 1.0337471542292076e-05,
	"loss": 0.6546,
	"mean_token_accuracy": 0.7975376367568969,
	"step": 4285
	},
	{
	"epoch": 0.7883131201764058,
	"grad_norm": 0.9998894325690464,
	"learning_rate": 1.0293335683307825e-05,
	"loss": 0.717,
	"mean_token_accuracy": 0.7781760573387146,
	"step": 4290
	},
	{
	"epoch": 0.7892319000367511,
	"grad_norm": 0.9660670108974215,
	"learning_rate": 1.0249358724010555e-05,
	"loss": 0.7081,
	"mean_token_accuracy": 0.7858733177185059,
	"step": 4295
	},
	{
	"epoch": 0.7901506798970966,
	"grad_norm": 0.9012514691895656,
	"learning_rate": 1.0205541070517624e-05,
	"loss": 0.6758,
	"mean_token_accuracy": 0.7909941792488098,
	"step": 4300
	},
	{
	"epoch": 0.7910694597574421,
	"grad_norm": 0.9948867453145167,
	"learning_rate": 1.0161883127475242e-05,
	"loss": 0.6938,
	"mean_token_accuracy": 0.7855447053909301,
	"step": 4305
	},
	{
	"epoch": 0.7919882396177875,
	"grad_norm": 0.984814744134321,
	"learning_rate": 1.0118385298054711e-05,
	"loss": 0.7587,
	"mean_token_accuracy": 0.7694467306137085,
	"step": 4310
	},
	{
	"epoch": 0.792907019478133,
	"grad_norm": 0.9320375007219053,
	"learning_rate": 1.0075047983948743e-05,
	"loss": 0.7049,
	"mean_token_accuracy": 0.7814609169960022,
	"step": 4315
	},
	{
	"epoch": 0.7938257993384785,
	"grad_norm": 0.9094613720358601,
	"learning_rate": 1.0031871585367718e-05,
	"loss": 0.6712,
	"mean_token_accuracy": 0.7946569919586182,
	"step": 4320
	},
	{
	"epoch": 0.7947445791988239,
	"grad_norm": 0.956979005267424,
	"learning_rate": 9.988856501035992e-06,
	"loss": 0.6935,
	"mean_token_accuracy": 0.7856648206710816,
	"step": 4325
	},
	{
	"epoch": 0.7956633590591694,
	"grad_norm": 0.9605421546046741,
	"learning_rate": 9.946003128188227e-06,
	"loss": 0.7125,
	"mean_token_accuracy": 0.7815356492996216,
	"step": 4330
	},
	{
	"epoch": 0.7965821389195149,
	"grad_norm": 1.0112492842719905,
	"learning_rate": 9.903311862565718e-06,
	"loss": 0.7767,
	"mean_token_accuracy": 0.7658894777297973,
	"step": 4335
	},
	{
	"epoch": 0.7975009187798603,
	"grad_norm": 0.9643270276794048,
	"learning_rate": 9.860783098412718e-06,
	"loss": 0.7266,
	"mean_token_accuracy": 0.7743983864784241,
	"step": 4340
	},
	{
	"epoch": 0.7984196986402058,
	"grad_norm": 1.0552126857079376,
	"learning_rate": 9.818417228472828e-06,
	"loss": 0.784,
	"mean_token_accuracy": 0.757087242603302,
	"step": 4345
	},
	{
	"epoch": 0.7993384785005513,
	"grad_norm": 0.9398083766031105,
	"learning_rate": 9.776214643985372e-06,
	"loss": 0.7362,
	"mean_token_accuracy": 0.7717908382415771,
	"step": 4350
	},
	{
	"epoch": 0.8002572583608968,
	"grad_norm": 1.1034049454029626,
	"learning_rate": 9.734175734681746e-06,
	"loss": 0.745,
	"mean_token_accuracy": 0.7712400317192077,
	"step": 4355
	},
	{
	"epoch": 0.8011760382212422,
	"grad_norm": 0.9955484033373456,
	"learning_rate": 9.69230088878186e-06,
	"loss": 0.7156,
	"mean_token_accuracy": 0.778664481639862,
	"step": 4360
	},
	{
	"epoch": 0.8020948180815877,
	"grad_norm": 0.9268939856852966,
	"learning_rate": 9.650590492990517e-06,
	"loss": 0.6814,
	"mean_token_accuracy": 0.7887930870056152,
	"step": 4365
	},
	{
	"epoch": 0.8030135979419332,
	"grad_norm": 1.016524051741597,
	"learning_rate": 9.609044932493873e-06,
	"loss": 0.761,
	"mean_token_accuracy": 0.7663564682006836,
	"step": 4370
	},
	{
	"epoch": 0.8039323778022786,
	"grad_norm": 0.9217374732022973,
	"learning_rate": 9.567664590955861e-06,
	"loss": 0.7344,
	"mean_token_accuracy": 0.7756752133369446,
	"step": 4375
	},
	{
	"epoch": 0.804851157662624,
	"grad_norm": 1.010030392708083,
	"learning_rate": 9.526449850514662e-06,
	"loss": 0.7442,
	"mean_token_accuracy": 0.770478630065918,
	"step": 4380
	},
	{
	"epoch": 0.8057699375229695,
	"grad_norm": 1.0170619440794504,
	"learning_rate": 9.485401091779171e-06,
	"loss": 0.7571,
	"mean_token_accuracy": 0.7664804577827453,
	"step": 4385
	},
	{
	"epoch": 0.8066887173833149,
	"grad_norm": 0.9571205775213486,
	"learning_rate": 9.444518693825456e-06,
	"loss": 0.7053,
	"mean_token_accuracy": 0.7821534872055054,
	"step": 4390
	},
	{
	"epoch": 0.8076074972436604,
	"grad_norm": 1.014166913858275,
	"learning_rate": 9.403803034193302e-06,
	"loss": 0.7171,
	"mean_token_accuracy": 0.7787631750106812,
	"step": 4395
	},
	{
	"epoch": 0.8085262771040059,
	"grad_norm": 1.0747929086580883,
	"learning_rate": 9.363254488882694e-06,
	"loss": 0.7338,
	"mean_token_accuracy": 0.7740719437599182,
	"step": 4400
	},
	{
	"epoch": 0.8094450569643513,
	"grad_norm": 1.0631010384857345,
	"learning_rate": 9.322873432350361e-06,
	"loss": 0.7597,
	"mean_token_accuracy": 0.7654994845390319,
	"step": 4405
	},
	{
	"epoch": 0.8103638368246968,
	"grad_norm": 1.9306478337494233,
	"learning_rate": 9.282660237506296e-06,
	"loss": 0.7027,
	"mean_token_accuracy": 0.7840522766113281,
	"step": 4410
	},
	{
	"epoch": 0.8112826166850423,
	"grad_norm": 0.9881521244458075,
	"learning_rate": 9.242615275710359e-06,
	"loss": 0.7735,
	"mean_token_accuracy": 0.765105926990509,
	"step": 4415
	},
	{
	"epoch": 0.8122013965453877,
	"grad_norm": 0.9822768789236431,
	"learning_rate": 9.202738916768773e-06,
	"loss": 0.7742,
	"mean_token_accuracy": 0.7636497378349304,
	"step": 4420
	},
	{
	"epoch": 0.8131201764057332,
	"grad_norm": 0.9597545385693992,
	"learning_rate": 9.16303152893078e-06,
	"loss": 0.7168,
	"mean_token_accuracy": 0.7784831523895264,
	"step": 4425
	},
	{
	"epoch": 0.8140389562660787,
	"grad_norm": 1.018005126822509,
	"learning_rate": 9.123493478885197e-06,
	"loss": 0.7051,
	"mean_token_accuracy": 0.7817409634590149,
	"step": 4430
	},
	{
	"epoch": 0.8149577361264241,
	"grad_norm": 0.8612534899442146,
	"learning_rate": 9.084125131757061e-06,
	"loss": 0.6905,
	"mean_token_accuracy": 0.7883997678756713,
	"step": 4435
	},
	{
	"epoch": 0.8158765159867696,
	"grad_norm": 1.004828814027327,
	"learning_rate": 9.044926851104225e-06,
	"loss": 0.7088,
	"mean_token_accuracy": 0.7787980914115906,
	"step": 4440
	},
	{
	"epoch": 0.8167952958471151,
	"grad_norm": 1.034772375773089,
	"learning_rate": 9.005898998914021e-06,
	"loss": 0.7563,
	"mean_token_accuracy": 0.7687358140945435,
	"step": 4445
	},
	{
	"epoch": 0.8177140757074605,
	"grad_norm": 0.9599050149742322,
	"learning_rate": 8.967041935599915e-06,
	"loss": 0.7534,
	"mean_token_accuracy": 0.7682107329368592,
	"step": 4450
	},
	{
	"epoch": 0.818632855567806,
	"grad_norm": 0.9069132664938562,
	"learning_rate": 8.928356019998177e-06,
	"loss": 0.725,
	"mean_token_accuracy": 0.7773229837417602,
	"step": 4455
	},
	{
	"epoch": 0.8195516354281515,
	"grad_norm": 0.8705834756972108,
	"learning_rate": 8.88984160936456e-06,
	"loss": 0.7287,
	"mean_token_accuracy": 0.7764084458351135,
	"step": 4460
	},
	{
	"epoch": 0.8204704152884968,
	"grad_norm": 1.0456174549561577,
	"learning_rate": 8.851499059371016e-06,
	"loss": 0.7831,
	"mean_token_accuracy": 0.7606392741203308,
	"step": 4465
	},
	{
	"epoch": 0.8213891951488423,
	"grad_norm": 1.02656987229662,
	"learning_rate": 8.813328724102389e-06,
	"loss": 0.6944,
	"mean_token_accuracy": 0.7881085634231567,
	"step": 4470
	},
	{
	"epoch": 0.8223079750091878,
	"grad_norm": 0.959837964691812,
	"learning_rate": 8.775330956053171e-06,
	"loss": 0.7732,
	"mean_token_accuracy": 0.7633563637733459,
	"step": 4475
	},
	{
	"epoch": 0.8232267548695332,
	"grad_norm": 1.1225654804198197,
	"learning_rate": 8.737506106124235e-06,
	"loss": 0.7812,
	"mean_token_accuracy": 0.7637458205223083,
	"step": 4480
	},
	{
	"epoch": 0.8241455347298787,
	"grad_norm": 0.9381645378723508,
	"learning_rate": 8.69985452361958e-06,
	"loss": 0.704,
	"mean_token_accuracy": 0.7797535300254822,
	"step": 4485
	},
	{
	"epoch": 0.8250643145902242,
	"grad_norm": 0.9968842713077971,
	"learning_rate": 8.662376556243134e-06,
	"loss": 0.7743,
	"mean_token_accuracy": 0.7624358177185059,
	"step": 4490
	},
	{
	"epoch": 0.8259830944505696,
	"grad_norm": 0.8956734493127111,
	"learning_rate": 8.625072550095529e-06,
	"loss": 0.6901,
	"mean_token_accuracy": 0.7880960464477539,
	"step": 4495
	},
	{
	"epoch": 0.8269018743109151,
	"grad_norm": 0.9031387569534376,
	"learning_rate": 8.587942849670877e-06,
	"loss": 0.719,
	"mean_token_accuracy": 0.7778927087783813,
	"step": 4500
	},
	{
	"epoch": 0.8278206541712606,
	"grad_norm": 1.008720758966792,
	"learning_rate": 8.550987797853658e-06,
	"loss": 0.6524,
	"mean_token_accuracy": 0.7953348755836487,
	"step": 4505
	},
	{
	"epoch": 0.828739434031606,
	"grad_norm": 0.9852433501783017,
	"learning_rate": 8.51420773591548e-06,
	"loss": 0.6965,
	"mean_token_accuracy": 0.7834087967872619,
	"step": 4510
	},
	{
	"epoch": 0.8296582138919515,
	"grad_norm": 0.9178304984994476,
	"learning_rate": 8.47760300351197e-06,
	"loss": 0.6903,
	"mean_token_accuracy": 0.7837494611740112,
	"step": 4515
	},
	{
	"epoch": 0.830576993752297,
	"grad_norm": 0.9503212461224423,
	"learning_rate": 8.441173938679624e-06,
	"loss": 0.729,
	"mean_token_accuracy": 0.7761277437210083,
	"step": 4520
	},
	{
	"epoch": 0.8314957736126424,
	"grad_norm": 0.9554820837395569,
	"learning_rate": 8.404920877832693e-06,
	"loss": 0.6229,
	"mean_token_accuracy": 0.8066902041435242,
	"step": 4525
	},
	{
	"epoch": 0.8324145534729879,
	"grad_norm": 0.9220834077432549,
	"learning_rate": 8.368844155760054e-06,
	"loss": 0.7483,
	"mean_token_accuracy": 0.7662014603614807,
	"step": 4530
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.9412463783905453,
	"learning_rate": 8.33294410562215e-06,
	"loss": 0.6702,
	"mean_token_accuracy": 0.792554771900177,
	"step": 4535
	},
	{
	"epoch": 0.8342521131936788,
	"grad_norm": 0.9594825001322896,
	"learning_rate": 8.297221058947901e-06,
	"loss": 0.6827,
	"mean_token_accuracy": 0.7895113706588746,
	"step": 4540
	},
	{
	"epoch": 0.8351708930540243,
	"grad_norm": 1.0075829456004026,
	"learning_rate": 8.26167534563163e-06,
	"loss": 0.7226,
	"mean_token_accuracy": 0.7793241381645203,
	"step": 4545
	},
	{
	"epoch": 0.8360896729143698,
	"grad_norm": 0.9667343292842628,
	"learning_rate": 8.226307293930038e-06,
	"loss": 0.6909,
	"mean_token_accuracy": 0.7852010130882263,
	"step": 4550
	},
	{
	"epoch": 0.8370084527747151,
	"grad_norm": 1.123375486497552,
	"learning_rate": 8.191117230459137e-06,
	"loss": 0.7471,
	"mean_token_accuracy": 0.7665111303329468,
	"step": 4555
	},
	{
	"epoch": 0.8379272326350606,
	"grad_norm": 1.0938857594365514,
	"learning_rate": 8.156105480191279e-06,
	"loss": 0.7277,
	"mean_token_accuracy": 0.7771796703338623,
	"step": 4560
	},
	{
	"epoch": 0.8388460124954061,
	"grad_norm": 1.1106743041566718,
	"learning_rate": 8.12127236645213e-06,
	"loss": 0.686,
	"mean_token_accuracy": 0.7906163096427917,
	"step": 4565
	},
	{
	"epoch": 0.8397647923557515,
	"grad_norm": 1.0123275172064825,
	"learning_rate": 8.08661821091768e-06,
	"loss": 0.6952,
	"mean_token_accuracy": 0.7839462161064148,
	"step": 4570
	},
	{
	"epoch": 0.840683572216097,
	"grad_norm": 0.9381954109006908,
	"learning_rate": 8.052143333611299e-06,
	"loss": 0.6343,
	"mean_token_accuracy": 0.8027025938034058,
	"step": 4575
	},
	{
	"epoch": 0.8416023520764425,
	"grad_norm": 1.0894046730967675,
	"learning_rate": 8.017848052900732e-06,
	"loss": 0.7705,
	"mean_token_accuracy": 0.7612823724746705,
	"step": 4580
	},
	{
	"epoch": 0.8425211319367879,
	"grad_norm": 0.8738132153298477,
	"learning_rate": 7.983732685495216e-06,
	"loss": 0.6674,
	"mean_token_accuracy": 0.7931976318359375,
	"step": 4585
	},
	{
	"epoch": 0.8434399117971334,
	"grad_norm": 0.9130249915825608,
	"learning_rate": 7.94979754644252e-06,
	"loss": 0.7047,
	"mean_token_accuracy": 0.780854594707489,
	"step": 4590
	},
	{
	"epoch": 0.8443586916574789,
	"grad_norm": 0.8969413048245845,
	"learning_rate": 7.91604294912604e-06,
	"loss": 0.6926,
	"mean_token_accuracy": 0.7844374537467956,
	"step": 4595
	},
	{
	"epoch": 0.8452774715178243,
	"grad_norm": 0.9969218679518915,
	"learning_rate": 7.882469205261912e-06,
	"loss": 0.725,
	"mean_token_accuracy": 0.7759457588195801,
	"step": 4600
	},
	{
	"epoch": 0.8461962513781698,
	"grad_norm": 0.9327495309294612,
	"learning_rate": 7.849076624896148e-06,
	"loss": 0.7338,
	"mean_token_accuracy": 0.7735802173614502,
	"step": 4605
	},
	{
	"epoch": 0.8471150312385153,
	"grad_norm": 1.0765849478605605,
	"learning_rate": 7.815865516401724e-06,
	"loss": 0.7843,
	"mean_token_accuracy": 0.7614648342132568,
	"step": 4610
	},
	{
	"epoch": 0.8480338110988607,
	"grad_norm": 1.055107377021268,
	"learning_rate": 7.782836186475787e-06,
	"loss": 0.7252,
	"mean_token_accuracy": 0.7763318181037903,
	"step": 4615
	},
	{
	"epoch": 0.8489525909592062,
	"grad_norm": 0.9991555504178357,
	"learning_rate": 7.749988940136794e-06,
	"loss": 0.7624,
	"mean_token_accuracy": 0.7689498424530029,
	"step": 4620
	},
	{
	"epoch": 0.8498713708195517,
	"grad_norm": 0.9862061842467479,
	"learning_rate": 7.717324080721698e-06,
	"loss": 0.7724,
	"mean_token_accuracy": 0.7633493065834045,
	"step": 4625
	},
	{
	"epoch": 0.850790150679897,
	"grad_norm": 0.9444771429350269,
	"learning_rate": 7.684841909883153e-06,
	"loss": 0.736,
	"mean_token_accuracy": 0.772719144821167,
	"step": 4630
	},
	{
	"epoch": 0.8517089305402425,
	"grad_norm": 0.9384955588777603,
	"learning_rate": 7.652542727586722e-06,
	"loss": 0.732,
	"mean_token_accuracy": 0.7758396387100219,
	"step": 4635
	},
	{
	"epoch": 0.852627710400588,
	"grad_norm": 0.9275047945197651,
	"learning_rate": 7.620426832108114e-06,
	"loss": 0.6528,
	"mean_token_accuracy": 0.7958010911941529,
	"step": 4640
	},
	{
	"epoch": 0.8535464902609334,
	"grad_norm": 1.0403097729529958,
	"learning_rate": 7.588494520030422e-06,
	"loss": 0.6619,
	"mean_token_accuracy": 0.7915726184844971,
	"step": 4645
	},
	{
	"epoch": 0.8544652701212789,
	"grad_norm": 0.947341642816108,
	"learning_rate": 7.556746086241387e-06,
	"loss": 0.731,
	"mean_token_accuracy": 0.775021767616272,
	"step": 4650
	},
	{
	"epoch": 0.8553840499816244,
	"grad_norm": 0.920825040895765,
	"learning_rate": 7.52518182393068e-06,
	"loss": 0.7206,
	"mean_token_accuracy": 0.7786232590675354,
	"step": 4655
	},
	{
	"epoch": 0.8563028298419698,
	"grad_norm": 1.00451196504111,
	"learning_rate": 7.493802024587182e-06,
	"loss": 0.7028,
	"mean_token_accuracy": 0.7852194666862488,
	"step": 4660
	},
	{
	"epoch": 0.8572216097023153,
	"grad_norm": 1.0502227606850303,
	"learning_rate": 7.4626069779963044e-06,
	"loss": 0.7102,
	"mean_token_accuracy": 0.7817628145217895,
	"step": 4665
	},
	{
	"epoch": 0.8581403895626608,
	"grad_norm": 0.9506022079001433,
	"learning_rate": 7.431596972237313e-06,
	"loss": 0.7541,
	"mean_token_accuracy": 0.7674841046333313,
	"step": 4670
	},
	{
	"epoch": 0.8590591694230062,
	"grad_norm": 0.8995410623765239,
	"learning_rate": 7.400772293680655e-06,
	"loss": 0.6585,
	"mean_token_accuracy": 0.7939380526542663,
	"step": 4675
	},
	{
	"epoch": 0.8599779492833517,
	"grad_norm": 1.0524188630602864,
	"learning_rate": 7.370133226985324e-06,
	"loss": 0.7053,
	"mean_token_accuracy": 0.7818097829818725,
	"step": 4680
	},
	{
	"epoch": 0.8608967291436972,
	"grad_norm": 1.0628395588693211,
	"learning_rate": 7.339680055096238e-06,
	"loss": 0.7268,
	"mean_token_accuracy": 0.7778566598892211,
	"step": 4685
	},
	{
	"epoch": 0.8618155090040426,
	"grad_norm": 1.0409171879354133,
	"learning_rate": 7.3094130592416e-06,
	"loss": 0.7509,
	"mean_token_accuracy": 0.7721391081809997,
	"step": 4690
	},
	{
	"epoch": 0.8627342888643881,
	"grad_norm": 0.9450810576486318,
	"learning_rate": 7.279332518930333e-06,
	"loss": 0.7354,
	"mean_token_accuracy": 0.7757332921028137,
	"step": 4695
	},
	{
	"epoch": 0.8636530687247336,
	"grad_norm": 1.005547743201597,
	"learning_rate": 7.24943871194949e-06,
	"loss": 0.7123,
	"mean_token_accuracy": 0.784231448173523,
	"step": 4700
	},
	{
	"epoch": 0.864571848585079,
	"grad_norm": 1.0321990207147438,
	"learning_rate": 7.219731914361673e-06,
	"loss": 0.7119,
	"mean_token_accuracy": 0.7776958227157593,
	"step": 4705
	},
	{
	"epoch": 0.8654906284454245,
	"grad_norm": 1.034071085635404,
	"learning_rate": 7.190212400502496e-06,
	"loss": 0.6915,
	"mean_token_accuracy": 0.7870635032653809,
	"step": 4710
	},
	{
	"epoch": 0.86640940830577,
	"grad_norm": 0.9373543843862668,
	"learning_rate": 7.160880442978049e-06,
	"loss": 0.6896,
	"mean_token_accuracy": 0.7847368240356445,
	"step": 4715
	},
	{
	"epoch": 0.8673281881661153,
	"grad_norm": 0.9200571177499256,
	"learning_rate": 7.131736312662385e-06,
	"loss": 0.7087,
	"mean_token_accuracy": 0.7825104236602783,
	"step": 4720
	},
	{
	"epoch": 0.8682469680264608,
	"grad_norm": 0.9546006111783019,
	"learning_rate": 7.1027802786950064e-06,
	"loss": 0.803,
	"mean_token_accuracy": 0.7619799256324769,
	"step": 4725
	},
	{
	"epoch": 0.8691657478868063,
	"grad_norm": 1.0153027436586384,
	"learning_rate": 7.074012608478406e-06,
	"loss": 0.745,
	"mean_token_accuracy": 0.771528446674347,
	"step": 4730
	},
	{
	"epoch": 0.8700845277471518,
	"grad_norm": 0.9597117720266102,
	"learning_rate": 7.04543356767556e-06,
	"loss": 0.6761,
	"mean_token_accuracy": 0.7918476939201355,
	"step": 4735
	},
	{
	"epoch": 0.8710033076074972,
	"grad_norm": 0.978172489455684,
	"learning_rate": 7.0170434202075115e-06,
	"loss": 0.7295,
	"mean_token_accuracy": 0.7755934953689575,
	"step": 4740
	},
	{
	"epoch": 0.8719220874678427,
	"grad_norm": 0.9901049864461209,
	"learning_rate": 6.9888424282508955e-06,
	"loss": 0.6808,
	"mean_token_accuracy": 0.7899694681167603,
	"step": 4745
	},
	{
	"epoch": 0.8728408673281882,
	"grad_norm": 0.9937024532653225,
	"learning_rate": 6.960830852235556e-06,
	"loss": 0.7051,
	"mean_token_accuracy": 0.784772801399231,
	"step": 4750
	},
	{
	"epoch": 0.8737596471885336,
	"grad_norm": 0.9976292512478198,
	"learning_rate": 6.9330089508421125e-06,
	"loss": 0.7258,
	"mean_token_accuracy": 0.778191328048706,
	"step": 4755
	},
	{
	"epoch": 0.8746784270488791,
	"grad_norm": 1.0403981175236854,
	"learning_rate": 6.905376980999588e-06,
	"loss": 0.7431,
	"mean_token_accuracy": 0.7714271783828736,
	"step": 4760
	},
	{
	"epoch": 0.8755972069092246,
	"grad_norm": 1.0581186557788087,
	"learning_rate": 6.877935197883034e-06,
	"loss": 0.712,
	"mean_token_accuracy": 0.782374131679535,
	"step": 4765
	},
	{
	"epoch": 0.87651598676957,
	"grad_norm": 0.9127662765794763,
	"learning_rate": 6.85068385491116e-06,
	"loss": 0.6783,
	"mean_token_accuracy": 0.7902564287185669,
	"step": 4770
	},
	{
	"epoch": 0.8774347666299155,
	"grad_norm": 1.0211009545118401,
	"learning_rate": 6.823623203744009e-06,
	"loss": 0.7424,
	"mean_token_accuracy": 0.7728718996047974,
	"step": 4775
	},
	{
	"epoch": 0.878353546490261,
	"grad_norm": 0.9378238243616713,
	"learning_rate": 6.796753494280624e-06,
	"loss": 0.6775,
	"mean_token_accuracy": 0.7908179044723511,
	"step": 4780
	},
	{
	"epoch": 0.8792723263506064,
	"grad_norm": 1.0104116736997681,
	"learning_rate": 6.770074974656751e-06,
	"loss": 0.6963,
	"mean_token_accuracy": 0.7875288009643555,
	"step": 4785
	},
	{
	"epoch": 0.8801911062109519,
	"grad_norm": 0.9673097547324119,
	"learning_rate": 6.743587891242536e-06,
	"loss": 0.7006,
	"mean_token_accuracy": 0.7846636652946473,
	"step": 4790
	},
	{
	"epoch": 0.8811098860712974,
	"grad_norm": 1.0556257979311925,
	"learning_rate": 6.717292488640256e-06,
	"loss": 0.8204,
	"mean_token_accuracy": 0.7494418621063232,
	"step": 4795
	},
	{
	"epoch": 0.8820286659316428,
	"grad_norm": 0.9770128218279439,
	"learning_rate": 6.691189009682059e-06,
	"loss": 0.6983,
	"mean_token_accuracy": 0.787074613571167,
	"step": 4800
	},
	{
	"epoch": 0.8829474457919883,
	"grad_norm": 0.8883173557701798,
	"learning_rate": 6.665277695427717e-06,
	"loss": 0.7084,
	"mean_token_accuracy": 0.7833673834800721,
	"step": 4805
	},
	{
	"epoch": 0.8838662256523337,
	"grad_norm": 0.9692250808371157,
	"learning_rate": 6.63955878516241e-06,
	"loss": 0.6823,
	"mean_token_accuracy": 0.7903570294380188,
	"step": 4810
	},
	{
	"epoch": 0.8847850055126791,
	"grad_norm": 0.8810560098191498,
	"learning_rate": 6.614032516394509e-06,
	"loss": 0.6837,
	"mean_token_accuracy": 0.7892964124679566,
	"step": 4815
	},
	{
	"epoch": 0.8857037853730246,
	"grad_norm": 0.9613974496107343,
	"learning_rate": 6.588699124853379e-06,
	"loss": 0.7171,
	"mean_token_accuracy": 0.7778627634048462,
	"step": 4820
	},
	{
	"epoch": 0.8866225652333701,
	"grad_norm": 0.9155720741178934,
	"learning_rate": 6.563558844487215e-06,
	"loss": 0.6238,
	"mean_token_accuracy": 0.806905460357666,
	"step": 4825
	},
	{
	"epoch": 0.8875413450937155,
	"grad_norm": 0.8747125126149234,
	"learning_rate": 6.538611907460866e-06,
	"loss": 0.6377,
	"mean_token_accuracy": 0.8006066799163818,
	"step": 4830
	},
	{
	"epoch": 0.888460124954061,
	"grad_norm": 1.007447868920518,
	"learning_rate": 6.513858544153706e-06,
	"loss": 0.7043,
	"mean_token_accuracy": 0.7833499908447266,
	"step": 4835
	},
	{
	"epoch": 0.8893789048144065,
	"grad_norm": 0.9255281703679149,
	"learning_rate": 6.48929898315749e-06,
	"loss": 0.6973,
	"mean_token_accuracy": 0.782793152332306,
	"step": 4840
	},
	{
	"epoch": 0.8902976846747519,
	"grad_norm": 0.9388975020879022,
	"learning_rate": 6.464933451274261e-06,
	"loss": 0.6256,
	"mean_token_accuracy": 0.8049848675727844,
	"step": 4845
	},
	{
	"epoch": 0.8912164645350974,
	"grad_norm": 1.012760049959928,
	"learning_rate": 6.440762173514238e-06,
	"loss": 0.7309,
	"mean_token_accuracy": 0.7747970938682556,
	"step": 4850
	},
	{
	"epoch": 0.8921352443954429,
	"grad_norm": 0.9633483639424572,
	"learning_rate": 6.416785373093756e-06,
	"loss": 0.7864,
	"mean_token_accuracy": 0.7609822034835816,
	"step": 4855
	},
	{
	"epoch": 0.8930540242557883,
	"grad_norm": 0.9375903231729885,
	"learning_rate": 6.39300327143319e-06,
	"loss": 0.7045,
	"mean_token_accuracy": 0.7813974022865295,
	"step": 4860
	},
	{
	"epoch": 0.8939728041161338,
	"grad_norm": 0.9116788058926382,
	"learning_rate": 6.369416088154917e-06,
	"loss": 0.7031,
	"mean_token_accuracy": 0.7866278529167176,
	"step": 4865
	},
	{
	"epoch": 0.8948915839764793,
	"grad_norm": 0.8514994068032359,
	"learning_rate": 6.346024041081286e-06,
	"loss": 0.6053,
	"mean_token_accuracy": 0.8105675458908081,
	"step": 4870
	},
	{
	"epoch": 0.8958103638368247,
	"grad_norm": 1.0010033445452702,
	"learning_rate": 6.32282734623261e-06,
	"loss": 0.7069,
	"mean_token_accuracy": 0.7806268095970154,
	"step": 4875
	},
	{
	"epoch": 0.8967291436971702,
	"grad_norm": 0.9335886122342348,
	"learning_rate": 6.299826217825156e-06,
	"loss": 0.7464,
	"mean_token_accuracy": 0.770034921169281,
	"step": 4880
	},
	{
	"epoch": 0.8976479235575157,
	"grad_norm": 0.9307585065246715,
	"learning_rate": 6.277020868269191e-06,
	"loss": 0.7473,
	"mean_token_accuracy": 0.7723272204399109,
	"step": 4885
	},
	{
	"epoch": 0.898566703417861,
	"grad_norm": 0.9507339920147042,
	"learning_rate": 6.254411508167009e-06,
	"loss": 0.7498,
	"mean_token_accuracy": 0.7717328667640686,
	"step": 4890
	},
	{
	"epoch": 0.8994854832782065,
	"grad_norm": 0.9826282972840381,
	"learning_rate": 6.23199834631098e-06,
	"loss": 0.7964,
	"mean_token_accuracy": 0.7543912172317505,
	"step": 4895
	},
	{
	"epoch": 0.900404263138552,
	"grad_norm": 0.9073522447780296,
	"learning_rate": 6.2097815896816306e-06,
	"loss": 0.7151,
	"mean_token_accuracy": 0.7821811556816101,
	"step": 4900
	},
	{
	"epoch": 0.9013230429988974,
	"grad_norm": 1.0820009074965473,
	"learning_rate": 6.187761443445719e-06,
	"loss": 0.7168,
	"mean_token_accuracy": 0.779189658164978,
	"step": 4905
	},
	{
	"epoch": 0.9022418228592429,
	"grad_norm": 1.0031779458182357,
	"learning_rate": 6.165938110954365e-06,
	"loss": 0.7316,
	"mean_token_accuracy": 0.7749498963356019,
	"step": 4910
	},
	{
	"epoch": 0.9031606027195884,
	"grad_norm": 0.9350157804822582,
	"learning_rate": 6.144311793741147e-06,
	"loss": 0.7289,
	"mean_token_accuracy": 0.7790675520896911,
	"step": 4915
	},
	{
	"epoch": 0.9040793825799338,
	"grad_norm": 0.9268769698711982,
	"learning_rate": 6.122882691520254e-06,
	"loss": 0.7369,
	"mean_token_accuracy": 0.7718736052513122,
	"step": 4920
	},
	{
	"epoch": 0.9049981624402793,
	"grad_norm": 0.9014435353019561,
	"learning_rate": 6.101651002184649e-06,
	"loss": 0.7007,
	"mean_token_accuracy": 0.7885142803192139,
	"step": 4925
	},
	{
	"epoch": 0.9059169423006248,
	"grad_norm": 1.1124655246934698,
	"learning_rate": 6.0806169218042185e-06,
	"loss": 0.7541,
	"mean_token_accuracy": 0.7671143889427186,
	"step": 4930
	},
	{
	"epoch": 0.9068357221609702,
	"grad_norm": 0.941789239472656,
	"learning_rate": 6.0597806446239775e-06,
	"loss": 0.6182,
	"mean_token_accuracy": 0.8084997653961181,
	"step": 4935
	},
	{
	"epoch": 0.9077545020213157,
	"grad_norm": 0.9986182896305318,
	"learning_rate": 6.039142363062271e-06,
	"loss": 0.6456,
	"mean_token_accuracy": 0.8005677580833435,
	"step": 4940
	},
	{
	"epoch": 0.9086732818816612,
	"grad_norm": 0.9291170901784223,
	"learning_rate": 6.018702267709008e-06,
	"loss": 0.7112,
	"mean_token_accuracy": 0.7811415076255799,
	"step": 4945
	},
	{
	"epoch": 0.9095920617420066,
	"grad_norm": 1.0595420029395017,
	"learning_rate": 5.998460547323881e-06,
	"loss": 0.7741,
	"mean_token_accuracy": 0.7643965363502503,
	"step": 4950
	},
	{
	"epoch": 0.9105108416023521,
	"grad_norm": 1.086020272651734,
	"learning_rate": 5.978417388834642e-06,
	"loss": 0.8087,
	"mean_token_accuracy": 0.754006028175354,
	"step": 4955
	},
	{
	"epoch": 0.9114296214626976,
	"grad_norm": 1.0314753490097466,
	"learning_rate": 5.958572977335365e-06,
	"loss": 0.647,
	"mean_token_accuracy": 0.8025306582450866,
	"step": 4960
	},
	{
	"epoch": 0.912348401323043,
	"grad_norm": 0.8858957049531258,
	"learning_rate": 5.93892749608474e-06,
	"loss": 0.6734,
	"mean_token_accuracy": 0.789763331413269,
	"step": 4965
	},
	{
	"epoch": 0.9132671811833885,
	"grad_norm": 0.9228304919571796,
	"learning_rate": 5.919481126504383e-06,
	"loss": 0.6979,
	"mean_token_accuracy": 0.7835509300231933,
	"step": 4970
	},
	{
	"epoch": 0.914185961043734,
	"grad_norm": 0.9172131766669608,
	"learning_rate": 5.900234048177156e-06,
	"loss": 0.7468,
	"mean_token_accuracy": 0.7716853857040405,
	"step": 4975
	},
	{
	"epoch": 0.9151047409040793,
	"grad_norm": 0.9717495119840875,
	"learning_rate": 5.881186438845511e-06,
	"loss": 0.6534,
	"mean_token_accuracy": 0.7953248977661133,
	"step": 4980
	},
	{
	"epoch": 0.9160235207644248,
	"grad_norm": 0.9387494667741174,
	"learning_rate": 5.862338474409852e-06,
	"loss": 0.7276,
	"mean_token_accuracy": 0.7760698676109314,
	"step": 4985
	},
	{
	"epoch": 0.9169423006247703,
	"grad_norm": 0.9759164760125104,
	"learning_rate": 5.843690328926905e-06,
	"loss": 0.7429,
	"mean_token_accuracy": 0.7714617133140564,
	"step": 4990
	},
	{
	"epoch": 0.9178610804851157,
	"grad_norm": 0.9934351587205096,
	"learning_rate": 5.825242174608107e-06,
	"loss": 0.7111,
	"mean_token_accuracy": 0.7826705813407898,
	"step": 4995
	},
	{
	"epoch": 0.9187798603454612,
	"grad_norm": 0.9923527821765938,
	"learning_rate": 5.8069941818180335e-06,
	"loss": 0.6332,
	"mean_token_accuracy": 0.8037675261497498,
	"step": 5000
	},
	{
	"epoch": 0.9196986402058067,
	"grad_norm": 1.0549322241395105,
	"learning_rate": 5.788946519072802e-06,
	"loss": 0.7442,
	"mean_token_accuracy": 0.7685003876686096,
	"step": 5005
	},
	{
	"epoch": 0.9206174200661521,
	"grad_norm": 0.9976060100023064,
	"learning_rate": 5.771099353038532e-06,
	"loss": 0.7271,
	"mean_token_accuracy": 0.7736078143119812,
	"step": 5010
	},
	{
	"epoch": 0.9215361999264976,
	"grad_norm": 0.9383299705731176,
	"learning_rate": 5.7534528485298e-06,
	"loss": 0.725,
	"mean_token_accuracy": 0.7763983011245728,
	"step": 5015
	},
	{
	"epoch": 0.9224549797868431,
	"grad_norm": 0.963672340776997,
	"learning_rate": 5.736007168508121e-06,
	"loss": 0.6831,
	"mean_token_accuracy": 0.7851462960243225,
	"step": 5020
	},
	{
	"epoch": 0.9233737596471885,
	"grad_norm": 0.9469619269658613,
	"learning_rate": 5.7187624740804345e-06,
	"loss": 0.7275,
	"mean_token_accuracy": 0.7783573985099792,
	"step": 5025
	},
	{
	"epoch": 0.924292539507534,
	"grad_norm": 0.9984975559017129,
	"learning_rate": 5.701718924497633e-06,
	"loss": 0.7006,
	"mean_token_accuracy": 0.786095142364502,
	"step": 5030
	},
	{
	"epoch": 0.9252113193678795,
	"grad_norm": 0.9976875410663416,
	"learning_rate": 5.684876677153069e-06,
	"loss": 0.78,
	"mean_token_accuracy": 0.7615157961845398,
	"step": 5035
	},
	{
	"epoch": 0.9261300992282249,
	"grad_norm": 0.9677019035350851,
	"learning_rate": 5.668235887581126e-06,
	"loss": 0.7171,
	"mean_token_accuracy": 0.7806509256362915,
	"step": 5040
	},
	{
	"epoch": 0.9270488790885704,
	"grad_norm": 1.021088055495027,
	"learning_rate": 5.651796709455757e-06,
	"loss": 0.7329,
	"mean_token_accuracy": 0.7730448007583618,
	"step": 5045
	},
	{
	"epoch": 0.9279676589489159,
	"grad_norm": 1.0552382975961647,
	"learning_rate": 5.6355592945890934e-06,
	"loss": 0.6811,
	"mean_token_accuracy": 0.786517608165741,
	"step": 5050
	},
	{
	"epoch": 0.9288864388092613,
	"grad_norm": 1.0701013175318246,
	"learning_rate": 5.619523792930021e-06,
	"loss": 0.7371,
	"mean_token_accuracy": 0.7725589275360107,
	"step": 5055
	},
	{
	"epoch": 0.9298052186696067,
	"grad_norm": 0.9720134878474826,
	"learning_rate": 5.6036903525627975e-06,
	"loss": 0.6481,
	"mean_token_accuracy": 0.8003619313240051,
	"step": 5060
	},
	{
	"epoch": 0.9307239985299522,
	"grad_norm": 1.129850002758599,
	"learning_rate": 5.588059119705699e-06,
	"loss": 0.753,
	"mean_token_accuracy": 0.7675109386444092,
	"step": 5065
	},
	{
	"epoch": 0.9316427783902976,
	"grad_norm": 0.9756659000260551,
	"learning_rate": 5.5726302387096506e-06,
	"loss": 0.7282,
	"mean_token_accuracy": 0.7749423146247864,
	"step": 5070
	},
	{
	"epoch": 0.9325615582506431,
	"grad_norm": 0.9956804499004365,
	"learning_rate": 5.557403852056914e-06,
	"loss": 0.7106,
	"mean_token_accuracy": 0.7811750769615173,
	"step": 5075
	},
	{
	"epoch": 0.9334803381109886,
	"grad_norm": 0.9560365954578341,
	"learning_rate": 5.542380100359751e-06,
	"loss": 0.71,
	"mean_token_accuracy": 0.7802268862724304,
	"step": 5080
	},
	{
	"epoch": 0.934399117971334,
	"grad_norm": 0.9454250302290028,
	"learning_rate": 5.527559122359145e-06,
	"loss": 0.6968,
	"mean_token_accuracy": 0.7844350814819336,
	"step": 5085
	},
	{
	"epoch": 0.9353178978316795,
	"grad_norm": 1.0545713849704708,
	"learning_rate": 5.512941054923507e-06,
	"loss": 0.7085,
	"mean_token_accuracy": 0.7803709745407105,
	"step": 5090
	},
	{
	"epoch": 0.936236677692025,
	"grad_norm": 1.103412663642094,
	"learning_rate": 5.498526033047404e-06,
	"loss": 0.726,
	"mean_token_accuracy": 0.7740720987319947,
	"step": 5095
	},
	{
	"epoch": 0.9371554575523704,
	"grad_norm": 1.0018246605663172,
	"learning_rate": 5.484314189850335e-06,
	"loss": 0.6914,
	"mean_token_accuracy": 0.7853707432746887,
	"step": 5100
	},
	{
	"epoch": 0.9380742374127159,
	"grad_norm": 0.9292037350722813,
	"learning_rate": 5.470305656575487e-06,
	"loss": 0.6809,
	"mean_token_accuracy": 0.7880851745605468,
	"step": 5105
	},
	{
	"epoch": 0.9389930172730614,
	"grad_norm": 0.942507726345383,
	"learning_rate": 5.45650056258852e-06,
	"loss": 0.6444,
	"mean_token_accuracy": 0.8017876148223877,
	"step": 5110
	},
	{
	"epoch": 0.9399117971334069,
	"grad_norm": 0.950473741974958,
	"learning_rate": 5.442899035376386e-06,
	"loss": 0.6918,
	"mean_token_accuracy": 0.7830354809761048,
	"step": 5115
	},
	{
	"epoch": 0.9408305769937523,
	"grad_norm": 1.0328707402514066,
	"learning_rate": 5.429501200546137e-06,
	"loss": 0.6809,
	"mean_token_accuracy": 0.7883656024932861,
	"step": 5120
	},
	{
	"epoch": 0.9417493568540978,
	"grad_norm": 0.9106187724534776,
	"learning_rate": 5.416307181823773e-06,
	"loss": 0.6529,
	"mean_token_accuracy": 0.7979433417320252,
	"step": 5125
	},
	{
	"epoch": 0.9426681367144433,
	"grad_norm": 0.8301715826585289,
	"learning_rate": 5.403317101053101e-06,
	"loss": 0.6319,
	"mean_token_accuracy": 0.8041222810745239,
	"step": 5130
	},
	{
	"epoch": 0.9435869165747887,
	"grad_norm": 0.9401314468555536,
	"learning_rate": 5.3905310781946005e-06,
	"loss": 0.7681,
	"mean_token_accuracy": 0.7674003601074219,
	"step": 5135
	},
	{
	"epoch": 0.9445056964351342,
	"grad_norm": 0.9634667604340411,
	"learning_rate": 5.377949231324331e-06,
	"loss": 0.6745,
	"mean_token_accuracy": 0.7905578970909118,
	"step": 5140
	},
	{
	"epoch": 0.9454244762954797,
	"grad_norm": 0.895622215360212,
	"learning_rate": 5.3655716766328235e-06,
	"loss": 0.678,
	"mean_token_accuracy": 0.7900139689445496,
	"step": 5145
	},
	{
	"epoch": 0.946343256155825,
	"grad_norm": 0.9199451561014395,
	"learning_rate": 5.353398528424019e-06,
	"loss": 0.6503,
	"mean_token_accuracy": 0.8004558086395264,
	"step": 5150
	},
	{
	"epoch": 0.9472620360161705,
	"grad_norm": 1.0795462562761053,
	"learning_rate": 5.341429899114216e-06,
	"loss": 0.796,
	"mean_token_accuracy": 0.7549399971961975,
	"step": 5155
	},
	{
	"epoch": 0.948180815876516,
	"grad_norm": 1.0593495804757314,
	"learning_rate": 5.3296658992310215e-06,
	"loss": 0.7738,
	"mean_token_accuracy": 0.7613824367523193,
	"step": 5160
	},
	{
	"epoch": 0.9490995957368614,
	"grad_norm": 0.87159278381413,
	"learning_rate": 5.318106637412333e-06,
	"loss": 0.7275,
	"mean_token_accuracy": 0.7751541256904602,
	"step": 5165
	},
	{
	"epoch": 0.9500183755972069,
	"grad_norm": 0.9358627934311341,
	"learning_rate": 5.306752220405349e-06,
	"loss": 0.6959,
	"mean_token_accuracy": 0.7841734409332275,
	"step": 5170
	},
	{
	"epoch": 0.9509371554575524,
	"grad_norm": 1.046481143355732,
	"learning_rate": 5.295602753065557e-06,
	"loss": 0.7627,
	"mean_token_accuracy": 0.7681636333465576,
	"step": 5175
	},
	{
	"epoch": 0.9518559353178978,
	"grad_norm": 0.9759465901582869,
	"learning_rate": 5.284658338355793e-06,
	"loss": 0.6722,
	"mean_token_accuracy": 0.7921370148658753,
	"step": 5180
	},
	{
	"epoch": 0.9527747151782433,
	"grad_norm": 0.9867516760566891,
	"learning_rate": 5.27391907734527e-06,
	"loss": 0.6645,
	"mean_token_accuracy": 0.7929692029953003,
	"step": 5185
	},
	{
	"epoch": 0.9536934950385888,
	"grad_norm": 1.0576850268434166,
	"learning_rate": 5.263385069208657e-06,
	"loss": 0.6768,
	"mean_token_accuracy": 0.7890636920928955,
	"step": 5190
	},
	{
	"epoch": 0.9546122748989342,
	"grad_norm": 0.9776114467729704,
	"learning_rate": 5.253056411225155e-06,
	"loss": 0.742,
	"mean_token_accuracy": 0.7734999060630798,
	"step": 5195
	},
	{
	"epoch": 0.9555310547592797,
	"grad_norm": 1.0194931640790486,
	"learning_rate": 5.242933198777612e-06,
	"loss": 0.7576,
	"mean_token_accuracy": 0.7681198120117188,
	"step": 5200
	},
	{
	"epoch": 0.9564498346196252,
	"grad_norm": 1.0129376817436055,
	"learning_rate": 5.233015525351615e-06,
	"loss": 0.7419,
	"mean_token_accuracy": 0.7743308544158936,
	"step": 5205
	},
	{
	"epoch": 0.9573686144799706,
	"grad_norm": 1.0893813952165832,
	"learning_rate": 5.223303482534663e-06,
	"loss": 0.7326,
	"mean_token_accuracy": 0.7767649531364441,
	"step": 5210
	},
	{
	"epoch": 0.9582873943403161,
	"grad_norm": 0.9505887964318166,
	"learning_rate": 5.213797160015287e-06,
	"loss": 0.6831,
	"mean_token_accuracy": 0.7896853566169739,
	"step": 5215
	},
	{
	"epoch": 0.9592061742006616,
	"grad_norm": 0.9619901073178158,
	"learning_rate": 5.204496645582251e-06,
	"loss": 0.6331,
	"mean_token_accuracy": 0.8018953204154968,
	"step": 5220
	},
	{
	"epoch": 0.960124954061007,
	"grad_norm": 0.9557772773728191,
	"learning_rate": 5.195402025123713e-06,
	"loss": 0.7335,
	"mean_token_accuracy": 0.7740659594535828,
	"step": 5225
	},
	{
	"epoch": 0.9610437339213524,
	"grad_norm": 1.0297793279179666,
	"learning_rate": 5.18651338262646e-06,
	"loss": 0.7168,
	"mean_token_accuracy": 0.7795220851898194,
	"step": 5230
	},
	{
	"epoch": 0.961962513781698,
	"grad_norm": 1.2404081410589938,
	"learning_rate": 5.177830800175107e-06,
	"loss": 0.8105,
	"mean_token_accuracy": 0.7509904742240906,
	"step": 5235
	},
	{
	"epoch": 0.9628812936420433,
	"grad_norm": 0.9134300813748663,
	"learning_rate": 5.169354357951361e-06,
	"loss": 0.6651,
	"mean_token_accuracy": 0.7976749420166016,
	"step": 5240
	},
	{
	"epoch": 0.9638000735023888,
	"grad_norm": 1.0273400541069664,
	"learning_rate": 5.161084134233264e-06,
	"loss": 0.7448,
	"mean_token_accuracy": 0.7694393396377563,
	"step": 5245
	},
	{
	"epoch": 0.9647188533627343,
	"grad_norm": 0.8905853308436543,
	"learning_rate": 5.153020205394477e-06,
	"loss": 0.7163,
	"mean_token_accuracy": 0.7769248247146606,
	"step": 5250
	},
	{
	"epoch": 0.9656376332230797,
	"grad_norm": 0.9529346136037607,
	"learning_rate": 5.145162645903574e-06,
	"loss": 0.761,
	"mean_token_accuracy": 0.7652369141578674,
	"step": 5255
	},
	{
	"epoch": 0.9665564130834252,
	"grad_norm": 0.9650979477578159,
	"learning_rate": 5.1375115283233555e-06,
	"loss": 0.6776,
	"mean_token_accuracy": 0.7902606129646301,
	"step": 5260
	},
	{
	"epoch": 0.9674751929437707,
	"grad_norm": 0.9641271433925336,
	"learning_rate": 5.130066923310179e-06,
	"loss": 0.7631,
	"mean_token_accuracy": 0.7635928511619567,
	"step": 5265
	},
	{
	"epoch": 0.9683939728041161,
	"grad_norm": 0.9213872430466661,
	"learning_rate": 5.122828899613301e-06,
	"loss": 0.7167,
	"mean_token_accuracy": 0.7826451182365417,
	"step": 5270
	},
	{
	"epoch": 0.9693127526644616,
	"grad_norm": 0.944684513184743,
	"learning_rate": 5.115797524074245e-06,
	"loss": 0.7028,
	"mean_token_accuracy": 0.7823728322982788,
	"step": 5275
	},
	{
	"epoch": 0.9702315325248071,
	"grad_norm": 0.933365103880651,
	"learning_rate": 5.108972861626195e-06,
	"loss": 0.675,
	"mean_token_accuracy": 0.7928666949272156,
	"step": 5280
	},
	{
	"epoch": 0.9711503123851525,
	"grad_norm": 0.9439434977514946,
	"learning_rate": 5.102354975293371e-06,
	"loss": 0.737,
	"mean_token_accuracy": 0.7746310830116272,
	"step": 5285
	},
	{
	"epoch": 0.972069092245498,
	"grad_norm": 0.9602834611038171,
	"learning_rate": 5.0959439261904715e-06,
	"loss": 0.6584,
	"mean_token_accuracy": 0.7969113111495971,
	"step": 5290
	},
	{
	"epoch": 0.9729878721058435,
	"grad_norm": 0.9686252030086645,
	"learning_rate": 5.089739773522099e-06,
	"loss": 0.7185,
	"mean_token_accuracy": 0.7791404247283935,
	"step": 5295
	},
	{
	"epoch": 0.9739066519661889,
	"grad_norm": 0.9606975967780023,
	"learning_rate": 5.083742574582211e-06,
	"loss": 0.6582,
	"mean_token_accuracy": 0.7957128643989563,
	"step": 5300
	},
	{
	"epoch": 0.9748254318265344,
	"grad_norm": 0.9508520485094629,
	"learning_rate": 5.077952384753596e-06,
	"loss": 0.6683,
	"mean_token_accuracy": 0.794218647480011,
	"step": 5305
	},
	{
	"epoch": 0.9757442116868799,
	"grad_norm": 1.019210345399437,
	"learning_rate": 5.072369257507359e-06,
	"loss": 0.6832,
	"mean_token_accuracy": 0.7870172739028931,
	"step": 5310
	},
	{
	"epoch": 0.9766629915472252,
	"grad_norm": 0.8796036807363417,
	"learning_rate": 5.066993244402426e-06,
	"loss": 0.6779,
	"mean_token_accuracy": 0.7899052858352661,
	"step": 5315
	},
	{
	"epoch": 0.9775817714075707,
	"grad_norm": 0.9949077138684812,
	"learning_rate": 5.061824395085075e-06,
	"loss": 0.7555,
	"mean_token_accuracy": 0.7675400733947754,
	"step": 5320
	},
	{
	"epoch": 0.9785005512679162,
	"grad_norm": 1.0386477233819087,
	"learning_rate": 5.056862757288469e-06,
	"loss": 0.6976,
	"mean_token_accuracy": 0.785806167125702,
	"step": 5325
	},
	{
	"epoch": 0.9794193311282616,
	"grad_norm": 1.1386145757601591,
	"learning_rate": 5.052108376832222e-06,
	"loss": 0.7237,
	"mean_token_accuracy": 0.774617874622345,
	"step": 5330
	},
	{
	"epoch": 0.9803381109886071,
	"grad_norm": 1.0398368664600088,
	"learning_rate": 5.04756129762197e-06,
	"loss": 0.6786,
	"mean_token_accuracy": 0.7888760805130005,
	"step": 5335
	},
	{
	"epoch": 0.9812568908489526,
	"grad_norm": 0.8969882432761646,
	"learning_rate": 5.043221561648972e-06,
	"loss": 0.7473,
	"mean_token_accuracy": 0.7688890337944031,
	"step": 5340
	},
	{
	"epoch": 0.982175670709298,
	"grad_norm": 0.9121065335737262,
	"learning_rate": 5.039089208989717e-06,
	"loss": 0.6528,
	"mean_token_accuracy": 0.8000433087348938,
	"step": 5345
	},
	{
	"epoch": 0.9830944505696435,
	"grad_norm": 1.0556010790241608,
	"learning_rate": 5.035164277805552e-06,
	"loss": 0.6922,
	"mean_token_accuracy": 0.7864078521728516,
	"step": 5350
	},
	{
	"epoch": 0.984013230429989,
	"grad_norm": 0.875446950379487,
	"learning_rate": 5.031446804342338e-06,
	"loss": 0.6736,
	"mean_token_accuracy": 0.7885773062705994,
	"step": 5355
	},
	{
	"epoch": 0.9849320102903344,
	"grad_norm": 1.0577726392343791,
	"learning_rate": 5.027936822930111e-06,
	"loss": 0.6329,
	"mean_token_accuracy": 0.8035769701004029,
	"step": 5360
	},
	{
	"epoch": 0.9858507901506799,
	"grad_norm": 0.9114969331526765,
	"learning_rate": 5.024634365982759e-06,
	"loss": 0.6764,
	"mean_token_accuracy": 0.7900681734085083,
	"step": 5365
	},
	{
	"epoch": 0.9867695700110254,
	"grad_norm": 1.0562487370376004,
	"learning_rate": 5.021539463997731e-06,
	"loss": 0.7614,
	"mean_token_accuracy": 0.7608750462532043,
	"step": 5370
	},
	{
	"epoch": 0.9876883498713708,
	"grad_norm": 0.9772893925508611,
	"learning_rate": 5.018652145555758e-06,
	"loss": 0.7183,
	"mean_token_accuracy": 0.780507218837738,
	"step": 5375
	},
	{
	"epoch": 0.9886071297317163,
	"grad_norm": 0.9153996098402806,
	"learning_rate": 5.015972437320575e-06,
	"loss": 0.6912,
	"mean_token_accuracy": 0.7845159888267517,
	"step": 5380
	},
	{
	"epoch": 0.9895259095920618,
	"grad_norm": 0.9730616558454289,
	"learning_rate": 5.013500364038685e-06,
	"loss": 0.7219,
	"mean_token_accuracy": 0.7788301348686218,
	"step": 5385
	},
	{
	"epoch": 0.9904446894524072,
	"grad_norm": 1.0739524554988746,
	"learning_rate": 5.011235948539137e-06,
	"loss": 0.7236,
	"mean_token_accuracy": 0.7729606032371521,
	"step": 5390
	},
	{
	"epoch": 0.9913634693127527,
	"grad_norm": 0.9269482984472148,
	"learning_rate": 5.00917921173329e-06,
	"loss": 0.6858,
	"mean_token_accuracy": 0.7901342034339904,
	"step": 5395
	},
	{
	"epoch": 0.9922822491730982,
	"grad_norm": 1.0961849910542936,
	"learning_rate": 5.007330172614658e-06,
	"loss": 0.7486,
	"mean_token_accuracy": 0.7710240960121155,
	"step": 5400
	},
	{
	"epoch": 0.9932010290334435,
	"grad_norm": 0.9749225295480475,
	"learning_rate": 5.005688848258695e-06,
	"loss": 0.6663,
	"mean_token_accuracy": 0.7941651105880737,
	"step": 5405
	},
	{
	"epoch": 0.994119808893789,
	"grad_norm": 0.9260821925718788,
	"learning_rate": 5.004255253822668e-06,
	"loss": 0.6861,
	"mean_token_accuracy": 0.7862310886383057,
	"step": 5410
	},
	{
	"epoch": 0.9950385887541345,
	"grad_norm": 1.088283597268154,
	"learning_rate": 5.0030294025454985e-06,
	"loss": 0.7656,
	"mean_token_accuracy": 0.7660502552986145,
	"step": 5415
	},
	{
	"epoch": 0.9959573686144799,
	"grad_norm": 0.9441714298335138,
	"learning_rate": 5.002011305747647e-06,
	"loss": 0.6971,
	"mean_token_accuracy": 0.7839124202728271,
	"step": 5420
	},
	{
	"epoch": 0.9968761484748254,
	"grad_norm": 1.0363518119067192,
	"learning_rate": 5.0012009728310115e-06,
	"loss": 0.7004,
	"mean_token_accuracy": 0.7838043451309205,
	"step": 5425
	},
	{
	"epoch": 0.9977949283351709,
	"grad_norm": 0.9601846400078509,
	"learning_rate": 5.0005984112788325e-06,
	"loss": 0.7021,
	"mean_token_accuracy": 0.7850103259086609,
	"step": 5430
	},
	{
	"epoch": 0.9987137081955163,
	"grad_norm": 1.00552667894893,
	"learning_rate": 5.0002036266556325e-06,
	"loss": 0.7154,
	"mean_token_accuracy": 0.7820982575416565,
	"step": 5435
	},
	{
	"epoch": 0.9996324880558618,
	"grad_norm": 0.9185989598293809,
	"learning_rate": 5.000016622607158e-06,
	"loss": 0.7066,
	"mean_token_accuracy": 0.7812744855880738,
	"step": 5440
	},
	{
	"epoch": 1.0,
	"step": 5442,
	"total_flos": 77507944513536.0,
	"train_loss": 0.0,
	"train_runtime": 1.7307,
	"train_samples_per_second": 12576.308,
	"train_steps_per_second": 3144.366
	}
	],
	"logging_steps": 5,
	"max_steps": 5442,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 77507944513536.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}