checkpoint-3921 / trainer_state.json

update files

672af52 verified 6 months ago

198 kB

	{
	"best_global_step": 2600,
	"best_metric": 0.4455747,
	"best_model_checkpoint": "/root/ms-swift/output_1/v4-20250825-221955/checkpoint-2600",
	"epoch": 3.0,
	"eval_steps": 50,
	"global_step": 3921,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0007651109410864575,
	"grad_norm": 15.001960754394531,
	"learning_rate": 5.076142131979695e-07,
	"loss": 1.2726802825927734,
	"step": 1,
	"token_acc": 0.6764705777168274
	},
	{
	"epoch": 0.0038255547054322878,
	"grad_norm": 13.028708457946777,
	"learning_rate": 2.5380710659898476e-06,
	"loss": 1.495189905166626,
	"step": 5,
	"token_acc": 0.6392497420310974
	},
	{
	"epoch": 0.0076511094108645756,
	"grad_norm": 5.605969429016113,
	"learning_rate": 5.076142131979695e-06,
	"loss": 1.1087797164916993,
	"step": 10,
	"token_acc": 0.7032846808433533
	},
	{
	"epoch": 0.011476664116296864,
	"grad_norm": 4.179737091064453,
	"learning_rate": 7.614213197969544e-06,
	"loss": 0.7857523918151855,
	"step": 15,
	"token_acc": 0.7791855931282043
	},
	{
	"epoch": 0.015302218821729151,
	"grad_norm": 4.184815883636475,
	"learning_rate": 1.015228426395939e-05,
	"loss": 0.6412610054016114,
	"step": 20,
	"token_acc": 0.8024289011955261
	},
	{
	"epoch": 0.019127773527161437,
	"grad_norm": 3.188452959060669,
	"learning_rate": 1.2690355329949238e-05,
	"loss": 0.6599317073822022,
	"step": 25,
	"token_acc": 0.7991740703582764
	},
	{
	"epoch": 0.022953328232593728,
	"grad_norm": 2.735691785812378,
	"learning_rate": 1.5228426395939088e-05,
	"loss": 0.6142410278320313,
	"step": 30,
	"token_acc": 0.8127740025520325
	},
	{
	"epoch": 0.026778882938026015,
	"grad_norm": 2.9147984981536865,
	"learning_rate": 1.7766497461928935e-05,
	"loss": 0.6038710117340088,
	"step": 35,
	"token_acc": 0.813315212726593
	},
	{
	"epoch": 0.030604437643458302,
	"grad_norm": 2.701826572418213,
	"learning_rate": 2.030456852791878e-05,
	"loss": 0.5683969497680664,
	"step": 40,
	"token_acc": 0.8215563893318176
	},
	{
	"epoch": 0.03442999234889059,
	"grad_norm": 2.8082520961761475,
	"learning_rate": 2.284263959390863e-05,
	"loss": 0.6069915771484375,
	"step": 45,
	"token_acc": 0.8085312843322754
	},
	{
	"epoch": 0.03825554705432287,
	"grad_norm": 2.6436877250671387,
	"learning_rate": 2.5380710659898476e-05,
	"loss": 0.5704009056091308,
	"step": 50,
	"token_acc": 0.8219647407531738
	},
	{
	"epoch": 0.03825554705432287,
	"eval_loss": 0.5656692981719971,
	"eval_runtime": 6.1089,
	"eval_samples_per_second": 17.024,
	"eval_steps_per_second": 2.128,
	"eval_token_acc": 0.8207153677940369,
	"step": 50
	},
	{
	"epoch": 0.042081101759755164,
	"grad_norm": 2.689117670059204,
	"learning_rate": 2.7918781725888326e-05,
	"loss": 0.575815486907959,
	"step": 55,
	"token_acc": 0.8211867213249207
	},
	{
	"epoch": 0.045906656465187455,
	"grad_norm": 2.2790122032165527,
	"learning_rate": 3.0456852791878175e-05,
	"loss": 0.5862385749816894,
	"step": 60,
	"token_acc": 0.8205827474594116
	},
	{
	"epoch": 0.04973221117061974,
	"grad_norm": 2.6730895042419434,
	"learning_rate": 3.299492385786802e-05,
	"loss": 0.5797908782958985,
	"step": 65,
	"token_acc": 0.819099485874176
	},
	{
	"epoch": 0.05355776587605203,
	"grad_norm": 2.4526894092559814,
	"learning_rate": 3.553299492385787e-05,
	"loss": 0.6487821102142334,
	"step": 70,
	"token_acc": 0.7994943857192993
	},
	{
	"epoch": 0.057383320581484314,
	"grad_norm": 2.265002489089966,
	"learning_rate": 3.8071065989847716e-05,
	"loss": 0.6046820640563965,
	"step": 75,
	"token_acc": 0.8156428933143616
	},
	{
	"epoch": 0.061208875286916604,
	"grad_norm": 2.5733046531677246,
	"learning_rate": 4.060913705583756e-05,
	"loss": 0.5806538581848144,
	"step": 80,
	"token_acc": 0.8199408054351807
	},
	{
	"epoch": 0.06503442999234889,
	"grad_norm": 2.3223984241485596,
	"learning_rate": 4.3147208121827415e-05,
	"loss": 0.6687778949737548,
	"step": 85,
	"token_acc": 0.7976916432380676
	},
	{
	"epoch": 0.06885998469778118,
	"grad_norm": 1.9996718168258667,
	"learning_rate": 4.568527918781726e-05,
	"loss": 0.5714664459228516,
	"step": 90,
	"token_acc": 0.8250343203544617
	},
	{
	"epoch": 0.07268553940321347,
	"grad_norm": 2.2907140254974365,
	"learning_rate": 4.822335025380711e-05,
	"loss": 0.6378528118133545,
	"step": 95,
	"token_acc": 0.8057200312614441
	},
	{
	"epoch": 0.07651109410864575,
	"grad_norm": 1.9822206497192383,
	"learning_rate": 5.076142131979695e-05,
	"loss": 0.6435206413269043,
	"step": 100,
	"token_acc": 0.8065351843833923
	},
	{
	"epoch": 0.07651109410864575,
	"eval_loss": 0.6021918654441833,
	"eval_runtime": 6.7812,
	"eval_samples_per_second": 15.337,
	"eval_steps_per_second": 1.917,
	"eval_token_acc": 0.814389705657959,
	"step": 100
	},
	{
	"epoch": 0.08033664881407804,
	"grad_norm": 1.8460628986358643,
	"learning_rate": 5.329949238578681e-05,
	"loss": 0.6554917335510254,
	"step": 105,
	"token_acc": 0.8218502998352051
	},
	{
	"epoch": 0.08416220351951033,
	"grad_norm": 2.0430757999420166,
	"learning_rate": 5.583756345177665e-05,
	"loss": 0.7082652091979981,
	"step": 110,
	"token_acc": 0.7900523543357849
	},
	{
	"epoch": 0.08798775822494262,
	"grad_norm": 2.1763596534729004,
	"learning_rate": 5.83756345177665e-05,
	"loss": 0.6629996299743652,
	"step": 115,
	"token_acc": 0.7997561097145081
	},
	{
	"epoch": 0.09181331293037491,
	"grad_norm": 1.8452140092849731,
	"learning_rate": 6.091370558375635e-05,
	"loss": 0.6425168991088868,
	"step": 120,
	"token_acc": 0.8068760633468628
	},
	{
	"epoch": 0.09563886763580719,
	"grad_norm": 2.0671913623809814,
	"learning_rate": 6.34517766497462e-05,
	"loss": 0.6626197814941406,
	"step": 125,
	"token_acc": 0.8050779700279236
	},
	{
	"epoch": 0.09946442234123948,
	"grad_norm": 1.9707857370376587,
	"learning_rate": 6.598984771573604e-05,
	"loss": 0.6357526779174805,
	"step": 130,
	"token_acc": 0.8117111921310425
	},
	{
	"epoch": 0.10328997704667177,
	"grad_norm": 1.684924840927124,
	"learning_rate": 6.852791878172589e-05,
	"loss": 0.6633370399475098,
	"step": 135,
	"token_acc": 0.8078529834747314
	},
	{
	"epoch": 0.10711553175210406,
	"grad_norm": 1.8460227251052856,
	"learning_rate": 7.106598984771574e-05,
	"loss": 0.7214941501617431,
	"step": 140,
	"token_acc": 0.7888500690460205
	},
	{
	"epoch": 0.11094108645753634,
	"grad_norm": 1.8344098329544067,
	"learning_rate": 7.360406091370558e-05,
	"loss": 0.7153414249420166,
	"step": 145,
	"token_acc": 0.7917036414146423
	},
	{
	"epoch": 0.11476664116296863,
	"grad_norm": 2.0649237632751465,
	"learning_rate": 7.614213197969543e-05,
	"loss": 0.8018023490905761,
	"step": 150,
	"token_acc": 0.7870769500732422
	},
	{
	"epoch": 0.11476664116296863,
	"eval_loss": 0.6869359612464905,
	"eval_runtime": 7.176,
	"eval_samples_per_second": 14.493,
	"eval_steps_per_second": 1.812,
	"eval_token_acc": 0.8004150390625,
	"step": 150
	},
	{
	"epoch": 0.11859219586840092,
	"grad_norm": 2.0781986713409424,
	"learning_rate": 7.868020304568529e-05,
	"loss": 0.7426050186157227,
	"step": 155,
	"token_acc": 0.784966230392456
	},
	{
	"epoch": 0.12241775057383321,
	"grad_norm": 3.169353485107422,
	"learning_rate": 8.121827411167512e-05,
	"loss": 0.6967845916748047,
	"step": 160,
	"token_acc": 0.799592137336731
	},
	{
	"epoch": 0.1262433052792655,
	"grad_norm": 2.8000311851501465,
	"learning_rate": 8.375634517766498e-05,
	"loss": 0.6940568923950196,
	"step": 165,
	"token_acc": 0.7990803718566895
	},
	{
	"epoch": 0.13006885998469778,
	"grad_norm": 1.7199612855911255,
	"learning_rate": 8.629441624365483e-05,
	"loss": 0.6588430404663086,
	"step": 170,
	"token_acc": 0.8097391724586487
	},
	{
	"epoch": 0.13389441469013008,
	"grad_norm": 1.6225758790969849,
	"learning_rate": 8.883248730964467e-05,
	"loss": 0.7546923160552979,
	"step": 175,
	"token_acc": 0.7823401093482971
	},
	{
	"epoch": 0.13771996939556236,
	"grad_norm": 1.738344430923462,
	"learning_rate": 9.137055837563452e-05,
	"loss": 0.6869890213012695,
	"step": 180,
	"token_acc": 0.8029044270515442
	},
	{
	"epoch": 0.14154552410099464,
	"grad_norm": 1.7446883916854858,
	"learning_rate": 9.390862944162437e-05,
	"loss": 0.744170093536377,
	"step": 185,
	"token_acc": 0.7861586213111877
	},
	{
	"epoch": 0.14537107880642694,
	"grad_norm": 1.5875240564346313,
	"learning_rate": 9.644670050761421e-05,
	"loss": 0.6316198348999024,
	"step": 190,
	"token_acc": 0.8180323839187622
	},
	{
	"epoch": 0.14919663351185922,
	"grad_norm": 1.83012855052948,
	"learning_rate": 9.898477157360407e-05,
	"loss": 1.0572455406188965,
	"step": 195,
	"token_acc": 0.7630072236061096
	},
	{
	"epoch": 0.1530221882172915,
	"grad_norm": 9.883597373962402,
	"learning_rate": 9.99998398736932e-05,
	"loss": 0.703323221206665,
	"step": 200,
	"token_acc": 0.8030744194984436
	},
	{
	"epoch": 0.1530221882172915,
	"eval_loss": 0.7220072150230408,
	"eval_runtime": 7.3149,
	"eval_samples_per_second": 14.218,
	"eval_steps_per_second": 1.777,
	"eval_token_acc": 0.7940492630004883,
	"step": 200
	},
	{
	"epoch": 0.1568477429227238,
	"grad_norm": 1.4011379480361938,
	"learning_rate": 9.999886132775469e-05,
	"loss": 0.7197819232940674,
	"step": 205,
	"token_acc": 0.7953398823738098
	},
	{
	"epoch": 0.16067329762815608,
	"grad_norm": 1.5504759550094604,
	"learning_rate": 9.999699321232598e-05,
	"loss": 0.6872771263122559,
	"step": 210,
	"token_acc": 0.804167628288269
	},
	{
	"epoch": 0.16449885233358838,
	"grad_norm": 2.0014920234680176,
	"learning_rate": 9.999423556064422e-05,
	"loss": 0.6684097290039063,
	"step": 215,
	"token_acc": 0.8079100847244263
	},
	{
	"epoch": 0.16832440703902066,
	"grad_norm": 1.3064231872558594,
	"learning_rate": 9.999058842177297e-05,
	"loss": 0.747900390625,
	"step": 220,
	"token_acc": 0.7928001880645752
	},
	{
	"epoch": 0.17214996174445293,
	"grad_norm": 1.6330523490905762,
	"learning_rate": 9.998605186060137e-05,
	"loss": 0.715455961227417,
	"step": 225,
	"token_acc": 0.7988653779029846
	},
	{
	"epoch": 0.17597551644988524,
	"grad_norm": 1.6291477680206299,
	"learning_rate": 9.9980625957843e-05,
	"loss": 0.792291784286499,
	"step": 230,
	"token_acc": 0.7906692624092102
	},
	{
	"epoch": 0.17980107115531752,
	"grad_norm": 1.3224996328353882,
	"learning_rate": 9.99743108100344e-05,
	"loss": 0.6187815189361572,
	"step": 235,
	"token_acc": 0.8209345936775208
	},
	{
	"epoch": 0.18362662586074982,
	"grad_norm": 1.3888137340545654,
	"learning_rate": 9.996710652953338e-05,
	"loss": 0.7097324371337891,
	"step": 240,
	"token_acc": 0.8024294376373291
	},
	{
	"epoch": 0.1874521805661821,
	"grad_norm": 1.340208649635315,
	"learning_rate": 9.995901324451704e-05,
	"loss": 0.7415911674499511,
	"step": 245,
	"token_acc": 0.7968400716781616
	},
	{
	"epoch": 0.19127773527161437,
	"grad_norm": 1.1856446266174316,
	"learning_rate": 9.995003109897942e-05,
	"loss": 0.7001552581787109,
	"step": 250,
	"token_acc": 0.8009890913963318
	},
	{
	"epoch": 0.19127773527161437,
	"eval_loss": 0.6857067942619324,
	"eval_runtime": 7.3358,
	"eval_samples_per_second": 14.177,
	"eval_steps_per_second": 1.772,
	"eval_token_acc": 0.803743302822113,
	"step": 250
	},
	{
	"epoch": 0.19510328997704668,
	"grad_norm": 1.2998038530349731,
	"learning_rate": 9.994016025272905e-05,
	"loss": 0.6838603019714355,
	"step": 255,
	"token_acc": 0.8089724779129028
	},
	{
	"epoch": 0.19892884468247896,
	"grad_norm": 1.449840784072876,
	"learning_rate": 9.992940088138597e-05,
	"loss": 0.6695821762084961,
	"step": 260,
	"token_acc": 0.8115434646606445
	},
	{
	"epoch": 0.20275439938791126,
	"grad_norm": 2.188504219055176,
	"learning_rate": 9.991775317637873e-05,
	"loss": 0.7405529499053956,
	"step": 265,
	"token_acc": 0.7956330180168152
	},
	{
	"epoch": 0.20657995409334354,
	"grad_norm": 1.2301571369171143,
	"learning_rate": 9.99052173449409e-05,
	"loss": 0.7626109600067139,
	"step": 270,
	"token_acc": 0.7877880334854126
	},
	{
	"epoch": 0.21040550879877581,
	"grad_norm": 1.217523455619812,
	"learning_rate": 9.989179361010741e-05,
	"loss": 0.7369673728942872,
	"step": 275,
	"token_acc": 0.7953155040740967
	},
	{
	"epoch": 0.21423106350420812,
	"grad_norm": 1.3204615116119385,
	"learning_rate": 9.987748221071062e-05,
	"loss": 0.6772171497344971,
	"step": 280,
	"token_acc": 0.8045340180397034
	},
	{
	"epoch": 0.2180566182096404,
	"grad_norm": 1.3093225955963135,
	"learning_rate": 9.9862283401376e-05,
	"loss": 0.904904556274414,
	"step": 285,
	"token_acc": 0.7854760885238647
	},
	{
	"epoch": 0.22188217291507267,
	"grad_norm": 1.4255338907241821,
	"learning_rate": 9.984619745251767e-05,
	"loss": 0.669553565979004,
	"step": 290,
	"token_acc": 0.8050349354743958
	},
	{
	"epoch": 0.22570772762050498,
	"grad_norm": 1.4884202480316162,
	"learning_rate": 9.98292246503335e-05,
	"loss": 0.7445178508758545,
	"step": 295,
	"token_acc": 0.8016032576560974
	},
	{
	"epoch": 0.22953328232593725,
	"grad_norm": 1.3081945180892944,
	"learning_rate": 9.981136529680013e-05,
	"loss": 0.6435537815093995,
	"step": 300,
	"token_acc": 0.8145782947540283
	},
	{
	"epoch": 0.22953328232593725,
	"eval_loss": 0.6707971096038818,
	"eval_runtime": 7.6759,
	"eval_samples_per_second": 13.549,
	"eval_steps_per_second": 1.694,
	"eval_token_acc": 0.809266984462738,
	"step": 300
	},
	{
	"epoch": 0.23335883703136956,
	"grad_norm": 1.2945371866226196,
	"learning_rate": 9.979261970966752e-05,
	"loss": 0.671229362487793,
	"step": 305,
	"token_acc": 0.8093103170394897
	},
	{
	"epoch": 0.23718439173680184,
	"grad_norm": 1.094642996788025,
	"learning_rate": 9.97729882224533e-05,
	"loss": 0.638882064819336,
	"step": 310,
	"token_acc": 0.8210087418556213
	},
	{
	"epoch": 0.2410099464422341,
	"grad_norm": 1.2039848566055298,
	"learning_rate": 9.975247118443686e-05,
	"loss": 0.7105097770690918,
	"step": 315,
	"token_acc": 0.79979407787323
	},
	{
	"epoch": 0.24483550114766642,
	"grad_norm": 9.3181734085083,
	"learning_rate": 9.973106896065318e-05,
	"loss": 0.7334442615509034,
	"step": 320,
	"token_acc": 0.8001999855041504
	},
	{
	"epoch": 0.2486610558530987,
	"grad_norm": 1.2156879901885986,
	"learning_rate": 9.970878193188617e-05,
	"loss": 0.6516756534576416,
	"step": 325,
	"token_acc": 0.8167580366134644
	},
	{
	"epoch": 0.252486610558531,
	"grad_norm": 1.382604956626892,
	"learning_rate": 9.968561049466214e-05,
	"loss": 0.7214525222778321,
	"step": 330,
	"token_acc": 0.7979754209518433
	},
	{
	"epoch": 0.2563121652639633,
	"grad_norm": 1.0208624601364136,
	"learning_rate": 9.96615550612425e-05,
	"loss": 0.6243480205535888,
	"step": 335,
	"token_acc": 0.822067379951477
	},
	{
	"epoch": 0.26013771996939555,
	"grad_norm": 1.2273170948028564,
	"learning_rate": 9.96366160596166e-05,
	"loss": 0.7538263320922851,
	"step": 340,
	"token_acc": 0.7931398749351501
	},
	{
	"epoch": 0.26396327467482783,
	"grad_norm": 1.005936622619629,
	"learning_rate": 9.961079393349408e-05,
	"loss": 0.6441500663757325,
	"step": 345,
	"token_acc": 0.8183194398880005
	},
	{
	"epoch": 0.26778882938026016,
	"grad_norm": 1.2466620206832886,
	"learning_rate": 9.958408914229687e-05,
	"loss": 0.7031271934509278,
	"step": 350,
	"token_acc": 0.8006601929664612
	},
	{
	"epoch": 0.26778882938026016,
	"eval_loss": 0.6655329465866089,
	"eval_runtime": 8.6572,
	"eval_samples_per_second": 12.013,
	"eval_steps_per_second": 1.502,
	"eval_token_acc": 0.810479998588562,
	"step": 350
	},
	{
	"epoch": 0.27161438408569244,
	"grad_norm": 1.1055852174758911,
	"learning_rate": 9.955650216115118e-05,
	"loss": 0.7128757953643798,
	"step": 355,
	"token_acc": 0.8017191886901855
	},
	{
	"epoch": 0.2754399387911247,
	"grad_norm": 0.9971266388893127,
	"learning_rate": 9.952803348087888e-05,
	"loss": 0.6931791305541992,
	"step": 360,
	"token_acc": 0.8039373159408569
	},
	{
	"epoch": 0.279265493496557,
	"grad_norm": 1.3013373613357544,
	"learning_rate": 9.949868360798893e-05,
	"loss": 0.6467844486236572,
	"step": 365,
	"token_acc": 0.8141829371452332
	},
	{
	"epoch": 0.28309104820198927,
	"grad_norm": 1.1281312704086304,
	"learning_rate": 9.946845306466822e-05,
	"loss": 0.6698862075805664,
	"step": 370,
	"token_acc": 0.8099541664123535
	},
	{
	"epoch": 0.2869166029074216,
	"grad_norm": 1.0093694925308228,
	"learning_rate": 9.943734238877241e-05,
	"loss": 0.640196704864502,
	"step": 375,
	"token_acc": 0.8200778961181641
	},
	{
	"epoch": 0.2907421576128539,
	"grad_norm": 1.161116361618042,
	"learning_rate": 9.940535213381623e-05,
	"loss": 0.7982209682464599,
	"step": 380,
	"token_acc": 0.803227961063385
	},
	{
	"epoch": 0.29456771231828616,
	"grad_norm": 1.17842435836792,
	"learning_rate": 9.937248286896376e-05,
	"loss": 0.674342155456543,
	"step": 385,
	"token_acc": 0.8081824779510498
	},
	{
	"epoch": 0.29839326702371843,
	"grad_norm": 1.2346426248550415,
	"learning_rate": 9.933873517901825e-05,
	"loss": 0.6990632057189942,
	"step": 390,
	"token_acc": 0.8067554235458374
	},
	{
	"epoch": 0.3022188217291507,
	"grad_norm": 1.1731232404708862,
	"learning_rate": 9.930410966441164e-05,
	"loss": 0.7052478790283203,
	"step": 395,
	"token_acc": 0.8015207052230835
	},
	{
	"epoch": 0.306044376434583,
	"grad_norm": 1.1818660497665405,
	"learning_rate": 9.926860694119398e-05,
	"loss": 0.6852362632751465,
	"step": 400,
	"token_acc": 0.8096556663513184
	},
	{
	"epoch": 0.306044376434583,
	"eval_loss": 0.6521208882331848,
	"eval_runtime": 7.4215,
	"eval_samples_per_second": 14.013,
	"eval_steps_per_second": 1.752,
	"eval_token_acc": 0.8145099878311157,
	"step": 400
	},
	{
	"epoch": 0.3098699311400153,
	"grad_norm": 1.166639804840088,
	"learning_rate": 9.923222764102248e-05,
	"loss": 0.6215761661529541,
	"step": 405,
	"token_acc": 0.8188217282295227
	},
	{
	"epoch": 0.3136954858454476,
	"grad_norm": 1.0579371452331543,
	"learning_rate": 9.919497241115016e-05,
	"loss": 0.6619209289550781,
	"step": 410,
	"token_acc": 0.8130149841308594
	},
	{
	"epoch": 0.3175210405508799,
	"grad_norm": 1.025505542755127,
	"learning_rate": 9.915684191441446e-05,
	"loss": 0.681110954284668,
	"step": 415,
	"token_acc": 0.8061873316764832
	},
	{
	"epoch": 0.32134659525631215,
	"grad_norm": 1.1900734901428223,
	"learning_rate": 9.911783682922533e-05,
	"loss": 0.6414823532104492,
	"step": 420,
	"token_acc": 0.8169435262680054
	},
	{
	"epoch": 0.32517214996174443,
	"grad_norm": 1.0435925722122192,
	"learning_rate": 9.907795784955327e-05,
	"loss": 0.650167179107666,
	"step": 425,
	"token_acc": 0.8135402202606201
	},
	{
	"epoch": 0.32899770466717676,
	"grad_norm": 0.9976479411125183,
	"learning_rate": 9.90372056849169e-05,
	"loss": 0.6622737884521485,
	"step": 430,
	"token_acc": 0.8130133152008057
	},
	{
	"epoch": 0.33282325937260904,
	"grad_norm": 1.025640606880188,
	"learning_rate": 9.899558106037039e-05,
	"loss": 0.7082881927490234,
	"step": 435,
	"token_acc": 0.8012630343437195
	},
	{
	"epoch": 0.3366488140780413,
	"grad_norm": 1.1692794561386108,
	"learning_rate": 9.895308471649052e-05,
	"loss": 0.7149417877197266,
	"step": 440,
	"token_acc": 0.8121411204338074
	},
	{
	"epoch": 0.3404743687834736,
	"grad_norm": 1.0781068801879883,
	"learning_rate": 9.890971740936352e-05,
	"loss": 0.6460227012634278,
	"step": 445,
	"token_acc": 0.8171982169151306
	},
	{
	"epoch": 0.34429992348890587,
	"grad_norm": 1.7874302864074707,
	"learning_rate": 9.886547991057162e-05,
	"loss": 0.6831697463989258,
	"step": 450,
	"token_acc": 0.8117350339889526
	},
	{
	"epoch": 0.34429992348890587,
	"eval_loss": 0.6621751189231873,
	"eval_runtime": 7.4514,
	"eval_samples_per_second": 13.957,
	"eval_steps_per_second": 1.745,
	"eval_token_acc": 0.8132668733596802,
	"step": 450
	},
	{
	"epoch": 0.3481254781943382,
	"grad_norm": 1.1658034324645996,
	"learning_rate": 9.882037300717936e-05,
	"loss": 0.6283795356750488,
	"step": 455,
	"token_acc": 0.8232808709144592
	},
	{
	"epoch": 0.3519510328997705,
	"grad_norm": 0.8861122727394104,
	"learning_rate": 9.87743975017195e-05,
	"loss": 0.5845287322998047,
	"step": 460,
	"token_acc": 0.8338332176208496
	},
	{
	"epoch": 0.35577658760520275,
	"grad_norm": 1.1082383394241333,
	"learning_rate": 9.872755421217881e-05,
	"loss": 0.7373793125152588,
	"step": 465,
	"token_acc": 0.7927750945091248
	},
	{
	"epoch": 0.35960214231063503,
	"grad_norm": 0.9668710827827454,
	"learning_rate": 9.867984397198348e-05,
	"loss": 0.6381460189819336,
	"step": 470,
	"token_acc": 0.8192023038864136
	},
	{
	"epoch": 0.3634276970160673,
	"grad_norm": 1.0808384418487549,
	"learning_rate": 9.863126762998436e-05,
	"loss": 0.7160910606384278,
	"step": 475,
	"token_acc": 0.8008524179458618
	},
	{
	"epoch": 0.36725325172149964,
	"grad_norm": 1.0136635303497314,
	"learning_rate": 9.858182605044172e-05,
	"loss": 0.6220456123352051,
	"step": 480,
	"token_acc": 0.8248037099838257
	},
	{
	"epoch": 0.3710788064269319,
	"grad_norm": 1.2998031377792358,
	"learning_rate": 9.853152011301003e-05,
	"loss": 0.6555353164672851,
	"step": 485,
	"token_acc": 0.8161742687225342
	},
	{
	"epoch": 0.3749043611323642,
	"grad_norm": 1.0749304294586182,
	"learning_rate": 9.848035071272222e-05,
	"loss": 0.6211759567260742,
	"step": 490,
	"token_acc": 0.821867048740387
	},
	{
	"epoch": 0.37872991583779647,
	"grad_norm": 0.9710472226142883,
	"learning_rate": 9.842831875997375e-05,
	"loss": 0.6431370735168457,
	"step": 495,
	"token_acc": 0.8220862150192261
	},
	{
	"epoch": 0.38255547054322875,
	"grad_norm": 1.0042985677719116,
	"learning_rate": 9.837542518050649e-05,
	"loss": 0.6818212509155274,
	"step": 500,
	"token_acc": 0.8100237846374512
	},
	{
	"epoch": 0.38255547054322875,
	"eval_loss": 0.6374099254608154,
	"eval_runtime": 7.6101,
	"eval_samples_per_second": 13.666,
	"eval_steps_per_second": 1.708,
	"eval_token_acc": 0.8186302185058594,
	"step": 500
	},
	{
	"epoch": 0.3863810252486611,
	"grad_norm": 1.0197993516921997,
	"learning_rate": 9.832167091539214e-05,
	"loss": 0.6007397174835205,
	"step": 505,
	"token_acc": 0.8282684683799744
	},
	{
	"epoch": 0.39020657995409336,
	"grad_norm": 1.0835719108581543,
	"learning_rate": 9.826705692101555e-05,
	"loss": 0.7205737113952637,
	"step": 510,
	"token_acc": 0.7967984080314636
	},
	{
	"epoch": 0.39403213465952563,
	"grad_norm": 0.9672032594680786,
	"learning_rate": 9.821158416905773e-05,
	"loss": 0.6137794494628906,
	"step": 515,
	"token_acc": 0.8238478899002075
	},
	{
	"epoch": 0.3978576893649579,
	"grad_norm": 1.0274014472961426,
	"learning_rate": 9.815525364647853e-05,
	"loss": 0.6839157104492187,
	"step": 520,
	"token_acc": 0.8090466856956482
	},
	{
	"epoch": 0.4016832440703902,
	"grad_norm": 0.966098427772522,
	"learning_rate": 9.809806635549901e-05,
	"loss": 0.5641196250915528,
	"step": 525,
	"token_acc": 0.8359003663063049
	},
	{
	"epoch": 0.4055087987758225,
	"grad_norm": 1.1138949394226074,
	"learning_rate": 9.804002331358377e-05,
	"loss": 0.615296745300293,
	"step": 530,
	"token_acc": 0.8272916674613953
	},
	{
	"epoch": 0.4093343534812548,
	"grad_norm": 2.4379749298095703,
	"learning_rate": 9.798112555342268e-05,
	"loss": 0.5940766334533691,
	"step": 535,
	"token_acc": 0.8358057737350464
	},
	{
	"epoch": 0.4131599081866871,
	"grad_norm": 1.1517431735992432,
	"learning_rate": 9.792137412291265e-05,
	"loss": 0.6338438034057617,
	"step": 540,
	"token_acc": 0.8158274292945862
	},
	{
	"epoch": 0.41698546289211935,
	"grad_norm": 6.055464744567871,
	"learning_rate": 9.786077008513883e-05,
	"loss": 0.6075318336486817,
	"step": 545,
	"token_acc": 0.8209756016731262
	},
	{
	"epoch": 0.42081101759755163,
	"grad_norm": 0.9165500402450562,
	"learning_rate": 9.779931451835589e-05,
	"loss": 0.659608793258667,
	"step": 550,
	"token_acc": 0.815700113773346
	},
	{
	"epoch": 0.42081101759755163,
	"eval_loss": 0.6386705636978149,
	"eval_runtime": 8.1335,
	"eval_samples_per_second": 12.787,
	"eval_steps_per_second": 1.598,
	"eval_token_acc": 0.8192116618156433,
	"step": 550
	},
	{
	"epoch": 0.4246365723029839,
	"grad_norm": 3.8534209728240967,
	"learning_rate": 9.773700851596864e-05,
	"loss": 0.689471435546875,
	"step": 555,
	"token_acc": 0.8077275156974792
	},
	{
	"epoch": 0.42846212700841624,
	"grad_norm": 1.0717378854751587,
	"learning_rate": 9.767385318651272e-05,
	"loss": 0.6236325740814209,
	"step": 560,
	"token_acc": 0.826772928237915
	},
	{
	"epoch": 0.4322876817138485,
	"grad_norm": 0.9380275011062622,
	"learning_rate": 9.760984965363478e-05,
	"loss": 0.6055815696716309,
	"step": 565,
	"token_acc": 0.8277127146720886
	},
	{
	"epoch": 0.4361132364192808,
	"grad_norm": 0.9301455020904541,
	"learning_rate": 9.75449990560726e-05,
	"loss": 0.5975317001342774,
	"step": 570,
	"token_acc": 0.8306687474250793
	},
	{
	"epoch": 0.43993879112471307,
	"grad_norm": 0.9384899735450745,
	"learning_rate": 9.747930254763467e-05,
	"loss": 0.631765604019165,
	"step": 575,
	"token_acc": 0.8169443011283875
	},
	{
	"epoch": 0.44376434583014535,
	"grad_norm": 0.9002703428268433,
	"learning_rate": 9.74127612971798e-05,
	"loss": 0.6044256210327148,
	"step": 580,
	"token_acc": 0.8257142305374146
	},
	{
	"epoch": 0.4475899005355777,
	"grad_norm": 0.8999844193458557,
	"learning_rate": 9.73453764885963e-05,
	"loss": 0.6237145900726319,
	"step": 585,
	"token_acc": 0.8252273797988892
	},
	{
	"epoch": 0.45141545524100996,
	"grad_norm": 0.9064670205116272,
	"learning_rate": 9.727714932078088e-05,
	"loss": 0.6549233436584473,
	"step": 590,
	"token_acc": 0.8153916001319885
	},
	{
	"epoch": 0.45524100994644223,
	"grad_norm": 1.0747268199920654,
	"learning_rate": 9.720808100761729e-05,
	"loss": 0.6232728004455567,
	"step": 595,
	"token_acc": 0.8211687207221985
	},
	{
	"epoch": 0.4590665646518745,
	"grad_norm": 1.031503438949585,
	"learning_rate": 9.713817277795482e-05,
	"loss": 0.6111268043518067,
	"step": 600,
	"token_acc": 0.8248355984687805
	},
	{
	"epoch": 0.4590665646518745,
	"eval_loss": 0.634019136428833,
	"eval_runtime": 7.7263,
	"eval_samples_per_second": 13.46,
	"eval_steps_per_second": 1.683,
	"eval_token_acc": 0.8194121718406677,
	"step": 600
	},
	{
	"epoch": 0.4628921193573068,
	"grad_norm": 18.878767013549805,
	"learning_rate": 9.706742587558635e-05,
	"loss": 0.7319217681884765,
	"step": 605,
	"token_acc": 0.8135314583778381
	},
	{
	"epoch": 0.4667176740627391,
	"grad_norm": 0.9823316931724548,
	"learning_rate": 9.699584155922625e-05,
	"loss": 0.658491849899292,
	"step": 610,
	"token_acc": 0.8164398670196533
	},
	{
	"epoch": 0.4705432287681714,
	"grad_norm": 1.1845817565917969,
	"learning_rate": 9.692342110248802e-05,
	"loss": 0.6585088729858398,
	"step": 615,
	"token_acc": 0.8140710592269897
	},
	{
	"epoch": 0.4743687834736037,
	"grad_norm": 1.0284193754196167,
	"learning_rate": 9.685016579386159e-05,
	"loss": 0.6060408592224121,
	"step": 620,
	"token_acc": 0.8255147933959961
	},
	{
	"epoch": 0.47819433817903595,
	"grad_norm": 1.0485318899154663,
	"learning_rate": 9.677607693669035e-05,
	"loss": 0.6855095863342285,
	"step": 625,
	"token_acc": 0.8098092079162598
	},
	{
	"epoch": 0.4820198928844682,
	"grad_norm": 2.119432210922241,
	"learning_rate": 9.67011558491481e-05,
	"loss": 0.6514041423797607,
	"step": 630,
	"token_acc": 0.8163265585899353
	},
	{
	"epoch": 0.48584544758990056,
	"grad_norm": 0.9313147664070129,
	"learning_rate": 9.662540386421546e-05,
	"loss": 0.6687870025634766,
	"step": 635,
	"token_acc": 0.8119432330131531
	},
	{
	"epoch": 0.48967100229533284,
	"grad_norm": 0.9492276310920715,
	"learning_rate": 9.65488223296562e-05,
	"loss": 0.6563722610473632,
	"step": 640,
	"token_acc": 0.8168354034423828
	},
	{
	"epoch": 0.4934965570007651,
	"grad_norm": 1.0297837257385254,
	"learning_rate": 9.64714126079933e-05,
	"loss": 0.5913913726806641,
	"step": 645,
	"token_acc": 0.828011691570282
	},
	{
	"epoch": 0.4973221117061974,
	"grad_norm": 1.0799224376678467,
	"learning_rate": 9.639317607648463e-05,
	"loss": 0.6493720054626465,
	"step": 650,
	"token_acc": 0.8191680312156677
	},
	{
	"epoch": 0.4973221117061974,
	"eval_loss": 0.6336340308189392,
	"eval_runtime": 8.085,
	"eval_samples_per_second": 12.863,
	"eval_steps_per_second": 1.608,
	"eval_token_acc": 0.8203945755958557,
	"step": 650
	},
	{
	"epoch": 0.5011476664116297,
	"grad_norm": 0.9438362717628479,
	"learning_rate": 9.631411412709856e-05,
	"loss": 0.634061050415039,
	"step": 655,
	"token_acc": 0.8196708559989929
	},
	{
	"epoch": 0.504973221117062,
	"grad_norm": 0.9886628985404968,
	"learning_rate": 9.623422816648905e-05,
	"loss": 0.6314868450164794,
	"step": 660,
	"token_acc": 0.8192417025566101
	},
	{
	"epoch": 0.5087987758224942,
	"grad_norm": 1.053757667541504,
	"learning_rate": 9.615351961597075e-05,
	"loss": 0.6161402225494385,
	"step": 665,
	"token_acc": 0.8249170780181885
	},
	{
	"epoch": 0.5126243305279266,
	"grad_norm": 0.8857008814811707,
	"learning_rate": 9.607198991149365e-05,
	"loss": 0.6382771968841553,
	"step": 670,
	"token_acc": 0.8191618323326111
	},
	{
	"epoch": 0.5164498852333589,
	"grad_norm": 0.9176872968673706,
	"learning_rate": 9.598964050361749e-05,
	"loss": 0.6668461799621582,
	"step": 675,
	"token_acc": 0.8112070560455322
	},
	{
	"epoch": 0.5202754399387911,
	"grad_norm": 0.8668197393417358,
	"learning_rate": 9.590647285748613e-05,
	"loss": 0.6178393363952637,
	"step": 680,
	"token_acc": 0.8246564269065857
	},
	{
	"epoch": 0.5241009946442234,
	"grad_norm": 0.8694312572479248,
	"learning_rate": 9.582248845280121e-05,
	"loss": 0.6056000709533691,
	"step": 685,
	"token_acc": 0.8267983198165894
	},
	{
	"epoch": 0.5279265493496557,
	"grad_norm": 1.0597003698349,
	"learning_rate": 9.57376887837961e-05,
	"loss": 0.6181661128997803,
	"step": 690,
	"token_acc": 0.8232805728912354
	},
	{
	"epoch": 0.531752104055088,
	"grad_norm": 0.8571362495422363,
	"learning_rate": 9.565207535920906e-05,
	"loss": 0.6172348976135253,
	"step": 695,
	"token_acc": 0.8221156597137451
	},
	{
	"epoch": 0.5355776587605203,
	"grad_norm": 0.9073564410209656,
	"learning_rate": 9.556564970225666e-05,
	"loss": 0.6466682434082032,
	"step": 700,
	"token_acc": 0.8197444081306458
	},
	{
	"epoch": 0.5355776587605203,
	"eval_loss": 0.6152887344360352,
	"eval_runtime": 7.5903,
	"eval_samples_per_second": 13.702,
	"eval_steps_per_second": 1.713,
	"eval_token_acc": 0.8228907585144043,
	"step": 700
	},
	{
	"epoch": 0.5394032134659525,
	"grad_norm": 0.9663663506507874,
	"learning_rate": 9.547841335060641e-05,
	"loss": 0.6051031112670898,
	"step": 705,
	"token_acc": 0.8252653479576111
	},
	{
	"epoch": 0.5432287681713849,
	"grad_norm": 0.9873702526092529,
	"learning_rate": 9.539036785634961e-05,
	"loss": 0.6133259296417236,
	"step": 710,
	"token_acc": 0.8265376687049866
	},
	{
	"epoch": 0.5470543228768171,
	"grad_norm": 0.8775202035903931,
	"learning_rate": 9.530151478597366e-05,
	"loss": 0.6536783218383789,
	"step": 715,
	"token_acc": 0.8136675357818604
	},
	{
	"epoch": 0.5508798775822494,
	"grad_norm": 0.8767590522766113,
	"learning_rate": 9.521185572033416e-05,
	"loss": 0.5738767147064209,
	"step": 720,
	"token_acc": 0.8351121544837952
	},
	{
	"epoch": 0.5547054322876818,
	"grad_norm": 0.9340411424636841,
	"learning_rate": 9.512139225462682e-05,
	"loss": 0.60714693069458,
	"step": 725,
	"token_acc": 0.8243422508239746
	},
	{
	"epoch": 0.558530986993114,
	"grad_norm": 0.924868643283844,
	"learning_rate": 9.503012599835907e-05,
	"loss": 0.5976818084716797,
	"step": 730,
	"token_acc": 0.8307338953018188
	},
	{
	"epoch": 0.5623565416985463,
	"grad_norm": 1.1880912780761719,
	"learning_rate": 9.493805857532148e-05,
	"loss": 0.7305125236511231,
	"step": 735,
	"token_acc": 0.7984393239021301
	},
	{
	"epoch": 0.5661820964039785,
	"grad_norm": 0.8552014827728271,
	"learning_rate": 9.48451916235587e-05,
	"loss": 0.631963062286377,
	"step": 740,
	"token_acc": 0.8215923309326172
	},
	{
	"epoch": 0.5700076511094109,
	"grad_norm": 0.9064537882804871,
	"learning_rate": 9.475152679534052e-05,
	"loss": 0.5955155849456787,
	"step": 745,
	"token_acc": 0.8277559876441956
	},
	{
	"epoch": 0.5738332058148432,
	"grad_norm": 0.953490138053894,
	"learning_rate": 9.465706575713236e-05,
	"loss": 0.5581603050231934,
	"step": 750,
	"token_acc": 0.8392514586448669
	},
	{
	"epoch": 0.5738332058148432,
	"eval_loss": 0.6101195812225342,
	"eval_runtime": 7.839,
	"eval_samples_per_second": 13.267,
	"eval_steps_per_second": 1.658,
	"eval_token_acc": 0.8254771828651428,
	"step": 750
	},
	{
	"epoch": 0.5776587605202754,
	"grad_norm": 0.9111331105232239,
	"learning_rate": 9.456181018956567e-05,
	"loss": 0.5761038780212402,
	"step": 755,
	"token_acc": 0.8335671424865723
	},
	{
	"epoch": 0.5814843152257078,
	"grad_norm": 0.9279806613922119,
	"learning_rate": 9.446576178740795e-05,
	"loss": 0.6236689567565918,
	"step": 760,
	"token_acc": 0.8229003548622131
	},
	{
	"epoch": 0.58530986993114,
	"grad_norm": 0.8497107028961182,
	"learning_rate": 9.436892225953269e-05,
	"loss": 0.6130060672760009,
	"step": 765,
	"token_acc": 0.8241313099861145
	},
	{
	"epoch": 0.5891354246365723,
	"grad_norm": 0.933496356010437,
	"learning_rate": 9.427129332888891e-05,
	"loss": 0.6331747055053711,
	"step": 770,
	"token_acc": 0.8258751034736633
	},
	{
	"epoch": 0.5929609793420046,
	"grad_norm": 0.95807945728302,
	"learning_rate": 9.417287673247052e-05,
	"loss": 0.5901139259338379,
	"step": 775,
	"token_acc": 0.8336220383644104
	},
	{
	"epoch": 0.5967865340474369,
	"grad_norm": 0.9931139349937439,
	"learning_rate": 9.407367422128547e-05,
	"loss": 0.6363272666931152,
	"step": 780,
	"token_acc": 0.8183371424674988
	},
	{
	"epoch": 0.6006120887528692,
	"grad_norm": 0.8274650573730469,
	"learning_rate": 9.397368756032445e-05,
	"loss": 0.5664173603057862,
	"step": 785,
	"token_acc": 0.8378447890281677
	},
	{
	"epoch": 0.6044376434583014,
	"grad_norm": 1.017050862312317,
	"learning_rate": 9.387291852852967e-05,
	"loss": 0.6467793464660645,
	"step": 790,
	"token_acc": 0.818406343460083
	},
	{
	"epoch": 0.6082631981637338,
	"grad_norm": 0.8612256050109863,
	"learning_rate": 9.377136891876306e-05,
	"loss": 0.644353199005127,
	"step": 795,
	"token_acc": 0.8149409294128418
	},
	{
	"epoch": 0.612088752869166,
	"grad_norm": 0.9359307289123535,
	"learning_rate": 9.366904053777447e-05,
	"loss": 0.6541380882263184,
	"step": 800,
	"token_acc": 0.8136578798294067
	},
	{
	"epoch": 0.612088752869166,
	"eval_loss": 0.600931704044342,
	"eval_runtime": 7.7335,
	"eval_samples_per_second": 13.448,
	"eval_steps_per_second": 1.681,
	"eval_token_acc": 0.8262491226196289,
	"step": 800
	},
	{
	"epoch": 0.6159143075745983,
	"grad_norm": 0.8562702536582947,
	"learning_rate": 9.356593520616948e-05,
	"loss": 0.5768568038940429,
	"step": 805,
	"token_acc": 0.8369309902191162
	},
	{
	"epoch": 0.6197398622800306,
	"grad_norm": 0.8822196125984192,
	"learning_rate": 9.3462054758377e-05,
	"loss": 0.6508576393127441,
	"step": 810,
	"token_acc": 0.8174927234649658
	},
	{
	"epoch": 0.6235654169854629,
	"grad_norm": 0.8938590288162231,
	"learning_rate": 9.335740104261664e-05,
	"loss": 0.6667316436767579,
	"step": 815,
	"token_acc": 0.8100781440734863
	},
	{
	"epoch": 0.6273909716908952,
	"grad_norm": 1.007367491722107,
	"learning_rate": 9.32519759208659e-05,
	"loss": 0.72325439453125,
	"step": 820,
	"token_acc": 0.8077250123023987
	},
	{
	"epoch": 0.6312165263963274,
	"grad_norm": 1.01559579372406,
	"learning_rate": 9.314578126882691e-05,
	"loss": 0.5955130577087402,
	"step": 825,
	"token_acc": 0.8294063806533813
	},
	{
	"epoch": 0.6350420811017597,
	"grad_norm": 0.9418911933898926,
	"learning_rate": 9.303881897589315e-05,
	"loss": 0.6099714279174805,
	"step": 830,
	"token_acc": 0.8279644250869751
	},
	{
	"epoch": 0.6388676358071921,
	"grad_norm": 0.9409440755844116,
	"learning_rate": 9.29310909451158e-05,
	"loss": 0.5885293006896972,
	"step": 835,
	"token_acc": 0.8318097591400146
	},
	{
	"epoch": 0.6426931905126243,
	"grad_norm": 0.9052807688713074,
	"learning_rate": 9.28225990931699e-05,
	"loss": 0.5844202995300293,
	"step": 840,
	"token_acc": 0.8323644399642944
	},
	{
	"epoch": 0.6465187452180566,
	"grad_norm": 1.170585036277771,
	"learning_rate": 9.271334535032026e-05,
	"loss": 0.6612658500671387,
	"step": 845,
	"token_acc": 0.8123800754547119
	},
	{
	"epoch": 0.6503442999234889,
	"grad_norm": 0.89767986536026,
	"learning_rate": 9.260333166038704e-05,
	"loss": 0.6106939315795898,
	"step": 850,
	"token_acc": 0.8253637552261353
	},
	{
	"epoch": 0.6503442999234889,
	"eval_loss": 0.595952033996582,
	"eval_runtime": 7.7396,
	"eval_samples_per_second": 13.437,
	"eval_steps_per_second": 1.68,
	"eval_token_acc": 0.8275924324989319,
	"step": 850
	},
	{
	"epoch": 0.6541698546289212,
	"grad_norm": 0.8901084661483765,
	"learning_rate": 9.249255998071126e-05,
	"loss": 0.5618688106536865,
	"step": 855,
	"token_acc": 0.8380252718925476
	},
	{
	"epoch": 0.6579954093343535,
	"grad_norm": 0.8414104580879211,
	"learning_rate": 9.238103228211997e-05,
	"loss": 0.5890965461730957,
	"step": 860,
	"token_acc": 0.8292516469955444
	},
	{
	"epoch": 0.6618209640397857,
	"grad_norm": 0.8542090058326721,
	"learning_rate": 9.226875054889108e-05,
	"loss": 0.5492356300354004,
	"step": 865,
	"token_acc": 0.8417258858680725
	},
	{
	"epoch": 0.6656465187452181,
	"grad_norm": 0.928252100944519,
	"learning_rate": 9.21557167787182e-05,
	"loss": 0.6059693813323974,
	"step": 870,
	"token_acc": 0.827387273311615
	},
	{
	"epoch": 0.6694720734506503,
	"grad_norm": 0.8323174118995667,
	"learning_rate": 9.204193298267496e-05,
	"loss": 0.6152177810668945,
	"step": 875,
	"token_acc": 0.8236430287361145
	},
	{
	"epoch": 0.6732976281560826,
	"grad_norm": 0.8953769207000732,
	"learning_rate": 9.192740118517935e-05,
	"loss": 0.6013946056365966,
	"step": 880,
	"token_acc": 0.8297914862632751
	},
	{
	"epoch": 0.677123182861515,
	"grad_norm": 0.9411488771438599,
	"learning_rate": 9.181212342395764e-05,
	"loss": 0.521054458618164,
	"step": 885,
	"token_acc": 0.8486282229423523
	},
	{
	"epoch": 0.6809487375669472,
	"grad_norm": 0.9547863602638245,
	"learning_rate": 9.169610175000812e-05,
	"loss": 0.5880234718322754,
	"step": 890,
	"token_acc": 0.8322908878326416
	},
	{
	"epoch": 0.6847742922723795,
	"grad_norm": 1.0470699071884155,
	"learning_rate": 9.157933822756459e-05,
	"loss": 0.6081759452819824,
	"step": 895,
	"token_acc": 0.8250705003738403
	},
	{
	"epoch": 0.6885998469778117,
	"grad_norm": 0.9556779861450195,
	"learning_rate": 9.146183493405975e-05,
	"loss": 0.6601164817810059,
	"step": 900,
	"token_acc": 0.8116152286529541
	},
	{
	"epoch": 0.6885998469778117,
	"eval_loss": 0.5903816223144531,
	"eval_runtime": 7.6904,
	"eval_samples_per_second": 13.523,
	"eval_steps_per_second": 1.69,
	"eval_token_acc": 0.8289057016372681,
	"step": 900
	},
	{
	"epoch": 0.6924254016832441,
	"grad_norm": 1.1069297790527344,
	"learning_rate": 9.13435939600881e-05,
	"loss": 0.6385367393493653,
	"step": 905,
	"token_acc": 0.8162096738815308
	},
	{
	"epoch": 0.6962509563886764,
	"grad_norm": 0.9318839311599731,
	"learning_rate": 9.12246174093688e-05,
	"loss": 0.604517650604248,
	"step": 910,
	"token_acc": 0.82686847448349
	},
	{
	"epoch": 0.7000765110941086,
	"grad_norm": 0.8273342251777649,
	"learning_rate": 9.110490739870824e-05,
	"loss": 0.6841697216033935,
	"step": 915,
	"token_acc": 0.8044203519821167
	},
	{
	"epoch": 0.703902065799541,
	"grad_norm": 0.8293759822845459,
	"learning_rate": 9.098446605796239e-05,
	"loss": 0.5717193603515625,
	"step": 920,
	"token_acc": 0.8351298570632935
	},
	{
	"epoch": 0.7077276205049732,
	"grad_norm": 7.753383636474609,
	"learning_rate": 9.086329552999891e-05,
	"loss": 0.5882965564727783,
	"step": 925,
	"token_acc": 0.8285040259361267
	},
	{
	"epoch": 0.7115531752104055,
	"grad_norm": 0.9893306493759155,
	"learning_rate": 9.074139797065897e-05,
	"loss": 0.648917293548584,
	"step": 930,
	"token_acc": 0.8116658329963684
	},
	{
	"epoch": 0.7153787299158378,
	"grad_norm": 0.902746856212616,
	"learning_rate": 9.061877554871896e-05,
	"loss": 0.6094418525695801,
	"step": 935,
	"token_acc": 0.8259324431419373
	},
	{
	"epoch": 0.7192042846212701,
	"grad_norm": 0.9152299165725708,
	"learning_rate": 9.049543044585187e-05,
	"loss": 0.6678308486938477,
	"step": 940,
	"token_acc": 0.816949725151062
	},
	{
	"epoch": 0.7230298393267024,
	"grad_norm": 1.0613242387771606,
	"learning_rate": 9.03713648565885e-05,
	"loss": 0.6197181701660156,
	"step": 945,
	"token_acc": 0.8243659138679504
	},
	{
	"epoch": 0.7268553940321346,
	"grad_norm": 0.7965312600135803,
	"learning_rate": 9.024658098827838e-05,
	"loss": 0.6047243118286133,
	"step": 950,
	"token_acc": 0.8313871622085571
	},
	{
	"epoch": 0.7268553940321346,
	"eval_loss": 0.587164044380188,
	"eval_runtime": 7.7893,
	"eval_samples_per_second": 13.352,
	"eval_steps_per_second": 1.669,
	"eval_token_acc": 0.8293668031692505,
	"step": 950
	},
	{
	"epoch": 0.730680948737567,
	"grad_norm": 0.8924623131752014,
	"learning_rate": 9.012108106105048e-05,
	"loss": 0.5776640892028808,
	"step": 955,
	"token_acc": 0.8302121758460999
	},
	{
	"epoch": 0.7345065034429993,
	"grad_norm": 1.0438350439071655,
	"learning_rate": 8.99948673077738e-05,
	"loss": 0.5650456428527832,
	"step": 960,
	"token_acc": 0.8433432579040527
	},
	{
	"epoch": 0.7383320581484315,
	"grad_norm": 0.8841288685798645,
	"learning_rate": 8.986794197401754e-05,
	"loss": 0.5597739219665527,
	"step": 965,
	"token_acc": 0.8350304365158081
	},
	{
	"epoch": 0.7421576128538638,
	"grad_norm": 0.9303543567657471,
	"learning_rate": 8.974030731801127e-05,
	"loss": 0.6170159816741944,
	"step": 970,
	"token_acc": 0.8251381516456604
	},
	{
	"epoch": 0.7459831675592961,
	"grad_norm": 1.05469810962677,
	"learning_rate": 8.961196561060454e-05,
	"loss": 0.61129789352417,
	"step": 975,
	"token_acc": 0.8258439302444458
	},
	{
	"epoch": 0.7498087222647284,
	"grad_norm": 0.8528873920440674,
	"learning_rate": 8.948291913522677e-05,
	"loss": 0.642275619506836,
	"step": 980,
	"token_acc": 0.8284429907798767
	},
	{
	"epoch": 0.7536342769701607,
	"grad_norm": 0.7755897641181946,
	"learning_rate": 8.935317018784637e-05,
	"loss": 0.5369032859802246,
	"step": 985,
	"token_acc": 0.8431283235549927
	},
	{
	"epoch": 0.7574598316755929,
	"grad_norm": 0.8636773228645325,
	"learning_rate": 8.922272107693e-05,
	"loss": 0.5884841442108154,
	"step": 990,
	"token_acc": 0.830573558807373
	},
	{
	"epoch": 0.7612853863810253,
	"grad_norm": 0.8464745283126831,
	"learning_rate": 8.90915741234015e-05,
	"loss": 0.5174911022186279,
	"step": 995,
	"token_acc": 0.8450327515602112
	},
	{
	"epoch": 0.7651109410864575,
	"grad_norm": 0.8121261596679688,
	"learning_rate": 8.895973166060058e-05,
	"loss": 0.5794853687286377,
	"step": 1000,
	"token_acc": 0.8360881209373474
	},
	{
	"epoch": 0.7651109410864575,
	"eval_loss": 0.5729076862335205,
	"eval_runtime": 7.9584,
	"eval_samples_per_second": 13.068,
	"eval_steps_per_second": 1.634,
	"eval_token_acc": 0.8330559730529785,
	"step": 1000
	},
	{
	"epoch": 0.7689364957918898,
	"grad_norm": 0.8082830309867859,
	"learning_rate": 8.882719603424133e-05,
	"loss": 0.6191754341125488,
	"step": 1005,
	"token_acc": 0.8256863355636597
	},
	{
	"epoch": 0.7727620504973222,
	"grad_norm": 0.8163895010948181,
	"learning_rate": 8.86939696023704e-05,
	"loss": 0.5695658683776855,
	"step": 1010,
	"token_acc": 0.8331784605979919
	},
	{
	"epoch": 0.7765876052027544,
	"grad_norm": 0.8397212624549866,
	"learning_rate": 8.856005473532519e-05,
	"loss": 0.5332405090332031,
	"step": 1015,
	"token_acc": 0.8452962636947632
	},
	{
	"epoch": 0.7804131599081867,
	"grad_norm": 0.8272839188575745,
	"learning_rate": 8.842545381569155e-05,
	"loss": 0.5343279838562012,
	"step": 1020,
	"token_acc": 0.8402997255325317
	},
	{
	"epoch": 0.7842387146136189,
	"grad_norm": 0.8609519004821777,
	"learning_rate": 8.829016923826144e-05,
	"loss": 0.5459603309631348,
	"step": 1025,
	"token_acc": 0.8402543067932129
	},
	{
	"epoch": 0.7880642693190513,
	"grad_norm": 0.8439111113548279,
	"learning_rate": 8.815420340999033e-05,
	"loss": 0.5824572563171386,
	"step": 1030,
	"token_acc": 0.8306134343147278
	},
	{
	"epoch": 0.7918898240244836,
	"grad_norm": 0.8207530975341797,
	"learning_rate": 8.801755874995437e-05,
	"loss": 0.5932113647460937,
	"step": 1035,
	"token_acc": 0.8294033408164978
	},
	{
	"epoch": 0.7957153787299158,
	"grad_norm": 0.9178765416145325,
	"learning_rate": 8.788023768930732e-05,
	"loss": 0.5900128364562989,
	"step": 1040,
	"token_acc": 0.8334224820137024
	},
	{
	"epoch": 0.7995409334353482,
	"grad_norm": 0.7986139059066772,
	"learning_rate": 8.774224267123734e-05,
	"loss": 0.6000078678131103,
	"step": 1045,
	"token_acc": 0.8272825479507446
	},
	{
	"epoch": 0.8033664881407804,
	"grad_norm": 0.8349852561950684,
	"learning_rate": 8.760357615092351e-05,
	"loss": 0.5280231475830078,
	"step": 1050,
	"token_acc": 0.8440104722976685
	},
	{
	"epoch": 0.8033664881407804,
	"eval_loss": 0.574630856513977,
	"eval_runtime": 7.7226,
	"eval_samples_per_second": 13.467,
	"eval_steps_per_second": 1.683,
	"eval_token_acc": 0.833396852016449,
	"step": 1050
	},
	{
	"epoch": 0.8071920428462127,
	"grad_norm": 0.7667945027351379,
	"learning_rate": 8.746424059549213e-05,
	"loss": 0.5487701416015625,
	"step": 1055,
	"token_acc": 0.8400689959526062
	},
	{
	"epoch": 0.811017597551645,
	"grad_norm": 0.9147979617118835,
	"learning_rate": 8.732423848397284e-05,
	"loss": 0.5697606563568115,
	"step": 1060,
	"token_acc": 0.8328049182891846
	},
	{
	"epoch": 0.8148431522570773,
	"grad_norm": 0.8798291087150574,
	"learning_rate": 8.718357230725449e-05,
	"loss": 0.5843188285827636,
	"step": 1065,
	"token_acc": 0.8351316452026367
	},
	{
	"epoch": 0.8186687069625096,
	"grad_norm": 0.9299157857894897,
	"learning_rate": 8.704224456804087e-05,
	"loss": 0.6090686798095704,
	"step": 1070,
	"token_acc": 0.8255612850189209
	},
	{
	"epoch": 0.8224942616679418,
	"grad_norm": 0.8285570740699768,
	"learning_rate": 8.690025778080613e-05,
	"loss": 0.5678855419158936,
	"step": 1075,
	"token_acc": 0.834744930267334
	},
	{
	"epoch": 0.8263198163733741,
	"grad_norm": 1.0449912548065186,
	"learning_rate": 8.67576144717501e-05,
	"loss": 0.5510326385498047,
	"step": 1080,
	"token_acc": 0.8414307832717896
	},
	{
	"epoch": 0.8301453710788065,
	"grad_norm": 0.7922863364219666,
	"learning_rate": 8.661431717875328e-05,
	"loss": 0.5484563827514648,
	"step": 1085,
	"token_acc": 0.8401945233345032
	},
	{
	"epoch": 0.8339709257842387,
	"grad_norm": 1.0209932327270508,
	"learning_rate": 8.647036845133172e-05,
	"loss": 0.5764856338500977,
	"step": 1090,
	"token_acc": 0.8333871960639954
	},
	{
	"epoch": 0.837796480489671,
	"grad_norm": 0.8326112627983093,
	"learning_rate": 8.632577085059168e-05,
	"loss": 0.6004890441894531,
	"step": 1095,
	"token_acc": 0.827037513256073
	},
	{
	"epoch": 0.8416220351951033,
	"grad_norm": 0.7816240787506104,
	"learning_rate": 8.618052694918399e-05,
	"loss": 0.5333565711975098,
	"step": 1100,
	"token_acc": 0.8430129885673523
	},
	{
	"epoch": 0.8416220351951033,
	"eval_loss": 0.5720469951629639,
	"eval_runtime": 7.8984,
	"eval_samples_per_second": 13.167,
	"eval_steps_per_second": 1.646,
	"eval_token_acc": 0.8314921259880066,
	"step": 1100
	},
	{
	"epoch": 0.8454475899005356,
	"grad_norm": 0.9619238376617432,
	"learning_rate": 8.603463933125842e-05,
	"loss": 0.5509546756744385,
	"step": 1105,
	"token_acc": 0.8384957313537598
	},
	{
	"epoch": 0.8492731446059678,
	"grad_norm": 0.9528924822807312,
	"learning_rate": 8.588811059241755e-05,
	"loss": 0.6007543563842773,
	"step": 1110,
	"token_acc": 0.8273714780807495
	},
	{
	"epoch": 0.8530986993114001,
	"grad_norm": 0.812016487121582,
	"learning_rate": 8.574094333967064e-05,
	"loss": 0.5877734661102295,
	"step": 1115,
	"token_acc": 0.8291584253311157
	},
	{
	"epoch": 0.8569242540168325,
	"grad_norm": 1.103339433670044,
	"learning_rate": 8.559314019138727e-05,
	"loss": 0.6196231842041016,
	"step": 1120,
	"token_acc": 0.8281660676002502
	},
	{
	"epoch": 0.8607498087222647,
	"grad_norm": 0.9961858987808228,
	"learning_rate": 8.544470377725078e-05,
	"loss": 0.571223258972168,
	"step": 1125,
	"token_acc": 0.8321356177330017
	},
	{
	"epoch": 0.864575363427697,
	"grad_norm": 0.8015458583831787,
	"learning_rate": 8.529563673821141e-05,
	"loss": 0.538951301574707,
	"step": 1130,
	"token_acc": 0.8429505228996277
	},
	{
	"epoch": 0.8684009181331293,
	"grad_norm": 0.8478720784187317,
	"learning_rate": 8.514594172643934e-05,
	"loss": 0.5572677612304687,
	"step": 1135,
	"token_acc": 0.8356977105140686
	},
	{
	"epoch": 0.8722264728385616,
	"grad_norm": 0.814361572265625,
	"learning_rate": 8.499562140527754e-05,
	"loss": 0.5883401870727539,
	"step": 1140,
	"token_acc": 0.8291968107223511
	},
	{
	"epoch": 0.8760520275439939,
	"grad_norm": 0.8049572706222534,
	"learning_rate": 8.484467844919437e-05,
	"loss": 0.5637226104736328,
	"step": 1145,
	"token_acc": 0.8390661478042603
	},
	{
	"epoch": 0.8798775822494261,
	"grad_norm": 0.749894917011261,
	"learning_rate": 8.469311554373594e-05,
	"loss": 0.4973104000091553,
	"step": 1150,
	"token_acc": 0.8528492450714111
	},
	{
	"epoch": 0.8798775822494261,
	"eval_loss": 0.564576268196106,
	"eval_runtime": 7.7633,
	"eval_samples_per_second": 13.396,
	"eval_steps_per_second": 1.675,
	"eval_token_acc": 0.835151195526123,
	"step": 1150
	},
	{
	"epoch": 0.8837031369548585,
	"grad_norm": 0.9036749005317688,
	"learning_rate": 8.454093538547838e-05,
	"loss": 0.5535676956176758,
	"step": 1155,
	"token_acc": 0.8383986949920654
	},
	{
	"epoch": 0.8875286916602907,
	"grad_norm": 0.7430348992347717,
	"learning_rate": 8.438814068197988e-05,
	"loss": 0.557097339630127,
	"step": 1160,
	"token_acc": 0.8430325388908386
	},
	{
	"epoch": 0.891354246365723,
	"grad_norm": 0.9356522560119629,
	"learning_rate": 8.423473415173247e-05,
	"loss": 0.5787965774536132,
	"step": 1165,
	"token_acc": 0.8321569561958313
	},
	{
	"epoch": 0.8951798010711554,
	"grad_norm": 0.7668983340263367,
	"learning_rate": 8.40807185241137e-05,
	"loss": 0.5303655624389648,
	"step": 1170,
	"token_acc": 0.8440219163894653
	},
	{
	"epoch": 0.8990053557765876,
	"grad_norm": 0.7720690965652466,
	"learning_rate": 8.392609653933803e-05,
	"loss": 0.5396030426025391,
	"step": 1175,
	"token_acc": 0.8430536985397339
	},
	{
	"epoch": 0.9028309104820199,
	"grad_norm": 0.7427228689193726,
	"learning_rate": 8.377087094840813e-05,
	"loss": 0.5650552749633789,
	"step": 1180,
	"token_acc": 0.8388790488243103
	},
	{
	"epoch": 0.9066564651874521,
	"grad_norm": 0.8698520660400391,
	"learning_rate": 8.361504451306585e-05,
	"loss": 0.5175793647766114,
	"step": 1185,
	"token_acc": 0.8486889004707336
	},
	{
	"epoch": 0.9104820198928845,
	"grad_norm": 0.838016927242279,
	"learning_rate": 8.345862000574321e-05,
	"loss": 0.5568198204040528,
	"step": 1190,
	"token_acc": 0.8362753391265869
	},
	{
	"epoch": 0.9143075745983168,
	"grad_norm": 0.7980285286903381,
	"learning_rate": 8.330160020951299e-05,
	"loss": 0.5795284748077393,
	"step": 1195,
	"token_acc": 0.8336633443832397
	},
	{
	"epoch": 0.918133129303749,
	"grad_norm": 0.7379786968231201,
	"learning_rate": 8.314398791803916e-05,
	"loss": 0.5594221115112304,
	"step": 1200,
	"token_acc": 0.8377372026443481
	},
	{
	"epoch": 0.918133129303749,
	"eval_loss": 0.5564058423042297,
	"eval_runtime": 7.7456,
	"eval_samples_per_second": 13.427,
	"eval_steps_per_second": 1.678,
	"eval_token_acc": 0.8375070095062256,
	"step": 1200
	},
	{
	"epoch": 0.9219586840091814,
	"grad_norm": 0.8150419592857361,
	"learning_rate": 8.298578593552737e-05,
	"loss": 0.5221155166625977,
	"step": 1205,
	"token_acc": 0.8457277417182922
	},
	{
	"epoch": 0.9257842387146136,
	"grad_norm": 0.9086570739746094,
	"learning_rate": 8.28269970766748e-05,
	"loss": 0.574681568145752,
	"step": 1210,
	"token_acc": 0.8327599763870239
	},
	{
	"epoch": 0.9296097934200459,
	"grad_norm": 0.8389135599136353,
	"learning_rate": 8.26676241666203e-05,
	"loss": 0.5882039070129395,
	"step": 1215,
	"token_acc": 0.8281732797622681
	},
	{
	"epoch": 0.9334353481254782,
	"grad_norm": 1.0141870975494385,
	"learning_rate": 8.250767004089399e-05,
	"loss": 0.5588771820068359,
	"step": 1220,
	"token_acc": 0.8358601331710815
	},
	{
	"epoch": 0.9372609028309105,
	"grad_norm": 0.8374904990196228,
	"learning_rate": 8.23471375453669e-05,
	"loss": 0.5152300834655762,
	"step": 1225,
	"token_acc": 0.8489376902580261
	},
	{
	"epoch": 0.9410864575363428,
	"grad_norm": 0.8244453072547913,
	"learning_rate": 8.21860295362003e-05,
	"loss": 0.500080680847168,
	"step": 1230,
	"token_acc": 0.8521796464920044
	},
	{
	"epoch": 0.944912012241775,
	"grad_norm": 0.9917334318161011,
	"learning_rate": 8.20243488797948e-05,
	"loss": 0.5609046459197998,
	"step": 1235,
	"token_acc": 0.8397351503372192
	},
	{
	"epoch": 0.9487375669472073,
	"grad_norm": 1.4528796672821045,
	"learning_rate": 8.186209845273954e-05,
	"loss": 0.6106361389160156,
	"step": 1240,
	"token_acc": 0.8287570476531982
	},
	{
	"epoch": 0.9525631216526397,
	"grad_norm": 0.8477284908294678,
	"learning_rate": 8.169928114176084e-05,
	"loss": 0.534299659729004,
	"step": 1245,
	"token_acc": 0.8459932208061218
	},
	{
	"epoch": 0.9563886763580719,
	"grad_norm": 0.9785248041152954,
	"learning_rate": 8.153589984367091e-05,
	"loss": 0.5453691959381104,
	"step": 1250,
	"token_acc": 0.8423656821250916
	},
	{
	"epoch": 0.9563886763580719,
	"eval_loss": 0.5528830885887146,
	"eval_runtime": 8.7628,
	"eval_samples_per_second": 11.868,
	"eval_steps_per_second": 1.484,
	"eval_token_acc": 0.8377977609634399,
	"step": 1250
	},
	{
	"epoch": 0.9602142310635042,
	"grad_norm": 0.7743374705314636,
	"learning_rate": 8.137195746531635e-05,
	"loss": 0.5649035453796387,
	"step": 1255,
	"token_acc": 0.83652263879776
	},
	{
	"epoch": 0.9640397857689365,
	"grad_norm": 0.9111794829368591,
	"learning_rate": 8.120745692352627e-05,
	"loss": 0.5429101943969726,
	"step": 1260,
	"token_acc": 0.8409203886985779
	},
	{
	"epoch": 0.9678653404743688,
	"grad_norm": 0.8705430030822754,
	"learning_rate": 8.104240114506065e-05,
	"loss": 0.5348100185394287,
	"step": 1265,
	"token_acc": 0.8432644009590149
	},
	{
	"epoch": 0.9716908951798011,
	"grad_norm": 0.7576097249984741,
	"learning_rate": 8.087679306655804e-05,
	"loss": 0.5683703422546387,
	"step": 1270,
	"token_acc": 0.836378276348114
	},
	{
	"epoch": 0.9755164498852333,
	"grad_norm": 1.1635630130767822,
	"learning_rate": 8.07106356344834e-05,
	"loss": 0.6346898078918457,
	"step": 1275,
	"token_acc": 0.8285390734672546
	},
	{
	"epoch": 0.9793420045906657,
	"grad_norm": 0.827690601348877,
	"learning_rate": 8.054393180507572e-05,
	"loss": 0.5661238193511963,
	"step": 1280,
	"token_acc": 0.8387032747268677
	},
	{
	"epoch": 0.9831675592960979,
	"grad_norm": 0.888037383556366,
	"learning_rate": 8.037668454429534e-05,
	"loss": 0.5784870624542237,
	"step": 1285,
	"token_acc": 0.8306419849395752
	},
	{
	"epoch": 0.9869931140015302,
	"grad_norm": 0.7650582790374756,
	"learning_rate": 8.020889682777127e-05,
	"loss": 0.5594500064849853,
	"step": 1290,
	"token_acc": 0.8358885645866394
	},
	{
	"epoch": 0.9908186687069626,
	"grad_norm": 0.8132854104042053,
	"learning_rate": 8.004057164074814e-05,
	"loss": 0.5590912818908691,
	"step": 1295,
	"token_acc": 0.8387227654457092
	},
	{
	"epoch": 0.9946442234123948,
	"grad_norm": 0.8819040656089783,
	"learning_rate": 7.987171197803315e-05,
	"loss": 0.5425111770629882,
	"step": 1300,
	"token_acc": 0.8366984128952026
	},
	{
	"epoch": 0.9946442234123948,
	"eval_loss": 0.5410341024398804,
	"eval_runtime": 7.8851,
	"eval_samples_per_second": 13.189,
	"eval_steps_per_second": 1.649,
	"eval_token_acc": 0.8402237296104431,
	"step": 1300
	},
	{
	"epoch": 0.9984697781178271,
	"grad_norm": 0.7759367227554321,
	"learning_rate": 7.970232084394282e-05,
	"loss": 0.4794795989990234,
	"step": 1305,
	"token_acc": 0.8576377034187317
	},
	{
	"epoch": 1.0022953328232593,
	"grad_norm": 0.7615346908569336,
	"learning_rate": 7.953240125224948e-05,
	"loss": 0.4416775703430176,
	"step": 1310,
	"token_acc": 0.8654638528823853
	},
	{
	"epoch": 1.0061208875286916,
	"grad_norm": 0.7918492555618286,
	"learning_rate": 7.936195622612767e-05,
	"loss": 0.37592229843139646,
	"step": 1315,
	"token_acc": 0.8773406147956848
	},
	{
	"epoch": 1.009946442234124,
	"grad_norm": 0.717467725276947,
	"learning_rate": 7.919098879810036e-05,
	"loss": 0.4267716407775879,
	"step": 1320,
	"token_acc": 0.8671300411224365
	},
	{
	"epoch": 1.0137719969395562,
	"grad_norm": 0.7892487645149231,
	"learning_rate": 7.901950200998493e-05,
	"loss": 0.382064151763916,
	"step": 1325,
	"token_acc": 0.8785242438316345
	},
	{
	"epoch": 1.0175975516449884,
	"grad_norm": 0.7296363711357117,
	"learning_rate": 7.884749891283922e-05,
	"loss": 0.36800203323364256,
	"step": 1330,
	"token_acc": 0.881615400314331
	},
	{
	"epoch": 1.0214231063504209,
	"grad_norm": 1.087638258934021,
	"learning_rate": 7.867498256690704e-05,
	"loss": 0.37799820899963377,
	"step": 1335,
	"token_acc": 0.877220094203949
	},
	{
	"epoch": 1.025248661055853,
	"grad_norm": 0.7339928150177002,
	"learning_rate": 7.850195604156385e-05,
	"loss": 0.37110204696655275,
	"step": 1340,
	"token_acc": 0.884996771812439
	},
	{
	"epoch": 1.0290742157612853,
	"grad_norm": 0.8464434742927551,
	"learning_rate": 7.832842241526212e-05,
	"loss": 0.3805660009384155,
	"step": 1345,
	"token_acc": 0.879789412021637
	},
	{
	"epoch": 1.0328997704667178,
	"grad_norm": 0.689896821975708,
	"learning_rate": 7.815438477547655e-05,
	"loss": 0.3583992481231689,
	"step": 1350,
	"token_acc": 0.8869645595550537
	},
	{
	"epoch": 1.0328997704667178,
	"eval_loss": 0.5596266984939575,
	"eval_runtime": 7.7953,
	"eval_samples_per_second": 13.341,
	"eval_steps_per_second": 1.668,
	"eval_token_acc": 0.8413565754890442,
	"step": 1350
	},
	{
	"epoch": 1.03672532517215,
	"grad_norm": 0.6902993321418762,
	"learning_rate": 7.797984621864916e-05,
	"loss": 0.42625932693481444,
	"step": 1355,
	"token_acc": 0.8614287376403809
	},
	{
	"epoch": 1.0405508798775822,
	"grad_norm": 0.7562316060066223,
	"learning_rate": 7.780480985013413e-05,
	"loss": 0.3689578533172607,
	"step": 1360,
	"token_acc": 0.8820473551750183
	},
	{
	"epoch": 1.0443764345830144,
	"grad_norm": 0.6517492532730103,
	"learning_rate": 7.762927878414267e-05,
	"loss": 0.32921748161315917,
	"step": 1365,
	"token_acc": 0.8926072120666504
	},
	{
	"epoch": 1.0482019892884469,
	"grad_norm": 0.8397619724273682,
	"learning_rate": 7.745325614368755e-05,
	"loss": 0.3830822229385376,
	"step": 1370,
	"token_acc": 0.8756515383720398
	},
	{
	"epoch": 1.052027543993879,
	"grad_norm": 0.7649819254875183,
	"learning_rate": 7.727674506052743e-05,
	"loss": 0.37806334495544436,
	"step": 1375,
	"token_acc": 0.8804787993431091
	},
	{
	"epoch": 1.0558530986993113,
	"grad_norm": 0.7365129590034485,
	"learning_rate": 7.709974867511138e-05,
	"loss": 0.3349802017211914,
	"step": 1380,
	"token_acc": 0.8934342861175537
	},
	{
	"epoch": 1.0596786534047438,
	"grad_norm": 0.884164571762085,
	"learning_rate": 7.692227013652278e-05,
	"loss": 0.36524980068206786,
	"step": 1385,
	"token_acc": 0.8806947469711304
	},
	{
	"epoch": 1.063504208110176,
	"grad_norm": 0.6860577464103699,
	"learning_rate": 7.674431260242338e-05,
	"loss": 0.367877721786499,
	"step": 1390,
	"token_acc": 0.8842624425888062
	},
	{
	"epoch": 1.0673297628156082,
	"grad_norm": 0.7009398937225342,
	"learning_rate": 7.656587923899718e-05,
	"loss": 0.3564207315444946,
	"step": 1395,
	"token_acc": 0.8837472200393677
	},
	{
	"epoch": 1.0711553175210407,
	"grad_norm": 0.7540706396102905,
	"learning_rate": 7.638697322089398e-05,
	"loss": 0.3640351057052612,
	"step": 1400,
	"token_acc": 0.8847005367279053
	},
	{
	"epoch": 1.0711553175210407,
	"eval_loss": 0.5507253408432007,
	"eval_runtime": 7.7117,
	"eval_samples_per_second": 13.486,
	"eval_steps_per_second": 1.686,
	"eval_token_acc": 0.8438527584075928,
	"step": 1400
	},
	{
	"epoch": 1.0749808722264729,
	"grad_norm": 0.6863798499107361,
	"learning_rate": 7.620759773117299e-05,
	"loss": 0.3779132604598999,
	"step": 1405,
	"token_acc": 0.8826145529747009
	},
	{
	"epoch": 1.078806426931905,
	"grad_norm": 0.7733192443847656,
	"learning_rate": 7.602775596124611e-05,
	"loss": 0.3633275032043457,
	"step": 1410,
	"token_acc": 0.886398196220398
	},
	{
	"epoch": 1.0826319816373373,
	"grad_norm": 0.7949317693710327,
	"learning_rate": 7.584745111082127e-05,
	"loss": 0.3376323699951172,
	"step": 1415,
	"token_acc": 0.8887669444084167
	},
	{
	"epoch": 1.0864575363427698,
	"grad_norm": 0.6832326650619507,
	"learning_rate": 7.566668638784542e-05,
	"loss": 0.33144965171813967,
	"step": 1420,
	"token_acc": 0.8916584849357605
	},
	{
	"epoch": 1.090283091048202,
	"grad_norm": 0.8551044464111328,
	"learning_rate": 7.548546500844742e-05,
	"loss": 0.3287867546081543,
	"step": 1425,
	"token_acc": 0.8930348753929138
	},
	{
	"epoch": 1.0941086457536342,
	"grad_norm": 0.7423316240310669,
	"learning_rate": 7.530379019688092e-05,
	"loss": 0.3902039289474487,
	"step": 1430,
	"token_acc": 0.8757656812667847
	},
	{
	"epoch": 1.0979342004590666,
	"grad_norm": 0.8404172658920288,
	"learning_rate": 7.51216651854669e-05,
	"loss": 0.390373969078064,
	"step": 1435,
	"token_acc": 0.8776587843894958
	},
	{
	"epoch": 1.1017597551644989,
	"grad_norm": 0.8963853120803833,
	"learning_rate": 7.493909321453625e-05,
	"loss": 0.4068464279174805,
	"step": 1440,
	"token_acc": 0.8700478076934814
	},
	{
	"epoch": 1.105585309869931,
	"grad_norm": 0.7311558723449707,
	"learning_rate": 7.475607753237202e-05,
	"loss": 0.3884909629821777,
	"step": 1445,
	"token_acc": 0.8745863437652588
	},
	{
	"epoch": 1.1094108645753635,
	"grad_norm": 0.7590047121047974,
	"learning_rate": 7.457262139515171e-05,
	"loss": 0.3895232677459717,
	"step": 1450,
	"token_acc": 0.8725248575210571
	},
	{
	"epoch": 1.1094108645753635,
	"eval_loss": 0.5504098534584045,
	"eval_runtime": 7.7559,
	"eval_samples_per_second": 13.409,
	"eval_steps_per_second": 1.676,
	"eval_token_acc": 0.8443038463592529,
	"step": 1450
	},
	{
	"epoch": 1.1132364192807958,
	"grad_norm": 0.882554292678833,
	"learning_rate": 7.438872806688934e-05,
	"loss": 0.40759758949279784,
	"step": 1455,
	"token_acc": 0.8712476491928101
	},
	{
	"epoch": 1.117061973986228,
	"grad_norm": 0.6808732748031616,
	"learning_rate": 7.420440081937728e-05,
	"loss": 0.3652071237564087,
	"step": 1460,
	"token_acc": 0.8835034370422363
	},
	{
	"epoch": 1.1208875286916602,
	"grad_norm": 0.837759256362915,
	"learning_rate": 7.401964293212809e-05,
	"loss": 0.409121036529541,
	"step": 1465,
	"token_acc": 0.8712127208709717
	},
	{
	"epoch": 1.1247130833970926,
	"grad_norm": 0.6652865409851074,
	"learning_rate": 7.383445769231627e-05,
	"loss": 0.3703787803649902,
	"step": 1470,
	"token_acc": 0.8831153512001038
	},
	{
	"epoch": 1.1285386381025249,
	"grad_norm": 0.8179388642311096,
	"learning_rate": 7.364884839471964e-05,
	"loss": 0.39147076606750486,
	"step": 1475,
	"token_acc": 0.8752105236053467
	},
	{
	"epoch": 1.132364192807957,
	"grad_norm": 0.719514012336731,
	"learning_rate": 7.346281834166075e-05,
	"loss": 0.37967238426208494,
	"step": 1480,
	"token_acc": 0.8796840906143188
	},
	{
	"epoch": 1.1361897475133895,
	"grad_norm": 0.9179552793502808,
	"learning_rate": 7.327637084294817e-05,
	"loss": 0.3995789051055908,
	"step": 1485,
	"token_acc": 0.8751766085624695
	},
	{
	"epoch": 1.1400153022188217,
	"grad_norm": 0.7656182050704956,
	"learning_rate": 7.308950921581756e-05,
	"loss": 0.34888639450073244,
	"step": 1490,
	"token_acc": 0.89056795835495
	},
	{
	"epoch": 1.143840856924254,
	"grad_norm": 0.7309355735778809,
	"learning_rate": 7.290223678487272e-05,
	"loss": 0.39315025806427,
	"step": 1495,
	"token_acc": 0.876833438873291
	},
	{
	"epoch": 1.1476664116296864,
	"grad_norm": 0.7618235349655151,
	"learning_rate": 7.27145568820263e-05,
	"loss": 0.35439176559448243,
	"step": 1500,
	"token_acc": 0.8836838006973267
	},
	{
	"epoch": 1.1476664116296864,
	"eval_loss": 0.5430108904838562,
	"eval_runtime": 7.6873,
	"eval_samples_per_second": 13.529,
	"eval_steps_per_second": 1.691,
	"eval_token_acc": 0.8448953628540039,
	"step": 1500
	},
	{
	"epoch": 1.1514919663351186,
	"grad_norm": 0.8058356046676636,
	"learning_rate": 7.25264728464407e-05,
	"loss": 0.3466159820556641,
	"step": 1505,
	"token_acc": 0.8869272470474243
	},
	{
	"epoch": 1.1553175210405509,
	"grad_norm": 0.7806113362312317,
	"learning_rate": 7.233798802446847e-05,
	"loss": 0.40935721397399905,
	"step": 1510,
	"token_acc": 0.8709314465522766
	},
	{
	"epoch": 1.159143075745983,
	"grad_norm": 0.8264714479446411,
	"learning_rate": 7.214910576959297e-05,
	"loss": 0.38201849460601806,
	"step": 1515,
	"token_acc": 0.8780457973480225
	},
	{
	"epoch": 1.1629686304514155,
	"grad_norm": 0.6713389158248901,
	"learning_rate": 7.195982944236851e-05,
	"loss": 0.3252051115036011,
	"step": 1520,
	"token_acc": 0.892856240272522
	},
	{
	"epoch": 1.1667941851568477,
	"grad_norm": 0.7945072650909424,
	"learning_rate": 7.177016241036075e-05,
	"loss": 0.35387892723083497,
	"step": 1525,
	"token_acc": 0.8838560581207275
	},
	{
	"epoch": 1.17061973986228,
	"grad_norm": 0.8310626745223999,
	"learning_rate": 7.15801080480866e-05,
	"loss": 0.3746853590011597,
	"step": 1530,
	"token_acc": 0.8799676299095154
	},
	{
	"epoch": 1.1744452945677124,
	"grad_norm": 0.9108403325080872,
	"learning_rate": 7.138966973695431e-05,
	"loss": 0.36667909622192385,
	"step": 1535,
	"token_acc": 0.8820632100105286
	},
	{
	"epoch": 1.1782708492731446,
	"grad_norm": 0.7420673966407776,
	"learning_rate": 7.119885086520329e-05,
	"loss": 0.36235547065734863,
	"step": 1540,
	"token_acc": 0.8849785923957825
	},
	{
	"epoch": 1.1820964039785768,
	"grad_norm": 0.6693369150161743,
	"learning_rate": 7.100765482784377e-05,
	"loss": 0.3710158824920654,
	"step": 1545,
	"token_acc": 0.8811267614364624
	},
	{
	"epoch": 1.185921958684009,
	"grad_norm": 0.7249651551246643,
	"learning_rate": 7.081608502659646e-05,
	"loss": 0.3993852615356445,
	"step": 1550,
	"token_acc": 0.8718493580818176
	},
	{
	"epoch": 1.185921958684009,
	"eval_loss": 0.5383990406990051,
	"eval_runtime": 7.5793,
	"eval_samples_per_second": 13.722,
	"eval_steps_per_second": 1.715,
	"eval_token_acc": 0.8461685180664062,
	"step": 1550
	},
	{
	"epoch": 1.1897475133894415,
	"grad_norm": 0.9157434105873108,
	"learning_rate": 7.062414486983197e-05,
	"loss": 0.3987370491027832,
	"step": 1555,
	"token_acc": 0.8729732036590576
	},
	{
	"epoch": 1.1935730680948737,
	"grad_norm": 0.6402376890182495,
	"learning_rate": 7.043183777251024e-05,
	"loss": 0.2903183698654175,
	"step": 1560,
	"token_acc": 0.9057296514511108
	},
	{
	"epoch": 1.197398622800306,
	"grad_norm": 0.7679566144943237,
	"learning_rate": 7.023916715611969e-05,
	"loss": 0.4904749870300293,
	"step": 1565,
	"token_acc": 0.8663699626922607
	},
	{
	"epoch": 1.2012241775057384,
	"grad_norm": 0.8699092864990234,
	"learning_rate": 7.004613644861647e-05,
	"loss": 0.4231747627258301,
	"step": 1570,
	"token_acc": 0.8677194714546204
	},
	{
	"epoch": 1.2050497322111706,
	"grad_norm": 0.6792256832122803,
	"learning_rate": 6.985274908436333e-05,
	"loss": 0.44817123413085935,
	"step": 1575,
	"token_acc": 0.8659628629684448
	},
	{
	"epoch": 1.2088752869166028,
	"grad_norm": 0.7418417930603027,
	"learning_rate": 6.965900850406859e-05,
	"loss": 0.33240585327148436,
	"step": 1580,
	"token_acc": 0.8937970399856567
	},
	{
	"epoch": 1.2127008416220353,
	"grad_norm": 0.8835020065307617,
	"learning_rate": 6.946491815472496e-05,
	"loss": 0.3884410381317139,
	"step": 1585,
	"token_acc": 0.876690149307251
	},
	{
	"epoch": 1.2165263963274675,
	"grad_norm": 0.9086595177650452,
	"learning_rate": 6.927048148954812e-05,
	"loss": 0.410748291015625,
	"step": 1590,
	"token_acc": 0.8735622763633728
	},
	{
	"epoch": 1.2203519510328997,
	"grad_norm": 0.7838605642318726,
	"learning_rate": 6.907570196791538e-05,
	"loss": 0.3603389739990234,
	"step": 1595,
	"token_acc": 0.8829374313354492
	},
	{
	"epoch": 1.2241775057383322,
	"grad_norm": 0.7454732060432434,
	"learning_rate": 6.888058305530406e-05,
	"loss": 0.37654249668121337,
	"step": 1600,
	"token_acc": 0.8782923817634583
	},
	{
	"epoch": 1.2241775057383322,
	"eval_loss": 0.5343810319900513,
	"eval_runtime": 7.6236,
	"eval_samples_per_second": 13.642,
	"eval_steps_per_second": 1.705,
	"eval_token_acc": 0.8475719690322876,
	"step": 1600
	},
	{
	"epoch": 1.2280030604437644,
	"grad_norm": 0.7611352801322937,
	"learning_rate": 6.868512822322981e-05,
	"loss": 0.38566131591796876,
	"step": 1605,
	"token_acc": 0.8766804337501526
	},
	{
	"epoch": 1.2318286151491966,
	"grad_norm": 0.8874756693840027,
	"learning_rate": 6.848934094918498e-05,
	"loss": 0.38291475772857664,
	"step": 1610,
	"token_acc": 0.87657630443573
	},
	{
	"epoch": 1.2356541698546288,
	"grad_norm": 0.7193310260772705,
	"learning_rate": 6.829322471657658e-05,
	"loss": 0.3452467441558838,
	"step": 1615,
	"token_acc": 0.8881570100784302
	},
	{
	"epoch": 1.2394797245600613,
	"grad_norm": 0.661790668964386,
	"learning_rate": 6.809678301466443e-05,
	"loss": 0.3452208757400513,
	"step": 1620,
	"token_acc": 0.8885095715522766
	},
	{
	"epoch": 1.2433052792654935,
	"grad_norm": 0.8313160538673401,
	"learning_rate": 6.790001933849899e-05,
	"loss": 0.39090492725372317,
	"step": 1625,
	"token_acc": 0.8772667646408081
	},
	{
	"epoch": 1.2471308339709257,
	"grad_norm": 0.7543197870254517,
	"learning_rate": 6.770293718885928e-05,
	"loss": 0.37844099998474123,
	"step": 1630,
	"token_acc": 0.8773866295814514
	},
	{
	"epoch": 1.2509563886763582,
	"grad_norm": 0.7187685370445251,
	"learning_rate": 6.750554007219047e-05,
	"loss": 0.37274966239929197,
	"step": 1635,
	"token_acc": 0.8813634514808655
	},
	{
	"epoch": 1.2547819433817904,
	"grad_norm": 0.7216220498085022,
	"learning_rate": 6.730783150054164e-05,
	"loss": 0.40465946197509767,
	"step": 1640,
	"token_acc": 0.8722350597381592
	},
	{
	"epoch": 1.2586074980872226,
	"grad_norm": 0.808250367641449,
	"learning_rate": 6.71098149915031e-05,
	"loss": 0.39015932083129884,
	"step": 1645,
	"token_acc": 0.8755351901054382
	},
	{
	"epoch": 1.2624330527926548,
	"grad_norm": 0.6570851802825928,
	"learning_rate": 6.691149406814403e-05,
	"loss": 0.33088486194610595,
	"step": 1650,
	"token_acc": 0.8907855153083801
	},
	{
	"epoch": 1.2624330527926548,
	"eval_loss": 0.5374127626419067,
	"eval_runtime": 7.8026,
	"eval_samples_per_second": 13.329,
	"eval_steps_per_second": 1.666,
	"eval_token_acc": 0.8472611904144287,
	"step": 1650
	},
	{
	"epoch": 1.2662586074980873,
	"grad_norm": 0.6985551714897156,
	"learning_rate": 6.67128722589496e-05,
	"loss": 0.3755918502807617,
	"step": 1655,
	"token_acc": 0.8816916346549988
	},
	{
	"epoch": 1.2700841622035195,
	"grad_norm": 0.7275698781013489,
	"learning_rate": 6.651395309775837e-05,
	"loss": 0.3765554428100586,
	"step": 1660,
	"token_acc": 0.8811103701591492
	},
	{
	"epoch": 1.2739097169089517,
	"grad_norm": 0.729633092880249,
	"learning_rate": 6.631474012369921e-05,
	"loss": 0.3696659803390503,
	"step": 1665,
	"token_acc": 0.8816789984703064
	},
	{
	"epoch": 1.2777352716143842,
	"grad_norm": 0.7620216012001038,
	"learning_rate": 6.611523688112858e-05,
	"loss": 0.35426578521728513,
	"step": 1670,
	"token_acc": 0.8883428573608398
	},
	{
	"epoch": 1.2815608263198164,
	"grad_norm": 0.8159366846084595,
	"learning_rate": 6.591544691956723e-05,
	"loss": 0.38610110282897947,
	"step": 1675,
	"token_acc": 0.8776164054870605
	},
	{
	"epoch": 1.2853863810252486,
	"grad_norm": 0.8567126989364624,
	"learning_rate": 6.571537379363719e-05,
	"loss": 0.4222766399383545,
	"step": 1680,
	"token_acc": 0.8723132610321045
	},
	{
	"epoch": 1.2892119357306808,
	"grad_norm": 0.8297275304794312,
	"learning_rate": 6.551502106299851e-05,
	"loss": 0.37399892807006835,
	"step": 1685,
	"token_acc": 0.8821731209754944
	},
	{
	"epoch": 1.2930374904361133,
	"grad_norm": 0.6843409538269043,
	"learning_rate": 6.531439229228591e-05,
	"loss": 0.3343992233276367,
	"step": 1690,
	"token_acc": 0.892397403717041
	},
	{
	"epoch": 1.2968630451415455,
	"grad_norm": 0.7213367819786072,
	"learning_rate": 6.511349105104534e-05,
	"loss": 0.38822097778320314,
	"step": 1695,
	"token_acc": 0.8769423365592957
	},
	{
	"epoch": 1.300688599846978,
	"grad_norm": 0.700702428817749,
	"learning_rate": 6.491232091367049e-05,
	"loss": 0.35975372791290283,
	"step": 1700,
	"token_acc": 0.8861437439918518
	},
	{
	"epoch": 1.300688599846978,
	"eval_loss": 0.526591956615448,
	"eval_runtime": 7.7916,
	"eval_samples_per_second": 13.348,
	"eval_steps_per_second": 1.668,
	"eval_token_acc": 0.8482837677001953,
	"step": 1700
	},
	{
	"epoch": 1.3045141545524102,
	"grad_norm": 0.7598251104354858,
	"learning_rate": 6.471088545933921e-05,
	"loss": 0.3564164638519287,
	"step": 1705,
	"token_acc": 0.8872470855712891
	},
	{
	"epoch": 1.3083397092578424,
	"grad_norm": 0.7174568176269531,
	"learning_rate": 6.450918827194978e-05,
	"loss": 0.3287261962890625,
	"step": 1710,
	"token_acc": 0.894193708896637
	},
	{
	"epoch": 1.3121652639632746,
	"grad_norm": 0.7934249043464661,
	"learning_rate": 6.430723294005726e-05,
	"loss": 0.3405998468399048,
	"step": 1715,
	"token_acc": 0.8878347277641296
	},
	{
	"epoch": 1.315990818668707,
	"grad_norm": 0.8109247088432312,
	"learning_rate": 6.410502305680946e-05,
	"loss": 0.3818791389465332,
	"step": 1720,
	"token_acc": 0.8762706518173218
	},
	{
	"epoch": 1.3198163733741393,
	"grad_norm": 0.7905654311180115,
	"learning_rate": 6.390256221988318e-05,
	"loss": 0.3510235548019409,
	"step": 1725,
	"token_acc": 0.8884668946266174
	},
	{
	"epoch": 1.3236419280795715,
	"grad_norm": 0.7302840352058411,
	"learning_rate": 6.369985403142014e-05,
	"loss": 0.3860185146331787,
	"step": 1730,
	"token_acc": 0.8776938915252686
	},
	{
	"epoch": 1.327467482785004,
	"grad_norm": 0.7890005111694336,
	"learning_rate": 6.349690209796285e-05,
	"loss": 0.4002682685852051,
	"step": 1735,
	"token_acc": 0.8717520236968994
	},
	{
	"epoch": 1.3312930374904361,
	"grad_norm": 0.6541386842727661,
	"learning_rate": 6.329371003039051e-05,
	"loss": 0.3814365863800049,
	"step": 1740,
	"token_acc": 0.8806993365287781
	},
	{
	"epoch": 1.3351185921958684,
	"grad_norm": 0.7147980332374573,
	"learning_rate": 6.309028144385472e-05,
	"loss": 0.3602738380432129,
	"step": 1745,
	"token_acc": 0.8850005269050598
	},
	{
	"epoch": 1.3389441469013006,
	"grad_norm": 0.6951248049736023,
	"learning_rate": 6.288661995771522e-05,
	"loss": 0.35432114601135256,
	"step": 1750,
	"token_acc": 0.8871864080429077
	},
	{
	"epoch": 1.3389441469013006,
	"eval_loss": 0.5236285924911499,
	"eval_runtime": 7.7868,
	"eval_samples_per_second": 13.356,
	"eval_steps_per_second": 1.669,
	"eval_token_acc": 0.8510806560516357,
	"step": 1750
	},
	{
	"epoch": 1.342769701606733,
	"grad_norm": 0.7138703465461731,
	"learning_rate": 6.268272919547537e-05,
	"loss": 0.3437394857406616,
	"step": 1755,
	"token_acc": 0.8870205283164978
	},
	{
	"epoch": 1.3465952563121653,
	"grad_norm": 0.7315565943717957,
	"learning_rate": 6.247861278471785e-05,
	"loss": 0.3766175270080566,
	"step": 1760,
	"token_acc": 0.883225679397583
	},
	{
	"epoch": 1.3504208110175975,
	"grad_norm": 0.7530694603919983,
	"learning_rate": 6.227427435703997e-05,
	"loss": 0.3583348035812378,
	"step": 1765,
	"token_acc": 0.8860324025154114
	},
	{
	"epoch": 1.35424636572303,
	"grad_norm": 0.7517703175544739,
	"learning_rate": 6.206971754798913e-05,
	"loss": 0.3681065559387207,
	"step": 1770,
	"token_acc": 0.8821339011192322
	},
	{
	"epoch": 1.3580719204284621,
	"grad_norm": 1.0113003253936768,
	"learning_rate": 6.186494599699819e-05,
	"loss": 0.34742186069488523,
	"step": 1775,
	"token_acc": 0.8917561173439026
	},
	{
	"epoch": 1.3618974751338944,
	"grad_norm": 0.9447914361953735,
	"learning_rate": 6.165996334732055e-05,
	"loss": 0.3852540969848633,
	"step": 1780,
	"token_acc": 0.8768330216407776
	},
	{
	"epoch": 1.3657230298393266,
	"grad_norm": 1.0187249183654785,
	"learning_rate": 6.145477324596552e-05,
	"loss": 0.41319589614868163,
	"step": 1785,
	"token_acc": 0.8700772523880005
	},
	{
	"epoch": 1.369548584544759,
	"grad_norm": 0.716583251953125,
	"learning_rate": 6.124937934363331e-05,
	"loss": 0.33546440601348876,
	"step": 1790,
	"token_acc": 0.8909059166908264
	},
	{
	"epoch": 1.3733741392501913,
	"grad_norm": 0.7670001983642578,
	"learning_rate": 6.104378529465009e-05,
	"loss": 0.35624008178710936,
	"step": 1795,
	"token_acc": 0.8858749270439148
	},
	{
	"epoch": 1.3771996939556237,
	"grad_norm": 0.7541671991348267,
	"learning_rate": 6.083799475690309e-05,
	"loss": 0.38024513721466063,
	"step": 1800,
	"token_acc": 0.8788754343986511
	},
	{
	"epoch": 1.3771996939556237,
	"eval_loss": 0.5222176909446716,
	"eval_runtime": 7.9549,
	"eval_samples_per_second": 13.074,
	"eval_steps_per_second": 1.634,
	"eval_token_acc": 0.8502886891365051,
	"step": 1800
	},
	{
	"epoch": 1.381025248661056,
	"grad_norm": 0.7164918184280396,
	"learning_rate": 6.0632011391775325e-05,
	"loss": 0.3274393081665039,
	"step": 1805,
	"token_acc": 0.8930581212043762
	},
	{
	"epoch": 1.3848508033664881,
	"grad_norm": 0.7994803786277771,
	"learning_rate": 6.0425838864080594e-05,
	"loss": 0.37533011436462405,
	"step": 1810,
	"token_acc": 0.8814812898635864
	},
	{
	"epoch": 1.3886763580719204,
	"grad_norm": 0.610385000705719,
	"learning_rate": 6.0219480841998265e-05,
	"loss": 0.3626489877700806,
	"step": 1815,
	"token_acc": 0.8824625611305237
	},
	{
	"epoch": 1.3925019127773526,
	"grad_norm": 0.8779500126838684,
	"learning_rate": 6.001294099700795e-05,
	"loss": 0.3818621873855591,
	"step": 1820,
	"token_acc": 0.8814284205436707
	},
	{
	"epoch": 1.396327467482785,
	"grad_norm": 0.9023825526237488,
	"learning_rate": 5.980622300382424e-05,
	"loss": 0.34031038284301757,
	"step": 1825,
	"token_acc": 0.8901993036270142
	},
	{
	"epoch": 1.4001530221882172,
	"grad_norm": 0.7254869937896729,
	"learning_rate": 5.959933054033125e-05,
	"loss": 0.33964922428131106,
	"step": 1830,
	"token_acc": 0.8894827365875244
	},
	{
	"epoch": 1.4039785768936497,
	"grad_norm": 0.7711949944496155,
	"learning_rate": 5.9392267287517325e-05,
	"loss": 0.37581453323364256,
	"step": 1835,
	"token_acc": 0.8802526593208313
	},
	{
	"epoch": 1.407804131599082,
	"grad_norm": 0.8236564993858337,
	"learning_rate": 5.918503692940936e-05,
	"loss": 0.3631006717681885,
	"step": 1840,
	"token_acc": 0.8837177753448486
	},
	{
	"epoch": 1.4116296863045141,
	"grad_norm": 0.729147732257843,
	"learning_rate": 5.8977643153007436e-05,
	"loss": 0.39508538246154784,
	"step": 1845,
	"token_acc": 0.8759874701499939
	},
	{
	"epoch": 1.4154552410099464,
	"grad_norm": 0.7146396636962891,
	"learning_rate": 5.8770089648219086e-05,
	"loss": 0.38811707496643066,
	"step": 1850,
	"token_acc": 0.8768134713172913
	},
	{
	"epoch": 1.4154552410099464,
	"eval_loss": 0.508669912815094,
	"eval_runtime": 7.7202,
	"eval_samples_per_second": 13.471,
	"eval_steps_per_second": 1.684,
	"eval_token_acc": 0.8521132469177246,
	"step": 1850
	},
	{
	"epoch": 1.4192807957153788,
	"grad_norm": 0.729438066482544,
	"learning_rate": 5.8562380107793723e-05,
	"loss": 0.39258522987365724,
	"step": 1855,
	"token_acc": 0.8775860071182251
	},
	{
	"epoch": 1.423106350420811,
	"grad_norm": 0.6797559857368469,
	"learning_rate": 5.835451822725691e-05,
	"loss": 0.3752496957778931,
	"step": 1860,
	"token_acc": 0.8779392242431641
	},
	{
	"epoch": 1.4269319051262432,
	"grad_norm": 0.49813270568847656,
	"learning_rate": 5.814650770484461e-05,
	"loss": 0.36016933917999266,
	"step": 1865,
	"token_acc": 0.885236382484436
	},
	{
	"epoch": 1.4307574598316757,
	"grad_norm": 0.7051418423652649,
	"learning_rate": 5.7938352241437366e-05,
	"loss": 0.3023838996887207,
	"step": 1870,
	"token_acc": 0.9016345143318176
	},
	{
	"epoch": 1.434583014537108,
	"grad_norm": 0.7764083743095398,
	"learning_rate": 5.773005554049455e-05,
	"loss": 0.3270875453948975,
	"step": 1875,
	"token_acc": 0.8943535685539246
	},
	{
	"epoch": 1.4384085692425401,
	"grad_norm": 0.6883430480957031,
	"learning_rate": 5.752162130798833e-05,
	"loss": 0.3316964864730835,
	"step": 1880,
	"token_acc": 0.8921953439712524
	},
	{
	"epoch": 1.4422341239479723,
	"grad_norm": 0.7114600539207458,
	"learning_rate": 5.7313053252337854e-05,
	"loss": 0.31533355712890626,
	"step": 1885,
	"token_acc": 0.8978268504142761
	},
	{
	"epoch": 1.4460596786534048,
	"grad_norm": 0.8558183908462524,
	"learning_rate": 5.7104355084343196e-05,
	"loss": 0.3653078556060791,
	"step": 1890,
	"token_acc": 0.885123074054718
	},
	{
	"epoch": 1.449885233358837,
	"grad_norm": 0.7565247416496277,
	"learning_rate": 5.689553051711939e-05,
	"loss": 0.3589335441589355,
	"step": 1895,
	"token_acc": 0.8860511779785156
	},
	{
	"epoch": 1.4537107880642695,
	"grad_norm": 0.830723762512207,
	"learning_rate": 5.668658326603032e-05,
	"loss": 0.32294435501098634,
	"step": 1900,
	"token_acc": 0.8950970768928528
	},
	{
	"epoch": 1.4537107880642695,
	"eval_loss": 0.5095290541648865,
	"eval_runtime": 7.9225,
	"eval_samples_per_second": 13.127,
	"eval_steps_per_second": 1.641,
	"eval_token_acc": 0.8521934151649475,
	"step": 1900
	},
	{
	"epoch": 1.4575363427697017,
	"grad_norm": 0.707747220993042,
	"learning_rate": 5.647751704862263e-05,
	"loss": 0.3198162794113159,
	"step": 1905,
	"token_acc": 0.8932924270629883
	},
	{
	"epoch": 1.461361897475134,
	"grad_norm": 0.8484877347946167,
	"learning_rate": 5.626833558455961e-05,
	"loss": 0.34911117553710935,
	"step": 1910,
	"token_acc": 0.8880250453948975
	},
	{
	"epoch": 1.4651874521805661,
	"grad_norm": 0.6321529150009155,
	"learning_rate": 5.605904259555496e-05,
	"loss": 0.3261146306991577,
	"step": 1915,
	"token_acc": 0.8926582932472229
	},
	{
	"epoch": 1.4690130068859983,
	"grad_norm": 0.888900101184845,
	"learning_rate": 5.5849641805306654e-05,
	"loss": 0.34900679588317873,
	"step": 1920,
	"token_acc": 0.8897786736488342
	},
	{
	"epoch": 1.4728385615914308,
	"grad_norm": 0.687582790851593,
	"learning_rate": 5.564013693943062e-05,
	"loss": 0.34392595291137695,
	"step": 1925,
	"token_acc": 0.8870816826820374
	},
	{
	"epoch": 1.476664116296863,
	"grad_norm": 0.7888776659965515,
	"learning_rate": 5.5430531725394485e-05,
	"loss": 0.40218586921691896,
	"step": 1930,
	"token_acc": 0.8707258105278015
	},
	{
	"epoch": 1.4804896710022954,
	"grad_norm": 0.7543318867683411,
	"learning_rate": 5.522082989245122e-05,
	"loss": 0.3061817646026611,
	"step": 1935,
	"token_acc": 0.9006242156028748
	},
	{
	"epoch": 1.4843152257077277,
	"grad_norm": 0.8193092942237854,
	"learning_rate": 5.501103517157288e-05,
	"loss": 0.36248459815979006,
	"step": 1940,
	"token_acc": 0.8838417530059814
	},
	{
	"epoch": 1.48814078041316,
	"grad_norm": 0.7776079177856445,
	"learning_rate": 5.480115129538409e-05,
	"loss": 0.3319098949432373,
	"step": 1945,
	"token_acc": 0.8905050754547119
	},
	{
	"epoch": 1.4919663351185921,
	"grad_norm": 0.6906784176826477,
	"learning_rate": 5.459118199809577e-05,
	"loss": 0.30999135971069336,
	"step": 1950,
	"token_acc": 0.9011686444282532
	},
	{
	"epoch": 1.4919663351185921,
	"eval_loss": 0.5100167989730835,
	"eval_runtime": 8.6421,
	"eval_samples_per_second": 12.034,
	"eval_steps_per_second": 1.504,
	"eval_token_acc": 0.8534665703773499,
	"step": 1950
	},
	{
	"epoch": 1.4957918898240246,
	"grad_norm": 0.60188227891922,
	"learning_rate": 5.438113101543861e-05,
	"loss": 0.3165478467941284,
	"step": 1955,
	"token_acc": 0.8978914022445679
	},
	{
	"epoch": 1.4996174445294568,
	"grad_norm": 0.7757999300956726,
	"learning_rate": 5.417100208459662e-05,
	"loss": 0.33252928256988523,
	"step": 1960,
	"token_acc": 0.8919309377670288
	},
	{
	"epoch": 1.5034429992348892,
	"grad_norm": 0.8450996279716492,
	"learning_rate": 5.396079894414067e-05,
	"loss": 0.3332216739654541,
	"step": 1965,
	"token_acc": 0.8910924196243286
	},
	{
	"epoch": 1.5072685539403214,
	"grad_norm": 0.7125052809715271,
	"learning_rate": 5.375052533396191e-05,
	"loss": 0.32312803268432616,
	"step": 1970,
	"token_acc": 0.8956630229949951
	},
	{
	"epoch": 1.5110941086457537,
	"grad_norm": 0.728113055229187,
	"learning_rate": 5.354018499520536e-05,
	"loss": 0.3401800155639648,
	"step": 1975,
	"token_acc": 0.8904479742050171
	},
	{
	"epoch": 1.5149196633511859,
	"grad_norm": 0.5629063844680786,
	"learning_rate": 5.332978167020314e-05,
	"loss": 0.33483114242553713,
	"step": 1980,
	"token_acc": 0.8900842666625977
	},
	{
	"epoch": 1.518745218056618,
	"grad_norm": 0.7541650533676147,
	"learning_rate": 5.31193191024081e-05,
	"loss": 0.3606285095214844,
	"step": 1985,
	"token_acc": 0.8818128705024719
	},
	{
	"epoch": 1.5225707727620506,
	"grad_norm": 0.7752453684806824,
	"learning_rate": 5.2908801036327115e-05,
	"loss": 0.3571962356567383,
	"step": 1990,
	"token_acc": 0.8851061463356018
	},
	{
	"epoch": 1.5263963274674828,
	"grad_norm": 0.7320619225502014,
	"learning_rate": 5.269823121745443e-05,
	"loss": 0.34485607147216796,
	"step": 1995,
	"token_acc": 0.8938528895378113
	},
	{
	"epoch": 1.5302218821729152,
	"grad_norm": 0.7084663510322571,
	"learning_rate": 5.248761339220511e-05,
	"loss": 0.3630984306335449,
	"step": 2000,
	"token_acc": 0.8881708979606628
	},
	{
	"epoch": 1.5302218821729152,
	"eval_loss": 0.501686155796051,
	"eval_runtime": 8.3476,
	"eval_samples_per_second": 12.459,
	"eval_steps_per_second": 1.557,
	"eval_token_acc": 0.8552410006523132,
	"step": 2000
	},
	{
	"epoch": 1.5340474368783474,
	"grad_norm": 0.7146458029747009,
	"learning_rate": 5.227695130784833e-05,
	"loss": 0.3331026554107666,
	"step": 2005,
	"token_acc": 0.8917819261550903
	},
	{
	"epoch": 1.5378729915837797,
	"grad_norm": 0.8245148062705994,
	"learning_rate": 5.2066248712440656e-05,
	"loss": 0.37367663383483884,
	"step": 2010,
	"token_acc": 0.879398763179779
	},
	{
	"epoch": 1.5416985462892119,
	"grad_norm": 0.7592694163322449,
	"learning_rate": 5.185550935475953e-05,
	"loss": 0.30876760482788085,
	"step": 2015,
	"token_acc": 0.8983100056648254
	},
	{
	"epoch": 1.545524100994644,
	"grad_norm": 0.9255443215370178,
	"learning_rate": 5.164473698423636e-05,
	"loss": 0.3594630241394043,
	"step": 2020,
	"token_acc": 0.8848262429237366
	},
	{
	"epoch": 1.5493496557000765,
	"grad_norm": 0.7179040908813477,
	"learning_rate": 5.143393535088998e-05,
	"loss": 0.3523809194564819,
	"step": 2025,
	"token_acc": 0.8905043601989746
	},
	{
	"epoch": 1.5531752104055088,
	"grad_norm": 0.7476411461830139,
	"learning_rate": 5.122310820525981e-05,
	"loss": 0.3416067361831665,
	"step": 2030,
	"token_acc": 0.8892166018486023
	},
	{
	"epoch": 1.5570007651109412,
	"grad_norm": 0.7161547541618347,
	"learning_rate": 5.101225929833921e-05,
	"loss": 0.30915536880493166,
	"step": 2035,
	"token_acc": 0.8991933465003967
	},
	{
	"epoch": 1.5608263198163734,
	"grad_norm": 0.935799777507782,
	"learning_rate": 5.08013923815087e-05,
	"loss": 0.31090846061706545,
	"step": 2040,
	"token_acc": 0.8967577815055847
	},
	{
	"epoch": 1.5646518745218057,
	"grad_norm": 0.7758647799491882,
	"learning_rate": 5.059051120646924e-05,
	"loss": 0.3375053882598877,
	"step": 2045,
	"token_acc": 0.8911775350570679
	},
	{
	"epoch": 1.5684774292272379,
	"grad_norm": 0.6921541094779968,
	"learning_rate": 5.0379619525175437e-05,
	"loss": 0.3175233840942383,
	"step": 2050,
	"token_acc": 0.897928774356842
	},
	{
	"epoch": 1.5684774292272379,
	"eval_loss": 0.49708712100982666,
	"eval_runtime": 8.4069,
	"eval_samples_per_second": 12.371,
	"eval_steps_per_second": 1.546,
	"eval_token_acc": 0.8562836050987244,
	"step": 2050
	},
	{
	"epoch": 1.57230298393267,
	"grad_norm": 0.8368853330612183,
	"learning_rate": 5.016872108976889e-05,
	"loss": 0.3685647964477539,
	"step": 2055,
	"token_acc": 0.8830959796905518
	},
	{
	"epoch": 1.5761285386381025,
	"grad_norm": 0.7727574706077576,
	"learning_rate": 4.99578196525113e-05,
	"loss": 0.326021146774292,
	"step": 2060,
	"token_acc": 0.8955893516540527
	},
	{
	"epoch": 1.5799540933435348,
	"grad_norm": 0.7962800860404968,
	"learning_rate": 4.974691896571781e-05,
	"loss": 0.36289157867431643,
	"step": 2065,
	"token_acc": 0.8842934370040894
	},
	{
	"epoch": 1.5837796480489672,
	"grad_norm": 0.7509872317314148,
	"learning_rate": 4.9536022781690185e-05,
	"loss": 0.31728103160858157,
	"step": 2070,
	"token_acc": 0.8965554237365723
	},
	{
	"epoch": 1.5876052027543994,
	"grad_norm": 0.6993099451065063,
	"learning_rate": 4.9325134852650124e-05,
	"loss": 0.36268980503082277,
	"step": 2075,
	"token_acc": 0.8835968375205994
	},
	{
	"epoch": 1.5914307574598316,
	"grad_norm": 0.7634088397026062,
	"learning_rate": 4.911425893067239e-05,
	"loss": 0.368328332901001,
	"step": 2080,
	"token_acc": 0.8840143084526062
	},
	{
	"epoch": 1.5952563121652639,
	"grad_norm": 0.734311580657959,
	"learning_rate": 4.8903398767618165e-05,
	"loss": 0.3379722833633423,
	"step": 2085,
	"token_acc": 0.8937978148460388
	},
	{
	"epoch": 1.599081866870696,
	"grad_norm": 1.7793625593185425,
	"learning_rate": 4.8692558115068254e-05,
	"loss": 0.33839640617370603,
	"step": 2090,
	"token_acc": 0.8909159302711487
	},
	{
	"epoch": 1.6029074215761285,
	"grad_norm": 0.6846344470977783,
	"learning_rate": 4.8481740724256324e-05,
	"loss": 0.36859283447265623,
	"step": 2095,
	"token_acc": 0.8814284801483154
	},
	{
	"epoch": 1.606732976281561,
	"grad_norm": 0.7191367149353027,
	"learning_rate": 4.827095034600215e-05,
	"loss": 0.32262775897979734,
	"step": 2100,
	"token_acc": 0.8948466777801514
	},
	{
	"epoch": 1.606732976281561,
	"eval_loss": 0.49555426836013794,
	"eval_runtime": 8.4995,
	"eval_samples_per_second": 12.236,
	"eval_steps_per_second": 1.53,
	"eval_token_acc": 0.8567647933959961,
	"step": 2100
	},
	{
	"epoch": 1.6105585309869932,
	"grad_norm": 0.7318239808082581,
	"learning_rate": 4.806019073064493e-05,
	"loss": 0.28886990547180175,
	"step": 2105,
	"token_acc": 0.9057518243789673
	},
	{
	"epoch": 1.6143840856924254,
	"grad_norm": 0.7161886096000671,
	"learning_rate": 4.7849465627976574e-05,
	"loss": 0.3786638259887695,
	"step": 2110,
	"token_acc": 0.877372682094574
	},
	{
	"epoch": 1.6182096403978576,
	"grad_norm": 0.7079288959503174,
	"learning_rate": 4.763877878717484e-05,
	"loss": 0.3339807987213135,
	"step": 2115,
	"token_acc": 0.892234742641449
	},
	{
	"epoch": 1.6220351951032899,
	"grad_norm": 0.7738683819770813,
	"learning_rate": 4.742813395673684e-05,
	"loss": 0.3155964851379395,
	"step": 2120,
	"token_acc": 0.8984229564666748
	},
	{
	"epoch": 1.6258607498087223,
	"grad_norm": 0.7651445269584656,
	"learning_rate": 4.721753488441222e-05,
	"loss": 0.34331388473510743,
	"step": 2125,
	"token_acc": 0.8891043663024902
	},
	{
	"epoch": 1.6296863045141545,
	"grad_norm": 0.7328031063079834,
	"learning_rate": 4.700698531713648e-05,
	"loss": 0.3365816354751587,
	"step": 2130,
	"token_acc": 0.8924189805984497
	},
	{
	"epoch": 1.633511859219587,
	"grad_norm": 0.7824881672859192,
	"learning_rate": 4.679648900096436e-05,
	"loss": 0.3375370502471924,
	"step": 2135,
	"token_acc": 0.8933680653572083
	},
	{
	"epoch": 1.6373374139250192,
	"grad_norm": 0.7239261269569397,
	"learning_rate": 4.658604968100318e-05,
	"loss": 0.44536380767822265,
	"step": 2140,
	"token_acc": 0.8609479665756226
	},
	{
	"epoch": 1.6411629686304514,
	"grad_norm": 0.8158916234970093,
	"learning_rate": 4.6375671101346135e-05,
	"loss": 0.31634106636047366,
	"step": 2145,
	"token_acc": 0.8972258567810059
	},
	{
	"epoch": 1.6449885233358836,
	"grad_norm": 0.6787914633750916,
	"learning_rate": 4.616535700500583e-05,
	"loss": 0.3428164005279541,
	"step": 2150,
	"token_acc": 0.8936346769332886
	},
	{
	"epoch": 1.6449885233358836,
	"eval_loss": 0.4892226755619049,
	"eval_runtime": 8.5201,
	"eval_samples_per_second": 12.206,
	"eval_steps_per_second": 1.526,
	"eval_token_acc": 0.8588098287582397,
	"step": 2150
	},
	{
	"epoch": 1.6488140780413159,
	"grad_norm": 0.7179057002067566,
	"learning_rate": 4.5955111133847516e-05,
	"loss": 0.3500206470489502,
	"step": 2155,
	"token_acc": 0.8879844546318054
	},
	{
	"epoch": 1.6526396327467483,
	"grad_norm": 0.9363833665847778,
	"learning_rate": 4.574493722852266e-05,
	"loss": 0.33152313232421876,
	"step": 2160,
	"token_acc": 0.8924428820610046
	},
	{
	"epoch": 1.6564651874521805,
	"grad_norm": 0.8011144995689392,
	"learning_rate": 4.553483902840227e-05,
	"loss": 0.33824012279510496,
	"step": 2165,
	"token_acc": 0.888818621635437
	},
	{
	"epoch": 1.660290742157613,
	"grad_norm": 0.754247784614563,
	"learning_rate": 4.5324820271510446e-05,
	"loss": 0.3261884689331055,
	"step": 2170,
	"token_acc": 0.8930807709693909
	},
	{
	"epoch": 1.6641162968630452,
	"grad_norm": 0.8901833891868591,
	"learning_rate": 4.5114884694457906e-05,
	"loss": 0.3530290603637695,
	"step": 2175,
	"token_acc": 0.8864350914955139
	},
	{
	"epoch": 1.6679418515684774,
	"grad_norm": 0.7795696258544922,
	"learning_rate": 4.490503603237532e-05,
	"loss": 0.28058276176452634,
	"step": 2180,
	"token_acc": 0.9070743322372437
	},
	{
	"epoch": 1.6717674062739096,
	"grad_norm": 0.7988150119781494,
	"learning_rate": 4.4695278018847105e-05,
	"loss": 0.3197885036468506,
	"step": 2185,
	"token_acc": 0.8948556780815125
	},
	{
	"epoch": 1.6755929609793418,
	"grad_norm": 0.7500495910644531,
	"learning_rate": 4.448561438584484e-05,
	"loss": 0.30902011394500734,
	"step": 2190,
	"token_acc": 0.8987115621566772
	},
	{
	"epoch": 1.6794185156847743,
	"grad_norm": 0.8123504519462585,
	"learning_rate": 4.4276048863660874e-05,
	"loss": 0.34034423828125,
	"step": 2195,
	"token_acc": 0.8910139203071594
	},
	{
	"epoch": 1.6832440703902067,
	"grad_norm": 1.9124935865402222,
	"learning_rate": 4.406658518084201e-05,
	"loss": 0.27848803997039795,
	"step": 2200,
	"token_acc": 0.9100915789604187
	},
	{
	"epoch": 1.6832440703902067,
	"eval_loss": 0.48997873067855835,
	"eval_runtime": 7.7857,
	"eval_samples_per_second": 13.358,
	"eval_steps_per_second": 1.67,
	"eval_token_acc": 0.8590003252029419,
	"step": 2200
	},
	{
	"epoch": 1.687069625095639,
	"grad_norm": 0.7550795674324036,
	"learning_rate": 4.3857227064123184e-05,
	"loss": 0.3289813995361328,
	"step": 2205,
	"token_acc": 0.8935672044754028
	},
	{
	"epoch": 1.6908951798010712,
	"grad_norm": 0.6573622822761536,
	"learning_rate": 4.364797823836108e-05,
	"loss": 0.3325567483901978,
	"step": 2210,
	"token_acc": 0.8916365504264832
	},
	{
	"epoch": 1.6947207345065034,
	"grad_norm": 0.7994371056556702,
	"learning_rate": 4.3438842426467885e-05,
	"loss": 0.3089787483215332,
	"step": 2215,
	"token_acc": 0.8987955451011658
	},
	{
	"epoch": 1.6985462892119356,
	"grad_norm": 0.7001591920852661,
	"learning_rate": 4.322982334934509e-05,
	"loss": 0.3258508682250977,
	"step": 2220,
	"token_acc": 0.89599609375
	},
	{
	"epoch": 1.702371843917368,
	"grad_norm": 0.7623443603515625,
	"learning_rate": 4.302092472581729e-05,
	"loss": 0.29424998760223386,
	"step": 2225,
	"token_acc": 0.9034655094146729
	},
	{
	"epoch": 1.7061973986228003,
	"grad_norm": 0.8438885807991028,
	"learning_rate": 4.281215027256592e-05,
	"loss": 0.30596625804901123,
	"step": 2230,
	"token_acc": 0.8992859125137329
	},
	{
	"epoch": 1.7100229533282327,
	"grad_norm": 0.7240939736366272,
	"learning_rate": 4.260350370406329e-05,
	"loss": 0.30459909439086913,
	"step": 2235,
	"token_acc": 0.8981994986534119
	},
	{
	"epoch": 1.713848508033665,
	"grad_norm": 0.630903422832489,
	"learning_rate": 4.239498873250637e-05,
	"loss": 0.2987601041793823,
	"step": 2240,
	"token_acc": 0.9012813568115234
	},
	{
	"epoch": 1.7176740627390972,
	"grad_norm": 0.6413953304290771,
	"learning_rate": 4.218660906775076e-05,
	"loss": 0.27812976837158204,
	"step": 2245,
	"token_acc": 0.9085516929626465
	},
	{
	"epoch": 1.7214996174445294,
	"grad_norm": 0.8842605948448181,
	"learning_rate": 4.1978368417244754e-05,
	"loss": 0.3460667610168457,
	"step": 2250,
	"token_acc": 0.8905196785926819
	},
	{
	"epoch": 1.7214996174445294,
	"eval_loss": 0.48436981439590454,
	"eval_runtime": 6.1279,
	"eval_samples_per_second": 16.972,
	"eval_steps_per_second": 2.121,
	"eval_token_acc": 0.860263466835022,
	"step": 2250
	},
	{
	"epoch": 1.7253251721499616,
	"grad_norm": 0.6968632340431213,
	"learning_rate": 4.17702704859633e-05,
	"loss": 0.29213814735412597,
	"step": 2255,
	"token_acc": 0.9040796160697937
	},
	{
	"epoch": 1.729150726855394,
	"grad_norm": 0.7017317414283752,
	"learning_rate": 4.1562318976342165e-05,
	"loss": 0.3319288730621338,
	"step": 2260,
	"token_acc": 0.8922781944274902
	},
	{
	"epoch": 1.7329762815608263,
	"grad_norm": 0.7793192267417908,
	"learning_rate": 4.135451758821191e-05,
	"loss": 0.3711602210998535,
	"step": 2265,
	"token_acc": 0.8815440535545349
	},
	{
	"epoch": 1.7368018362662587,
	"grad_norm": 0.870146632194519,
	"learning_rate": 4.114687001873228e-05,
	"loss": 0.3280991554260254,
	"step": 2270,
	"token_acc": 0.8962957262992859
	},
	{
	"epoch": 1.740627390971691,
	"grad_norm": 0.6839405298233032,
	"learning_rate": 4.093937996232625e-05,
	"loss": 0.31872236728668213,
	"step": 2275,
	"token_acc": 0.8943005204200745
	},
	{
	"epoch": 1.7444529456771232,
	"grad_norm": 0.7605020999908447,
	"learning_rate": 4.073205111061436e-05,
	"loss": 0.31961095333099365,
	"step": 2280,
	"token_acc": 0.8964794278144836
	},
	{
	"epoch": 1.7482785003825554,
	"grad_norm": 0.6984594464302063,
	"learning_rate": 4.052488715234902e-05,
	"loss": 0.31977455615997313,
	"step": 2285,
	"token_acc": 0.8969309329986572
	},
	{
	"epoch": 1.7521040550879876,
	"grad_norm": 0.7754748463630676,
	"learning_rate": 4.0317891773348946e-05,
	"loss": 0.31035671234130857,
	"step": 2290,
	"token_acc": 0.8990971446037292
	},
	{
	"epoch": 1.75592960979342,
	"grad_norm": 0.8007567524909973,
	"learning_rate": 4.0111068656433426e-05,
	"loss": 0.34440956115722654,
	"step": 2295,
	"token_acc": 0.8881877660751343
	},
	{
	"epoch": 1.7597551644988525,
	"grad_norm": 0.9330772161483765,
	"learning_rate": 3.9904421481357e-05,
	"loss": 0.3286851406097412,
	"step": 2300,
	"token_acc": 0.8939043283462524
	},
	{
	"epoch": 1.7597551644988525,
	"eval_loss": 0.4778790771961212,
	"eval_runtime": 7.806,
	"eval_samples_per_second": 13.323,
	"eval_steps_per_second": 1.665,
	"eval_token_acc": 0.8623987436294556,
	"step": 2300
	},
	{
	"epoch": 1.7635807192042847,
	"grad_norm": 0.5906277894973755,
	"learning_rate": 3.969795392474383e-05,
	"loss": 0.34573922157287595,
	"step": 2305,
	"token_acc": 0.8903287053108215
	},
	{
	"epoch": 1.767406273909717,
	"grad_norm": 0.7397768497467041,
	"learning_rate": 3.9491669660022345e-05,
	"loss": 0.35153021812438967,
	"step": 2310,
	"token_acc": 0.8872886896133423
	},
	{
	"epoch": 1.7712318286151492,
	"grad_norm": 0.7996999025344849,
	"learning_rate": 3.928557235735989e-05,
	"loss": 0.31516518592834475,
	"step": 2315,
	"token_acc": 0.8970757722854614
	},
	{
	"epoch": 1.7750573833205814,
	"grad_norm": 0.6419305205345154,
	"learning_rate": 3.907966568359742e-05,
	"loss": 0.3054972171783447,
	"step": 2320,
	"token_acc": 0.8993676900863647
	},
	{
	"epoch": 1.7788829380260138,
	"grad_norm": 0.6739971041679382,
	"learning_rate": 3.887395330218429e-05,
	"loss": 0.3448510646820068,
	"step": 2325,
	"token_acc": 0.8888943195343018
	},
	{
	"epoch": 1.782708492731446,
	"grad_norm": 0.7799039483070374,
	"learning_rate": 3.866843887311297e-05,
	"loss": 0.31788105964660646,
	"step": 2330,
	"token_acc": 0.8954451680183411
	},
	{
	"epoch": 1.7865340474368785,
	"grad_norm": 0.7341748476028442,
	"learning_rate": 3.846312605285408e-05,
	"loss": 0.34601006507873533,
	"step": 2335,
	"token_acc": 0.8898206353187561
	},
	{
	"epoch": 1.7903596021423107,
	"grad_norm": 0.7024774551391602,
	"learning_rate": 3.8258018494291234e-05,
	"loss": 0.32241551876068114,
	"step": 2340,
	"token_acc": 0.89708012342453
	},
	{
	"epoch": 1.794185156847743,
	"grad_norm": 0.7515860795974731,
	"learning_rate": 3.8053119846656026e-05,
	"loss": 0.30928614139556887,
	"step": 2345,
	"token_acc": 0.8996888995170593
	},
	{
	"epoch": 1.7980107115531752,
	"grad_norm": 0.8652954697608948,
	"learning_rate": 3.78484337554632e-05,
	"loss": 0.30088629722595217,
	"step": 2350,
	"token_acc": 0.9041286110877991
	},
	{
	"epoch": 1.7980107115531752,
	"eval_loss": 0.47428014874458313,
	"eval_runtime": 7.8145,
	"eval_samples_per_second": 13.309,
	"eval_steps_per_second": 1.664,
	"eval_token_acc": 0.8631907105445862,
	"step": 2350
	},
	{
	"epoch": 1.8018362662586074,
	"grad_norm": 0.9508410692214966,
	"learning_rate": 3.764396386244577e-05,
	"loss": 0.34288840293884276,
	"step": 2355,
	"token_acc": 0.8890052437782288
	},
	{
	"epoch": 1.8056618209640398,
	"grad_norm": 0.775829017162323,
	"learning_rate": 3.743971380549008e-05,
	"loss": 0.30949153900146487,
	"step": 2360,
	"token_acc": 0.8984510898590088
	},
	{
	"epoch": 1.809487375669472,
	"grad_norm": 0.6938086152076721,
	"learning_rate": 3.723568721857133e-05,
	"loss": 0.28354833126068113,
	"step": 2365,
	"token_acc": 0.9054216146469116
	},
	{
	"epoch": 1.8133129303749045,
	"grad_norm": 0.6911359429359436,
	"learning_rate": 3.703188773168869e-05,
	"loss": 0.2959973096847534,
	"step": 2370,
	"token_acc": 0.9038095474243164
	},
	{
	"epoch": 1.8171384850803367,
	"grad_norm": 60.64387130737305,
	"learning_rate": 3.682831897080087e-05,
	"loss": 0.40934906005859373,
	"step": 2375,
	"token_acc": 0.8823349475860596
	},
	{
	"epoch": 1.820964039785769,
	"grad_norm": 0.7439799308776855,
	"learning_rate": 3.6624984557761504e-05,
	"loss": 0.2931365489959717,
	"step": 2380,
	"token_acc": 0.9051112532615662
	},
	{
	"epoch": 1.8247895944912012,
	"grad_norm": 0.6623691320419312,
	"learning_rate": 3.642188811025481e-05,
	"loss": 0.3292604207992554,
	"step": 2385,
	"token_acc": 0.8928682208061218
	},
	{
	"epoch": 1.8286151491966334,
	"grad_norm": 0.6264249086380005,
	"learning_rate": 3.621903324173114e-05,
	"loss": 0.265956974029541,
	"step": 2390,
	"token_acc": 0.9118374586105347
	},
	{
	"epoch": 1.8324407039020658,
	"grad_norm": 0.8278756737709045,
	"learning_rate": 3.6016423561342706e-05,
	"loss": 0.29644384384155276,
	"step": 2395,
	"token_acc": 0.9024685025215149
	},
	{
	"epoch": 1.836266258607498,
	"grad_norm": 0.810718297958374,
	"learning_rate": 3.581406267387941e-05,
	"loss": 0.281774640083313,
	"step": 2400,
	"token_acc": 0.9071557521820068
	},
	{
	"epoch": 1.836266258607498,
	"eval_loss": 0.47047871351242065,
	"eval_runtime": 7.868,
	"eval_samples_per_second": 13.218,
	"eval_steps_per_second": 1.652,
	"eval_token_acc": 0.8643736243247986,
	"step": 2400
	},
	{
	"epoch": 1.8400918133129305,
	"grad_norm": 0.7788925170898438,
	"learning_rate": 3.56119541797047e-05,
	"loss": 0.3004364013671875,
	"step": 2405,
	"token_acc": 0.8989213705062866
	},
	{
	"epoch": 1.8439173680183627,
	"grad_norm": 0.7350240349769592,
	"learning_rate": 3.5410101674691434e-05,
	"loss": 0.3446574449539185,
	"step": 2410,
	"token_acc": 0.8929014801979065
	},
	{
	"epoch": 1.847742922723795,
	"grad_norm": 0.7535839080810547,
	"learning_rate": 3.520850875015801e-05,
	"loss": 0.31823389530181884,
	"step": 2415,
	"token_acc": 0.896795928478241
	},
	{
	"epoch": 1.8515684774292271,
	"grad_norm": 0.8284432291984558,
	"learning_rate": 3.5007178992804416e-05,
	"loss": 0.30584444999694826,
	"step": 2420,
	"token_acc": 0.9038248658180237
	},
	{
	"epoch": 1.8553940321346594,
	"grad_norm": 0.8060945272445679,
	"learning_rate": 3.480611598464844e-05,
	"loss": 0.2657127857208252,
	"step": 2425,
	"token_acc": 0.9115975499153137
	},
	{
	"epoch": 1.8592195868400918,
	"grad_norm": 0.6967042684555054,
	"learning_rate": 3.4605323302961854e-05,
	"loss": 0.30145883560180664,
	"step": 2430,
	"token_acc": 0.9007070064544678
	},
	{
	"epoch": 1.8630451415455243,
	"grad_norm": 0.827389657497406,
	"learning_rate": 3.4404804520206915e-05,
	"loss": 0.3457145929336548,
	"step": 2435,
	"token_acc": 0.889440655708313
	},
	{
	"epoch": 1.8668706962509565,
	"grad_norm": 0.7290979027748108,
	"learning_rate": 3.42045632039727e-05,
	"loss": 0.29812381267547605,
	"step": 2440,
	"token_acc": 0.9029287695884705
	},
	{
	"epoch": 1.8706962509563887,
	"grad_norm": 0.8037905693054199,
	"learning_rate": 3.400460291691164e-05,
	"loss": 0.32248711585998535,
	"step": 2445,
	"token_acc": 0.8946207165718079
	},
	{
	"epoch": 1.874521805661821,
	"grad_norm": 0.7474591732025146,
	"learning_rate": 3.380492721667618e-05,
	"loss": 0.3022623062133789,
	"step": 2450,
	"token_acc": 0.9007507562637329
	},
	{
	"epoch": 1.874521805661821,
	"eval_loss": 0.46530866622924805,
	"eval_runtime": 7.8984,
	"eval_samples_per_second": 13.167,
	"eval_steps_per_second": 1.646,
	"eval_token_acc": 0.8647946715354919,
	"step": 2450
	},
	{
	"epoch": 1.8783473603672531,
	"grad_norm": 0.71452397108078,
	"learning_rate": 3.3605539655855445e-05,
	"loss": 0.28342552185058595,
	"step": 2455,
	"token_acc": 0.9065305590629578
	},
	{
	"epoch": 1.8821729150726856,
	"grad_norm": 0.7897852659225464,
	"learning_rate": 3.3406443781912014e-05,
	"loss": 0.2861522912979126,
	"step": 2460,
	"token_acc": 0.9051787257194519
	},
	{
	"epoch": 1.8859984697781178,
	"grad_norm": 0.7614904642105103,
	"learning_rate": 3.3207643137118874e-05,
	"loss": 0.2704183578491211,
	"step": 2465,
	"token_acc": 0.911378026008606
	},
	{
	"epoch": 1.8898240244835502,
	"grad_norm": 0.6754797697067261,
	"learning_rate": 3.3009141258496344e-05,
	"loss": 0.31130855083465575,
	"step": 2470,
	"token_acc": 0.8980752229690552
	},
	{
	"epoch": 1.8936495791889825,
	"grad_norm": 0.7454941272735596,
	"learning_rate": 3.2810941677749164e-05,
	"loss": 0.34280953407287595,
	"step": 2475,
	"token_acc": 0.8920162320137024
	},
	{
	"epoch": 1.8974751338944147,
	"grad_norm": 0.7202689051628113,
	"learning_rate": 3.261304792120361e-05,
	"loss": 0.2786979675292969,
	"step": 2480,
	"token_acc": 0.907993495464325
	},
	{
	"epoch": 1.901300688599847,
	"grad_norm": 0.7289252281188965,
	"learning_rate": 3.2415463509744855e-05,
	"loss": 0.28704142570495605,
	"step": 2485,
	"token_acc": 0.9051684141159058
	},
	{
	"epoch": 1.9051262433052791,
	"grad_norm": 0.7389020919799805,
	"learning_rate": 3.2218191958754226e-05,
	"loss": 0.3317502498626709,
	"step": 2490,
	"token_acc": 0.8912999629974365
	},
	{
	"epoch": 1.9089517980107116,
	"grad_norm": 0.7187902331352234,
	"learning_rate": 3.202123677804672e-05,
	"loss": 0.32085230350494387,
	"step": 2495,
	"token_acc": 0.8973221182823181
	},
	{
	"epoch": 1.9127773527161438,
	"grad_norm": 0.780617892742157,
	"learning_rate": 3.18246014718085e-05,
	"loss": 0.2799449682235718,
	"step": 2500,
	"token_acc": 0.9089812636375427
	},
	{
	"epoch": 1.9127773527161438,
	"eval_loss": 0.4558640122413635,
	"eval_runtime": 7.6268,
	"eval_samples_per_second": 13.636,
	"eval_steps_per_second": 1.705,
	"eval_token_acc": 0.8680527806282043,
	"step": 2500
	},
	{
	"epoch": 1.9166029074215762,
	"grad_norm": 0.7578943967819214,
	"learning_rate": 3.162828953853469e-05,
	"loss": 0.283012843132019,
	"step": 2505,
	"token_acc": 0.908361554145813
	},
	{
	"epoch": 1.9204284621270085,
	"grad_norm": 0.7080029249191284,
	"learning_rate": 3.14323044709669e-05,
	"loss": 0.26364171504974365,
	"step": 2510,
	"token_acc": 0.9134095311164856
	},
	{
	"epoch": 1.9242540168324407,
	"grad_norm": 0.7052859663963318,
	"learning_rate": 3.12366497560313e-05,
	"loss": 0.28186535835266113,
	"step": 2515,
	"token_acc": 0.9079092741012573
	},
	{
	"epoch": 1.928079571537873,
	"grad_norm": 0.722137451171875,
	"learning_rate": 3.104132887477647e-05,
	"loss": 0.2929178953170776,
	"step": 2520,
	"token_acc": 0.9022585153579712
	},
	{
	"epoch": 1.9319051262433051,
	"grad_norm": 0.6590465903282166,
	"learning_rate": 3.084634530231145e-05,
	"loss": 0.29388132095336916,
	"step": 2525,
	"token_acc": 0.9019988179206848
	},
	{
	"epoch": 1.9357306809487376,
	"grad_norm": 0.7757251858711243,
	"learning_rate": 3.065170250774401e-05,
	"loss": 0.3049909591674805,
	"step": 2530,
	"token_acc": 0.8986476063728333
	},
	{
	"epoch": 1.93955623565417,
	"grad_norm": 0.7149041295051575,
	"learning_rate": 3.0457403954118856e-05,
	"loss": 0.2536777019500732,
	"step": 2535,
	"token_acc": 0.9141318202018738
	},
	{
	"epoch": 1.9433817903596022,
	"grad_norm": 0.6480096578598022,
	"learning_rate": 3.026345309835602e-05,
	"loss": 0.3146909952163696,
	"step": 2540,
	"token_acc": 0.8978093266487122
	},
	{
	"epoch": 1.9472073450650345,
	"grad_norm": 0.7162771224975586,
	"learning_rate": 3.0069853391189352e-05,
	"loss": 0.29620161056518557,
	"step": 2545,
	"token_acc": 0.9032965302467346
	},
	{
	"epoch": 1.9510328997704667,
	"grad_norm": 0.6839264631271362,
	"learning_rate": 2.9876608277105145e-05,
	"loss": 0.3268457889556885,
	"step": 2550,
	"token_acc": 0.8923251032829285
	},
	{
	"epoch": 1.9510328997704667,
	"eval_loss": 0.4463500678539276,
	"eval_runtime": 7.6674,
	"eval_samples_per_second": 13.564,
	"eval_steps_per_second": 1.695,
	"eval_token_acc": 0.8691655397415161,
	"step": 2550
	},
	{
	"epoch": 1.954858454475899,
	"grad_norm": 0.7191382050514221,
	"learning_rate": 2.9683721194280877e-05,
	"loss": 0.2873558044433594,
	"step": 2555,
	"token_acc": 0.9027012586593628
	},
	{
	"epoch": 1.9586840091813313,
	"grad_norm": 0.7788121700286865,
	"learning_rate": 2.9491195574523945e-05,
	"loss": 0.29071290493011476,
	"step": 2560,
	"token_acc": 0.9054592251777649
	},
	{
	"epoch": 1.9625095638867636,
	"grad_norm": 0.6830841302871704,
	"learning_rate": 2.9299034843210726e-05,
	"loss": 0.2975457668304443,
	"step": 2565,
	"token_acc": 0.9023709297180176
	},
	{
	"epoch": 1.966335118592196,
	"grad_norm": 0.8139908909797668,
	"learning_rate": 2.9107242419225577e-05,
	"loss": 0.2521679401397705,
	"step": 2570,
	"token_acc": 0.9153000116348267
	},
	{
	"epoch": 1.9701606732976282,
	"grad_norm": 0.6574170589447021,
	"learning_rate": 2.8915821714899917e-05,
	"loss": 0.268428373336792,
	"step": 2575,
	"token_acc": 0.9112088680267334
	},
	{
	"epoch": 1.9739862280030605,
	"grad_norm": 0.7240482568740845,
	"learning_rate": 2.8724776135951747e-05,
	"loss": 0.2789809226989746,
	"step": 2580,
	"token_acc": 0.9081910848617554
	},
	{
	"epoch": 1.9778117827084927,
	"grad_norm": 0.675998330116272,
	"learning_rate": 2.85341090814248e-05,
	"loss": 0.300505256652832,
	"step": 2585,
	"token_acc": 0.9032467007637024
	},
	{
	"epoch": 1.981637337413925,
	"grad_norm": 0.7282765507698059,
	"learning_rate": 2.8343823943628257e-05,
	"loss": 0.2605840444564819,
	"step": 2590,
	"token_acc": 0.9125819206237793
	},
	{
	"epoch": 1.9854628921193573,
	"grad_norm": 0.8446104526519775,
	"learning_rate": 2.8153924108076234e-05,
	"loss": 0.3036641120910645,
	"step": 2595,
	"token_acc": 0.9020313024520874
	},
	{
	"epoch": 1.9892884468247896,
	"grad_norm": 0.8688914179801941,
	"learning_rate": 2.7964412953427667e-05,
	"loss": 0.301717472076416,
	"step": 2600,
	"token_acc": 0.90234375
	},
	{
	"epoch": 1.9892884468247896,
	"eval_loss": 0.44557470083236694,
	"eval_runtime": 7.7719,
	"eval_samples_per_second": 13.382,
	"eval_steps_per_second": 1.673,
	"eval_token_acc": 0.869877278804779,
	"step": 2600
	},
	{
	"epoch": 1.993114001530222,
	"grad_norm": 0.6388227343559265,
	"learning_rate": 2.7775293851426232e-05,
	"loss": 0.28205983638763427,
	"step": 2605,
	"token_acc": 0.9057275056838989
	},
	{
	"epoch": 1.9969395562356542,
	"grad_norm": 0.6498620510101318,
	"learning_rate": 2.7586570166840153e-05,
	"loss": 0.28784162998199464,
	"step": 2610,
	"token_acc": 0.9042630791664124
	},
	{
	"epoch": 2.0007651109410864,
	"grad_norm": 0.46216583251953125,
	"learning_rate": 2.7398245257402567e-05,
	"loss": 0.24226248264312744,
	"step": 2615,
	"token_acc": 0.9181912541389465
	},
	{
	"epoch": 2.0045906656465187,
	"grad_norm": 0.4526701867580414,
	"learning_rate": 2.721032247375165e-05,
	"loss": 0.13410005569458008,
	"step": 2620,
	"token_acc": 0.9554323554039001
	},
	{
	"epoch": 2.008416220351951,
	"grad_norm": 0.5027770400047302,
	"learning_rate": 2.7022805159371023e-05,
	"loss": 0.14986848831176758,
	"step": 2625,
	"token_acc": 0.9495237469673157
	},
	{
	"epoch": 2.012241775057383,
	"grad_norm": 0.6318019032478333,
	"learning_rate": 2.683569665053033e-05,
	"loss": 0.13008542060852052,
	"step": 2630,
	"token_acc": 0.9539133906364441
	},
	{
	"epoch": 2.0160673297628158,
	"grad_norm": 0.738571286201477,
	"learning_rate": 2.664900027622577e-05,
	"loss": 0.15502784252166749,
	"step": 2635,
	"token_acc": 0.9469853043556213
	},
	{
	"epoch": 2.019892884468248,
	"grad_norm": 0.6892253160476685,
	"learning_rate": 2.646271935812098e-05,
	"loss": 0.13881022930145265,
	"step": 2640,
	"token_acc": 0.9516469240188599
	},
	{
	"epoch": 2.02371843917368,
	"grad_norm": 0.6470181941986084,
	"learning_rate": 2.6276857210487858e-05,
	"loss": 0.1207735538482666,
	"step": 2645,
	"token_acc": 0.9576534032821655
	},
	{
	"epoch": 2.0275439938791124,
	"grad_norm": 0.6596648097038269,
	"learning_rate": 2.6091417140147634e-05,
	"loss": 0.11292877197265624,
	"step": 2650,
	"token_acc": 0.9626390337944031
	},
	{
	"epoch": 2.0275439938791124,
	"eval_loss": 0.5168122053146362,
	"eval_runtime": 8.1996,
	"eval_samples_per_second": 12.684,
	"eval_steps_per_second": 1.585,
	"eval_token_acc": 0.8695364594459534,
	"step": 2650
	},
	{
	"epoch": 2.0313695485845447,
	"grad_norm": 0.577893853187561,
	"learning_rate": 2.5906402446412027e-05,
	"loss": 0.14242198467254638,
	"step": 2655,
	"token_acc": 0.9518451690673828
	},
	{
	"epoch": 2.035195103289977,
	"grad_norm": 0.6954317688941956,
	"learning_rate": 2.5721816421024515e-05,
	"loss": 0.12017552852630616,
	"step": 2660,
	"token_acc": 0.9579612016677856
	},
	{
	"epoch": 2.0390206579954095,
	"grad_norm": 0.5604422688484192,
	"learning_rate": 2.553766234810181e-05,
	"loss": 0.12801860570907592,
	"step": 2665,
	"token_acc": 0.9555345773696899
	},
	{
	"epoch": 2.0428462127008418,
	"grad_norm": 0.6638826727867126,
	"learning_rate": 2.535394350407548e-05,
	"loss": 0.1116684079170227,
	"step": 2670,
	"token_acc": 0.960515022277832
	},
	{
	"epoch": 2.046671767406274,
	"grad_norm": 0.5910780429840088,
	"learning_rate": 2.5170663157633477e-05,
	"loss": 0.13454906940460204,
	"step": 2675,
	"token_acc": 0.9548289775848389
	},
	{
	"epoch": 2.050497322111706,
	"grad_norm": 0.6535590291023254,
	"learning_rate": 2.4987824569662167e-05,
	"loss": 0.12083430290222168,
	"step": 2680,
	"token_acc": 0.9585192799568176
	},
	{
	"epoch": 2.0543228768171384,
	"grad_norm": 0.5576914548873901,
	"learning_rate": 2.4805430993188228e-05,
	"loss": 0.12852833271026612,
	"step": 2685,
	"token_acc": 0.9565430879592896
	},
	{
	"epoch": 2.0581484315225707,
	"grad_norm": 0.57133549451828,
	"learning_rate": 2.4623485673320772e-05,
	"loss": 0.13395898342132567,
	"step": 2690,
	"token_acc": 0.9541014432907104
	},
	{
	"epoch": 2.061973986228003,
	"grad_norm": 0.824409008026123,
	"learning_rate": 2.4441991847193636e-05,
	"loss": 0.1304774522781372,
	"step": 2695,
	"token_acc": 0.9565969109535217
	},
	{
	"epoch": 2.0657995409334355,
	"grad_norm": 0.6546271443367004,
	"learning_rate": 2.4260952743907756e-05,
	"loss": 0.13317997455596925,
	"step": 2700,
	"token_acc": 0.9548870325088501
	},
	{
	"epoch": 2.0657995409334355,
	"eval_loss": 0.5218855142593384,
	"eval_runtime": 8.6536,
	"eval_samples_per_second": 12.018,
	"eval_steps_per_second": 1.502,
	"eval_token_acc": 0.8702181577682495,
	"step": 2700
	},
	{
	"epoch": 2.0696250956388678,
	"grad_norm": 0.49882644414901733,
	"learning_rate": 2.4080371584473748e-05,
	"loss": 0.10250062942504883,
	"step": 2705,
	"token_acc": 0.9647969007492065
	},
	{
	"epoch": 2.0734506503443,
	"grad_norm": 0.6716576814651489,
	"learning_rate": 2.390025158175458e-05,
	"loss": 0.12553690671920775,
	"step": 2710,
	"token_acc": 0.9559978246688843
	},
	{
	"epoch": 2.077276205049732,
	"grad_norm": 0.630893349647522,
	"learning_rate": 2.3720595940408413e-05,
	"loss": 0.1133840560913086,
	"step": 2715,
	"token_acc": 0.960378885269165
	},
	{
	"epoch": 2.0811017597551644,
	"grad_norm": 0.6294081211090088,
	"learning_rate": 2.3541407856831598e-05,
	"loss": 0.11989744901657104,
	"step": 2720,
	"token_acc": 0.9581653475761414
	},
	{
	"epoch": 2.0849273144605966,
	"grad_norm": 0.6295720934867859,
	"learning_rate": 2.3362690519101728e-05,
	"loss": 0.10788016319274903,
	"step": 2725,
	"token_acc": 0.9615026116371155
	},
	{
	"epoch": 2.088752869166029,
	"grad_norm": 0.6127709150314331,
	"learning_rate": 2.318444710692109e-05,
	"loss": 0.18858987092971802,
	"step": 2730,
	"token_acc": 0.9527615308761597
	},
	{
	"epoch": 2.0925784238714615,
	"grad_norm": 0.6840873956680298,
	"learning_rate": 2.3006680791559943e-05,
	"loss": 0.13058118820190429,
	"step": 2735,
	"token_acc": 0.9559764862060547
	},
	{
	"epoch": 2.0964039785768938,
	"grad_norm": 0.6548556089401245,
	"learning_rate": 2.2829394735800075e-05,
	"loss": 0.12637789249420167,
	"step": 2740,
	"token_acc": 0.9560421705245972
	},
	{
	"epoch": 2.100229533282326,
	"grad_norm": 0.6251739263534546,
	"learning_rate": 2.2652592093878666e-05,
	"loss": 0.1079249382019043,
	"step": 2745,
	"token_acc": 0.9616904854774475
	},
	{
	"epoch": 2.104055087987758,
	"grad_norm": 0.5070903301239014,
	"learning_rate": 2.2476276011432056e-05,
	"loss": 0.10909421443939209,
	"step": 2750,
	"token_acc": 0.9607372879981995
	},
	{
	"epoch": 2.104055087987758,
	"eval_loss": 0.5240176916122437,
	"eval_runtime": 7.9542,
	"eval_samples_per_second": 13.075,
	"eval_steps_per_second": 1.634,
	"eval_token_acc": 0.8699575066566467,
	"step": 2750
	},
	{
	"epoch": 2.1078806426931904,
	"grad_norm": 0.5303053259849548,
	"learning_rate": 2.230044962543989e-05,
	"loss": 0.10541150569915772,
	"step": 2755,
	"token_acc": 0.9636523723602295
	},
	{
	"epoch": 2.1117061973986226,
	"grad_norm": 0.6467751264572144,
	"learning_rate": 2.2125116064169125e-05,
	"loss": 0.11249511241912842,
	"step": 2760,
	"token_acc": 0.9602897763252258
	},
	{
	"epoch": 2.1155317521040553,
	"grad_norm": 0.6789493560791016,
	"learning_rate": 2.195027844711856e-05,
	"loss": 0.13851575851440429,
	"step": 2765,
	"token_acc": 0.9524257183074951
	},
	{
	"epoch": 2.1193573068094875,
	"grad_norm": 0.5706949234008789,
	"learning_rate": 2.177593988496323e-05,
	"loss": 0.0956031322479248,
	"step": 2770,
	"token_acc": 0.9663383960723877
	},
	{
	"epoch": 2.1231828615149198,
	"grad_norm": 0.5609292984008789,
	"learning_rate": 2.1602103479499093e-05,
	"loss": 0.11319952011108399,
	"step": 2775,
	"token_acc": 0.9608060717582703
	},
	{
	"epoch": 2.127008416220352,
	"grad_norm": 0.639937162399292,
	"learning_rate": 2.1428772323587827e-05,
	"loss": 0.13543224334716797,
	"step": 2780,
	"token_acc": 0.9520896077156067
	},
	{
	"epoch": 2.130833970925784,
	"grad_norm": 0.6833350658416748,
	"learning_rate": 2.1255949501101847e-05,
	"loss": 0.14142370223999023,
	"step": 2785,
	"token_acc": 0.9528786540031433
	},
	{
	"epoch": 2.1346595256312164,
	"grad_norm": 0.5408839583396912,
	"learning_rate": 2.1083638086869327e-05,
	"loss": 0.12588857412338256,
	"step": 2790,
	"token_acc": 0.9563543200492859
	},
	{
	"epoch": 2.1384850803366486,
	"grad_norm": 0.5438815355300903,
	"learning_rate": 2.0911841146619676e-05,
	"loss": 0.12137541770935059,
	"step": 2795,
	"token_acc": 0.958185613155365
	},
	{
	"epoch": 2.1423106350420813,
	"grad_norm": 0.6048544645309448,
	"learning_rate": 2.074056173692881e-05,
	"loss": 0.10157194137573242,
	"step": 2800,
	"token_acc": 0.9674689769744873
	},
	{
	"epoch": 2.1423106350420813,
	"eval_loss": 0.5312597751617432,
	"eval_runtime": 9.0822,
	"eval_samples_per_second": 11.451,
	"eval_steps_per_second": 1.431,
	"eval_token_acc": 0.8708697557449341,
	"step": 2800
	},
	{
	"epoch": 2.1461361897475135,
	"grad_norm": 0.689985990524292,
	"learning_rate": 2.05698029051649e-05,
	"loss": 0.12691206932067872,
	"step": 2805,
	"token_acc": 0.9552291035652161
	},
	{
	"epoch": 2.1499617444529457,
	"grad_norm": 0.628235936164856,
	"learning_rate": 2.0399567689434007e-05,
	"loss": 0.12962342500686647,
	"step": 2810,
	"token_acc": 0.9563965201377869
	},
	{
	"epoch": 2.153787299158378,
	"grad_norm": 0.583711564540863,
	"learning_rate": 2.0229859118526244e-05,
	"loss": 0.11104552745819092,
	"step": 2815,
	"token_acc": 0.9605592489242554
	},
	{
	"epoch": 2.15761285386381,
	"grad_norm": 0.749139666557312,
	"learning_rate": 2.0060680211861722e-05,
	"loss": 0.11064702272415161,
	"step": 2820,
	"token_acc": 0.9618842601776123
	},
	{
	"epoch": 2.1614384085692424,
	"grad_norm": 0.6225452423095703,
	"learning_rate": 1.989203397943682e-05,
	"loss": 0.1368303894996643,
	"step": 2825,
	"token_acc": 0.9523999691009521
	},
	{
	"epoch": 2.1652639632746746,
	"grad_norm": 0.7548052072525024,
	"learning_rate": 1.9723923421770744e-05,
	"loss": 0.12567458152770997,
	"step": 2830,
	"token_acc": 0.9570740461349487
	},
	{
	"epoch": 2.1690895179801073,
	"grad_norm": 0.6393832564353943,
	"learning_rate": 1.9556351529852086e-05,
	"loss": 0.12716997861862184,
	"step": 2835,
	"token_acc": 0.9550226926803589
	},
	{
	"epoch": 2.1729150726855395,
	"grad_norm": 0.5963457822799683,
	"learning_rate": 1.9389321285085572e-05,
	"loss": 0.12617888450622558,
	"step": 2840,
	"token_acc": 0.9543135166168213
	},
	{
	"epoch": 2.1767406273909717,
	"grad_norm": 0.7114848494529724,
	"learning_rate": 1.9222835659239086e-05,
	"loss": 0.12233096361160278,
	"step": 2845,
	"token_acc": 0.9570853114128113
	},
	{
	"epoch": 2.180566182096404,
	"grad_norm": 0.6505621671676636,
	"learning_rate": 1.905689761439075e-05,
	"loss": 0.13814208507537842,
	"step": 2850,
	"token_acc": 0.9528710246086121
	},
	{
	"epoch": 2.180566182096404,
	"eval_loss": 0.5228633284568787,
	"eval_runtime": 7.9764,
	"eval_samples_per_second": 13.038,
	"eval_steps_per_second": 1.63,
	"eval_token_acc": 0.8718922734260559,
	"step": 2850
	},
	{
	"epoch": 2.184391736801836,
	"grad_norm": 0.6201128959655762,
	"learning_rate": 1.8891510102876235e-05,
	"loss": 0.12893006801605225,
	"step": 2855,
	"token_acc": 0.9550007581710815
	},
	{
	"epoch": 2.1882172915072684,
	"grad_norm": 0.6673233509063721,
	"learning_rate": 1.8726676067236245e-05,
	"loss": 0.10436077117919922,
	"step": 2860,
	"token_acc": 0.9645984172821045
	},
	{
	"epoch": 2.1920428462127006,
	"grad_norm": 0.7207808494567871,
	"learning_rate": 1.8562398440164135e-05,
	"loss": 0.14118155241012573,
	"step": 2865,
	"token_acc": 0.9522634148597717
	},
	{
	"epoch": 2.1958684009181333,
	"grad_norm": 0.7116675972938538,
	"learning_rate": 1.8398680144453794e-05,
	"loss": 0.11731832027435303,
	"step": 2870,
	"token_acc": 0.9581528902053833
	},
	{
	"epoch": 2.1996939556235655,
	"grad_norm": 0.5616986155509949,
	"learning_rate": 1.823552409294752e-05,
	"loss": 0.10328438282012939,
	"step": 2875,
	"token_acc": 0.9635567665100098
	},
	{
	"epoch": 2.2035195103289977,
	"grad_norm": 0.7303850650787354,
	"learning_rate": 1.8072933188484385e-05,
	"loss": 0.12835383415222168,
	"step": 2880,
	"token_acc": 0.9546709060668945
	},
	{
	"epoch": 2.20734506503443,
	"grad_norm": 0.684688925743103,
	"learning_rate": 1.7910910323848433e-05,
	"loss": 0.12336525917053223,
	"step": 2885,
	"token_acc": 0.9571567177772522
	},
	{
	"epoch": 2.211170619739862,
	"grad_norm": 0.5825948119163513,
	"learning_rate": 1.774945838171721e-05,
	"loss": 0.12321670055389404,
	"step": 2890,
	"token_acc": 0.9568530321121216
	},
	{
	"epoch": 2.2149961744452944,
	"grad_norm": 0.5380724668502808,
	"learning_rate": 1.758858023461059e-05,
	"loss": 0.1462591528892517,
	"step": 2895,
	"token_acc": 0.9520248770713806
	},
	{
	"epoch": 2.218821729150727,
	"grad_norm": 0.7477222084999084,
	"learning_rate": 1.742827874483958e-05,
	"loss": 0.1159374475479126,
	"step": 2900,
	"token_acc": 0.9597063660621643
	},
	{
	"epoch": 2.218821729150727,
	"eval_loss": 0.5222508311271667,
	"eval_runtime": 8.103,
	"eval_samples_per_second": 12.835,
	"eval_steps_per_second": 1.604,
	"eval_token_acc": 0.872032642364502,
	"step": 2900
	},
	{
	"epoch": 2.2226472838561593,
	"grad_norm": 0.578953206539154,
	"learning_rate": 1.7268556764455433e-05,
	"loss": 0.1094053030014038,
	"step": 2905,
	"token_acc": 0.9612045884132385
	},
	{
	"epoch": 2.2264728385615915,
	"grad_norm": 0.6454194188117981,
	"learning_rate": 1.7109417135198875e-05,
	"loss": 0.09978902339935303,
	"step": 2910,
	"token_acc": 0.9648175239562988
	},
	{
	"epoch": 2.2302983932670237,
	"grad_norm": 0.6507310271263123,
	"learning_rate": 1.6950862688449555e-05,
	"loss": 0.12494430541992188,
	"step": 2915,
	"token_acc": 0.9561623930931091
	},
	{
	"epoch": 2.234123947972456,
	"grad_norm": 0.5561665296554565,
	"learning_rate": 1.6792896245175695e-05,
	"loss": 0.12519459724426268,
	"step": 2920,
	"token_acc": 0.957149863243103
	},
	{
	"epoch": 2.237949502677888,
	"grad_norm": 0.6335827708244324,
	"learning_rate": 1.6635520615883854e-05,
	"loss": 0.12490168809890748,
	"step": 2925,
	"token_acc": 0.956473171710968
	},
	{
	"epoch": 2.2417750573833204,
	"grad_norm": 0.518527090549469,
	"learning_rate": 1.6478738600568978e-05,
	"loss": 0.11815754175186158,
	"step": 2930,
	"token_acc": 0.9581723809242249
	},
	{
	"epoch": 2.245600612088753,
	"grad_norm": 0.7105391025543213,
	"learning_rate": 1.6322552988664548e-05,
	"loss": 0.1265929937362671,
	"step": 2935,
	"token_acc": 0.9559991359710693
	},
	{
	"epoch": 2.2494261667941853,
	"grad_norm": 0.6597128510475159,
	"learning_rate": 1.616696655899291e-05,
	"loss": 0.10472848415374755,
	"step": 2940,
	"token_acc": 0.9618938565254211
	},
	{
	"epoch": 2.2532517214996175,
	"grad_norm": 0.5978385806083679,
	"learning_rate": 1.601198207971596e-05,
	"loss": 0.11347222328186035,
	"step": 2945,
	"token_acc": 0.9598453640937805
	},
	{
	"epoch": 2.2570772762050497,
	"grad_norm": 0.5900003910064697,
	"learning_rate": 1.585760230828579e-05,
	"loss": 0.1062214732170105,
	"step": 2950,
	"token_acc": 0.9621166586875916
	},
	{
	"epoch": 2.2570772762050497,
	"eval_loss": 0.529563307762146,
	"eval_runtime": 7.925,
	"eval_samples_per_second": 13.123,
	"eval_steps_per_second": 1.64,
	"eval_token_acc": 0.8730752468109131,
	"step": 2950
	},
	{
	"epoch": 2.260902830910482,
	"grad_norm": 0.6690232753753662,
	"learning_rate": 1.57038299913956e-05,
	"loss": 0.12313377857208252,
	"step": 2955,
	"token_acc": 0.9577500820159912
	},
	{
	"epoch": 2.264728385615914,
	"grad_norm": 0.6129235625267029,
	"learning_rate": 1.555066786493094e-05,
	"loss": 0.11549534797668456,
	"step": 2960,
	"token_acc": 0.9599046111106873
	},
	{
	"epoch": 2.268553940321347,
	"grad_norm": 0.7165189385414124,
	"learning_rate": 1.5398118653920986e-05,
	"loss": 0.10570051670074462,
	"step": 2965,
	"token_acc": 0.9616792798042297
	},
	{
	"epoch": 2.272379495026779,
	"grad_norm": 0.7057157754898071,
	"learning_rate": 1.5246185072490027e-05,
	"loss": 0.11799094676971436,
	"step": 2970,
	"token_acc": 0.9599979519844055
	},
	{
	"epoch": 2.2762050497322113,
	"grad_norm": 0.6109249591827393,
	"learning_rate": 1.5094869823809166e-05,
	"loss": 0.12232885360717774,
	"step": 2975,
	"token_acc": 0.9563071727752686
	},
	{
	"epoch": 2.2800306044376435,
	"grad_norm": 0.6849731206893921,
	"learning_rate": 1.4944175600048294e-05,
	"loss": 0.12355262041091919,
	"step": 2980,
	"token_acc": 0.9571903944015503
	},
	{
	"epoch": 2.2838561591430757,
	"grad_norm": 0.551438570022583,
	"learning_rate": 1.4794105082328158e-05,
	"loss": 0.10952677726745605,
	"step": 2985,
	"token_acc": 0.963117241859436
	},
	{
	"epoch": 2.287681713848508,
	"grad_norm": 0.7222511172294617,
	"learning_rate": 1.4644660940672627e-05,
	"loss": 0.1401592493057251,
	"step": 2990,
	"token_acc": 0.9511399865150452
	},
	{
	"epoch": 2.29150726855394,
	"grad_norm": 0.7186452150344849,
	"learning_rate": 1.449584583396124e-05,
	"loss": 0.1436525344848633,
	"step": 2995,
	"token_acc": 0.9500516653060913
	},
	{
	"epoch": 2.295332823259373,
	"grad_norm": 0.7001931071281433,
	"learning_rate": 1.4347662409881868e-05,
	"loss": 0.12311695814132691,
	"step": 3000,
	"token_acc": 0.9562889337539673
	},
	{
	"epoch": 2.295332823259373,
	"eval_loss": 0.5203014612197876,
	"eval_runtime": 9.1094,
	"eval_samples_per_second": 11.417,
	"eval_steps_per_second": 1.427,
	"eval_token_acc": 0.8741077780723572,
	"step": 3000
	},
	{
	"epoch": 2.299158377964805,
	"grad_norm": 0.6098562479019165,
	"learning_rate": 1.4200113304883611e-05,
	"loss": 0.13382203578948976,
	"step": 3005,
	"token_acc": 0.9541038274765015
	},
	{
	"epoch": 2.3029839326702373,
	"grad_norm": 0.6261680126190186,
	"learning_rate": 1.405320114412989e-05,
	"loss": 0.0949715256690979,
	"step": 3010,
	"token_acc": 0.96717369556427
	},
	{
	"epoch": 2.3068094873756695,
	"grad_norm": 0.5904762744903564,
	"learning_rate": 1.3906928541451775e-05,
	"loss": 0.10795230865478515,
	"step": 3015,
	"token_acc": 0.9621407985687256
	},
	{
	"epoch": 2.3106350420811017,
	"grad_norm": 0.6883955001831055,
	"learning_rate": 1.3761298099301378e-05,
	"loss": 0.12801848649978637,
	"step": 3020,
	"token_acc": 0.9559524059295654
	},
	{
	"epoch": 2.314460596786534,
	"grad_norm": 0.6712023615837097,
	"learning_rate": 1.3616312408705689e-05,
	"loss": 0.12017567157745361,
	"step": 3025,
	"token_acc": 0.9589926600456238
	},
	{
	"epoch": 2.318286151491966,
	"grad_norm": 0.5586845874786377,
	"learning_rate": 1.3471974049220403e-05,
	"loss": 0.09736464023590088,
	"step": 3030,
	"token_acc": 0.9669448733329773
	},
	{
	"epoch": 2.322111706197399,
	"grad_norm": 0.7812525033950806,
	"learning_rate": 1.3328285588884032e-05,
	"loss": 0.11876866817474366,
	"step": 3035,
	"token_acc": 0.9586123824119568
	},
	{
	"epoch": 2.325937260902831,
	"grad_norm": 0.5611070394515991,
	"learning_rate": 1.3185249584172172e-05,
	"loss": 0.09341703653335572,
	"step": 3040,
	"token_acc": 0.9679653644561768
	},
	{
	"epoch": 2.3297628156082633,
	"grad_norm": 0.7015408873558044,
	"learning_rate": 1.304286857995209e-05,
	"loss": 0.10733482837677003,
	"step": 3045,
	"token_acc": 0.9623789191246033
	},
	{
	"epoch": 2.3335883703136955,
	"grad_norm": 0.6591479778289795,
	"learning_rate": 1.2901145109437474e-05,
	"loss": 0.11940803527832031,
	"step": 3050,
	"token_acc": 0.9576820135116577
	},
	{
	"epoch": 2.3335883703136955,
	"eval_loss": 0.5162126421928406,
	"eval_runtime": 7.6579,
	"eval_samples_per_second": 13.581,
	"eval_steps_per_second": 1.698,
	"eval_token_acc": 0.8742882609367371,
	"step": 3050
	},
	{
	"epoch": 2.3374139250191277,
	"grad_norm": 0.5746079087257385,
	"learning_rate": 1.27600816941432e-05,
	"loss": 0.12224366664886474,
	"step": 3055,
	"token_acc": 0.95743727684021
	},
	{
	"epoch": 2.34123947972456,
	"grad_norm": 0.6104121208190918,
	"learning_rate": 1.2619680843840659e-05,
	"loss": 0.12069646120071412,
	"step": 3060,
	"token_acc": 0.9580378532409668
	},
	{
	"epoch": 2.345065034429992,
	"grad_norm": 0.6610199213027954,
	"learning_rate": 1.2479945056512993e-05,
	"loss": 0.10805834531784057,
	"step": 3065,
	"token_acc": 0.9605792760848999
	},
	{
	"epoch": 2.348890589135425,
	"grad_norm": 0.6179318428039551,
	"learning_rate": 1.2340876818310682e-05,
	"loss": 0.1121566653251648,
	"step": 3070,
	"token_acc": 0.9616247415542603
	},
	{
	"epoch": 2.352716143840857,
	"grad_norm": 0.6470217108726501,
	"learning_rate": 1.22024786035073e-05,
	"loss": 0.09998181462287903,
	"step": 3075,
	"token_acc": 0.9644249081611633
	},
	{
	"epoch": 2.3565416985462893,
	"grad_norm": 0.6415740847587585,
	"learning_rate": 1.206475287445552e-05,
	"loss": 0.10013750791549683,
	"step": 3080,
	"token_acc": 0.9655629396438599
	},
	{
	"epoch": 2.3603672532517215,
	"grad_norm": 0.5981183648109436,
	"learning_rate": 1.1927702081543279e-05,
	"loss": 0.10144208669662476,
	"step": 3085,
	"token_acc": 0.965247631072998
	},
	{
	"epoch": 2.3641928079571537,
	"grad_norm": 0.4865865409374237,
	"learning_rate": 1.179132866315018e-05,
	"loss": 0.10601496696472168,
	"step": 3090,
	"token_acc": 0.9624915719032288
	},
	{
	"epoch": 2.368018362662586,
	"grad_norm": 0.5336887240409851,
	"learning_rate": 1.165563504560413e-05,
	"loss": 0.11365892887115478,
	"step": 3095,
	"token_acc": 0.9594626426696777
	},
	{
	"epoch": 2.371843917368018,
	"grad_norm": 0.4895932376384735,
	"learning_rate": 1.1520623643138162e-05,
	"loss": 0.11079982519149781,
	"step": 3100,
	"token_acc": 0.9616596102714539
	},
	{
	"epoch": 2.371843917368018,
	"eval_loss": 0.5221489667892456,
	"eval_runtime": 8.0254,
	"eval_samples_per_second": 12.959,
	"eval_steps_per_second": 1.62,
	"eval_token_acc": 0.8750301003456116,
	"step": 3100
	},
	{
	"epoch": 2.375669472073451,
	"grad_norm": 0.6662837266921997,
	"learning_rate": 1.1386296857847444e-05,
	"loss": 0.09341274499893189,
	"step": 3105,
	"token_acc": 0.9671337008476257
	},
	{
	"epoch": 2.379495026778883,
	"grad_norm": 0.5832562446594238,
	"learning_rate": 1.12526570796466e-05,
	"loss": 0.11719496250152588,
	"step": 3110,
	"token_acc": 0.9592087864875793
	},
	{
	"epoch": 2.3833205814843152,
	"grad_norm": 0.5843919515609741,
	"learning_rate": 1.1119706686227211e-05,
	"loss": 0.10511226654052734,
	"step": 3115,
	"token_acc": 0.9644036889076233
	},
	{
	"epoch": 2.3871461361897475,
	"grad_norm": 0.49912717938423157,
	"learning_rate": 1.0987448043015374e-05,
	"loss": 0.09345480799674988,
	"step": 3120,
	"token_acc": 0.9667991399765015
	},
	{
	"epoch": 2.3909716908951797,
	"grad_norm": 0.7507015466690063,
	"learning_rate": 1.0855883503129772e-05,
	"loss": 0.11863377094268798,
	"step": 3125,
	"token_acc": 0.9587963819503784
	},
	{
	"epoch": 2.394797245600612,
	"grad_norm": 0.7630432844161987,
	"learning_rate": 1.0725015407339717e-05,
	"loss": 0.1126257300376892,
	"step": 3130,
	"token_acc": 0.9607234597206116
	},
	{
	"epoch": 2.398622800306044,
	"grad_norm": 0.6372060179710388,
	"learning_rate": 1.0594846084023547e-05,
	"loss": 0.10468795299530029,
	"step": 3135,
	"token_acc": 0.9627901315689087
	},
	{
	"epoch": 2.402448355011477,
	"grad_norm": 0.6120291352272034,
	"learning_rate": 1.0465377849127172e-05,
	"loss": 0.09292224049568176,
	"step": 3140,
	"token_acc": 0.9677795171737671
	},
	{
	"epoch": 2.406273909716909,
	"grad_norm": 0.5614500045776367,
	"learning_rate": 1.0336613006122892e-05,
	"loss": 0.09670157432556152,
	"step": 3145,
	"token_acc": 0.9674481153488159
	},
	{
	"epoch": 2.4100994644223412,
	"grad_norm": 0.5987251996994019,
	"learning_rate": 1.0208553845968383e-05,
	"loss": 0.13896613121032714,
	"step": 3150,
	"token_acc": 0.9524605870246887
	},
	{
	"epoch": 2.4100994644223412,
	"eval_loss": 0.5215019583702087,
	"eval_runtime": 7.8548,
	"eval_samples_per_second": 13.24,
	"eval_steps_per_second": 1.655,
	"eval_token_acc": 0.8747493624687195,
	"step": 3150
	},
	{
	"epoch": 2.4139250191277735,
	"grad_norm": 0.5754761695861816,
	"learning_rate": 1.008120264706598e-05,
	"loss": 0.10798046588897706,
	"step": 3155,
	"token_acc": 0.9625075459480286
	},
	{
	"epoch": 2.4177505738332057,
	"grad_norm": 0.5995942950248718,
	"learning_rate": 9.95456167522209e-06,
	"loss": 0.11118266582489014,
	"step": 3160,
	"token_acc": 0.9624667167663574
	},
	{
	"epoch": 2.4215761285386384,
	"grad_norm": 0.6560847759246826,
	"learning_rate": 9.82863318360695e-06,
	"loss": 0.11946277618408203,
	"step": 3165,
	"token_acc": 0.9585193991661072
	},
	{
	"epoch": 2.4254016832440706,
	"grad_norm": 0.5231161713600159,
	"learning_rate": 9.703419412714431e-06,
	"loss": 0.1082839012145996,
	"step": 3170,
	"token_acc": 0.9630952477455139
	},
	{
	"epoch": 2.429227237949503,
	"grad_norm": 0.6471136808395386,
	"learning_rate": 9.578922590322276e-06,
	"loss": 0.10554378032684326,
	"step": 3175,
	"token_acc": 0.9643285870552063
	},
	{
	"epoch": 2.433052792654935,
	"grad_norm": 0.6062421202659607,
	"learning_rate": 9.45514493145246e-06,
	"loss": 0.11804389953613281,
	"step": 3180,
	"token_acc": 0.9601839780807495
	},
	{
	"epoch": 2.4368783473603672,
	"grad_norm": 0.6130327582359314,
	"learning_rate": 9.332088638331682e-06,
	"loss": 0.12830252647399903,
	"step": 3185,
	"token_acc": 0.955107569694519
	},
	{
	"epoch": 2.4407039020657995,
	"grad_norm": 0.5650054812431335,
	"learning_rate": 9.209755900352285e-06,
	"loss": 0.08745735883712769,
	"step": 3190,
	"token_acc": 0.9680666327476501
	},
	{
	"epoch": 2.4445294567712317,
	"grad_norm": 0.6417719125747681,
	"learning_rate": 9.088148894033255e-06,
	"loss": 0.10346298217773438,
	"step": 3195,
	"token_acc": 0.9632440209388733
	},
	{
	"epoch": 2.4483550114766643,
	"grad_norm": 0.549809992313385,
	"learning_rate": 8.967269782981557e-06,
	"loss": 0.10478920936584472,
	"step": 3200,
	"token_acc": 0.964032769203186
	},
	{
	"epoch": 2.4483550114766643,
	"eval_loss": 0.524568498134613,
	"eval_runtime": 7.9187,
	"eval_samples_per_second": 13.133,
	"eval_steps_per_second": 1.642,
	"eval_token_acc": 0.8750100135803223,
	"step": 3200
	},
	{
	"epoch": 2.4521805661820966,
	"grad_norm": 0.5881340503692627,
	"learning_rate": 8.847120717853513e-06,
	"loss": 0.09231488704681397,
	"step": 3205,
	"token_acc": 0.967642068862915
	},
	{
	"epoch": 2.456006120887529,
	"grad_norm": 0.49171632528305054,
	"learning_rate": 8.727703836316664e-06,
	"loss": 0.08269585371017456,
	"step": 3210,
	"token_acc": 0.9714418053627014
	},
	{
	"epoch": 2.459831675592961,
	"grad_norm": 0.5847451090812683,
	"learning_rate": 8.609021263011696e-06,
	"loss": 0.09583220481872559,
	"step": 3215,
	"token_acc": 0.967701256275177
	},
	{
	"epoch": 2.4636572302983932,
	"grad_norm": 0.6022827625274658,
	"learning_rate": 8.491075109514612e-06,
	"loss": 0.0968513011932373,
	"step": 3220,
	"token_acc": 0.965691328048706
	},
	{
	"epoch": 2.4674827850038255,
	"grad_norm": 0.6396250128746033,
	"learning_rate": 8.373867474299197e-06,
	"loss": 0.09366763830184936,
	"step": 3225,
	"token_acc": 0.967291533946991
	},
	{
	"epoch": 2.4713083397092577,
	"grad_norm": 0.6564737558364868,
	"learning_rate": 8.257400442699681e-06,
	"loss": 0.09510574340820313,
	"step": 3230,
	"token_acc": 0.9668706059455872
	},
	{
	"epoch": 2.4751338944146903,
	"grad_norm": 0.5506086945533752,
	"learning_rate": 8.141676086873572e-06,
	"loss": 0.09186252355575561,
	"step": 3235,
	"token_acc": 0.9672021865844727
	},
	{
	"epoch": 2.4789594491201226,
	"grad_norm": 0.5937402844429016,
	"learning_rate": 8.026696465764922e-06,
	"loss": 0.09575964212417602,
	"step": 3240,
	"token_acc": 0.9655571579933167
	},
	{
	"epoch": 2.482785003825555,
	"grad_norm": 0.5168645977973938,
	"learning_rate": 7.912463625067568e-06,
	"loss": 0.11513475179672242,
	"step": 3245,
	"token_acc": 0.9584820866584778
	},
	{
	"epoch": 2.486610558530987,
	"grad_norm": 12.089369773864746,
	"learning_rate": 7.7989795971888e-06,
	"loss": 0.29053955078125,
	"step": 3250,
	"token_acc": 0.9437501430511475
	},
	{
	"epoch": 2.486610558530987,
	"eval_loss": 0.5287056565284729,
	"eval_runtime": 7.9028,
	"eval_samples_per_second": 13.16,
	"eval_steps_per_second": 1.645,
	"eval_token_acc": 0.8761628866195679,
	"step": 3250
	},
	{
	"epoch": 2.4904361132364192,
	"grad_norm": 0.6238409876823425,
	"learning_rate": 7.68624640121316e-06,
	"loss": 0.1205405831336975,
	"step": 3255,
	"token_acc": 0.9586801528930664
	},
	{
	"epoch": 2.4942616679418514,
	"grad_norm": 0.6099902391433716,
	"learning_rate": 7.574266042866546e-06,
	"loss": 0.09387488961219788,
	"step": 3260,
	"token_acc": 0.9670175909996033
	},
	{
	"epoch": 2.4980872226472837,
	"grad_norm": 0.6190466284751892,
	"learning_rate": 7.463040514480579e-06,
	"loss": 0.11645488739013672,
	"step": 3265,
	"token_acc": 0.9598995447158813
	},
	{
	"epoch": 2.5019127773527163,
	"grad_norm": 0.6443151235580444,
	"learning_rate": 7.352571794957025e-06,
	"loss": 0.08591481447219848,
	"step": 3270,
	"token_acc": 0.9710960388183594
	},
	{
	"epoch": 2.5057383320581486,
	"grad_norm": 0.6558806896209717,
	"learning_rate": 7.242861849732696e-06,
	"loss": 0.1108025312423706,
	"step": 3275,
	"token_acc": 0.9633561968803406
	},
	{
	"epoch": 2.5095638867635808,
	"grad_norm": 0.6043168306350708,
	"learning_rate": 7.133912630744455e-06,
	"loss": 0.08010676503181458,
	"step": 3280,
	"token_acc": 0.9711145162582397
	},
	{
	"epoch": 2.513389441469013,
	"grad_norm": 0.671475887298584,
	"learning_rate": 7.025726076394462e-06,
	"loss": 0.1144939661026001,
	"step": 3285,
	"token_acc": 0.9594224691390991
	},
	{
	"epoch": 2.517214996174445,
	"grad_norm": 0.5959923267364502,
	"learning_rate": 6.9183041115157165e-06,
	"loss": 0.08532092571258545,
	"step": 3290,
	"token_acc": 0.9698848724365234
	},
	{
	"epoch": 2.5210405508798774,
	"grad_norm": 0.552179217338562,
	"learning_rate": 6.8116486473377985e-06,
	"loss": 0.09567714929580688,
	"step": 3295,
	"token_acc": 0.966461718082428
	},
	{
	"epoch": 2.5248661055853097,
	"grad_norm": 0.8035470843315125,
	"learning_rate": 6.7057615814528514e-06,
	"loss": 0.11172772645950317,
	"step": 3300,
	"token_acc": 0.9609107375144958
	},
	{
	"epoch": 2.5248661055853097,
	"eval_loss": 0.5269036889076233,
	"eval_runtime": 8.3826,
	"eval_samples_per_second": 12.407,
	"eval_steps_per_second": 1.551,
	"eval_token_acc": 0.8761628866195679,
	"step": 3300
	},
	{
	"epoch": 2.5286916602907423,
	"grad_norm": 0.5826445817947388,
	"learning_rate": 6.600644797781847e-06,
	"loss": 0.09061547517776489,
	"step": 3305,
	"token_acc": 0.9684428572654724
	},
	{
	"epoch": 2.5325172149961745,
	"grad_norm": 0.6639491319656372,
	"learning_rate": 6.496300166541052e-06,
	"loss": 0.1045493245124817,
	"step": 3310,
	"token_acc": 0.9641888737678528
	},
	{
	"epoch": 2.5363427697016068,
	"grad_norm": 0.5682926177978516,
	"learning_rate": 6.392729544208758e-06,
	"loss": 0.10315026044845581,
	"step": 3315,
	"token_acc": 0.963904619216919
	},
	{
	"epoch": 2.540168324407039,
	"grad_norm": 0.6878834962844849,
	"learning_rate": 6.289934773492223e-06,
	"loss": 0.10737843513488769,
	"step": 3320,
	"token_acc": 0.963394284248352
	},
	{
	"epoch": 2.543993879112471,
	"grad_norm": 0.5965612530708313,
	"learning_rate": 6.1879176832949525e-06,
	"loss": 0.11070966720581055,
	"step": 3325,
	"token_acc": 0.9651868939399719
	},
	{
	"epoch": 2.5478194338179034,
	"grad_norm": 0.6844844818115234,
	"learning_rate": 6.086680088684105e-06,
	"loss": 0.10959099531173706,
	"step": 3330,
	"token_acc": 0.9614537358283997
	},
	{
	"epoch": 2.5516449885233357,
	"grad_norm": 0.5353488922119141,
	"learning_rate": 5.986223790858186e-06,
	"loss": 0.09058489799499511,
	"step": 3335,
	"token_acc": 0.9692246317863464
	},
	{
	"epoch": 2.5554705432287683,
	"grad_norm": 0.6746286749839783,
	"learning_rate": 5.886550577115069e-06,
	"loss": 0.1055182695388794,
	"step": 3340,
	"token_acc": 0.9636992812156677
	},
	{
	"epoch": 2.5592960979342005,
	"grad_norm": 0.5335373282432556,
	"learning_rate": 5.787662220820134e-06,
	"loss": 0.1255274772644043,
	"step": 3345,
	"token_acc": 0.9566043615341187
	},
	{
	"epoch": 2.5631216526396328,
	"grad_norm": 0.6528668403625488,
	"learning_rate": 5.689560481374734e-06,
	"loss": 0.10252002477645875,
	"step": 3350,
	"token_acc": 0.9639867544174194
	},
	{
	"epoch": 2.5631216526396328,
	"eval_loss": 0.5217230319976807,
	"eval_runtime": 8.1191,
	"eval_samples_per_second": 12.809,
	"eval_steps_per_second": 1.601,
	"eval_token_acc": 0.8769047260284424,
	"step": 3350
	},
	{
	"epoch": 2.566947207345065,
	"grad_norm": 0.49694639444351196,
	"learning_rate": 5.592247104184917e-06,
	"loss": 0.08688923120498657,
	"step": 3355,
	"token_acc": 0.9706814289093018
	},
	{
	"epoch": 2.570772762050497,
	"grad_norm": 0.5503761172294617,
	"learning_rate": 5.495723820630333e-06,
	"loss": 0.12382068634033203,
	"step": 3360,
	"token_acc": 0.9561320543289185
	},
	{
	"epoch": 2.57459831675593,
	"grad_norm": 0.6813068985939026,
	"learning_rate": 5.399992348033461e-06,
	"loss": 0.12225714921951295,
	"step": 3365,
	"token_acc": 0.9570099711418152
	},
	{
	"epoch": 2.5784238714613616,
	"grad_norm": 0.5871702432632446,
	"learning_rate": 5.305054389629022e-06,
	"loss": 0.07900494337081909,
	"step": 3370,
	"token_acc": 0.9720001220703125
	},
	{
	"epoch": 2.5822494261667943,
	"grad_norm": 0.7074242830276489,
	"learning_rate": 5.210911634533721e-06,
	"loss": 0.11348228454589844,
	"step": 3375,
	"token_acc": 0.9611703157424927
	},
	{
	"epoch": 2.5860749808722265,
	"grad_norm": 0.6286773085594177,
	"learning_rate": 5.117565757716158e-06,
	"loss": 0.11759569644927978,
	"step": 3380,
	"token_acc": 0.9579370617866516
	},
	{
	"epoch": 2.5899005355776588,
	"grad_norm": 0.6363070607185364,
	"learning_rate": 5.025018419967009e-06,
	"loss": 0.11911303997039795,
	"step": 3385,
	"token_acc": 0.9589115977287292
	},
	{
	"epoch": 2.593726090283091,
	"grad_norm": 0.6866349577903748,
	"learning_rate": 4.933271267869566e-06,
	"loss": 0.11872742176055909,
	"step": 3390,
	"token_acc": 0.9597334265708923
	},
	{
	"epoch": 2.597551644988523,
	"grad_norm": 0.5686379075050354,
	"learning_rate": 4.842325933770342e-06,
	"loss": 0.10091429948806763,
	"step": 3395,
	"token_acc": 0.9646428227424622
	},
	{
	"epoch": 2.601377199693956,
	"grad_norm": 0.5744697451591492,
	"learning_rate": 4.752184035750068e-06,
	"loss": 0.1112870454788208,
	"step": 3400,
	"token_acc": 0.9629582166671753
	},
	{
	"epoch": 2.601377199693956,
	"eval_loss": 0.5221067667007446,
	"eval_runtime": 7.949,
	"eval_samples_per_second": 13.083,
	"eval_steps_per_second": 1.635,
	"eval_token_acc": 0.8777067065238953,
	"step": 3400
	},
	{
	"epoch": 2.6052027543993876,
	"grad_norm": 0.5436497926712036,
	"learning_rate": 4.662847177594909e-06,
	"loss": 0.09204695224761963,
	"step": 3405,
	"token_acc": 0.9677549004554749
	},
	{
	"epoch": 2.6090283091048203,
	"grad_norm": 0.5940696001052856,
	"learning_rate": 4.5743169487679316e-06,
	"loss": 0.09365889430046082,
	"step": 3410,
	"token_acc": 0.9672086834907532
	},
	{
	"epoch": 2.6128538638102525,
	"grad_norm": 0.5806345343589783,
	"learning_rate": 4.486594924380838e-06,
	"loss": 0.07467930316925049,
	"step": 3415,
	"token_acc": 0.9740605354309082
	},
	{
	"epoch": 2.6166794185156848,
	"grad_norm": 0.6086448431015015,
	"learning_rate": 4.3996826651658775e-06,
	"loss": 0.09224212169647217,
	"step": 3420,
	"token_acc": 0.9681790471076965
	},
	{
	"epoch": 2.620504973221117,
	"grad_norm": 0.4966646432876587,
	"learning_rate": 4.313581717448156e-06,
	"loss": 0.08799538612365723,
	"step": 3425,
	"token_acc": 0.9687092304229736
	},
	{
	"epoch": 2.624330527926549,
	"grad_norm": 0.7006512880325317,
	"learning_rate": 4.228293613118089e-06,
	"loss": 0.10830029249191284,
	"step": 3430,
	"token_acc": 0.962169885635376
	},
	{
	"epoch": 2.628156082631982,
	"grad_norm": 0.7951710820198059,
	"learning_rate": 4.143819869604132e-06,
	"loss": 0.09951411485671997,
	"step": 3435,
	"token_acc": 0.9649299383163452
	},
	{
	"epoch": 2.631981637337414,
	"grad_norm": 0.6713584661483765,
	"learning_rate": 4.060161989845818e-06,
	"loss": 0.09943540692329407,
	"step": 3440,
	"token_acc": 0.9660786390304565
	},
	{
	"epoch": 2.6358071920428463,
	"grad_norm": 0.8555734753608704,
	"learning_rate": 3.977321462266998e-06,
	"loss": 0.12329368591308594,
	"step": 3445,
	"token_acc": 0.9588665962219238
	},
	{
	"epoch": 2.6396327467482785,
	"grad_norm": 0.7402066588401794,
	"learning_rate": 3.8952997607493325e-06,
	"loss": 0.1296180248260498,
	"step": 3450,
	"token_acc": 0.9544374942779541
	},
	{
	"epoch": 2.6396327467482785,
	"eval_loss": 0.5221165418624878,
	"eval_runtime": 7.8424,
	"eval_samples_per_second": 13.261,
	"eval_steps_per_second": 1.658,
	"eval_token_acc": 0.8774861693382263,
	"step": 3450
	},
	{
	"epoch": 2.6434583014537107,
	"grad_norm": 0.5311779975891113,
	"learning_rate": 3.814098344606143e-06,
	"loss": 0.08472838401794433,
	"step": 3455,
	"token_acc": 0.9710620045661926
	},
	{
	"epoch": 2.647283856159143,
	"grad_norm": 0.572284460067749,
	"learning_rate": 3.7337186585563732e-06,
	"loss": 0.08200944662094116,
	"step": 3460,
	"token_acc": 0.9718431234359741
	},
	{
	"epoch": 2.651109410864575,
	"grad_norm": 0.4984256327152252,
	"learning_rate": 3.654162132698918e-06,
	"loss": 0.10278162956237794,
	"step": 3465,
	"token_acc": 0.965274453163147
	},
	{
	"epoch": 2.654934965570008,
	"grad_norm": 0.5390318036079407,
	"learning_rate": 3.5754301824871605e-06,
	"loss": 0.10632505416870117,
	"step": 3470,
	"token_acc": 0.9644556641578674
	},
	{
	"epoch": 2.65876052027544,
	"grad_norm": 0.5882481336593628,
	"learning_rate": 3.497524208703834e-06,
	"loss": 0.10900474786758423,
	"step": 3475,
	"token_acc": 0.9621248841285706
	},
	{
	"epoch": 2.6625860749808723,
	"grad_norm": 0.6717934608459473,
	"learning_rate": 3.420445597436056e-06,
	"loss": 0.0886709749698639,
	"step": 3480,
	"token_acc": 0.9691559672355652
	},
	{
	"epoch": 2.6664116296863045,
	"grad_norm": 0.5694244503974915,
	"learning_rate": 3.344195720050658e-06,
	"loss": 0.09270554780960083,
	"step": 3485,
	"token_acc": 0.9656193852424622
	},
	{
	"epoch": 2.6702371843917367,
	"grad_norm": 0.7296086549758911,
	"learning_rate": 3.2687759331698375e-06,
	"loss": 0.10218125581741333,
	"step": 3490,
	"token_acc": 0.9648373126983643
	},
	{
	"epoch": 2.674062739097169,
	"grad_norm": 0.4986768662929535,
	"learning_rate": 3.194187578646979e-06,
	"loss": 0.09201115369796753,
	"step": 3495,
	"token_acc": 0.9665822982788086
	},
	{
	"epoch": 2.677888293802601,
	"grad_norm": 0.6790587306022644,
	"learning_rate": 3.120431983542793e-06,
	"loss": 0.10237842798233032,
	"step": 3500,
	"token_acc": 0.9661151170730591
	},
	{
	"epoch": 2.677888293802601,
	"eval_loss": 0.5228468179702759,
	"eval_runtime": 7.9645,
	"eval_samples_per_second": 13.058,
	"eval_steps_per_second": 1.632,
	"eval_token_acc": 0.8785387873649597,
	"step": 3500
	},
	{
	"epoch": 2.681713848508034,
	"grad_norm": 0.6572025418281555,
	"learning_rate": 3.047510460101705e-06,
	"loss": 0.13050510883331298,
	"step": 3505,
	"token_acc": 0.9555116295814514
	},
	{
	"epoch": 2.685539403213466,
	"grad_norm": 0.8115324378013611,
	"learning_rate": 2.9754243057285134e-06,
	"loss": 0.1264261245727539,
	"step": 3510,
	"token_acc": 0.956243634223938
	},
	{
	"epoch": 2.6893649579188983,
	"grad_norm": 0.5161707401275635,
	"learning_rate": 2.9041748029652927e-06,
	"loss": 0.08881696462631225,
	"step": 3515,
	"token_acc": 0.9682623147964478
	},
	{
	"epoch": 2.6931905126243305,
	"grad_norm": 0.5522788763046265,
	"learning_rate": 2.8337632194685993e-06,
	"loss": 0.08286306858062745,
	"step": 3520,
	"token_acc": 0.9708802700042725
	},
	{
	"epoch": 2.6970160673297627,
	"grad_norm": 0.5946321487426758,
	"learning_rate": 2.7641908079868827e-06,
	"loss": 0.10248844623565674,
	"step": 3525,
	"token_acc": 0.9636382460594177
	},
	{
	"epoch": 2.700841622035195,
	"grad_norm": 0.6317991018295288,
	"learning_rate": 2.69545880633823e-06,
	"loss": 0.10524777173995972,
	"step": 3530,
	"token_acc": 0.9621507525444031
	},
	{
	"epoch": 2.704667176740627,
	"grad_norm": 0.41846737265586853,
	"learning_rate": 2.627568437388306e-06,
	"loss": 0.08343310356140136,
	"step": 3535,
	"token_acc": 0.970815122127533
	},
	{
	"epoch": 2.70849273144606,
	"grad_norm": 0.592873752117157,
	"learning_rate": 2.560520909028663e-06,
	"loss": 0.08635797500610351,
	"step": 3540,
	"token_acc": 0.9700879454612732
	},
	{
	"epoch": 2.712318286151492,
	"grad_norm": 0.5590534210205078,
	"learning_rate": 2.4943174141551674e-06,
	"loss": 0.10181926488876343,
	"step": 3545,
	"token_acc": 0.9652162194252014
	},
	{
	"epoch": 2.7161438408569243,
	"grad_norm": 0.5901391506195068,
	"learning_rate": 2.428959130646824e-06,
	"loss": 0.09749918580055236,
	"step": 3550,
	"token_acc": 0.9646121263504028
	},
	{
	"epoch": 2.7161438408569243,
	"eval_loss": 0.5235512256622314,
	"eval_runtime": 7.8855,
	"eval_samples_per_second": 13.189,
	"eval_steps_per_second": 1.649,
	"eval_token_acc": 0.8786590695381165,
	"step": 3550
	},
	{
	"epoch": 2.7199693955623565,
	"grad_norm": 0.5816419720649719,
	"learning_rate": 2.364447221344812e-06,
	"loss": 0.12211033105850219,
	"step": 3555,
	"token_acc": 0.9581829905509949
	},
	{
	"epoch": 2.7237949502677887,
	"grad_norm": 0.6168470978736877,
	"learning_rate": 2.3007828340318114e-06,
	"loss": 0.09811439514160156,
	"step": 3560,
	"token_acc": 0.9663928151130676
	},
	{
	"epoch": 2.7276205049732214,
	"grad_norm": 0.599656343460083,
	"learning_rate": 2.237967101411531e-06,
	"loss": 0.12740142345428468,
	"step": 3565,
	"token_acc": 0.9561182260513306
	},
	{
	"epoch": 2.731446059678653,
	"grad_norm": 0.6238080263137817,
	"learning_rate": 2.1760011410886126e-06,
	"loss": 0.09838619828224182,
	"step": 3570,
	"token_acc": 0.9653590321540833
	},
	{
	"epoch": 2.735271614384086,
	"grad_norm": 0.5564831495285034,
	"learning_rate": 2.1148860555487204e-06,
	"loss": 0.09222927689552307,
	"step": 3575,
	"token_acc": 0.9685646891593933
	},
	{
	"epoch": 2.739097169089518,
	"grad_norm": 0.6360819935798645,
	"learning_rate": 2.0546229321389278e-06,
	"loss": 0.09308220148086548,
	"step": 3580,
	"token_acc": 0.9680613279342651
	},
	{
	"epoch": 2.7429227237949503,
	"grad_norm": 0.5651523470878601,
	"learning_rate": 1.995212843048372e-06,
	"loss": 0.09616876244544983,
	"step": 3585,
	"token_acc": 0.9660496115684509
	},
	{
	"epoch": 2.7467482785003825,
	"grad_norm": 0.6321117877960205,
	"learning_rate": 1.93665684528917e-06,
	"loss": 0.09454690217971802,
	"step": 3590,
	"token_acc": 0.9675334692001343
	},
	{
	"epoch": 2.7505738332058147,
	"grad_norm": 0.5536521077156067,
	"learning_rate": 1.878955980677638e-06,
	"loss": 0.07992898225784302,
	"step": 3595,
	"token_acc": 0.9721735119819641
	},
	{
	"epoch": 2.7543993879112474,
	"grad_norm": 0.688173770904541,
	"learning_rate": 1.82211127581573e-06,
	"loss": 0.09609293937683105,
	"step": 3600,
	"token_acc": 0.9671096205711365
	},
	{
	"epoch": 2.7543993879112474,
	"eval_loss": 0.5215653777122498,
	"eval_runtime": 8.0108,
	"eval_samples_per_second": 12.982,
	"eval_steps_per_second": 1.623,
	"eval_token_acc": 0.8788695931434631,
	"step": 3600
	},
	{
	"epoch": 2.758224942616679,
	"grad_norm": 0.6505938768386841,
	"learning_rate": 1.7661237420727784e-06,
	"loss": 0.1013750433921814,
	"step": 3605,
	"token_acc": 0.9644123315811157
	},
	{
	"epoch": 2.762050497322112,
	"grad_norm": 0.5934735536575317,
	"learning_rate": 1.710994375567504e-06,
	"loss": 0.0851688802242279,
	"step": 3610,
	"token_acc": 0.9705018997192383
	},
	{
	"epoch": 2.765876052027544,
	"grad_norm": 0.6007834076881409,
	"learning_rate": 1.6567241571502912e-06,
	"loss": 0.07638438940048217,
	"step": 3615,
	"token_acc": 0.9712318778038025
	},
	{
	"epoch": 2.7697016067329763,
	"grad_norm": 0.5481213927268982,
	"learning_rate": 1.6033140523857404e-06,
	"loss": 0.09145662784576417,
	"step": 3620,
	"token_acc": 0.9675630927085876
	},
	{
	"epoch": 2.7735271614384085,
	"grad_norm": 0.6200750470161438,
	"learning_rate": 1.5507650115354877e-06,
	"loss": 0.10738480091094971,
	"step": 3625,
	"token_acc": 0.9640287756919861
	},
	{
	"epoch": 2.7773527161438407,
	"grad_norm": 0.6538658142089844,
	"learning_rate": 1.499077969541307e-06,
	"loss": 0.10229132175445557,
	"step": 3630,
	"token_acc": 0.9641778469085693
	},
	{
	"epoch": 2.7811782708492734,
	"grad_norm": 1.8193166255950928,
	"learning_rate": 1.4482538460084293e-06,
	"loss": 0.13732895851135254,
	"step": 3635,
	"token_acc": 0.958136796951294
	},
	{
	"epoch": 2.785003825554705,
	"grad_norm": 0.5257523655891418,
	"learning_rate": 1.3982935451892498e-06,
	"loss": 0.08640526533126831,
	"step": 3640,
	"token_acc": 0.971260130405426
	},
	{
	"epoch": 2.788829380260138,
	"grad_norm": 0.568705141544342,
	"learning_rate": 1.3491979559672075e-06,
	"loss": 0.08791974782943726,
	"step": 3645,
	"token_acc": 0.9699133038520813
	},
	{
	"epoch": 2.79265493496557,
	"grad_norm": 0.5045759081840515,
	"learning_rate": 1.3009679518409479e-06,
	"loss": 0.07553626298904419,
	"step": 3650,
	"token_acc": 0.9740194082260132
	},
	{
	"epoch": 2.79265493496557,
	"eval_loss": 0.5219829678535461,
	"eval_runtime": 8.0288,
	"eval_samples_per_second": 12.953,
	"eval_steps_per_second": 1.619,
	"eval_token_acc": 0.8788595795631409,
	"step": 3650
	},
	{
	"epoch": 2.7964804896710023,
	"grad_norm": 0.610518217086792,
	"learning_rate": 1.2536043909088191e-06,
	"loss": 0.10455150604248047,
	"step": 3655,
	"token_acc": 0.9636396765708923
	},
	{
	"epoch": 2.8003060443764345,
	"grad_norm": 0.5319099426269531,
	"learning_rate": 1.2071081158535947e-06,
	"loss": 0.08882582187652588,
	"step": 3660,
	"token_acc": 0.968651294708252
	},
	{
	"epoch": 2.8041315990818667,
	"grad_norm": 0.6065900325775146,
	"learning_rate": 1.1614799539274634e-06,
	"loss": 0.08307374119758607,
	"step": 3665,
	"token_acc": 0.9706868529319763
	},
	{
	"epoch": 2.8079571537872994,
	"grad_norm": 0.6401634812355042,
	"learning_rate": 1.1167207169373195e-06,
	"loss": 0.09725141525268555,
	"step": 3670,
	"token_acc": 0.9657084941864014
	},
	{
	"epoch": 2.8117827084927316,
	"grad_norm": 0.524497389793396,
	"learning_rate": 1.0728312012303454e-06,
	"loss": 0.11780104637145997,
	"step": 3675,
	"token_acc": 0.960728108882904
	},
	{
	"epoch": 2.815608263198164,
	"grad_norm": 0.7346832156181335,
	"learning_rate": 1.0298121876797962e-06,
	"loss": 0.11407887935638428,
	"step": 3680,
	"token_acc": 0.9612630605697632
	},
	{
	"epoch": 2.819433817903596,
	"grad_norm": 0.6890755295753479,
	"learning_rate": 9.876644416711488e-07,
	"loss": 0.11829521656036376,
	"step": 3685,
	"token_acc": 0.9585215449333191
	},
	{
	"epoch": 2.8232593726090283,
	"grad_norm": 0.5342867970466614,
	"learning_rate": 9.46388713088453e-07,
	"loss": 0.09410252571105956,
	"step": 3690,
	"token_acc": 0.9661674499511719
	},
	{
	"epoch": 2.8270849273144605,
	"grad_norm": 0.4889836311340332,
	"learning_rate": 9.059857363010183e-07,
	"loss": 0.09603096842765808,
	"step": 3695,
	"token_acc": 0.965887188911438
	},
	{
	"epoch": 2.8309104820198927,
	"grad_norm": 0.5685746073722839,
	"learning_rate": 8.664562301503143e-07,
	"loss": 0.08459590077400207,
	"step": 3700,
	"token_acc": 0.9699506163597107
	},
	{
	"epoch": 2.8309104820198927,
	"eval_loss": 0.5205320119857788,
	"eval_runtime": 7.8427,
	"eval_samples_per_second": 13.261,
	"eval_steps_per_second": 1.658,
	"eval_token_acc": 0.8790299892425537,
	"step": 3700
	},
	{
	"epoch": 2.8347360367253254,
	"grad_norm": 0.5299521684646606,
	"learning_rate": 8.278008979372087e-07,
	"loss": 0.09127166271209716,
	"step": 3705,
	"token_acc": 0.9684864282608032
	},
	{
	"epoch": 2.8385615914307576,
	"grad_norm": 0.4766036868095398,
	"learning_rate": 7.900204274094602e-07,
	"loss": 0.09881120324134826,
	"step": 3710,
	"token_acc": 0.9655190706253052
	},
	{
	"epoch": 2.84238714613619,
	"grad_norm": 8.799799919128418,
	"learning_rate": 7.531154907494397e-07,
	"loss": 0.13544522523880004,
	"step": 3715,
	"token_acc": 0.9555306434631348
	},
	{
	"epoch": 2.846212700841622,
	"grad_norm": 0.563325822353363,
	"learning_rate": 7.170867445622287e-07,
	"loss": 0.10241570472717285,
	"step": 3720,
	"token_acc": 0.9647788405418396
	},
	{
	"epoch": 2.8500382555470543,
	"grad_norm": 0.6075456142425537,
	"learning_rate": 6.819348298638839e-07,
	"loss": 0.12761690616607665,
	"step": 3725,
	"token_acc": 0.9584816098213196
	},
	{
	"epoch": 2.8538638102524865,
	"grad_norm": 0.6337462663650513,
	"learning_rate": 6.476603720700636e-07,
	"loss": 0.09158645272254944,
	"step": 3730,
	"token_acc": 0.9687730669975281
	},
	{
	"epoch": 2.8576893649579187,
	"grad_norm": 0.5899404287338257,
	"learning_rate": 6.142639809849027e-07,
	"loss": 0.09597094655036927,
	"step": 3735,
	"token_acc": 0.9665765762329102
	},
	{
	"epoch": 2.8615149196633514,
	"grad_norm": 0.5653353929519653,
	"learning_rate": 5.817462507901383e-07,
	"loss": 0.10877490043640137,
	"step": 3740,
	"token_acc": 0.9619103074073792
	},
	{
	"epoch": 2.8653404743687836,
	"grad_norm": 0.49452540278434753,
	"learning_rate": 5.501077600345572e-07,
	"loss": 0.08857889175415039,
	"step": 3745,
	"token_acc": 0.9700949192047119
	},
	{
	"epoch": 2.869166029074216,
	"grad_norm": 0.731597900390625,
	"learning_rate": 5.193490716237037e-07,
	"loss": 0.12281218767166138,
	"step": 3750,
	"token_acc": 0.9560735821723938
	},
	{
	"epoch": 2.869166029074216,
	"eval_loss": 0.5206364989280701,
	"eval_runtime": 9.2942,
	"eval_samples_per_second": 11.19,
	"eval_steps_per_second": 1.399,
	"eval_token_acc": 0.879270613193512,
	"step": 3750
	},
	{
	"epoch": 2.872991583779648,
	"grad_norm": 0.6116617321968079,
	"learning_rate": 4.894707328098602e-07,
	"loss": 0.11083317995071411,
	"step": 3755,
	"token_acc": 0.9610885977745056
	},
	{
	"epoch": 2.8768171384850802,
	"grad_norm": 0.5174733400344849,
	"learning_rate": 4.6047327518230485e-07,
	"loss": 0.08961974382400513,
	"step": 3760,
	"token_acc": 0.9690099954605103
	},
	{
	"epoch": 2.8806426931905125,
	"grad_norm": 0.5262379050254822,
	"learning_rate": 4.3235721465784697e-07,
	"loss": 0.09585506916046142,
	"step": 3765,
	"token_acc": 0.9667736887931824
	},
	{
	"epoch": 2.8844682478959447,
	"grad_norm": 0.5788334012031555,
	"learning_rate": 4.0512305147167863e-07,
	"loss": 0.08268014192581177,
	"step": 3770,
	"token_acc": 0.9712512493133545
	},
	{
	"epoch": 2.8882938026013774,
	"grad_norm": 0.687783420085907,
	"learning_rate": 3.787712701684598e-07,
	"loss": 0.08984529376029968,
	"step": 3775,
	"token_acc": 0.9686997532844543
	},
	{
	"epoch": 2.8921193573068096,
	"grad_norm": 0.6016952395439148,
	"learning_rate": 3.5330233959365853e-07,
	"loss": 0.09222807884216308,
	"step": 3780,
	"token_acc": 0.9685728549957275
	},
	{
	"epoch": 2.895944912012242,
	"grad_norm": 0.5089208483695984,
	"learning_rate": 3.2871671288528525e-07,
	"loss": 0.09786663055419922,
	"step": 3785,
	"token_acc": 0.9665623903274536
	},
	{
	"epoch": 2.899770466717674,
	"grad_norm": 1.769921898841858,
	"learning_rate": 3.050148274657549e-07,
	"loss": 0.12438170909881592,
	"step": 3790,
	"token_acc": 0.9624179601669312
	},
	{
	"epoch": 2.9035960214231062,
	"grad_norm": 0.5424771904945374,
	"learning_rate": 2.821971050341654e-07,
	"loss": 0.0890495777130127,
	"step": 3795,
	"token_acc": 0.9703425765037537
	},
	{
	"epoch": 2.907421576128539,
	"grad_norm": 0.5487825274467468,
	"learning_rate": 2.6026395155874795e-07,
	"loss": 0.10370445251464844,
	"step": 3800,
	"token_acc": 0.9638125896453857
	},
	{
	"epoch": 2.907421576128539,
	"eval_loss": 0.5206490159034729,
	"eval_runtime": 8.3112,
	"eval_samples_per_second": 12.513,
	"eval_steps_per_second": 1.564,
	"eval_token_acc": 0.8794209361076355,
	"step": 3800
	},
	{
	"epoch": 2.9112471308339707,
	"grad_norm": 0.5681285262107849,
	"learning_rate": 2.3921575726967846e-07,
	"loss": 0.09305150508880615,
	"step": 3805,
	"token_acc": 0.9688363075256348
	},
	{
	"epoch": 2.9150726855394034,
	"grad_norm": 0.4438033103942871,
	"learning_rate": 2.1905289665211104e-07,
	"loss": 0.08973047733306885,
	"step": 3810,
	"token_acc": 0.9688341021537781
	},
	{
	"epoch": 2.9188982402448356,
	"grad_norm": 0.5287227630615234,
	"learning_rate": 1.9977572843953296e-07,
	"loss": 0.07862873077392578,
	"step": 3815,
	"token_acc": 0.9715408086776733
	},
	{
	"epoch": 2.922723794950268,
	"grad_norm": 0.5739708542823792,
	"learning_rate": 1.8138459560735899e-07,
	"loss": 0.08315033316612244,
	"step": 3820,
	"token_acc": 0.9718932509422302
	},
	{
	"epoch": 2.9265493496557,
	"grad_norm": 0.6123870611190796,
	"learning_rate": 1.638798253668694e-07,
	"loss": 0.125601065158844,
	"step": 3825,
	"token_acc": 0.9556345343589783
	},
	{
	"epoch": 2.9303749043611322,
	"grad_norm": 0.6285126209259033,
	"learning_rate": 1.4726172915933146e-07,
	"loss": 0.09772306680679321,
	"step": 3830,
	"token_acc": 0.9654306769371033
	},
	{
	"epoch": 2.934200459066565,
	"grad_norm": 0.4770904779434204,
	"learning_rate": 1.315306026505092e-07,
	"loss": 0.0937896728515625,
	"step": 3835,
	"token_acc": 0.9662994146347046
	},
	{
	"epoch": 2.9380260137719967,
	"grad_norm": 0.4980320632457733,
	"learning_rate": 1.1668672572539008e-07,
	"loss": 0.08644679784774781,
	"step": 3840,
	"token_acc": 0.969020664691925
	},
	{
	"epoch": 2.9418515684774293,
	"grad_norm": 0.5362405180931091,
	"learning_rate": 1.0273036248318324e-07,
	"loss": 0.08760695457458496,
	"step": 3845,
	"token_acc": 0.9707760214805603
	},
	{
	"epoch": 2.9456771231828616,
	"grad_norm": 0.4886132776737213,
	"learning_rate": 8.966176123264003e-08,
	"loss": 0.06749528646469116,
	"step": 3850,
	"token_acc": 0.9768878221511841
	},
	{
	"epoch": 2.9456771231828616,
	"eval_loss": 0.5208922028541565,
	"eval_runtime": 8.161,
	"eval_samples_per_second": 12.743,
	"eval_steps_per_second": 1.593,
	"eval_token_acc": 0.8793407678604126,
	"step": 3850
	},
	{
	"epoch": 2.949502677888294,
	"grad_norm": 0.5290758013725281,
	"learning_rate": 7.748115448763526e-08,
	"loss": 0.07928290963172913,
	"step": 3855,
	"token_acc": 0.971563458442688
	},
	{
	"epoch": 2.953328232593726,
	"grad_norm": 0.6795271039009094,
	"learning_rate": 6.618875896303167e-08,
	"loss": 0.10474317073822022,
	"step": 3860,
	"token_acc": 0.9640142321586609
	},
	{
	"epoch": 2.9571537872991582,
	"grad_norm": 0.6599166989326477,
	"learning_rate": 5.578477557081074e-08,
	"loss": 0.10668476819992065,
	"step": 3865,
	"token_acc": 0.9629032015800476
	},
	{
	"epoch": 2.960979342004591,
	"grad_norm": 0.6517552733421326,
	"learning_rate": 4.6269389416514486e-08,
	"loss": 0.08918753862380982,
	"step": 3870,
	"token_acc": 0.9688775539398193
	},
	{
	"epoch": 2.964804896710023,
	"grad_norm": 0.6627753376960754,
	"learning_rate": 3.764276979593695e-08,
	"loss": 0.08152820467948914,
	"step": 3875,
	"token_acc": 0.9715802669525146
	},
	{
	"epoch": 2.9686304514154553,
	"grad_norm": 0.5488728284835815,
	"learning_rate": 2.990507019213218e-08,
	"loss": 0.08794408440589904,
	"step": 3880,
	"token_acc": 0.9700236916542053
	},
	{
	"epoch": 2.9724560061208876,
	"grad_norm": 0.5994005799293518,
	"learning_rate": 2.305642827266641e-08,
	"loss": 0.10513956546783447,
	"step": 3885,
	"token_acc": 0.9652788639068604
	},
	{
	"epoch": 2.97628156082632,
	"grad_norm": 0.5402779579162598,
	"learning_rate": 1.7096965887164475e-08,
	"loss": 0.10320125818252564,
	"step": 3890,
	"token_acc": 0.964747428894043
	},
	{
	"epoch": 2.980107115531752,
	"grad_norm": 0.5638807415962219,
	"learning_rate": 1.2026789065167077e-08,
	"loss": 0.09008901119232178,
	"step": 3895,
	"token_acc": 0.9677461385726929
	},
	{
	"epoch": 2.9839326702371842,
	"grad_norm": 0.6424400806427002,
	"learning_rate": 7.845988014215655e-09,
	"loss": 0.09886548519134522,
	"step": 3900,
	"token_acc": 0.9671627879142761
	},
	{
	"epoch": 2.9839326702371842,
	"eval_loss": 0.5208696126937866,
	"eval_runtime": 8.2236,
	"eval_samples_per_second": 12.647,
	"eval_steps_per_second": 1.581,
	"eval_token_acc": 0.8792405128479004,
	"step": 3900
	},
	{
	"epoch": 2.987758224942617,
	"grad_norm": 0.6108574867248535,
	"learning_rate": 4.554637118270311e-09,
	"loss": 0.10293105840682984,
	"step": 3905,
	"token_acc": 0.9645171165466309
	},
	{
	"epoch": 2.991583779648049,
	"grad_norm": 0.5026504993438721,
	"learning_rate": 2.1527949363664425e-09,
	"loss": 0.1074068307876587,
	"step": 3910,
	"token_acc": 0.9619331359863281
	},
	{
	"epoch": 2.9954093343534813,
	"grad_norm": 0.6875292658805847,
	"learning_rate": 6.405042015877882e-10,
	"loss": 0.11073212623596192,
	"step": 3915,
	"token_acc": 0.9605428576469421
	},
	{
	"epoch": 2.9992348890589136,
	"grad_norm": 0.6482424139976501,
	"learning_rate": 1.7791820305923523e-11,
	"loss": 0.11924041509628296,
	"step": 3920,
	"token_acc": 0.9589547514915466
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.5209956765174866,
	"eval_runtime": 8.1308,
	"eval_samples_per_second": 12.791,
	"eval_steps_per_second": 1.599,
	"eval_token_acc": 0.8794109225273132,
	"step": 3921
	}
	],
	"logging_steps": 5,
	"max_steps": 3921,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.411019928798757e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}