POLAR-g-eCe-train-args / trainer_state.json

Upload checkpoint-1491 contents

2b3d88b verified 9 months ago

67.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9994972347913524,
	"eval_steps": 750,
	"global_step": 1491,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0033517680576504107,
	"grad_norm": 14.694869995117188,
	"learning_rate": 6.666666666666667e-06,
	"loss": 53.6406,
	"mean_token_accuracy": 0.5338318642228842,
	"step": 5
	},
	{
	"epoch": 0.006703536115300821,
	"grad_norm": 14.033230781555176,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 52.3838,
	"mean_token_accuracy": 0.5248840853571892,
	"step": 10
	},
	{
	"epoch": 0.010055304172951232,
	"grad_norm": 6.804769039154053,
	"learning_rate": 2e-05,
	"loss": 47.9105,
	"mean_token_accuracy": 0.5399681400507689,
	"step": 15
	},
	{
	"epoch": 0.013407072230601643,
	"grad_norm": 7.750083923339844,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 41.8861,
	"mean_token_accuracy": 0.55653104968369,
	"step": 20
	},
	{
	"epoch": 0.01675884028825205,
	"grad_norm": 6.184543132781982,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 37.33,
	"mean_token_accuracy": 0.5655230440199375,
	"step": 25
	},
	{
	"epoch": 0.020110608345902465,
	"grad_norm": 4.537179946899414,
	"learning_rate": 4e-05,
	"loss": 32.7503,
	"mean_token_accuracy": 0.587661711126566,
	"step": 30
	},
	{
	"epoch": 0.023462376403552875,
	"grad_norm": 3.6645753383636475,
	"learning_rate": 4.666666666666667e-05,
	"loss": 29.1892,
	"mean_token_accuracy": 0.6075583577156067,
	"step": 35
	},
	{
	"epoch": 0.026814144461203285,
	"grad_norm": 3.7526533603668213,
	"learning_rate": 5.333333333333333e-05,
	"loss": 26.3524,
	"mean_token_accuracy": 0.6198613092303276,
	"step": 40
	},
	{
	"epoch": 0.030165912518853696,
	"grad_norm": 3.0561397075653076,
	"learning_rate": 6e-05,
	"loss": 24.1513,
	"mean_token_accuracy": 0.6353930421173573,
	"step": 45
	},
	{
	"epoch": 0.0335176805765041,
	"grad_norm": 2.857618808746338,
	"learning_rate": 6.666666666666667e-05,
	"loss": 23.5029,
	"mean_token_accuracy": 0.6437373287975788,
	"step": 50
	},
	{
	"epoch": 0.03686944863415452,
	"grad_norm": 2.7901978492736816,
	"learning_rate": 7.333333333333333e-05,
	"loss": 22.9387,
	"mean_token_accuracy": 0.646886795759201,
	"step": 55
	},
	{
	"epoch": 0.04022121669180493,
	"grad_norm": 2.8266501426696777,
	"learning_rate": 8e-05,
	"loss": 22.0359,
	"mean_token_accuracy": 0.6525138475000858,
	"step": 60
	},
	{
	"epoch": 0.04357298474945534,
	"grad_norm": 2.5010733604431152,
	"learning_rate": 8.666666666666667e-05,
	"loss": 21.5158,
	"mean_token_accuracy": 0.6548139773309231,
	"step": 65
	},
	{
	"epoch": 0.04692475280710575,
	"grad_norm": 2.5834386348724365,
	"learning_rate": 9.333333333333334e-05,
	"loss": 21.5409,
	"mean_token_accuracy": 0.6478891499340534,
	"step": 70
	},
	{
	"epoch": 0.05027652086475616,
	"grad_norm": 2.6927576065063477,
	"learning_rate": 0.0001,
	"loss": 20.1017,
	"mean_token_accuracy": 0.6757474772632122,
	"step": 75
	},
	{
	"epoch": 0.05362828892240657,
	"grad_norm": 2.0276572704315186,
	"learning_rate": 9.964689265536724e-05,
	"loss": 19.9912,
	"mean_token_accuracy": 0.6763999305665493,
	"step": 80
	},
	{
	"epoch": 0.05698005698005698,
	"grad_norm": 2.4628567695617676,
	"learning_rate": 9.929378531073446e-05,
	"loss": 19.9089,
	"mean_token_accuracy": 0.672279854118824,
	"step": 85
	},
	{
	"epoch": 0.06033182503770739,
	"grad_norm": 2.258838415145874,
	"learning_rate": 9.89406779661017e-05,
	"loss": 19.7132,
	"mean_token_accuracy": 0.6713059276342392,
	"step": 90
	},
	{
	"epoch": 0.0636835930953578,
	"grad_norm": 2.447565793991089,
	"learning_rate": 9.858757062146892e-05,
	"loss": 18.7631,
	"mean_token_accuracy": 0.6825208596885204,
	"step": 95
	},
	{
	"epoch": 0.0670353611530082,
	"grad_norm": 2.1105902194976807,
	"learning_rate": 9.823446327683616e-05,
	"loss": 19.4631,
	"mean_token_accuracy": 0.6674435302615166,
	"step": 100
	},
	{
	"epoch": 0.07038712921065862,
	"grad_norm": 2.309248447418213,
	"learning_rate": 9.78813559322034e-05,
	"loss": 19.0249,
	"mean_token_accuracy": 0.6734571024775505,
	"step": 105
	},
	{
	"epoch": 0.07373889726830904,
	"grad_norm": 2.101681709289551,
	"learning_rate": 9.752824858757063e-05,
	"loss": 18.593,
	"mean_token_accuracy": 0.6875097192823887,
	"step": 110
	},
	{
	"epoch": 0.07709066532595944,
	"grad_norm": 2.157726526260376,
	"learning_rate": 9.717514124293787e-05,
	"loss": 18.5973,
	"mean_token_accuracy": 0.6829216606914997,
	"step": 115
	},
	{
	"epoch": 0.08044243338360986,
	"grad_norm": 2.0711209774017334,
	"learning_rate": 9.682203389830509e-05,
	"loss": 19.1541,
	"mean_token_accuracy": 0.6785640828311443,
	"step": 120
	},
	{
	"epoch": 0.08379420144126026,
	"grad_norm": 2.015594959259033,
	"learning_rate": 9.646892655367233e-05,
	"loss": 18.9493,
	"mean_token_accuracy": 0.6861244946718216,
	"step": 125
	},
	{
	"epoch": 0.08714596949891068,
	"grad_norm": 2.1295998096466064,
	"learning_rate": 9.611581920903955e-05,
	"loss": 18.5125,
	"mean_token_accuracy": 0.6793887488543987,
	"step": 130
	},
	{
	"epoch": 0.09049773755656108,
	"grad_norm": 2.2496395111083984,
	"learning_rate": 9.576271186440679e-05,
	"loss": 18.4019,
	"mean_token_accuracy": 0.6890006221830844,
	"step": 135
	},
	{
	"epoch": 0.0938495056142115,
	"grad_norm": 2.1168577671051025,
	"learning_rate": 9.540960451977402e-05,
	"loss": 18.7305,
	"mean_token_accuracy": 0.6841622419655323,
	"step": 140
	},
	{
	"epoch": 0.0972012736718619,
	"grad_norm": 1.8554915189743042,
	"learning_rate": 9.505649717514125e-05,
	"loss": 18.6606,
	"mean_token_accuracy": 0.6859239712357521,
	"step": 145
	},
	{
	"epoch": 0.10055304172951232,
	"grad_norm": 1.9698066711425781,
	"learning_rate": 9.470338983050848e-05,
	"loss": 19.1065,
	"mean_token_accuracy": 0.6759489566087723,
	"step": 150
	},
	{
	"epoch": 0.10390480978716272,
	"grad_norm": 2.2483623027801514,
	"learning_rate": 9.43502824858757e-05,
	"loss": 18.8041,
	"mean_token_accuracy": 0.68142851293087,
	"step": 155
	},
	{
	"epoch": 0.10725657784481314,
	"grad_norm": 1.8570690155029297,
	"learning_rate": 9.399717514124294e-05,
	"loss": 18.8862,
	"mean_token_accuracy": 0.6791303649544715,
	"step": 160
	},
	{
	"epoch": 0.11060834590246355,
	"grad_norm": 2.143021583557129,
	"learning_rate": 9.364406779661016e-05,
	"loss": 18.7605,
	"mean_token_accuracy": 0.681893227249384,
	"step": 165
	},
	{
	"epoch": 0.11396011396011396,
	"grad_norm": 1.8951307535171509,
	"learning_rate": 9.32909604519774e-05,
	"loss": 18.3005,
	"mean_token_accuracy": 0.6897541806101799,
	"step": 170
	},
	{
	"epoch": 0.11731188201776437,
	"grad_norm": 1.971745252609253,
	"learning_rate": 9.293785310734464e-05,
	"loss": 18.8995,
	"mean_token_accuracy": 0.6820204116404056,
	"step": 175
	},
	{
	"epoch": 0.12066365007541478,
	"grad_norm": 1.910328984260559,
	"learning_rate": 9.258474576271187e-05,
	"loss": 18.8808,
	"mean_token_accuracy": 0.6812884464859963,
	"step": 180
	},
	{
	"epoch": 0.12401541813306519,
	"grad_norm": 1.730974555015564,
	"learning_rate": 9.223163841807911e-05,
	"loss": 18.0871,
	"mean_token_accuracy": 0.6907590143382549,
	"step": 185
	},
	{
	"epoch": 0.1273671861907156,
	"grad_norm": 2.125452995300293,
	"learning_rate": 9.187853107344633e-05,
	"loss": 18.1569,
	"mean_token_accuracy": 0.689236406236887,
	"step": 190
	},
	{
	"epoch": 0.13071895424836602,
	"grad_norm": 2.0234949588775635,
	"learning_rate": 9.152542372881357e-05,
	"loss": 18.3342,
	"mean_token_accuracy": 0.6902932204306126,
	"step": 195
	},
	{
	"epoch": 0.1340707223060164,
	"grad_norm": 1.9802364110946655,
	"learning_rate": 9.11723163841808e-05,
	"loss": 18.7942,
	"mean_token_accuracy": 0.6788501650094986,
	"step": 200
	},
	{
	"epoch": 0.13742249036366683,
	"grad_norm": 1.8897534608840942,
	"learning_rate": 9.081920903954803e-05,
	"loss": 18.4679,
	"mean_token_accuracy": 0.6900524459779263,
	"step": 205
	},
	{
	"epoch": 0.14077425842131724,
	"grad_norm": 1.9040635824203491,
	"learning_rate": 9.046610169491526e-05,
	"loss": 18.0058,
	"mean_token_accuracy": 0.690093420445919,
	"step": 210
	},
	{
	"epoch": 0.14412602647896766,
	"grad_norm": 2.0558955669403076,
	"learning_rate": 9.011299435028249e-05,
	"loss": 17.5489,
	"mean_token_accuracy": 0.7006829999387264,
	"step": 215
	},
	{
	"epoch": 0.14747779453661808,
	"grad_norm": 1.7952055931091309,
	"learning_rate": 8.975988700564972e-05,
	"loss": 18.2907,
	"mean_token_accuracy": 0.6876891441643238,
	"step": 220
	},
	{
	"epoch": 0.15082956259426847,
	"grad_norm": 1.8588192462921143,
	"learning_rate": 8.940677966101694e-05,
	"loss": 18.4005,
	"mean_token_accuracy": 0.6897859051823616,
	"step": 225
	},
	{
	"epoch": 0.15418133065191889,
	"grad_norm": 1.9269477128982544,
	"learning_rate": 8.905367231638418e-05,
	"loss": 18.2096,
	"mean_token_accuracy": 0.6909494370222091,
	"step": 230
	},
	{
	"epoch": 0.1575330987095693,
	"grad_norm": 1.8693301677703857,
	"learning_rate": 8.870056497175142e-05,
	"loss": 18.394,
	"mean_token_accuracy": 0.6836515329778194,
	"step": 235
	},
	{
	"epoch": 0.16088486676721972,
	"grad_norm": 1.787061333656311,
	"learning_rate": 8.834745762711864e-05,
	"loss": 18.1503,
	"mean_token_accuracy": 0.6907145738601684,
	"step": 240
	},
	{
	"epoch": 0.1642366348248701,
	"grad_norm": 1.8895225524902344,
	"learning_rate": 8.799435028248588e-05,
	"loss": 18.3026,
	"mean_token_accuracy": 0.6878940775990486,
	"step": 245
	},
	{
	"epoch": 0.16758840288252053,
	"grad_norm": 1.835693120956421,
	"learning_rate": 8.764124293785311e-05,
	"loss": 17.9347,
	"mean_token_accuracy": 0.6917316012084485,
	"step": 250
	},
	{
	"epoch": 0.17094017094017094,
	"grad_norm": 1.7408661842346191,
	"learning_rate": 8.728813559322035e-05,
	"loss": 18.0051,
	"mean_token_accuracy": 0.689583633840084,
	"step": 255
	},
	{
	"epoch": 0.17429193899782136,
	"grad_norm": 1.9096996784210205,
	"learning_rate": 8.693502824858759e-05,
	"loss": 17.6064,
	"mean_token_accuracy": 0.6965925216674804,
	"step": 260
	},
	{
	"epoch": 0.17764370705547175,
	"grad_norm": 1.9822146892547607,
	"learning_rate": 8.658192090395481e-05,
	"loss": 17.6301,
	"mean_token_accuracy": 0.7005406267940998,
	"step": 265
	},
	{
	"epoch": 0.18099547511312217,
	"grad_norm": 1.8383901119232178,
	"learning_rate": 8.622881355932204e-05,
	"loss": 17.9114,
	"mean_token_accuracy": 0.6876685306429863,
	"step": 270
	},
	{
	"epoch": 0.18434724317077258,
	"grad_norm": 1.7920355796813965,
	"learning_rate": 8.587570621468927e-05,
	"loss": 18.1271,
	"mean_token_accuracy": 0.689356567710638,
	"step": 275
	},
	{
	"epoch": 0.187699011228423,
	"grad_norm": 1.6455663442611694,
	"learning_rate": 8.55225988700565e-05,
	"loss": 17.787,
	"mean_token_accuracy": 0.6919776491820813,
	"step": 280
	},
	{
	"epoch": 0.1910507792860734,
	"grad_norm": 1.9442647695541382,
	"learning_rate": 8.516949152542373e-05,
	"loss": 17.6019,
	"mean_token_accuracy": 0.6980393722653389,
	"step": 285
	},
	{
	"epoch": 0.1944025473437238,
	"grad_norm": 2.294377565383911,
	"learning_rate": 8.481638418079096e-05,
	"loss": 17.8778,
	"mean_token_accuracy": 0.6954585202038288,
	"step": 290
	},
	{
	"epoch": 0.19775431540137423,
	"grad_norm": 1.8009259700775146,
	"learning_rate": 8.44632768361582e-05,
	"loss": 17.5257,
	"mean_token_accuracy": 0.6998075112700463,
	"step": 295
	},
	{
	"epoch": 0.20110608345902464,
	"grad_norm": 2.015516757965088,
	"learning_rate": 8.411016949152542e-05,
	"loss": 17.7554,
	"mean_token_accuracy": 0.6968327619135379,
	"step": 300
	},
	{
	"epoch": 0.20445785151667506,
	"grad_norm": 1.5640082359313965,
	"learning_rate": 8.375706214689266e-05,
	"loss": 17.3438,
	"mean_token_accuracy": 0.69996168166399,
	"step": 305
	},
	{
	"epoch": 0.20780961957432545,
	"grad_norm": 1.9527899026870728,
	"learning_rate": 8.340395480225988e-05,
	"loss": 17.6883,
	"mean_token_accuracy": 0.6988407798111439,
	"step": 310
	},
	{
	"epoch": 0.21116138763197587,
	"grad_norm": 1.8222606182098389,
	"learning_rate": 8.305084745762712e-05,
	"loss": 17.0646,
	"mean_token_accuracy": 0.7061679445207119,
	"step": 315
	},
	{
	"epoch": 0.21451315568962628,
	"grad_norm": 1.8560868501663208,
	"learning_rate": 8.269774011299435e-05,
	"loss": 17.8875,
	"mean_token_accuracy": 0.6941629223525524,
	"step": 320
	},
	{
	"epoch": 0.2178649237472767,
	"grad_norm": 1.7588037252426147,
	"learning_rate": 8.234463276836159e-05,
	"loss": 17.6412,
	"mean_token_accuracy": 0.6954927705228329,
	"step": 325
	},
	{
	"epoch": 0.2212166918049271,
	"grad_norm": 1.738242268562317,
	"learning_rate": 8.199152542372883e-05,
	"loss": 17.8251,
	"mean_token_accuracy": 0.6898994512856007,
	"step": 330
	},
	{
	"epoch": 0.2245684598625775,
	"grad_norm": 1.8485089540481567,
	"learning_rate": 8.163841807909605e-05,
	"loss": 17.3078,
	"mean_token_accuracy": 0.7000270999968052,
	"step": 335
	},
	{
	"epoch": 0.22792022792022792,
	"grad_norm": 1.8579105138778687,
	"learning_rate": 8.128531073446328e-05,
	"loss": 17.3078,
	"mean_token_accuracy": 0.6995702408254146,
	"step": 340
	},
	{
	"epoch": 0.23127199597787834,
	"grad_norm": 1.7994352579116821,
	"learning_rate": 8.093220338983051e-05,
	"loss": 17.7557,
	"mean_token_accuracy": 0.6928035505115986,
	"step": 345
	},
	{
	"epoch": 0.23462376403552873,
	"grad_norm": 1.9240634441375732,
	"learning_rate": 8.057909604519774e-05,
	"loss": 17.4329,
	"mean_token_accuracy": 0.6960855178534985,
	"step": 350
	},
	{
	"epoch": 0.23797553209317915,
	"grad_norm": 1.6718952655792236,
	"learning_rate": 8.022598870056498e-05,
	"loss": 17.5951,
	"mean_token_accuracy": 0.6947735913097859,
	"step": 355
	},
	{
	"epoch": 0.24132730015082957,
	"grad_norm": 1.6835826635360718,
	"learning_rate": 7.98728813559322e-05,
	"loss": 18.1085,
	"mean_token_accuracy": 0.6882089108228684,
	"step": 360
	},
	{
	"epoch": 0.24467906820847998,
	"grad_norm": 1.7387073040008545,
	"learning_rate": 7.951977401129944e-05,
	"loss": 17.799,
	"mean_token_accuracy": 0.6932998545467853,
	"step": 365
	},
	{
	"epoch": 0.24803083626613037,
	"grad_norm": 2.0071725845336914,
	"learning_rate": 7.916666666666666e-05,
	"loss": 17.4076,
	"mean_token_accuracy": 0.6961173862218857,
	"step": 370
	},
	{
	"epoch": 0.2513826043237808,
	"grad_norm": 2.326915740966797,
	"learning_rate": 7.88135593220339e-05,
	"loss": 17.3121,
	"mean_token_accuracy": 0.7005321949720382,
	"step": 375
	},
	{
	"epoch": 0.2547343723814312,
	"grad_norm": 2.1876060962677,
	"learning_rate": 7.846045197740113e-05,
	"loss": 17.9069,
	"mean_token_accuracy": 0.6906426399946213,
	"step": 380
	},
	{
	"epoch": 0.2580861404390816,
	"grad_norm": 1.849671483039856,
	"learning_rate": 7.810734463276837e-05,
	"loss": 17.483,
	"mean_token_accuracy": 0.7000573620200157,
	"step": 385
	},
	{
	"epoch": 0.26143790849673204,
	"grad_norm": 1.6676862239837646,
	"learning_rate": 7.775423728813561e-05,
	"loss": 16.8936,
	"mean_token_accuracy": 0.7045633904635906,
	"step": 390
	},
	{
	"epoch": 0.26478967655438246,
	"grad_norm": 1.6702505350112915,
	"learning_rate": 7.740112994350283e-05,
	"loss": 17.904,
	"mean_token_accuracy": 0.6874841086566448,
	"step": 395
	},
	{
	"epoch": 0.2681414446120328,
	"grad_norm": 1.7280704975128174,
	"learning_rate": 7.704802259887007e-05,
	"loss": 17.4515,
	"mean_token_accuracy": 0.7018027983605861,
	"step": 400
	},
	{
	"epoch": 0.27149321266968324,
	"grad_norm": 1.8801991939544678,
	"learning_rate": 7.669491525423729e-05,
	"loss": 17.43,
	"mean_token_accuracy": 0.7009049601852894,
	"step": 405
	},
	{
	"epoch": 0.27484498072733365,
	"grad_norm": 1.9758073091506958,
	"learning_rate": 7.634180790960453e-05,
	"loss": 17.5984,
	"mean_token_accuracy": 0.6948069363832474,
	"step": 410
	},
	{
	"epoch": 0.27819674878498407,
	"grad_norm": 1.5747147798538208,
	"learning_rate": 7.598870056497176e-05,
	"loss": 18.3079,
	"mean_token_accuracy": 0.6853139907121658,
	"step": 415
	},
	{
	"epoch": 0.2815485168426345,
	"grad_norm": 1.6292234659194946,
	"learning_rate": 7.563559322033898e-05,
	"loss": 17.4527,
	"mean_token_accuracy": 0.697540608048439,
	"step": 420
	},
	{
	"epoch": 0.2849002849002849,
	"grad_norm": 1.6185086965560913,
	"learning_rate": 7.528248587570622e-05,
	"loss": 17.4193,
	"mean_token_accuracy": 0.7012022204697133,
	"step": 425
	},
	{
	"epoch": 0.2882520529579353,
	"grad_norm": 1.8361762762069702,
	"learning_rate": 7.492937853107344e-05,
	"loss": 17.4544,
	"mean_token_accuracy": 0.698820473998785,
	"step": 430
	},
	{
	"epoch": 0.29160382101558574,
	"grad_norm": 1.7740592956542969,
	"learning_rate": 7.457627118644068e-05,
	"loss": 18.0507,
	"mean_token_accuracy": 0.6881603226065636,
	"step": 435
	},
	{
	"epoch": 0.29495558907323616,
	"grad_norm": 1.8252911567687988,
	"learning_rate": 7.42231638418079e-05,
	"loss": 17.155,
	"mean_token_accuracy": 0.7065504610538482,
	"step": 440
	},
	{
	"epoch": 0.2983073571308865,
	"grad_norm": 1.8424382209777832,
	"learning_rate": 7.387005649717514e-05,
	"loss": 17.3055,
	"mean_token_accuracy": 0.6978819817304611,
	"step": 445
	},
	{
	"epoch": 0.30165912518853694,
	"grad_norm": 1.7494243383407593,
	"learning_rate": 7.351694915254238e-05,
	"loss": 16.8365,
	"mean_token_accuracy": 0.7099504336714745,
	"step": 450
	},
	{
	"epoch": 0.30501089324618735,
	"grad_norm": 1.936540961265564,
	"learning_rate": 7.316384180790961e-05,
	"loss": 18.2753,
	"mean_token_accuracy": 0.6913827233016491,
	"step": 455
	},
	{
	"epoch": 0.30836266130383777,
	"grad_norm": 1.810272216796875,
	"learning_rate": 7.281073446327685e-05,
	"loss": 17.0536,
	"mean_token_accuracy": 0.6986232809722424,
	"step": 460
	},
	{
	"epoch": 0.3117144293614882,
	"grad_norm": 1.6832094192504883,
	"learning_rate": 7.245762711864407e-05,
	"loss": 17.2231,
	"mean_token_accuracy": 0.702030860632658,
	"step": 465
	},
	{
	"epoch": 0.3150661974191386,
	"grad_norm": 1.8872151374816895,
	"learning_rate": 7.21045197740113e-05,
	"loss": 17.5502,
	"mean_token_accuracy": 0.6932449921965599,
	"step": 470
	},
	{
	"epoch": 0.318417965476789,
	"grad_norm": 1.788021445274353,
	"learning_rate": 7.175141242937854e-05,
	"loss": 16.8596,
	"mean_token_accuracy": 0.7096694305539131,
	"step": 475
	},
	{
	"epoch": 0.32176973353443944,
	"grad_norm": 1.8025559186935425,
	"learning_rate": 7.139830508474577e-05,
	"loss": 16.662,
	"mean_token_accuracy": 0.7063573338091373,
	"step": 480
	},
	{
	"epoch": 0.3251215015920898,
	"grad_norm": 2.274674654006958,
	"learning_rate": 7.1045197740113e-05,
	"loss": 17.5965,
	"mean_token_accuracy": 0.6934389650821686,
	"step": 485
	},
	{
	"epoch": 0.3284732696497402,
	"grad_norm": 1.6426053047180176,
	"learning_rate": 7.069209039548022e-05,
	"loss": 17.0914,
	"mean_token_accuracy": 0.7049042917788029,
	"step": 490
	},
	{
	"epoch": 0.33182503770739064,
	"grad_norm": 1.6252586841583252,
	"learning_rate": 7.033898305084746e-05,
	"loss": 17.6078,
	"mean_token_accuracy": 0.6924709647893905,
	"step": 495
	},
	{
	"epoch": 0.33517680576504105,
	"grad_norm": 1.7185930013656616,
	"learning_rate": 6.998587570621468e-05,
	"loss": 17.314,
	"mean_token_accuracy": 0.7039985358715057,
	"step": 500
	},
	{
	"epoch": 0.33852857382269147,
	"grad_norm": 1.7891852855682373,
	"learning_rate": 6.963276836158192e-05,
	"loss": 17.2188,
	"mean_token_accuracy": 0.6977060906589031,
	"step": 505
	},
	{
	"epoch": 0.3418803418803419,
	"grad_norm": 1.9103929996490479,
	"learning_rate": 6.927966101694916e-05,
	"loss": 17.4467,
	"mean_token_accuracy": 0.6982413403689861,
	"step": 510
	},
	{
	"epoch": 0.3452321099379923,
	"grad_norm": 1.8996375799179077,
	"learning_rate": 6.892655367231638e-05,
	"loss": 16.9608,
	"mean_token_accuracy": 0.7054095402359962,
	"step": 515
	},
	{
	"epoch": 0.3485838779956427,
	"grad_norm": 2.0335419178009033,
	"learning_rate": 6.857344632768362e-05,
	"loss": 17.3361,
	"mean_token_accuracy": 0.7016568422317505,
	"step": 520
	},
	{
	"epoch": 0.35193564605329314,
	"grad_norm": 1.9008755683898926,
	"learning_rate": 6.822033898305085e-05,
	"loss": 16.9694,
	"mean_token_accuracy": 0.7059390284121037,
	"step": 525
	},
	{
	"epoch": 0.3552874141109435,
	"grad_norm": 1.8340988159179688,
	"learning_rate": 6.786723163841809e-05,
	"loss": 17.3528,
	"mean_token_accuracy": 0.7033507622778415,
	"step": 530
	},
	{
	"epoch": 0.3586391821685939,
	"grad_norm": 1.6903594732284546,
	"learning_rate": 6.751412429378532e-05,
	"loss": 17.3021,
	"mean_token_accuracy": 0.7001501135528088,
	"step": 535
	},
	{
	"epoch": 0.36199095022624433,
	"grad_norm": 1.8101950883865356,
	"learning_rate": 6.716101694915255e-05,
	"loss": 17.938,
	"mean_token_accuracy": 0.6908830553293228,
	"step": 540
	},
	{
	"epoch": 0.36534271828389475,
	"grad_norm": 1.6470075845718384,
	"learning_rate": 6.680790960451978e-05,
	"loss": 17.6612,
	"mean_token_accuracy": 0.6923478744924069,
	"step": 545
	},
	{
	"epoch": 0.36869448634154517,
	"grad_norm": 2.1860337257385254,
	"learning_rate": 6.6454802259887e-05,
	"loss": 17.5684,
	"mean_token_accuracy": 0.6983748801052571,
	"step": 550
	},
	{
	"epoch": 0.3720462543991956,
	"grad_norm": 1.717653512954712,
	"learning_rate": 6.610169491525424e-05,
	"loss": 17.1166,
	"mean_token_accuracy": 0.7025655619800091,
	"step": 555
	},
	{
	"epoch": 0.375398022456846,
	"grad_norm": 1.9525723457336426,
	"learning_rate": 6.574858757062147e-05,
	"loss": 17.2908,
	"mean_token_accuracy": 0.6997996769845486,
	"step": 560
	},
	{
	"epoch": 0.3787497905144964,
	"grad_norm": 1.6053602695465088,
	"learning_rate": 6.53954802259887e-05,
	"loss": 17.3894,
	"mean_token_accuracy": 0.698741364479065,
	"step": 565
	},
	{
	"epoch": 0.3821015585721468,
	"grad_norm": 1.7356934547424316,
	"learning_rate": 6.504237288135594e-05,
	"loss": 17.1546,
	"mean_token_accuracy": 0.7013543620705605,
	"step": 570
	},
	{
	"epoch": 0.3854533266297972,
	"grad_norm": 1.7188559770584106,
	"learning_rate": 6.468926553672316e-05,
	"loss": 17.7637,
	"mean_token_accuracy": 0.6936320647597313,
	"step": 575
	},
	{
	"epoch": 0.3888050946874476,
	"grad_norm": 1.8413478136062622,
	"learning_rate": 6.43361581920904e-05,
	"loss": 17.8498,
	"mean_token_accuracy": 0.695782047510147,
	"step": 580
	},
	{
	"epoch": 0.39215686274509803,
	"grad_norm": 1.5715190172195435,
	"learning_rate": 6.398305084745762e-05,
	"loss": 17.4304,
	"mean_token_accuracy": 0.6989135831594467,
	"step": 585
	},
	{
	"epoch": 0.39550863080274845,
	"grad_norm": 1.8729442358016968,
	"learning_rate": 6.362994350282486e-05,
	"loss": 16.9125,
	"mean_token_accuracy": 0.708356649428606,
	"step": 590
	},
	{
	"epoch": 0.39886039886039887,
	"grad_norm": 2.099592685699463,
	"learning_rate": 6.327683615819209e-05,
	"loss": 17.542,
	"mean_token_accuracy": 0.6888726130127907,
	"step": 595
	},
	{
	"epoch": 0.4022121669180493,
	"grad_norm": 1.6204314231872559,
	"learning_rate": 6.292372881355933e-05,
	"loss": 16.9305,
	"mean_token_accuracy": 0.7038852870464325,
	"step": 600
	},
	{
	"epoch": 0.4055639349756997,
	"grad_norm": 2.12034010887146,
	"learning_rate": 6.257062146892656e-05,
	"loss": 17.0389,
	"mean_token_accuracy": 0.704576326906681,
	"step": 605
	},
	{
	"epoch": 0.4089157030333501,
	"grad_norm": 1.6821502447128296,
	"learning_rate": 6.221751412429379e-05,
	"loss": 16.788,
	"mean_token_accuracy": 0.7000284940004349,
	"step": 610
	},
	{
	"epoch": 0.4122674710910005,
	"grad_norm": 1.8137435913085938,
	"learning_rate": 6.186440677966102e-05,
	"loss": 17.5926,
	"mean_token_accuracy": 0.6961537927389145,
	"step": 615
	},
	{
	"epoch": 0.4156192391486509,
	"grad_norm": 1.6652235984802246,
	"learning_rate": 6.151129943502825e-05,
	"loss": 17.3539,
	"mean_token_accuracy": 0.7028377398848533,
	"step": 620
	},
	{
	"epoch": 0.4189710072063013,
	"grad_norm": 1.766480803489685,
	"learning_rate": 6.115819209039548e-05,
	"loss": 17.529,
	"mean_token_accuracy": 0.6905739739537239,
	"step": 625
	},
	{
	"epoch": 0.42232277526395173,
	"grad_norm": 1.6319854259490967,
	"learning_rate": 6.080508474576272e-05,
	"loss": 16.9847,
	"mean_token_accuracy": 0.7060947254300117,
	"step": 630
	},
	{
	"epoch": 0.42567454332160215,
	"grad_norm": 2.1006696224212646,
	"learning_rate": 6.045197740112994e-05,
	"loss": 16.9317,
	"mean_token_accuracy": 0.7015593230724335,
	"step": 635
	},
	{
	"epoch": 0.42902631137925257,
	"grad_norm": 1.7353427410125732,
	"learning_rate": 6.009887005649718e-05,
	"loss": 17.4744,
	"mean_token_accuracy": 0.7001501567661762,
	"step": 640
	},
	{
	"epoch": 0.432378079436903,
	"grad_norm": 1.9449700117111206,
	"learning_rate": 5.974576271186441e-05,
	"loss": 16.8705,
	"mean_token_accuracy": 0.7026407413184643,
	"step": 645
	},
	{
	"epoch": 0.4357298474945534,
	"grad_norm": 1.6030067205429077,
	"learning_rate": 5.9392655367231644e-05,
	"loss": 16.8924,
	"mean_token_accuracy": 0.702277285605669,
	"step": 650
	},
	{
	"epoch": 0.43908161555220376,
	"grad_norm": 1.5722424983978271,
	"learning_rate": 5.903954802259888e-05,
	"loss": 17.364,
	"mean_token_accuracy": 0.6959278948605061,
	"step": 655
	},
	{
	"epoch": 0.4424333836098542,
	"grad_norm": 1.8168216943740845,
	"learning_rate": 5.86864406779661e-05,
	"loss": 16.704,
	"mean_token_accuracy": 0.7045813865959645,
	"step": 660
	},
	{
	"epoch": 0.4457851516675046,
	"grad_norm": 1.905402660369873,
	"learning_rate": 5.833333333333334e-05,
	"loss": 16.8896,
	"mean_token_accuracy": 0.7026248089969158,
	"step": 665
	},
	{
	"epoch": 0.449136919725155,
	"grad_norm": 1.7437454462051392,
	"learning_rate": 5.798022598870056e-05,
	"loss": 17.0496,
	"mean_token_accuracy": 0.702862861007452,
	"step": 670
	},
	{
	"epoch": 0.45248868778280543,
	"grad_norm": 1.7496871948242188,
	"learning_rate": 5.76271186440678e-05,
	"loss": 16.7024,
	"mean_token_accuracy": 0.7073140636086463,
	"step": 675
	},
	{
	"epoch": 0.45584045584045585,
	"grad_norm": 1.6521803140640259,
	"learning_rate": 5.727401129943503e-05,
	"loss": 17.4437,
	"mean_token_accuracy": 0.6910906590521335,
	"step": 680
	},
	{
	"epoch": 0.45919222389810627,
	"grad_norm": 1.7904677391052246,
	"learning_rate": 5.6920903954802264e-05,
	"loss": 17.4803,
	"mean_token_accuracy": 0.6987466789782047,
	"step": 685
	},
	{
	"epoch": 0.4625439919557567,
	"grad_norm": 2.4545388221740723,
	"learning_rate": 5.65677966101695e-05,
	"loss": 17.2987,
	"mean_token_accuracy": 0.699196208268404,
	"step": 690
	},
	{
	"epoch": 0.46589576001340705,
	"grad_norm": 1.6428866386413574,
	"learning_rate": 5.6214689265536723e-05,
	"loss": 16.7636,
	"mean_token_accuracy": 0.7029999569058418,
	"step": 695
	},
	{
	"epoch": 0.46924752807105746,
	"grad_norm": 1.9685977697372437,
	"learning_rate": 5.586158192090396e-05,
	"loss": 17.3887,
	"mean_token_accuracy": 0.6938736639916897,
	"step": 700
	},
	{
	"epoch": 0.4725992961287079,
	"grad_norm": 1.5567928552627563,
	"learning_rate": 5.550847457627118e-05,
	"loss": 17.1879,
	"mean_token_accuracy": 0.7024729043245316,
	"step": 705
	},
	{
	"epoch": 0.4759510641863583,
	"grad_norm": 1.6846567392349243,
	"learning_rate": 5.515536723163842e-05,
	"loss": 16.8679,
	"mean_token_accuracy": 0.7025640495121479,
	"step": 710
	},
	{
	"epoch": 0.4793028322440087,
	"grad_norm": 1.6596832275390625,
	"learning_rate": 5.480225988700565e-05,
	"loss": 16.7137,
	"mean_token_accuracy": 0.7031160019338131,
	"step": 715
	},
	{
	"epoch": 0.48265460030165913,
	"grad_norm": 2.04453444480896,
	"learning_rate": 5.4449152542372885e-05,
	"loss": 17.0646,
	"mean_token_accuracy": 0.7018779084086418,
	"step": 720
	},
	{
	"epoch": 0.48600636835930955,
	"grad_norm": 1.7244528532028198,
	"learning_rate": 5.409604519774012e-05,
	"loss": 17.1897,
	"mean_token_accuracy": 0.6981223806738853,
	"step": 725
	},
	{
	"epoch": 0.48935813641695997,
	"grad_norm": 1.6929802894592285,
	"learning_rate": 5.3742937853107344e-05,
	"loss": 17.2678,
	"mean_token_accuracy": 0.6996262572705746,
	"step": 730
	},
	{
	"epoch": 0.4927099044746104,
	"grad_norm": 1.7945303916931152,
	"learning_rate": 5.338983050847458e-05,
	"loss": 17.1465,
	"mean_token_accuracy": 0.7002299666404724,
	"step": 735
	},
	{
	"epoch": 0.49606167253226074,
	"grad_norm": 1.5936013460159302,
	"learning_rate": 5.30367231638418e-05,
	"loss": 17.0265,
	"mean_token_accuracy": 0.6998031720519066,
	"step": 740
	},
	{
	"epoch": 0.49941344058991116,
	"grad_norm": 1.553004264831543,
	"learning_rate": 5.268361581920904e-05,
	"loss": 16.7301,
	"mean_token_accuracy": 0.7022854961454869,
	"step": 745
	},
	{
	"epoch": 0.5027652086475616,
	"grad_norm": 1.7667690515518188,
	"learning_rate": 5.2330508474576275e-05,
	"loss": 16.8576,
	"mean_token_accuracy": 0.7085686258971691,
	"step": 750
	},
	{
	"epoch": 0.5027652086475616,
	"eval_loss": 1.0600364208221436,
	"eval_mean_token_accuracy": 0.7049777010093035,
	"eval_runtime": 1736.5707,
	"eval_samples_per_second": 1.392,
	"eval_steps_per_second": 0.174,
	"step": 750
	},
	{
	"epoch": 0.506116976705212,
	"grad_norm": 1.4901829957962036,
	"learning_rate": 5.1977401129943505e-05,
	"loss": 17.0004,
	"mean_token_accuracy": 0.6990960523486137,
	"step": 755
	},
	{
	"epoch": 0.5094687447628624,
	"grad_norm": 1.8451662063598633,
	"learning_rate": 5.162429378531074e-05,
	"loss": 17.2012,
	"mean_token_accuracy": 0.7007680244743824,
	"step": 760
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 1.6952011585235596,
	"learning_rate": 5.1271186440677964e-05,
	"loss": 17.612,
	"mean_token_accuracy": 0.6927438467741013,
	"step": 765
	},
	{
	"epoch": 0.5161722808781632,
	"grad_norm": 1.7307817935943604,
	"learning_rate": 5.09180790960452e-05,
	"loss": 16.8776,
	"mean_token_accuracy": 0.706513649225235,
	"step": 770
	},
	{
	"epoch": 0.5195240489358136,
	"grad_norm": 1.6692585945129395,
	"learning_rate": 5.056497175141243e-05,
	"loss": 17.0364,
	"mean_token_accuracy": 0.704279126226902,
	"step": 775
	},
	{
	"epoch": 0.5228758169934641,
	"grad_norm": 1.6963402032852173,
	"learning_rate": 5.0211864406779666e-05,
	"loss": 16.8957,
	"mean_token_accuracy": 0.7085353158414364,
	"step": 780
	},
	{
	"epoch": 0.5262275850511144,
	"grad_norm": 1.678458571434021,
	"learning_rate": 4.9858757062146896e-05,
	"loss": 17.7932,
	"mean_token_accuracy": 0.6964584030210972,
	"step": 785
	},
	{
	"epoch": 0.5295793531087649,
	"grad_norm": 1.7449827194213867,
	"learning_rate": 4.9505649717514125e-05,
	"loss": 16.8765,
	"mean_token_accuracy": 0.7036922007799149,
	"step": 790
	},
	{
	"epoch": 0.5329311211664153,
	"grad_norm": 1.7107524871826172,
	"learning_rate": 4.915254237288136e-05,
	"loss": 17.243,
	"mean_token_accuracy": 0.6997682720422744,
	"step": 795
	},
	{
	"epoch": 0.5362828892240656,
	"grad_norm": 1.6416223049163818,
	"learning_rate": 4.879943502824859e-05,
	"loss": 16.7253,
	"mean_token_accuracy": 0.7050332672894001,
	"step": 800
	},
	{
	"epoch": 0.5396346572817161,
	"grad_norm": 1.867213249206543,
	"learning_rate": 4.844632768361582e-05,
	"loss": 16.8566,
	"mean_token_accuracy": 0.7032786093652248,
	"step": 805
	},
	{
	"epoch": 0.5429864253393665,
	"grad_norm": 1.6539360284805298,
	"learning_rate": 4.809322033898305e-05,
	"loss": 16.6993,
	"mean_token_accuracy": 0.7117977932095527,
	"step": 810
	},
	{
	"epoch": 0.546338193397017,
	"grad_norm": 1.752715826034546,
	"learning_rate": 4.7740112994350286e-05,
	"loss": 17.5809,
	"mean_token_accuracy": 0.6992670528590679,
	"step": 815
	},
	{
	"epoch": 0.5496899614546673,
	"grad_norm": 1.806174397468567,
	"learning_rate": 4.7387005649717516e-05,
	"loss": 17.1588,
	"mean_token_accuracy": 0.6960965767502785,
	"step": 820
	},
	{
	"epoch": 0.5530417295123178,
	"grad_norm": 1.719764232635498,
	"learning_rate": 4.703389830508475e-05,
	"loss": 16.8685,
	"mean_token_accuracy": 0.7025568410754204,
	"step": 825
	},
	{
	"epoch": 0.5563934975699681,
	"grad_norm": 1.7800629138946533,
	"learning_rate": 4.668079096045198e-05,
	"loss": 16.8872,
	"mean_token_accuracy": 0.6994628652930259,
	"step": 830
	},
	{
	"epoch": 0.5597452656276186,
	"grad_norm": 1.7011103630065918,
	"learning_rate": 4.632768361581921e-05,
	"loss": 17.2342,
	"mean_token_accuracy": 0.7006913289427757,
	"step": 835
	},
	{
	"epoch": 0.563097033685269,
	"grad_norm": 1.6887695789337158,
	"learning_rate": 4.597457627118644e-05,
	"loss": 16.7385,
	"mean_token_accuracy": 0.7045929700136184,
	"step": 840
	},
	{
	"epoch": 0.5664488017429193,
	"grad_norm": 1.9496142864227295,
	"learning_rate": 4.562146892655367e-05,
	"loss": 16.8387,
	"mean_token_accuracy": 0.7083131410181522,
	"step": 845
	},
	{
	"epoch": 0.5698005698005698,
	"grad_norm": 1.7757388353347778,
	"learning_rate": 4.5268361581920906e-05,
	"loss": 17.3856,
	"mean_token_accuracy": 0.6994826771318913,
	"step": 850
	},
	{
	"epoch": 0.5731523378582202,
	"grad_norm": 1.7115302085876465,
	"learning_rate": 4.491525423728814e-05,
	"loss": 16.5993,
	"mean_token_accuracy": 0.7093915119767189,
	"step": 855
	},
	{
	"epoch": 0.5765041059158706,
	"grad_norm": 1.7968231439590454,
	"learning_rate": 4.456214689265537e-05,
	"loss": 16.8983,
	"mean_token_accuracy": 0.7087731070816516,
	"step": 860
	},
	{
	"epoch": 0.579855873973521,
	"grad_norm": 1.6066899299621582,
	"learning_rate": 4.42090395480226e-05,
	"loss": 16.7126,
	"mean_token_accuracy": 0.7053335346281528,
	"step": 865
	},
	{
	"epoch": 0.5832076420311715,
	"grad_norm": 1.6380205154418945,
	"learning_rate": 4.385593220338983e-05,
	"loss": 17.0037,
	"mean_token_accuracy": 0.7038719221949578,
	"step": 870
	},
	{
	"epoch": 0.5865594100888218,
	"grad_norm": 1.8956695795059204,
	"learning_rate": 4.350282485875706e-05,
	"loss": 16.9679,
	"mean_token_accuracy": 0.6983371920883655,
	"step": 875
	},
	{
	"epoch": 0.5899111781464723,
	"grad_norm": 1.625135064125061,
	"learning_rate": 4.314971751412429e-05,
	"loss": 17.0642,
	"mean_token_accuracy": 0.7067640118300915,
	"step": 880
	},
	{
	"epoch": 0.5932629462041227,
	"grad_norm": 1.6344581842422485,
	"learning_rate": 4.279661016949153e-05,
	"loss": 16.3079,
	"mean_token_accuracy": 0.7225491903722286,
	"step": 885
	},
	{
	"epoch": 0.596614714261773,
	"grad_norm": 1.7680976390838623,
	"learning_rate": 4.244350282485876e-05,
	"loss": 16.7187,
	"mean_token_accuracy": 0.7041032016277313,
	"step": 890
	},
	{
	"epoch": 0.5999664823194235,
	"grad_norm": 1.8056613206863403,
	"learning_rate": 4.209039548022599e-05,
	"loss": 17.3536,
	"mean_token_accuracy": 0.6975419208407402,
	"step": 895
	},
	{
	"epoch": 0.6033182503770739,
	"grad_norm": 1.8398966789245605,
	"learning_rate": 4.173728813559322e-05,
	"loss": 16.6245,
	"mean_token_accuracy": 0.7088275127112865,
	"step": 900
	},
	{
	"epoch": 0.6066700184347243,
	"grad_norm": 1.8332566022872925,
	"learning_rate": 4.138418079096045e-05,
	"loss": 17.0128,
	"mean_token_accuracy": 0.7018843114376068,
	"step": 905
	},
	{
	"epoch": 0.6100217864923747,
	"grad_norm": 1.6582337617874146,
	"learning_rate": 4.103107344632768e-05,
	"loss": 16.8948,
	"mean_token_accuracy": 0.7051651798188686,
	"step": 910
	},
	{
	"epoch": 0.6133735545500252,
	"grad_norm": 1.7373839616775513,
	"learning_rate": 4.067796610169492e-05,
	"loss": 16.9138,
	"mean_token_accuracy": 0.7022108249366283,
	"step": 915
	},
	{
	"epoch": 0.6167253226076755,
	"grad_norm": 1.6373577117919922,
	"learning_rate": 4.0324858757062154e-05,
	"loss": 17.0573,
	"mean_token_accuracy": 0.7042267486453057,
	"step": 920
	},
	{
	"epoch": 0.620077090665326,
	"grad_norm": 1.581024408340454,
	"learning_rate": 3.997175141242938e-05,
	"loss": 16.6234,
	"mean_token_accuracy": 0.7054463028907776,
	"step": 925
	},
	{
	"epoch": 0.6234288587229764,
	"grad_norm": 1.6900616884231567,
	"learning_rate": 3.961864406779661e-05,
	"loss": 17.0468,
	"mean_token_accuracy": 0.7014504976570606,
	"step": 930
	},
	{
	"epoch": 0.6267806267806267,
	"grad_norm": 1.6560430526733398,
	"learning_rate": 3.926553672316384e-05,
	"loss": 16.909,
	"mean_token_accuracy": 0.7064756542444229,
	"step": 935
	},
	{
	"epoch": 0.6301323948382772,
	"grad_norm": 1.8687000274658203,
	"learning_rate": 3.891242937853107e-05,
	"loss": 17.0047,
	"mean_token_accuracy": 0.7055176287889481,
	"step": 940
	},
	{
	"epoch": 0.6334841628959276,
	"grad_norm": 1.777716040611267,
	"learning_rate": 3.855932203389831e-05,
	"loss": 16.556,
	"mean_token_accuracy": 0.7047871246933937,
	"step": 945
	},
	{
	"epoch": 0.636835930953578,
	"grad_norm": 1.6830016374588013,
	"learning_rate": 3.820621468926554e-05,
	"loss": 16.5832,
	"mean_token_accuracy": 0.7049862682819367,
	"step": 950
	},
	{
	"epoch": 0.6401876990112284,
	"grad_norm": 1.5959638357162476,
	"learning_rate": 3.7853107344632774e-05,
	"loss": 16.8336,
	"mean_token_accuracy": 0.7072055459022522,
	"step": 955
	},
	{
	"epoch": 0.6435394670688789,
	"grad_norm": 1.82794189453125,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 16.6644,
	"mean_token_accuracy": 0.7058505766093731,
	"step": 960
	},
	{
	"epoch": 0.6468912351265292,
	"grad_norm": 1.6554478406906128,
	"learning_rate": 3.714689265536723e-05,
	"loss": 16.2796,
	"mean_token_accuracy": 0.7101977132260799,
	"step": 965
	},
	{
	"epoch": 0.6502430031841796,
	"grad_norm": 1.8698370456695557,
	"learning_rate": 3.679378531073446e-05,
	"loss": 16.1934,
	"mean_token_accuracy": 0.7142874717712402,
	"step": 970
	},
	{
	"epoch": 0.6535947712418301,
	"grad_norm": 1.8040566444396973,
	"learning_rate": 3.644067796610169e-05,
	"loss": 16.5345,
	"mean_token_accuracy": 0.7125143676996231,
	"step": 975
	},
	{
	"epoch": 0.6569465392994804,
	"grad_norm": 1.6644558906555176,
	"learning_rate": 3.608757062146893e-05,
	"loss": 16.508,
	"mean_token_accuracy": 0.7078846462070942,
	"step": 980
	},
	{
	"epoch": 0.6602983073571309,
	"grad_norm": 1.7228506803512573,
	"learning_rate": 3.573446327683616e-05,
	"loss": 16.8474,
	"mean_token_accuracy": 0.7084795109927654,
	"step": 985
	},
	{
	"epoch": 0.6636500754147813,
	"grad_norm": 1.486241102218628,
	"learning_rate": 3.5381355932203394e-05,
	"loss": 17.1453,
	"mean_token_accuracy": 0.6975291892886162,
	"step": 990
	},
	{
	"epoch": 0.6670018434724317,
	"grad_norm": 1.7130765914916992,
	"learning_rate": 3.5028248587570624e-05,
	"loss": 16.458,
	"mean_token_accuracy": 0.7106956362724304,
	"step": 995
	},
	{
	"epoch": 0.6703536115300821,
	"grad_norm": 1.863926649093628,
	"learning_rate": 3.467514124293785e-05,
	"loss": 17.3095,
	"mean_token_accuracy": 0.6962033234536648,
	"step": 1000
	},
	{
	"epoch": 0.6737053795877326,
	"grad_norm": 1.6535072326660156,
	"learning_rate": 3.432203389830508e-05,
	"loss": 16.6846,
	"mean_token_accuracy": 0.7084034703671932,
	"step": 1005
	},
	{
	"epoch": 0.6770571476453829,
	"grad_norm": 1.7278594970703125,
	"learning_rate": 3.396892655367232e-05,
	"loss": 16.9805,
	"mean_token_accuracy": 0.7026786416769027,
	"step": 1010
	},
	{
	"epoch": 0.6804089157030333,
	"grad_norm": 1.9055004119873047,
	"learning_rate": 3.361581920903955e-05,
	"loss": 17.2562,
	"mean_token_accuracy": 0.6977267302572727,
	"step": 1015
	},
	{
	"epoch": 0.6837606837606838,
	"grad_norm": 1.6398614645004272,
	"learning_rate": 3.326271186440678e-05,
	"loss": 17.3378,
	"mean_token_accuracy": 0.6958214737474918,
	"step": 1020
	},
	{
	"epoch": 0.6871124518183341,
	"grad_norm": 1.926950454711914,
	"learning_rate": 3.2909604519774014e-05,
	"loss": 16.6536,
	"mean_token_accuracy": 0.7083842910826206,
	"step": 1025
	},
	{
	"epoch": 0.6904642198759846,
	"grad_norm": 1.8061659336090088,
	"learning_rate": 3.2556497175141244e-05,
	"loss": 16.643,
	"mean_token_accuracy": 0.7093963578343392,
	"step": 1030
	},
	{
	"epoch": 0.693815987933635,
	"grad_norm": 1.6816084384918213,
	"learning_rate": 3.2203389830508473e-05,
	"loss": 16.9696,
	"mean_token_accuracy": 0.7000316813588142,
	"step": 1035
	},
	{
	"epoch": 0.6971677559912854,
	"grad_norm": 1.630842685699463,
	"learning_rate": 3.185028248587571e-05,
	"loss": 16.587,
	"mean_token_accuracy": 0.7107978977262974,
	"step": 1040
	},
	{
	"epoch": 0.7005195240489358,
	"grad_norm": 1.755123257637024,
	"learning_rate": 3.149717514124294e-05,
	"loss": 17.0736,
	"mean_token_accuracy": 0.7017260067164898,
	"step": 1045
	},
	{
	"epoch": 0.7038712921065863,
	"grad_norm": 1.4850029945373535,
	"learning_rate": 3.114406779661017e-05,
	"loss": 16.3165,
	"mean_token_accuracy": 0.7119720429182053,
	"step": 1050
	},
	{
	"epoch": 0.7072230601642366,
	"grad_norm": 1.916961908340454,
	"learning_rate": 3.0790960451977405e-05,
	"loss": 17.0237,
	"mean_token_accuracy": 0.6976533338427544,
	"step": 1055
	},
	{
	"epoch": 0.710574828221887,
	"grad_norm": 1.5003294944763184,
	"learning_rate": 3.043785310734463e-05,
	"loss": 16.8504,
	"mean_token_accuracy": 0.7056308597326278,
	"step": 1060
	},
	{
	"epoch": 0.7139265962795375,
	"grad_norm": 1.9166836738586426,
	"learning_rate": 3.0084745762711864e-05,
	"loss": 16.8231,
	"mean_token_accuracy": 0.7023352533578873,
	"step": 1065
	},
	{
	"epoch": 0.7172783643371878,
	"grad_norm": 1.7789411544799805,
	"learning_rate": 2.97316384180791e-05,
	"loss": 17.3132,
	"mean_token_accuracy": 0.6994914725422859,
	"step": 1070
	},
	{
	"epoch": 0.7206301323948383,
	"grad_norm": 1.7289875745773315,
	"learning_rate": 2.937853107344633e-05,
	"loss": 17.3902,
	"mean_token_accuracy": 0.69447166249156,
	"step": 1075
	},
	{
	"epoch": 0.7239819004524887,
	"grad_norm": 1.4835467338562012,
	"learning_rate": 2.902542372881356e-05,
	"loss": 16.751,
	"mean_token_accuracy": 0.7052346661686897,
	"step": 1080
	},
	{
	"epoch": 0.7273336685101391,
	"grad_norm": 1.5802119970321655,
	"learning_rate": 2.8672316384180792e-05,
	"loss": 16.6574,
	"mean_token_accuracy": 0.7059398606419564,
	"step": 1085
	},
	{
	"epoch": 0.7306854365677895,
	"grad_norm": 1.8420851230621338,
	"learning_rate": 2.8319209039548022e-05,
	"loss": 16.9315,
	"mean_token_accuracy": 0.7063411138951778,
	"step": 1090
	},
	{
	"epoch": 0.7340372046254399,
	"grad_norm": 1.7593777179718018,
	"learning_rate": 2.7966101694915255e-05,
	"loss": 16.8653,
	"mean_token_accuracy": 0.7089171193540096,
	"step": 1095
	},
	{
	"epoch": 0.7373889726830903,
	"grad_norm": 1.681443452835083,
	"learning_rate": 2.7612994350282488e-05,
	"loss": 16.9878,
	"mean_token_accuracy": 0.7057393230497837,
	"step": 1100
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 1.6064281463623047,
	"learning_rate": 2.725988700564972e-05,
	"loss": 16.6153,
	"mean_token_accuracy": 0.7038764618337154,
	"step": 1105
	},
	{
	"epoch": 0.7440925087983912,
	"grad_norm": 1.5632483959197998,
	"learning_rate": 2.690677966101695e-05,
	"loss": 16.0927,
	"mean_token_accuracy": 0.7171440742909908,
	"step": 1110
	},
	{
	"epoch": 0.7474442768560415,
	"grad_norm": 1.8588156700134277,
	"learning_rate": 2.6553672316384183e-05,
	"loss": 16.5765,
	"mean_token_accuracy": 0.7098327249288559,
	"step": 1115
	},
	{
	"epoch": 0.750796044913692,
	"grad_norm": 1.5576221942901611,
	"learning_rate": 2.6200564971751413e-05,
	"loss": 16.6568,
	"mean_token_accuracy": 0.7029327027499676,
	"step": 1120
	},
	{
	"epoch": 0.7541478129713424,
	"grad_norm": 1.645244836807251,
	"learning_rate": 2.5847457627118642e-05,
	"loss": 16.7294,
	"mean_token_accuracy": 0.7060277953743934,
	"step": 1125
	},
	{
	"epoch": 0.7574995810289928,
	"grad_norm": 1.4038984775543213,
	"learning_rate": 2.549435028248588e-05,
	"loss": 16.5925,
	"mean_token_accuracy": 0.7068064086139202,
	"step": 1130
	},
	{
	"epoch": 0.7608513490866432,
	"grad_norm": 1.7987641096115112,
	"learning_rate": 2.514124293785311e-05,
	"loss": 16.6834,
	"mean_token_accuracy": 0.7070130936801433,
	"step": 1135
	},
	{
	"epoch": 0.7642031171442936,
	"grad_norm": 1.5423444509506226,
	"learning_rate": 2.478813559322034e-05,
	"loss": 16.4551,
	"mean_token_accuracy": 0.7121224895119667,
	"step": 1140
	},
	{
	"epoch": 0.767554885201944,
	"grad_norm": 1.7546942234039307,
	"learning_rate": 2.443502824858757e-05,
	"loss": 16.9741,
	"mean_token_accuracy": 0.7010989025235176,
	"step": 1145
	},
	{
	"epoch": 0.7709066532595944,
	"grad_norm": 1.8481935262680054,
	"learning_rate": 2.4081920903954803e-05,
	"loss": 16.6323,
	"mean_token_accuracy": 0.7058765202760696,
	"step": 1150
	},
	{
	"epoch": 0.7742584213172449,
	"grad_norm": 1.6855909824371338,
	"learning_rate": 2.3728813559322036e-05,
	"loss": 16.6844,
	"mean_token_accuracy": 0.7119428858160972,
	"step": 1155
	},
	{
	"epoch": 0.7776101893748952,
	"grad_norm": 1.9828130006790161,
	"learning_rate": 2.3375706214689266e-05,
	"loss": 16.866,
	"mean_token_accuracy": 0.7036800056695938,
	"step": 1160
	},
	{
	"epoch": 0.7809619574325457,
	"grad_norm": 1.5005120038986206,
	"learning_rate": 2.30225988700565e-05,
	"loss": 16.3539,
	"mean_token_accuracy": 0.711839384585619,
	"step": 1165
	},
	{
	"epoch": 0.7843137254901961,
	"grad_norm": 2.262735366821289,
	"learning_rate": 2.266949152542373e-05,
	"loss": 16.4102,
	"mean_token_accuracy": 0.7110463745892048,
	"step": 1170
	},
	{
	"epoch": 0.7876654935478465,
	"grad_norm": 1.6699568033218384,
	"learning_rate": 2.231638418079096e-05,
	"loss": 17.1027,
	"mean_token_accuracy": 0.7031991191208362,
	"step": 1175
	},
	{
	"epoch": 0.7910172616054969,
	"grad_norm": 1.6248890161514282,
	"learning_rate": 2.196327683615819e-05,
	"loss": 16.3399,
	"mean_token_accuracy": 0.7143234215676785,
	"step": 1180
	},
	{
	"epoch": 0.7943690296631473,
	"grad_norm": 1.7570775747299194,
	"learning_rate": 2.1610169491525427e-05,
	"loss": 16.2255,
	"mean_token_accuracy": 0.7123358778655529,
	"step": 1185
	},
	{
	"epoch": 0.7977207977207977,
	"grad_norm": 1.9391677379608154,
	"learning_rate": 2.1257062146892657e-05,
	"loss": 16.3472,
	"mean_token_accuracy": 0.711616413295269,
	"step": 1190
	},
	{
	"epoch": 0.8010725657784481,
	"grad_norm": 1.8997981548309326,
	"learning_rate": 2.0903954802259886e-05,
	"loss": 16.5601,
	"mean_token_accuracy": 0.7071553356945515,
	"step": 1195
	},
	{
	"epoch": 0.8044243338360986,
	"grad_norm": 1.6094359159469604,
	"learning_rate": 2.055084745762712e-05,
	"loss": 16.622,
	"mean_token_accuracy": 0.7043877936899662,
	"step": 1200
	},
	{
	"epoch": 0.8077761018937489,
	"grad_norm": 1.7940973043441772,
	"learning_rate": 2.0197740112994352e-05,
	"loss": 16.6535,
	"mean_token_accuracy": 0.705554535984993,
	"step": 1205
	},
	{
	"epoch": 0.8111278699513994,
	"grad_norm": 1.6890041828155518,
	"learning_rate": 1.984463276836158e-05,
	"loss": 17.2328,
	"mean_token_accuracy": 0.6988375537097454,
	"step": 1210
	},
	{
	"epoch": 0.8144796380090498,
	"grad_norm": 1.5568735599517822,
	"learning_rate": 1.9491525423728814e-05,
	"loss": 16.9753,
	"mean_token_accuracy": 0.7015632651746273,
	"step": 1215
	},
	{
	"epoch": 0.8178314060667002,
	"grad_norm": 1.7157835960388184,
	"learning_rate": 1.9138418079096047e-05,
	"loss": 16.3668,
	"mean_token_accuracy": 0.7098449252545833,
	"step": 1220
	},
	{
	"epoch": 0.8211831741243506,
	"grad_norm": 1.7175644636154175,
	"learning_rate": 1.8785310734463277e-05,
	"loss": 16.8061,
	"mean_token_accuracy": 0.7032932281494141,
	"step": 1225
	},
	{
	"epoch": 0.824534942182001,
	"grad_norm": 1.7225829362869263,
	"learning_rate": 1.843220338983051e-05,
	"loss": 16.5716,
	"mean_token_accuracy": 0.7074852548539639,
	"step": 1230
	},
	{
	"epoch": 0.8278867102396514,
	"grad_norm": 1.8654727935791016,
	"learning_rate": 1.8079096045197743e-05,
	"loss": 16.8172,
	"mean_token_accuracy": 0.7035241700708866,
	"step": 1235
	},
	{
	"epoch": 0.8312384782973018,
	"grad_norm": 1.9604694843292236,
	"learning_rate": 1.7725988700564972e-05,
	"loss": 16.2992,
	"mean_token_accuracy": 0.714275274425745,
	"step": 1240
	},
	{
	"epoch": 0.8345902463549523,
	"grad_norm": 1.7569185495376587,
	"learning_rate": 1.7372881355932205e-05,
	"loss": 16.6269,
	"mean_token_accuracy": 0.7052666112780571,
	"step": 1245
	},
	{
	"epoch": 0.8379420144126026,
	"grad_norm": 1.6537069082260132,
	"learning_rate": 1.7019774011299435e-05,
	"loss": 16.5978,
	"mean_token_accuracy": 0.708269502967596,
	"step": 1250
	},
	{
	"epoch": 0.8412937824702531,
	"grad_norm": 1.8623359203338623,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 16.1831,
	"mean_token_accuracy": 0.7164609245955944,
	"step": 1255
	},
	{
	"epoch": 0.8446455505279035,
	"grad_norm": 1.7004101276397705,
	"learning_rate": 1.63135593220339e-05,
	"loss": 16.9611,
	"mean_token_accuracy": 0.7057129152119159,
	"step": 1260
	},
	{
	"epoch": 0.8479973185855538,
	"grad_norm": 1.8294973373413086,
	"learning_rate": 1.596045197740113e-05,
	"loss": 16.8036,
	"mean_token_accuracy": 0.7046464517712593,
	"step": 1265
	},
	{
	"epoch": 0.8513490866432043,
	"grad_norm": 1.7992702722549438,
	"learning_rate": 1.5607344632768363e-05,
	"loss": 16.139,
	"mean_token_accuracy": 0.7126708298921585,
	"step": 1270
	},
	{
	"epoch": 0.8547008547008547,
	"grad_norm": 2.033846855163574,
	"learning_rate": 1.5254237288135596e-05,
	"loss": 16.49,
	"mean_token_accuracy": 0.707030464708805,
	"step": 1275
	},
	{
	"epoch": 0.8580526227585051,
	"grad_norm": 1.690617561340332,
	"learning_rate": 1.4901129943502825e-05,
	"loss": 16.7829,
	"mean_token_accuracy": 0.7026272863149643,
	"step": 1280
	},
	{
	"epoch": 0.8614043908161555,
	"grad_norm": 1.7161706686019897,
	"learning_rate": 1.4548022598870056e-05,
	"loss": 16.4907,
	"mean_token_accuracy": 0.7054763376712799,
	"step": 1285
	},
	{
	"epoch": 0.864756158873806,
	"grad_norm": 1.5910500288009644,
	"learning_rate": 1.419491525423729e-05,
	"loss": 16.3073,
	"mean_token_accuracy": 0.7165283918380737,
	"step": 1290
	},
	{
	"epoch": 0.8681079269314563,
	"grad_norm": 1.5939749479293823,
	"learning_rate": 1.384180790960452e-05,
	"loss": 16.6524,
	"mean_token_accuracy": 0.705347529053688,
	"step": 1295
	},
	{
	"epoch": 0.8714596949891068,
	"grad_norm": 1.7478996515274048,
	"learning_rate": 1.3488700564971752e-05,
	"loss": 17.1832,
	"mean_token_accuracy": 0.6956523738801479,
	"step": 1300
	},
	{
	"epoch": 0.8748114630467572,
	"grad_norm": 1.6442205905914307,
	"learning_rate": 1.3135593220338985e-05,
	"loss": 16.3978,
	"mean_token_accuracy": 0.7132278561592102,
	"step": 1305
	},
	{
	"epoch": 0.8781632311044075,
	"grad_norm": 1.7201565504074097,
	"learning_rate": 1.2782485875706216e-05,
	"loss": 16.3159,
	"mean_token_accuracy": 0.711051919311285,
	"step": 1310
	},
	{
	"epoch": 0.881514999162058,
	"grad_norm": 1.829209327697754,
	"learning_rate": 1.2429378531073447e-05,
	"loss": 16.7987,
	"mean_token_accuracy": 0.7058401651680469,
	"step": 1315
	},
	{
	"epoch": 0.8848667672197084,
	"grad_norm": 1.4660886526107788,
	"learning_rate": 1.2076271186440678e-05,
	"loss": 16.7297,
	"mean_token_accuracy": 0.7092804253101349,
	"step": 1320
	},
	{
	"epoch": 0.8882185352773588,
	"grad_norm": 1.4927663803100586,
	"learning_rate": 1.172316384180791e-05,
	"loss": 15.9333,
	"mean_token_accuracy": 0.7158772744238376,
	"step": 1325
	},
	{
	"epoch": 0.8915703033350092,
	"grad_norm": 1.6522186994552612,
	"learning_rate": 1.137005649717514e-05,
	"loss": 16.4156,
	"mean_token_accuracy": 0.7134528748691082,
	"step": 1330
	},
	{
	"epoch": 0.8949220713926597,
	"grad_norm": 1.7809523344039917,
	"learning_rate": 1.1016949152542374e-05,
	"loss": 16.2625,
	"mean_token_accuracy": 0.7148336976766586,
	"step": 1335
	},
	{
	"epoch": 0.89827383945031,
	"grad_norm": 1.8860619068145752,
	"learning_rate": 1.0663841807909605e-05,
	"loss": 16.6187,
	"mean_token_accuracy": 0.7087382405996323,
	"step": 1340
	},
	{
	"epoch": 0.9016256075079605,
	"grad_norm": 1.854195475578308,
	"learning_rate": 1.0310734463276836e-05,
	"loss": 16.5843,
	"mean_token_accuracy": 0.7144103929400444,
	"step": 1345
	},
	{
	"epoch": 0.9049773755656109,
	"grad_norm": 1.7052239179611206,
	"learning_rate": 9.957627118644067e-06,
	"loss": 16.3345,
	"mean_token_accuracy": 0.7125584341585636,
	"step": 1350
	},
	{
	"epoch": 0.9083291436232612,
	"grad_norm": 1.5887420177459717,
	"learning_rate": 9.6045197740113e-06,
	"loss": 16.2409,
	"mean_token_accuracy": 0.7080107174813748,
	"step": 1355
	},
	{
	"epoch": 0.9116809116809117,
	"grad_norm": 1.6052732467651367,
	"learning_rate": 9.251412429378532e-06,
	"loss": 16.2373,
	"mean_token_accuracy": 0.7137157171964645,
	"step": 1360
	},
	{
	"epoch": 0.9150326797385621,
	"grad_norm": 1.7612617015838623,
	"learning_rate": 8.898305084745763e-06,
	"loss": 16.0292,
	"mean_token_accuracy": 0.7181592255830764,
	"step": 1365
	},
	{
	"epoch": 0.9183844477962125,
	"grad_norm": 1.8271749019622803,
	"learning_rate": 8.545197740112996e-06,
	"loss": 16.8757,
	"mean_token_accuracy": 0.701992305368185,
	"step": 1370
	},
	{
	"epoch": 0.9217362158538629,
	"grad_norm": 1.6350926160812378,
	"learning_rate": 8.192090395480225e-06,
	"loss": 16.6061,
	"mean_token_accuracy": 0.7089238859713077,
	"step": 1375
	},
	{
	"epoch": 0.9250879839115134,
	"grad_norm": 1.7321621179580688,
	"learning_rate": 7.838983050847458e-06,
	"loss": 16.2532,
	"mean_token_accuracy": 0.7115737572312355,
	"step": 1380
	},
	{
	"epoch": 0.9284397519691637,
	"grad_norm": 1.8958040475845337,
	"learning_rate": 7.48587570621469e-06,
	"loss": 16.5068,
	"mean_token_accuracy": 0.7108790181577206,
	"step": 1385
	},
	{
	"epoch": 0.9317915200268141,
	"grad_norm": 1.629992127418518,
	"learning_rate": 7.1327683615819206e-06,
	"loss": 16.2367,
	"mean_token_accuracy": 0.7134776934981346,
	"step": 1390
	},
	{
	"epoch": 0.9351432880844646,
	"grad_norm": 1.904123067855835,
	"learning_rate": 6.779661016949153e-06,
	"loss": 16.3444,
	"mean_token_accuracy": 0.7045241884887219,
	"step": 1395
	},
	{
	"epoch": 0.9384950561421149,
	"grad_norm": 1.6319600343704224,
	"learning_rate": 6.426553672316385e-06,
	"loss": 16.3,
	"mean_token_accuracy": 0.7118948072195053,
	"step": 1400
	},
	{
	"epoch": 0.9418468241997654,
	"grad_norm": 1.6921709775924683,
	"learning_rate": 6.073446327683617e-06,
	"loss": 16.5816,
	"mean_token_accuracy": 0.7079687170684338,
	"step": 1405
	},
	{
	"epoch": 0.9451985922574158,
	"grad_norm": 1.636551856994629,
	"learning_rate": 5.720338983050848e-06,
	"loss": 16.785,
	"mean_token_accuracy": 0.7054948009550571,
	"step": 1410
	},
	{
	"epoch": 0.9485503603150662,
	"grad_norm": 1.6171858310699463,
	"learning_rate": 5.367231638418079e-06,
	"loss": 16.6877,
	"mean_token_accuracy": 0.7033485405147075,
	"step": 1415
	},
	{
	"epoch": 0.9519021283727166,
	"grad_norm": 1.6833641529083252,
	"learning_rate": 5.014124293785311e-06,
	"loss": 16.5803,
	"mean_token_accuracy": 0.706027402728796,
	"step": 1420
	},
	{
	"epoch": 0.9552538964303671,
	"grad_norm": 2.0238494873046875,
	"learning_rate": 4.6610169491525425e-06,
	"loss": 16.4305,
	"mean_token_accuracy": 0.7110757566988468,
	"step": 1425
	},
	{
	"epoch": 0.9586056644880174,
	"grad_norm": 1.5262683629989624,
	"learning_rate": 4.307909604519774e-06,
	"loss": 16.105,
	"mean_token_accuracy": 0.7173994883894921,
	"step": 1430
	},
	{
	"epoch": 0.9619574325456678,
	"grad_norm": 1.6822128295898438,
	"learning_rate": 3.954802259887006e-06,
	"loss": 17.0064,
	"mean_token_accuracy": 0.7033144362270832,
	"step": 1435
	},
	{
	"epoch": 0.9653092006033183,
	"grad_norm": 2.1382946968078613,
	"learning_rate": 3.6016949152542374e-06,
	"loss": 16.6567,
	"mean_token_accuracy": 0.7085098147392273,
	"step": 1440
	},
	{
	"epoch": 0.9686609686609686,
	"grad_norm": 1.6137080192565918,
	"learning_rate": 3.248587570621469e-06,
	"loss": 16.4193,
	"mean_token_accuracy": 0.7077061600983143,
	"step": 1445
	},
	{
	"epoch": 0.9720127367186191,
	"grad_norm": 1.6318018436431885,
	"learning_rate": 2.8954802259887007e-06,
	"loss": 16.5904,
	"mean_token_accuracy": 0.7037704810500145,
	"step": 1450
	},
	{
	"epoch": 0.9753645047762695,
	"grad_norm": 1.6723519563674927,
	"learning_rate": 2.5423728813559323e-06,
	"loss": 16.351,
	"mean_token_accuracy": 0.715372896194458,
	"step": 1455
	},
	{
	"epoch": 0.9787162728339199,
	"grad_norm": 2.6915719509124756,
	"learning_rate": 2.189265536723164e-06,
	"loss": 16.5627,
	"mean_token_accuracy": 0.706637478619814,
	"step": 1460
	},
	{
	"epoch": 0.9820680408915703,
	"grad_norm": 1.9349390268325806,
	"learning_rate": 1.8361581920903956e-06,
	"loss": 16.7821,
	"mean_token_accuracy": 0.7010103747248649,
	"step": 1465
	},
	{
	"epoch": 0.9854198089492208,
	"grad_norm": 1.6685172319412231,
	"learning_rate": 1.4830508474576273e-06,
	"loss": 16.7016,
	"mean_token_accuracy": 0.7086931586265564,
	"step": 1470
	},
	{
	"epoch": 0.9887715770068711,
	"grad_norm": 1.7148998975753784,
	"learning_rate": 1.129943502824859e-06,
	"loss": 16.4809,
	"mean_token_accuracy": 0.7131018862128258,
	"step": 1475
	},
	{
	"epoch": 0.9921233450645215,
	"grad_norm": 1.8873836994171143,
	"learning_rate": 7.768361581920904e-07,
	"loss": 16.5183,
	"mean_token_accuracy": 0.7111847102642059,
	"step": 1480
	},
	{
	"epoch": 0.995475113122172,
	"grad_norm": 1.8390552997589111,
	"learning_rate": 4.2372881355932204e-07,
	"loss": 16.1742,
	"mean_token_accuracy": 0.7128683432936669,
	"step": 1485
	},
	{
	"epoch": 0.9988268811798223,
	"grad_norm": 1.8799461126327515,
	"learning_rate": 7.062146892655368e-08,
	"loss": 17.1633,
	"mean_token_accuracy": 0.6963419988751411,
	"step": 1490
	}
	],
	"logging_steps": 5,
	"max_steps": 1491,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 750,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.5012213304045076e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}