DeepNSM-8B / trainer_state.json

Upload folder using huggingface_hub

0bd1430 verified 8 months ago

28.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.847063169560399,
	"eval_steps": 1000,
	"global_step": 10000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01847063169560399,
	"grad_norm": 1.6779712438583374,
	"learning_rate": 6.6e-05,
	"loss": 1.6332,
	"mean_token_accuracy": 0.5568195793032646,
	"num_tokens": 121637.0,
	"step": 100
	},
	{
	"epoch": 0.03694126339120798,
	"grad_norm": 1.073460340499878,
	"learning_rate": 0.00013266666666666667,
	"loss": 1.1787,
	"mean_token_accuracy": 0.6344019943475723,
	"num_tokens": 246217.0,
	"step": 200
	},
	{
	"epoch": 0.05541189508681197,
	"grad_norm": 1.4162907600402832,
	"learning_rate": 0.00019933333333333334,
	"loss": 1.1193,
	"mean_token_accuracy": 0.6494812744855881,
	"num_tokens": 369036.0,
	"step": 300
	},
	{
	"epoch": 0.07388252678241596,
	"grad_norm": 1.3762811422348022,
	"learning_rate": 0.000173421993904824,
	"loss": 1.1156,
	"mean_token_accuracy": 0.650577632188797,
	"num_tokens": 492952.0,
	"step": 400
	},
	{
	"epoch": 0.09235315847801995,
	"grad_norm": 0.9165902137756348,
	"learning_rate": 0.0001550744859491231,
	"loss": 1.0855,
	"mean_token_accuracy": 0.6567107254266739,
	"num_tokens": 614495.0,
	"step": 500
	},
	{
	"epoch": 0.11082379017362394,
	"grad_norm": 0.6837517619132996,
	"learning_rate": 0.00014153935488632152,
	"loss": 1.0733,
	"mean_token_accuracy": 0.6587592279911041,
	"num_tokens": 740435.0,
	"step": 600
	},
	{
	"epoch": 0.12929442186922793,
	"grad_norm": 0.8884134292602539,
	"learning_rate": 0.00013102435641608367,
	"loss": 1.0538,
	"mean_token_accuracy": 0.665734943151474,
	"num_tokens": 863456.0,
	"step": 700
	},
	{
	"epoch": 0.1477650535648319,
	"grad_norm": 1.0362532138824463,
	"learning_rate": 0.00012255110553085002,
	"loss": 1.0675,
	"mean_token_accuracy": 0.6605714571475982,
	"num_tokens": 988234.0,
	"step": 800
	},
	{
	"epoch": 0.16623568526043592,
	"grad_norm": 0.7236880660057068,
	"learning_rate": 0.00011553425737574005,
	"loss": 1.0327,
	"mean_token_accuracy": 0.6679404038190841,
	"num_tokens": 1112814.0,
	"step": 900
	},
	{
	"epoch": 0.1847063169560399,
	"grad_norm": 0.8120320439338684,
	"learning_rate": 0.0001095993248702382,
	"loss": 1.0307,
	"step": 1000
	},
	{
	"epoch": 0.1847063169560399,
	"eval_loss": 1.040740728378296,
	"eval_mean_token_accuracy": 0.6653746280670166,
	"eval_num_tokens": 1237371.0,
	"eval_runtime": 19.1225,
	"eval_samples_per_second": 52.295,
	"eval_steps_per_second": 6.537,
	"step": 1000
	},
	{
	"epoch": 0.20317694865164387,
	"grad_norm": 0.9145399332046509,
	"learning_rate": 0.00010449410169212441,
	"loss": 1.0233,
	"mean_token_accuracy": 0.6706056842207908,
	"num_tokens": 1359398.0,
	"step": 1100
	},
	{
	"epoch": 0.22164758034724788,
	"grad_norm": 0.9274869561195374,
	"learning_rate": 0.00010004169272643103,
	"loss": 1.0225,
	"mean_token_accuracy": 0.6711669725179672,
	"num_tokens": 1483345.0,
	"step": 1200
	},
	{
	"epoch": 0.24011821204285186,
	"grad_norm": 0.8308613300323486,
	"learning_rate": 9.611386626644256e-05,
	"loss": 1.0128,
	"mean_token_accuracy": 0.6720483464002609,
	"num_tokens": 1607214.0,
	"step": 1300
	},
	{
	"epoch": 0.25858884373845586,
	"grad_norm": 0.8858506679534912,
	"learning_rate": 9.261509270476351e-05,
	"loss": 1.0159,
	"mean_token_accuracy": 0.6725166749954223,
	"num_tokens": 1730229.0,
	"step": 1400
	},
	{
	"epoch": 0.27705947543405984,
	"grad_norm": 1.0183970928192139,
	"learning_rate": 8.9472548255098e-05,
	"loss": 1.0056,
	"mean_token_accuracy": 0.6739540088176728,
	"num_tokens": 1853944.0,
	"step": 1500
	},
	{
	"epoch": 0.2955301071296638,
	"grad_norm": 0.8774070143699646,
	"learning_rate": 8.662961636484199e-05,
	"loss": 1.0046,
	"mean_token_accuracy": 0.6739509409666061,
	"num_tokens": 1980091.0,
	"step": 1600
	},
	{
	"epoch": 0.3140007388252678,
	"grad_norm": 0.8079282641410828,
	"learning_rate": 8.40415267738742e-05,
	"loss": 0.9995,
	"mean_token_accuracy": 0.6781503772735595,
	"num_tokens": 2104193.0,
	"step": 1700
	},
	{
	"epoch": 0.33247137052087183,
	"grad_norm": 0.6845090389251709,
	"learning_rate": 8.167234800792304e-05,
	"loss": 1.0119,
	"mean_token_accuracy": 0.671802139878273,
	"num_tokens": 2228642.0,
	"step": 1800
	},
	{
	"epoch": 0.3509420022164758,
	"grad_norm": 0.7049577832221985,
	"learning_rate": 7.949286335171643e-05,
	"loss": 1.0254,
	"mean_token_accuracy": 0.666619479060173,
	"num_tokens": 2352090.0,
	"step": 1900
	},
	{
	"epoch": 0.3694126339120798,
	"grad_norm": 0.7556240558624268,
	"learning_rate": 7.747903910575024e-05,
	"loss": 1.0133,
	"step": 2000
	},
	{
	"epoch": 0.3694126339120798,
	"eval_loss": 0.9894875288009644,
	"eval_mean_token_accuracy": 0.6793018989562988,
	"eval_num_tokens": 2475429.0,
	"eval_runtime": 19.1453,
	"eval_samples_per_second": 52.232,
	"eval_steps_per_second": 6.529,
	"step": 2000
	},
	{
	"epoch": 0.38788326560768377,
	"grad_norm": 0.9750986695289612,
	"learning_rate": 7.561089934060305e-05,
	"loss": 0.9941,
	"mean_token_accuracy": 0.6748151290416717,
	"num_tokens": 2600104.0,
	"step": 2100
	},
	{
	"epoch": 0.40635389730328775,
	"grad_norm": 0.7754963040351868,
	"learning_rate": 7.387168551531178e-05,
	"loss": 1.0045,
	"mean_token_accuracy": 0.6771643495559693,
	"num_tokens": 2724139.0,
	"step": 2200
	},
	{
	"epoch": 0.4248245289988918,
	"grad_norm": 0.6899317502975464,
	"learning_rate": 7.224721947627513e-05,
	"loss": 0.9987,
	"mean_token_accuracy": 0.6749349737167358,
	"num_tokens": 2847524.0,
	"step": 2300
	},
	{
	"epoch": 0.44329516069449576,
	"grad_norm": 0.6299494504928589,
	"learning_rate": 7.07254141150883e-05,
	"loss": 0.9945,
	"mean_token_accuracy": 0.6736445528268814,
	"num_tokens": 2972109.0,
	"step": 2400
	},
	{
	"epoch": 0.46176579239009974,
	"grad_norm": 1.4914665222167969,
	"learning_rate": 6.929589286752371e-05,
	"loss": 0.9911,
	"mean_token_accuracy": 0.6778055882453918,
	"num_tokens": 3094757.0,
	"step": 2500
	},
	{
	"epoch": 0.4802364240857037,
	"grad_norm": 0.8584954142570496,
	"learning_rate": 6.794969055356698e-05,
	"loss": 0.9822,
	"mean_token_accuracy": 0.6790356373786927,
	"num_tokens": 3217566.0,
	"step": 2600
	},
	{
	"epoch": 0.4987070557813077,
	"grad_norm": 0.8136039972305298,
	"learning_rate": 6.667901577609308e-05,
	"loss": 0.996,
	"mean_token_accuracy": 0.6747825038433075,
	"num_tokens": 3342407.0,
	"step": 2700
	},
	{
	"epoch": 0.5171776874769117,
	"grad_norm": 0.7587074637413025,
	"learning_rate": 6.547706044716512e-05,
	"loss": 0.9825,
	"mean_token_accuracy": 0.6811250519752502,
	"num_tokens": 3467856.0,
	"step": 2800
	},
	{
	"epoch": 0.5356483191725157,
	"grad_norm": 0.6996003985404968,
	"learning_rate": 6.433784577873342e-05,
	"loss": 0.9715,
	"mean_token_accuracy": 0.6821656405925751,
	"num_tokens": 3589644.0,
	"step": 2900
	},
	{
	"epoch": 0.5541189508681197,
	"grad_norm": 0.9794346690177917,
	"learning_rate": 6.325609676486509e-05,
	"loss": 0.9815,
	"step": 3000
	},
	{
	"epoch": 0.5541189508681197,
	"eval_loss": 0.9679494500160217,
	"eval_mean_token_accuracy": 0.6865276889801025,
	"eval_num_tokens": 3712997.0,
	"eval_runtime": 19.1716,
	"eval_samples_per_second": 52.16,
	"eval_steps_per_second": 6.52,
	"step": 3000
	},
	{
	"epoch": 0.5725895825637237,
	"grad_norm": 0.8178902864456177,
	"learning_rate": 6.22271391287055e-05,
	"loss": 0.9764,
	"mean_token_accuracy": 0.681132504940033,
	"num_tokens": 3834991.0,
	"step": 3100
	},
	{
	"epoch": 0.5910602142593276,
	"grad_norm": 0.9663840532302856,
	"learning_rate": 6.12468141320462e-05,
	"loss": 0.9902,
	"mean_token_accuracy": 0.6795903497934341,
	"num_tokens": 3956462.0,
	"step": 3200
	},
	{
	"epoch": 0.6095308459549317,
	"grad_norm": 0.8016713857650757,
	"learning_rate": 6.03114077000131e-05,
	"loss": 0.9787,
	"mean_token_accuracy": 0.680009834766388,
	"num_tokens": 4080142.0,
	"step": 3300
	},
	{
	"epoch": 0.6280014776505356,
	"grad_norm": 0.718947172164917,
	"learning_rate": 5.9417591102230663e-05,
	"loss": 0.9921,
	"mean_token_accuracy": 0.6754868066310883,
	"num_tokens": 4203046.0,
	"step": 3400
	},
	{
	"epoch": 0.6464721093461396,
	"grad_norm": 0.6251752376556396,
	"learning_rate": 5.856237102757652e-05,
	"loss": 0.9614,
	"mean_token_accuracy": 0.6870092713832855,
	"num_tokens": 4326548.0,
	"step": 3500
	},
	{
	"epoch": 0.6649427410417437,
	"grad_norm": 0.9118708372116089,
	"learning_rate": 5.7743047343661814e-05,
	"loss": 0.968,
	"mean_token_accuracy": 0.6833401465415955,
	"num_tokens": 4449485.0,
	"step": 3600
	},
	{
	"epoch": 0.6834133727373476,
	"grad_norm": 0.9887173771858215,
	"learning_rate": 5.6957177181117404e-05,
	"loss": 0.9675,
	"mean_token_accuracy": 0.6842365640401841,
	"num_tokens": 4572271.0,
	"step": 3700
	},
	{
	"epoch": 0.7018840044329516,
	"grad_norm": 1.0056270360946655,
	"learning_rate": 5.620254425309578e-05,
	"loss": 0.9921,
	"mean_token_accuracy": 0.6806173902750016,
	"num_tokens": 4694319.0,
	"step": 3800
	},
	{
	"epoch": 0.7203546361285555,
	"grad_norm": 0.6377823352813721,
	"learning_rate": 5.547713253139649e-05,
	"loss": 0.9678,
	"mean_token_accuracy": 0.6819530457258225,
	"num_tokens": 4818201.0,
	"step": 3900
	},
	{
	"epoch": 0.7388252678241596,
	"grad_norm": 0.9543529748916626,
	"learning_rate": 5.477910356647767e-05,
	"loss": 0.9731,
	"step": 4000
	},
	{
	"epoch": 0.7388252678241596,
	"eval_loss": 0.951152503490448,
	"eval_mean_token_accuracy": 0.6907490072250366,
	"eval_num_tokens": 4940870.0,
	"eval_runtime": 19.1874,
	"eval_samples_per_second": 52.117,
	"eval_steps_per_second": 6.515,
	"step": 4000
	},
	{
	"epoch": 0.7572958995197636,
	"grad_norm": 0.9113274216651917,
	"learning_rate": 5.410677686985887e-05,
	"loss": 0.9524,
	"mean_token_accuracy": 0.6853961995244027,
	"num_tokens": 5065279.0,
	"step": 4100
	},
	{
	"epoch": 0.7757665312153675,
	"grad_norm": 0.7836439609527588,
	"learning_rate": 5.345861288192786e-05,
	"loss": 0.9759,
	"mean_token_accuracy": 0.6834134519100189,
	"num_tokens": 5190358.0,
	"step": 4200
	},
	{
	"epoch": 0.7942371629109716,
	"grad_norm": 0.8732810020446777,
	"learning_rate": 5.283319813188472e-05,
	"loss": 0.9675,
	"mean_token_accuracy": 0.6815478146076203,
	"num_tokens": 5314968.0,
	"step": 4300
	},
	{
	"epoch": 0.8127077946065755,
	"grad_norm": 0.7674530148506165,
	"learning_rate": 5.222923226400155e-05,
	"loss": 0.9523,
	"mean_token_accuracy": 0.686726200580597,
	"num_tokens": 5438772.0,
	"step": 4400
	},
	{
	"epoch": 0.8311784263021795,
	"grad_norm": 0.8453629612922668,
	"learning_rate": 5.164551665900703e-05,
	"loss": 0.9633,
	"mean_token_accuracy": 0.6856222760677337,
	"num_tokens": 5560918.0,
	"step": 4500
	},
	{
	"epoch": 0.8496490579977836,
	"grad_norm": 1.1269229650497437,
	"learning_rate": 5.1080944423879696e-05,
	"loss": 0.9581,
	"mean_token_accuracy": 0.6846688747406006,
	"num_tokens": 5682900.0,
	"step": 4600
	},
	{
	"epoch": 0.8681196896933875,
	"grad_norm": 0.7400866746902466,
	"learning_rate": 5.053449155971992e-05,
	"loss": 0.9593,
	"mean_token_accuracy": 0.6853216868638993,
	"num_tokens": 5807988.0,
	"step": 4700
	},
	{
	"epoch": 0.8865903213889915,
	"grad_norm": 0.8142501711845398,
	"learning_rate": 5.0005209147276734e-05,
	"loss": 0.9536,
	"mean_token_accuracy": 0.6875155121088028,
	"num_tokens": 5931817.0,
	"step": 4800
	},
	{
	"epoch": 0.9050609530845954,
	"grad_norm": 0.694760262966156,
	"learning_rate": 4.949221641439499e-05,
	"loss": 0.958,
	"mean_token_accuracy": 0.6865524923801423,
	"num_tokens": 6055690.0,
	"step": 4900
	},
	{
	"epoch": 0.9235315847801995,
	"grad_norm": 0.7349626421928406,
	"learning_rate": 4.899469457011854e-05,
	"loss": 0.9675,
	"step": 5000
	},
	{
	"epoch": 0.9235315847801995,
	"eval_loss": 0.9417961835861206,
	"eval_mean_token_accuracy": 0.6922818598747253,
	"eval_num_tokens": 6179818.0,
	"eval_runtime": 19.1775,
	"eval_samples_per_second": 52.144,
	"eval_steps_per_second": 6.518,
	"step": 5000
	},
	{
	"epoch": 0.9420022164758035,
	"grad_norm": 0.8031660914421082,
	"learning_rate": 4.851188130722481e-05,
	"loss": 0.9568,
	"mean_token_accuracy": 0.6855992400646209,
	"num_tokens": 6304542.0,
	"step": 5100
	},
	{
	"epoch": 0.9604728481714074,
	"grad_norm": 0.8529698252677917,
	"learning_rate": 4.804306588920635e-05,
	"loss": 0.9631,
	"mean_token_accuracy": 0.685149707198143,
	"num_tokens": 6426250.0,
	"step": 5200
	},
	{
	"epoch": 0.9789434798670115,
	"grad_norm": 0.7942742705345154,
	"learning_rate": 4.758758474966023e-05,
	"loss": 0.9579,
	"mean_token_accuracy": 0.6849185460805893,
	"num_tokens": 6549483.0,
	"step": 5300
	},
	{
	"epoch": 0.9974141115626154,
	"grad_norm": 0.8027817010879517,
	"learning_rate": 4.7144817542100825e-05,
	"loss": 0.9658,
	"mean_token_accuracy": 0.684761552810669,
	"num_tokens": 6672929.0,
	"step": 5400
	},
	{
	"epoch": 1.0158847432582194,
	"grad_norm": 0.4089404344558716,
	"learning_rate": 4.671418358670517e-05,
	"loss": 0.8773,
	"mean_token_accuracy": 0.7085312277078628,
	"num_tokens": 6800786.0,
	"step": 5500
	},
	{
	"epoch": 1.0343553749538235,
	"grad_norm": 0.39767757058143616,
	"learning_rate": 4.6295138667698956e-05,
	"loss": 0.8759,
	"mean_token_accuracy": 0.7036858803033829,
	"num_tokens": 6924011.0,
	"step": 5600
	},
	{
	"epoch": 1.0528260066494275,
	"grad_norm": 0.42695361375808716,
	"learning_rate": 4.5887172141209994e-05,
	"loss": 0.8642,
	"mean_token_accuracy": 0.711685739159584,
	"num_tokens": 7045607.0,
	"step": 5700
	},
	{
	"epoch": 1.0712966383450313,
	"grad_norm": 0.45569705963134766,
	"learning_rate": 4.548980431863551e-05,
	"loss": 0.8588,
	"mean_token_accuracy": 0.7119369316101074,
	"num_tokens": 7169759.0,
	"step": 5800
	},
	{
	"epoch": 1.0897672700406353,
	"grad_norm": 0.4741804301738739,
	"learning_rate": 4.510258409503273e-05,
	"loss": 0.8668,
	"mean_token_accuracy": 0.7101493185758591,
	"num_tokens": 7294070.0,
	"step": 5900
	},
	{
	"epoch": 1.1082379017362394,
	"grad_norm": 0.46725088357925415,
	"learning_rate": 4.472508679587051e-05,
	"loss": 0.8689,
	"step": 6000
	},
	{
	"epoch": 1.1082379017362394,
	"eval_loss": 0.9376741051673889,
	"eval_mean_token_accuracy": 0.6943356208801269,
	"eval_num_tokens": 7418784.0,
	"eval_runtime": 19.087,
	"eval_samples_per_second": 52.392,
	"eval_steps_per_second": 6.549,
	"step": 6000
	},
	{
	"epoch": 1.1267085334318434,
	"grad_norm": 0.4105652868747711,
	"learning_rate": 4.435691221877225e-05,
	"loss": 0.8678,
	"mean_token_accuracy": 0.7071201595664024,
	"num_tokens": 7542724.0,
	"step": 6100
	},
	{
	"epoch": 1.1451791651274474,
	"grad_norm": 0.4177459180355072,
	"learning_rate": 4.399768284971994e-05,
	"loss": 0.8614,
	"mean_token_accuracy": 0.7109738218784333,
	"num_tokens": 7665854.0,
	"step": 6200
	},
	{
	"epoch": 1.1636497968230513,
	"grad_norm": 0.47561731934547424,
	"learning_rate": 4.364704223564281e-05,
	"loss": 0.8657,
	"mean_token_accuracy": 0.7084752279520035,
	"num_tokens": 7792262.0,
	"step": 6300
	},
	{
	"epoch": 1.1821204285186553,
	"grad_norm": 0.4582621157169342,
	"learning_rate": 4.330465349744206e-05,
	"loss": 0.8647,
	"mean_token_accuracy": 0.7089388114213944,
	"num_tokens": 7915414.0,
	"step": 6400
	},
	{
	"epoch": 1.2005910602142593,
	"grad_norm": 0.4826809763908386,
	"learning_rate": 4.2970197969350315e-05,
	"loss": 0.8597,
	"mean_token_accuracy": 0.7096016359329224,
	"num_tokens": 8039995.0,
	"step": 6500
	},
	{
	"epoch": 1.2190616919098634,
	"grad_norm": 0.5360994935035706,
	"learning_rate": 4.264337395213374e-05,
	"loss": 0.8764,
	"mean_token_accuracy": 0.7060012793540955,
	"num_tokens": 8163184.0,
	"step": 6600
	},
	{
	"epoch": 1.2375323236054674,
	"grad_norm": 0.4621296525001526,
	"learning_rate": 4.232389556904849e-05,
	"loss": 0.8707,
	"mean_token_accuracy": 0.7078948348760605,
	"num_tokens": 8287025.0,
	"step": 6700
	},
	{
	"epoch": 1.2560029553010712,
	"grad_norm": 0.5010101199150085,
	"learning_rate": 4.201149171469091e-05,
	"loss": 0.8698,
	"mean_token_accuracy": 0.7087471377849579,
	"num_tokens": 8411205.0,
	"step": 6800
	},
	{
	"epoch": 1.2744735869966752,
	"grad_norm": 0.4199393093585968,
	"learning_rate": 4.170590508795705e-05,
	"loss": 0.8707,
	"mean_token_accuracy": 0.7078831547498703,
	"num_tokens": 8535583.0,
	"step": 6900
	},
	{
	"epoch": 1.2929442186922793,
	"grad_norm": 0.4775237739086151,
	"learning_rate": 4.1406891301271574e-05,
	"loss": 0.8688,
	"step": 7000
	},
	{
	"epoch": 1.2929442186922793,
	"eval_loss": 0.9409459233283997,
	"eval_mean_token_accuracy": 0.6942330374717712,
	"eval_num_tokens": 8659234.0,
	"eval_runtime": 19.0974,
	"eval_samples_per_second": 52.363,
	"eval_steps_per_second": 6.545,
	"step": 7000
	},
	{
	"epoch": 1.3114148503878833,
	"grad_norm": 0.4445763826370239,
	"learning_rate": 4.111421805907759e-05,
	"loss": 0.8648,
	"mean_token_accuracy": 0.7086653360724449,
	"num_tokens": 8781788.0,
	"step": 7100
	},
	{
	"epoch": 1.3298854820834873,
	"grad_norm": 0.4124562442302704,
	"learning_rate": 4.082766439931165e-05,
	"loss": 0.872,
	"mean_token_accuracy": 0.7063954091072082,
	"num_tokens": 8905822.0,
	"step": 7200
	},
	{
	"epoch": 1.3483561137790914,
	"grad_norm": 0.4572960138320923,
	"learning_rate": 4.054701999223518e-05,
	"loss": 0.8684,
	"mean_token_accuracy": 0.7076165169477463,
	"num_tokens": 9030043.0,
	"step": 7300
	},
	{
	"epoch": 1.3668267454746952,
	"grad_norm": 0.4722088873386383,
	"learning_rate": 4.0272084491566247e-05,
	"loss": 0.8637,
	"mean_token_accuracy": 0.7081982636451721,
	"num_tokens": 9152573.0,
	"step": 7400
	},
	{
	"epoch": 1.3852973771702992,
	"grad_norm": 0.42168575525283813,
	"learning_rate": 4.000266693336297e-05,
	"loss": 0.8709,
	"mean_token_accuracy": 0.706563394665718,
	"num_tokens": 9277125.0,
	"step": 7500
	},
	{
	"epoch": 1.4037680088659032,
	"grad_norm": 0.4825509488582611,
	"learning_rate": 3.973858517856019e-05,
	"loss": 0.8759,
	"mean_token_accuracy": 0.7081832242012024,
	"num_tokens": 9400961.0,
	"step": 7600
	},
	{
	"epoch": 1.4222386405615073,
	"grad_norm": 0.525234043598175,
	"learning_rate": 3.947966539546186e-05,
	"loss": 0.8712,
	"mean_token_accuracy": 0.7071002054214478,
	"num_tokens": 9524702.0,
	"step": 7700
	},
	{
	"epoch": 1.440709272257111,
	"grad_norm": 0.4405602514743805,
	"learning_rate": 3.922574157884801e-05,
	"loss": 0.8605,
	"mean_token_accuracy": 0.7087134742736816,
	"num_tokens": 9646681.0,
	"step": 7800
	},
	{
	"epoch": 1.4591799039527151,
	"grad_norm": 0.4512486457824707,
	"learning_rate": 3.8976655102673755e-05,
	"loss": 0.8775,
	"mean_token_accuracy": 0.7052119243144989,
	"num_tokens": 9768962.0,
	"step": 7900
	},
	{
	"epoch": 1.4776505356483192,
	"grad_norm": 0.5277122855186462,
	"learning_rate": 3.873225430362181e-05,
	"loss": 0.8564,
	"step": 8000
	},
	{
	"epoch": 1.4776505356483192,
	"eval_loss": 0.9360803961753845,
	"eval_mean_token_accuracy": 0.6951758770942688,
	"eval_num_tokens": 9892735.0,
	"eval_runtime": 19.0757,
	"eval_samples_per_second": 52.423,
	"eval_steps_per_second": 6.553,
	"step": 8000
	},
	{
	"epoch": 1.4961211673439232,
	"grad_norm": 0.4877372682094574,
	"learning_rate": 3.8492394093024636e-05,
	"loss": 0.8595,
	"mean_token_accuracy": 0.7094873589277267,
	"num_tokens": 10015371.0,
	"step": 8100
	},
	{
	"epoch": 1.5145917990395272,
	"grad_norm": 0.4754094183444977,
	"learning_rate": 3.825693559490006e-05,
	"loss": 0.8574,
	"mean_token_accuracy": 0.710657302737236,
	"num_tokens": 10137597.0,
	"step": 8200
	},
	{
	"epoch": 1.5330624307351313,
	"grad_norm": 0.5434764623641968,
	"learning_rate": 3.8025745808048846e-05,
	"loss": 0.8553,
	"mean_token_accuracy": 0.7120581448078156,
	"num_tokens": 10260281.0,
	"step": 8300
	},
	{
	"epoch": 1.551533062430735,
	"grad_norm": 0.44720467925071716,
	"learning_rate": 3.779869729034645e-05,
	"loss": 0.863,
	"mean_token_accuracy": 0.7101831078529358,
	"num_tokens": 10383827.0,
	"step": 8400
	},
	{
	"epoch": 1.5700036941263391,
	"grad_norm": 0.4419324994087219,
	"learning_rate": 3.7575667863526335e-05,
	"loss": 0.8643,
	"mean_token_accuracy": 0.7083204621076584,
	"num_tokens": 10507419.0,
	"step": 8500
	},
	{
	"epoch": 1.5884743258219431,
	"grad_norm": 0.46732428669929504,
	"learning_rate": 3.735654033690154e-05,
	"loss": 0.8626,
	"mean_token_accuracy": 0.7100337427854538,
	"num_tokens": 10631205.0,
	"step": 8600
	},
	{
	"epoch": 1.606944957517547,
	"grad_norm": 0.5493962168693542,
	"learning_rate": 3.7141202248604964e-05,
	"loss": 0.878,
	"mean_token_accuracy": 0.7033761155605316,
	"num_tokens": 10756036.0,
	"step": 8700
	},
	{
	"epoch": 1.625415589213151,
	"grad_norm": 0.48263365030288696,
	"learning_rate": 3.6929545623050815e-05,
	"loss": 0.8598,
	"mean_token_accuracy": 0.7087458032369613,
	"num_tokens": 10880395.0,
	"step": 8800
	},
	{
	"epoch": 1.643886220908755,
	"grad_norm": 0.4675855338573456,
	"learning_rate": 3.6721466743428706e-05,
	"loss": 0.8629,
	"mean_token_accuracy": 0.7102112692594528,
	"num_tokens": 11004754.0,
	"step": 8900
	},
	{
	"epoch": 1.662356852604359,
	"grad_norm": 0.4457898736000061,
	"learning_rate": 3.6516865938141736e-05,
	"loss": 0.8583,
	"step": 9000
	},
	{
	"epoch": 1.662356852604359,
	"eval_loss": 0.9331590533256531,
	"eval_mean_token_accuracy": 0.6950131769180298,
	"eval_num_tokens": 11128075.0,
	"eval_runtime": 19.0567,
	"eval_samples_per_second": 52.475,
	"eval_steps_per_second": 6.559,
	"step": 9000
	},
	{
	"epoch": 1.680827484299963,
	"grad_norm": 0.5188403725624084,
	"learning_rate": 3.6315647380189556e-05,
	"loss": 0.8593,
	"mean_token_accuracy": 0.7113982263207436,
	"num_tokens": 11250290.0,
	"step": 9100
	},
	{
	"epoch": 1.6992981159955671,
	"grad_norm": 0.46835747361183167,
	"learning_rate": 3.611771889857922e-05,
	"loss": 0.8585,
	"mean_token_accuracy": 0.7080501514673233,
	"num_tokens": 11372150.0,
	"step": 9200
	},
	{
	"epoch": 1.7177687476911712,
	"grad_norm": 0.5107430815696716,
	"learning_rate": 3.592299180092082e-05,
	"loss": 0.8742,
	"mean_token_accuracy": 0.7073276859521865,
	"num_tokens": 11495701.0,
	"step": 9300
	},
	{
	"epoch": 1.736239379386775,
	"grad_norm": 0.44301339983940125,
	"learning_rate": 3.573138070643225e-05,
	"loss": 0.867,
	"mean_token_accuracy": 0.7066339915990829,
	"num_tokens": 11618337.0,
	"step": 9400
	},
	{
	"epoch": 1.754710011082379,
	"grad_norm": 0.5350750684738159,
	"learning_rate": 3.554280338863896e-05,
	"loss": 0.8759,
	"mean_token_accuracy": 0.7075987154245377,
	"num_tokens": 11740955.0,
	"step": 9500
	},
	{
	"epoch": 1.773180642777983,
	"grad_norm": 0.48507505655288696,
	"learning_rate": 3.535718062711045e-05,
	"loss": 0.8691,
	"mean_token_accuracy": 0.708899194598198,
	"num_tokens": 11864251.0,
	"step": 9600
	},
	{
	"epoch": 1.7916512744735869,
	"grad_norm": 0.5979758501052856,
	"learning_rate": 3.517443606762636e-05,
	"loss": 0.8714,
	"mean_token_accuracy": 0.7103540396690369,
	"num_tokens": 11987337.0,
	"step": 9700
	},
	{
	"epoch": 1.8101219061691909,
	"grad_norm": 0.4601200222969055,
	"learning_rate": 3.499449609021135e-05,
	"loss": 0.862,
	"mean_token_accuracy": 0.7084872847795487,
	"num_tokens": 12110351.0,
	"step": 9800
	},
	{
	"epoch": 1.828592537864795,
	"grad_norm": 0.4829343557357788,
	"learning_rate": 3.4817289684521056e-05,
	"loss": 0.8586,
	"mean_token_accuracy": 0.7082627350091935,
	"num_tokens": 12233622.0,
	"step": 9900
	},
	{
	"epoch": 1.847063169560399,
	"grad_norm": 0.6211116313934326,
	"learning_rate": 3.4642748332099756e-05,
	"loss": 0.8562,
	"step": 10000
	},
	{
	"epoch": 1.847063169560399,
	"eval_loss": 0.9294362664222717,
	"eval_mean_token_accuracy": 0.6975332975387574,
	"eval_num_tokens": 12355693.0,
	"eval_runtime": 19.0345,
	"eval_samples_per_second": 52.536,
	"eval_steps_per_second": 6.567,
	"step": 10000
	}
	],
	"logging_steps": 100,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.133230870488023e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}