Add all files

077d109 12 months ago

23.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9983431239644522,
	"eval_steps": 500,
	"global_step": 4977,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.030125018828136767,
	"grad_norm": 0.30684176087379456,
	"learning_rate": 4.94976893711071e-05,
	"loss": 1.2767,
	"mean_token_accuracy": 0.7496056535840034,
	"step": 50
	},
	{
	"epoch": 0.060250037656273535,
	"grad_norm": 0.25573843717575073,
	"learning_rate": 4.899537874221419e-05,
	"loss": 0.7198,
	"mean_token_accuracy": 0.8821907821297645,
	"step": 100
	},
	{
	"epoch": 0.0903750564844103,
	"grad_norm": 0.30719634890556335,
	"learning_rate": 4.849306811332128e-05,
	"loss": 0.7046,
	"mean_token_accuracy": 0.886384769231081,
	"step": 150
	},
	{
	"epoch": 0.12050007531254707,
	"grad_norm": 0.28959545493125916,
	"learning_rate": 4.799075748442837e-05,
	"loss": 0.7079,
	"mean_token_accuracy": 0.885994749814272,
	"step": 200
	},
	{
	"epoch": 0.15062509414068384,
	"grad_norm": 0.23001542687416077,
	"learning_rate": 4.748844685553547e-05,
	"loss": 0.6882,
	"mean_token_accuracy": 0.8865358050167561,
	"step": 250
	},
	{
	"epoch": 0.1807501129688206,
	"grad_norm": 0.28763362765312195,
	"learning_rate": 4.6986136226642556e-05,
	"loss": 0.6663,
	"mean_token_accuracy": 0.8903915384411811,
	"step": 300
	},
	{
	"epoch": 0.21087513179695738,
	"grad_norm": 0.2092406004667282,
	"learning_rate": 4.648382559774965e-05,
	"loss": 0.6441,
	"mean_token_accuracy": 0.8928172151744366,
	"step": 350
	},
	{
	"epoch": 0.24100015062509414,
	"grad_norm": 0.2575877606868744,
	"learning_rate": 4.598151496885674e-05,
	"loss": 0.6986,
	"mean_token_accuracy": 0.8838813950121402,
	"step": 400
	},
	{
	"epoch": 0.2711251694532309,
	"grad_norm": 0.25107163190841675,
	"learning_rate": 4.547920433996384e-05,
	"loss": 0.6658,
	"mean_token_accuracy": 0.8893497291207314,
	"step": 450
	},
	{
	"epoch": 0.3012501882813677,
	"grad_norm": 0.2437737137079239,
	"learning_rate": 4.4976893711070926e-05,
	"loss": 0.6684,
	"mean_token_accuracy": 0.8893143194913864,
	"step": 500
	},
	{
	"epoch": 0.33137520710950447,
	"grad_norm": 0.2163419872522354,
	"learning_rate": 4.447458308217802e-05,
	"loss": 0.7015,
	"mean_token_accuracy": 0.8857556004822255,
	"step": 550
	},
	{
	"epoch": 0.3615002259376412,
	"grad_norm": 0.39833882451057434,
	"learning_rate": 4.397227245328511e-05,
	"loss": 0.6729,
	"mean_token_accuracy": 0.8865716621279717,
	"step": 600
	},
	{
	"epoch": 0.391625244765778,
	"grad_norm": 0.3186735212802887,
	"learning_rate": 4.3469961824392206e-05,
	"loss": 0.6451,
	"mean_token_accuracy": 0.892935143262148,
	"step": 650
	},
	{
	"epoch": 0.42175026359391476,
	"grad_norm": 0.2682092487812042,
	"learning_rate": 4.2967651195499295e-05,
	"loss": 0.704,
	"mean_token_accuracy": 0.8814965118467808,
	"step": 700
	},
	{
	"epoch": 0.4518752824220515,
	"grad_norm": 0.32946068048477173,
	"learning_rate": 4.246534056660639e-05,
	"loss": 0.6565,
	"mean_token_accuracy": 0.8922205206751823,
	"step": 750
	},
	{
	"epoch": 0.4820003012501883,
	"grad_norm": 0.28554585576057434,
	"learning_rate": 4.196302993771348e-05,
	"loss": 0.6471,
	"mean_token_accuracy": 0.8931228183209896,
	"step": 800
	},
	{
	"epoch": 0.512125320078325,
	"grad_norm": 0.19599439203739166,
	"learning_rate": 4.1460719308820575e-05,
	"loss": 0.6864,
	"mean_token_accuracy": 0.8856179165840149,
	"step": 850
	},
	{
	"epoch": 0.5422503389064618,
	"grad_norm": 0.30608075857162476,
	"learning_rate": 4.095840867992767e-05,
	"loss": 0.6508,
	"mean_token_accuracy": 0.8878815796971321,
	"step": 900
	},
	{
	"epoch": 0.5723753577345986,
	"grad_norm": 0.254626989364624,
	"learning_rate": 4.045609805103476e-05,
	"loss": 0.6196,
	"mean_token_accuracy": 0.8950139920413495,
	"step": 950
	},
	{
	"epoch": 0.6025003765627354,
	"grad_norm": 0.42999160289764404,
	"learning_rate": 3.9953787422141856e-05,
	"loss": 0.6342,
	"mean_token_accuracy": 0.8938413085043431,
	"step": 1000
	},
	{
	"epoch": 0.6326253953908721,
	"grad_norm": 0.23657967150211334,
	"learning_rate": 3.945147679324895e-05,
	"loss": 0.6389,
	"mean_token_accuracy": 0.894249224960804,
	"step": 1050
	},
	{
	"epoch": 0.6627504142190089,
	"grad_norm": 0.3286744952201843,
	"learning_rate": 3.894916616435604e-05,
	"loss": 0.6349,
	"mean_token_accuracy": 0.8949852520227433,
	"step": 1100
	},
	{
	"epoch": 0.6928754330471456,
	"grad_norm": 0.3509972393512726,
	"learning_rate": 3.8446855535463136e-05,
	"loss": 0.6118,
	"mean_token_accuracy": 0.8998459935188293,
	"step": 1150
	},
	{
	"epoch": 0.7230004518752824,
	"grad_norm": 0.3571523129940033,
	"learning_rate": 3.7944544906570225e-05,
	"loss": 0.6381,
	"mean_token_accuracy": 0.8936076226830483,
	"step": 1200
	},
	{
	"epoch": 0.7531254707034192,
	"grad_norm": 0.3348468244075775,
	"learning_rate": 3.744223427767732e-05,
	"loss": 0.6522,
	"mean_token_accuracy": 0.8882578992843628,
	"step": 1250
	},
	{
	"epoch": 0.783250489531556,
	"grad_norm": 0.28266018629074097,
	"learning_rate": 3.693992364878441e-05,
	"loss": 0.6246,
	"mean_token_accuracy": 0.8964510107040405,
	"step": 1300
	},
	{
	"epoch": 0.8133755083596927,
	"grad_norm": 0.4280668795108795,
	"learning_rate": 3.6437613019891505e-05,
	"loss": 0.648,
	"mean_token_accuracy": 0.8886529618501663,
	"step": 1350
	},
	{
	"epoch": 0.8435005271878295,
	"grad_norm": 0.3760441839694977,
	"learning_rate": 3.5935302390998594e-05,
	"loss": 0.6051,
	"mean_token_accuracy": 0.897853167951107,
	"step": 1400
	},
	{
	"epoch": 0.8736255460159663,
	"grad_norm": 0.4479055106639862,
	"learning_rate": 3.543299176210569e-05,
	"loss": 0.5927,
	"mean_token_accuracy": 0.9007090017199516,
	"step": 1450
	},
	{
	"epoch": 0.903750564844103,
	"grad_norm": 0.28697535395622253,
	"learning_rate": 3.493068113321278e-05,
	"loss": 0.7065,
	"mean_token_accuracy": 0.8828328484296799,
	"step": 1500
	},
	{
	"epoch": 0.9338755836722398,
	"grad_norm": 0.2910836338996887,
	"learning_rate": 3.4428370504319875e-05,
	"loss": 0.672,
	"mean_token_accuracy": 0.8896669654548168,
	"step": 1550
	},
	{
	"epoch": 0.9640006025003766,
	"grad_norm": 0.39928898215293884,
	"learning_rate": 3.3926059875426964e-05,
	"loss": 0.6337,
	"mean_token_accuracy": 0.89401711165905,
	"step": 1600
	},
	{
	"epoch": 0.9941256213285133,
	"grad_norm": 0.23171083629131317,
	"learning_rate": 3.342374924653406e-05,
	"loss": 0.6376,
	"mean_token_accuracy": 0.8934089505672455,
	"step": 1650
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.632087230682373,
	"eval_mean_token_accuracy": 0.8758415237579056,
	"eval_runtime": 77.2141,
	"eval_samples_per_second": 19.116,
	"eval_steps_per_second": 2.396,
	"step": 1660
	},
	{
	"epoch": 1.0241000150625095,
	"grad_norm": 0.2895660102367401,
	"learning_rate": 3.293148483021901e-05,
	"loss": 0.6191,
	"mean_token_accuracy": 0.8999803757295013,
	"step": 1700
	},
	{
	"epoch": 1.0542250338906463,
	"grad_norm": 0.3923441171646118,
	"learning_rate": 3.2429174201326105e-05,
	"loss": 0.6278,
	"mean_token_accuracy": 0.8943565684556961,
	"step": 1750
	},
	{
	"epoch": 1.084350052718783,
	"grad_norm": 0.3033309876918793,
	"learning_rate": 3.1926863572433193e-05,
	"loss": 0.6631,
	"mean_token_accuracy": 0.892311205714941,
	"step": 1800
	},
	{
	"epoch": 1.1144750715469196,
	"grad_norm": 0.26226454973220825,
	"learning_rate": 3.142455294354029e-05,
	"loss": 0.6549,
	"mean_token_accuracy": 0.8898773008584976,
	"step": 1850
	},
	{
	"epoch": 1.1446000903750564,
	"grad_norm": 0.36343246698379517,
	"learning_rate": 3.0922242314647385e-05,
	"loss": 0.6303,
	"mean_token_accuracy": 0.893774523884058,
	"step": 1900
	},
	{
	"epoch": 1.1747251092031932,
	"grad_norm": 0.3890613615512848,
	"learning_rate": 3.041993168575447e-05,
	"loss": 0.609,
	"mean_token_accuracy": 0.8982135467231274,
	"step": 1950
	},
	{
	"epoch": 1.20485012803133,
	"grad_norm": 0.3525061011314392,
	"learning_rate": 2.9917621056861566e-05,
	"loss": 0.5923,
	"mean_token_accuracy": 0.9009903834760189,
	"step": 2000
	},
	{
	"epoch": 1.2349751468594667,
	"grad_norm": 0.45349597930908203,
	"learning_rate": 2.9415310427968655e-05,
	"loss": 0.6066,
	"mean_token_accuracy": 0.9004408088326454,
	"step": 2050
	},
	{
	"epoch": 1.2651001656876035,
	"grad_norm": 0.32030248641967773,
	"learning_rate": 2.891299979907575e-05,
	"loss": 0.6295,
	"mean_token_accuracy": 0.8940686418116093,
	"step": 2100
	},
	{
	"epoch": 1.2952251845157403,
	"grad_norm": 0.3644977807998657,
	"learning_rate": 2.8410689170182843e-05,
	"loss": 0.6594,
	"mean_token_accuracy": 0.8896569818258285,
	"step": 2150
	},
	{
	"epoch": 1.325350203343877,
	"grad_norm": 0.3809216022491455,
	"learning_rate": 2.7908378541289935e-05,
	"loss": 0.5941,
	"mean_token_accuracy": 0.898374630510807,
	"step": 2200
	},
	{
	"epoch": 1.3554752221720139,
	"grad_norm": 0.42949002981185913,
	"learning_rate": 2.7406067912397028e-05,
	"loss": 0.6087,
	"mean_token_accuracy": 0.8992364549636841,
	"step": 2250
	},
	{
	"epoch": 1.3856002410001507,
	"grad_norm": 0.47053080797195435,
	"learning_rate": 2.6903757283504123e-05,
	"loss": 0.5955,
	"mean_token_accuracy": 0.8992098160088062,
	"step": 2300
	},
	{
	"epoch": 1.4157252598282875,
	"grad_norm": 0.21600554883480072,
	"learning_rate": 2.6401446654611212e-05,
	"loss": 0.5848,
	"mean_token_accuracy": 0.8993302121758461,
	"step": 2350
	},
	{
	"epoch": 1.4458502786564242,
	"grad_norm": 0.3977588713169098,
	"learning_rate": 2.5899136025718308e-05,
	"loss": 0.5728,
	"mean_token_accuracy": 0.9013423874974251,
	"step": 2400
	},
	{
	"epoch": 1.475975297484561,
	"grad_norm": 0.3258291184902191,
	"learning_rate": 2.5396825396825397e-05,
	"loss": 0.5936,
	"mean_token_accuracy": 0.9022154864668847,
	"step": 2450
	},
	{
	"epoch": 1.5061003163126978,
	"grad_norm": 0.5135733485221863,
	"learning_rate": 2.4894514767932493e-05,
	"loss": 0.5831,
	"mean_token_accuracy": 0.8982969619333744,
	"step": 2500
	},
	{
	"epoch": 1.5362253351408346,
	"grad_norm": 0.4302254915237427,
	"learning_rate": 2.4392204139039585e-05,
	"loss": 0.5975,
	"mean_token_accuracy": 0.8992070508003235,
	"step": 2550
	},
	{
	"epoch": 1.5663503539689714,
	"grad_norm": 0.8697525858879089,
	"learning_rate": 2.3889893510146677e-05,
	"loss": 0.629,
	"mean_token_accuracy": 0.8953581416606903,
	"step": 2600
	},
	{
	"epoch": 1.5964753727971082,
	"grad_norm": 0.37328246235847473,
	"learning_rate": 2.338758288125377e-05,
	"loss": 0.5771,
	"mean_token_accuracy": 0.9028278756141662,
	"step": 2650
	},
	{
	"epoch": 1.6266003916252447,
	"grad_norm": 0.42918869853019714,
	"learning_rate": 2.2885272252360862e-05,
	"loss": 0.6585,
	"mean_token_accuracy": 0.8911288838088512,
	"step": 2700
	},
	{
	"epoch": 1.6567254104533815,
	"grad_norm": 0.39805442094802856,
	"learning_rate": 2.2382961623467954e-05,
	"loss": 0.5669,
	"mean_token_accuracy": 0.9028179155290127,
	"step": 2750
	},
	{
	"epoch": 1.6868504292815183,
	"grad_norm": 0.2861442565917969,
	"learning_rate": 2.1880650994575047e-05,
	"loss": 0.6342,
	"mean_token_accuracy": 0.897926286906004,
	"step": 2800
	},
	{
	"epoch": 1.716975448109655,
	"grad_norm": 0.36629295349121094,
	"learning_rate": 2.137834036568214e-05,
	"loss": 0.615,
	"mean_token_accuracy": 0.8986844432353973,
	"step": 2850
	},
	{
	"epoch": 1.7471004669377919,
	"grad_norm": 0.22408436238765717,
	"learning_rate": 2.087602973678923e-05,
	"loss": 0.6102,
	"mean_token_accuracy": 0.8989599145203829,
	"step": 2900
	},
	{
	"epoch": 1.7772254857659286,
	"grad_norm": 0.533674955368042,
	"learning_rate": 2.0373719107896324e-05,
	"loss": 0.6184,
	"mean_token_accuracy": 0.8953662586212158,
	"step": 2950
	},
	{
	"epoch": 1.8073505045940652,
	"grad_norm": 0.49870041012763977,
	"learning_rate": 1.9871408479003416e-05,
	"loss": 0.58,
	"mean_token_accuracy": 0.8989548328518867,
	"step": 3000
	},
	{
	"epoch": 1.837475523422202,
	"grad_norm": 0.5503713488578796,
	"learning_rate": 1.936909785011051e-05,
	"loss": 0.5872,
	"mean_token_accuracy": 0.9030785009264946,
	"step": 3050
	},
	{
	"epoch": 1.8676005422503388,
	"grad_norm": 0.2998668849468231,
	"learning_rate": 1.88667872212176e-05,
	"loss": 0.6009,
	"mean_token_accuracy": 0.8998409834504127,
	"step": 3100
	},
	{
	"epoch": 1.8977255610784756,
	"grad_norm": 0.43862882256507874,
	"learning_rate": 1.8364476592324696e-05,
	"loss": 0.5873,
	"mean_token_accuracy": 0.9020068399608135,
	"step": 3150
	},
	{
	"epoch": 1.9278505799066123,
	"grad_norm": 0.34258952736854553,
	"learning_rate": 1.786216596343179e-05,
	"loss": 0.6118,
	"mean_token_accuracy": 0.8974671520292758,
	"step": 3200
	},
	{
	"epoch": 1.9579755987347491,
	"grad_norm": 0.42319709062576294,
	"learning_rate": 1.735985533453888e-05,
	"loss": 0.6068,
	"mean_token_accuracy": 0.8985735175013542,
	"step": 3250
	},
	{
	"epoch": 1.988100617562886,
	"grad_norm": 0.4495251774787903,
	"learning_rate": 1.6857544705645973e-05,
	"loss": 0.5651,
	"mean_token_accuracy": 0.9044052864611148,
	"step": 3300
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.6136223077774048,
	"eval_mean_token_accuracy": 0.8889741445769374,
	"eval_runtime": 77.9377,
	"eval_samples_per_second": 18.938,
	"eval_steps_per_second": 2.374,
	"step": 3320
	},
	{
	"epoch": 2.018075011296882,
	"grad_norm": 0.4041847288608551,
	"learning_rate": 1.6355234076753066e-05,
	"loss": 0.6079,
	"mean_token_accuracy": 0.8902337176104387,
	"step": 3350
	},
	{
	"epoch": 2.048200030125019,
	"grad_norm": 0.34565427899360657,
	"learning_rate": 1.5852923447860158e-05,
	"loss": 0.552,
	"mean_token_accuracy": 0.907501307874918,
	"step": 3400
	},
	{
	"epoch": 2.0783250489531557,
	"grad_norm": 0.39507198333740234,
	"learning_rate": 1.535061281896725e-05,
	"loss": 0.5902,
	"mean_token_accuracy": 0.8986614851653576,
	"step": 3450
	},
	{
	"epoch": 2.1084500677812925,
	"grad_norm": 0.35742080211639404,
	"learning_rate": 1.4848302190074343e-05,
	"loss": 0.5765,
	"mean_token_accuracy": 0.9004091265797615,
	"step": 3500
	},
	{
	"epoch": 2.1385750866094293,
	"grad_norm": 0.4014514684677124,
	"learning_rate": 1.4345991561181435e-05,
	"loss": 0.6075,
	"mean_token_accuracy": 0.8991987191140651,
	"step": 3550
	},
	{
	"epoch": 2.168700105437566,
	"grad_norm": 0.2786984443664551,
	"learning_rate": 1.3843680932288527e-05,
	"loss": 0.5772,
	"mean_token_accuracy": 0.9038310977816582,
	"step": 3600
	},
	{
	"epoch": 2.198825124265703,
	"grad_norm": 0.4025174081325531,
	"learning_rate": 1.334137030339562e-05,
	"loss": 0.5891,
	"mean_token_accuracy": 0.8991677206754685,
	"step": 3650
	},
	{
	"epoch": 2.228950143093839,
	"grad_norm": 0.4690361022949219,
	"learning_rate": 1.2839059674502712e-05,
	"loss": 0.5261,
	"mean_token_accuracy": 0.9109566512703896,
	"step": 3700
	},
	{
	"epoch": 2.2590751619219764,
	"grad_norm": 0.3918741047382355,
	"learning_rate": 1.2336749045609804e-05,
	"loss": 0.5686,
	"mean_token_accuracy": 0.9028687690198421,
	"step": 3750
	},
	{
	"epoch": 2.289200180750113,
	"grad_norm": 0.4912905991077423,
	"learning_rate": 1.1834438416716898e-05,
	"loss": 0.5102,
	"mean_token_accuracy": 0.9118883027136326,
	"step": 3800
	},
	{
	"epoch": 2.3193251995782496,
	"grad_norm": 0.7354199886322021,
	"learning_rate": 1.133212778782399e-05,
	"loss": 0.5748,
	"mean_token_accuracy": 0.90053293466568,
	"step": 3850
	},
	{
	"epoch": 2.3494502184063863,
	"grad_norm": 0.49514544010162354,
	"learning_rate": 1.0829817158931085e-05,
	"loss": 0.5867,
	"mean_token_accuracy": 0.9003237128257752,
	"step": 3900
	},
	{
	"epoch": 2.379575237234523,
	"grad_norm": 0.5507615804672241,
	"learning_rate": 1.0327506530038177e-05,
	"loss": 0.5952,
	"mean_token_accuracy": 0.9011906269192695,
	"step": 3950
	},
	{
	"epoch": 2.40970025606266,
	"grad_norm": 0.9635323286056519,
	"learning_rate": 9.82519590114527e-06,
	"loss": 0.5871,
	"mean_token_accuracy": 0.9019941617548466,
	"step": 4000
	},
	{
	"epoch": 2.4398252748907967,
	"grad_norm": 0.306292325258255,
	"learning_rate": 9.322885272252362e-06,
	"loss": 0.5418,
	"mean_token_accuracy": 0.907406060397625,
	"step": 4050
	},
	{
	"epoch": 2.4699502937189335,
	"grad_norm": 0.36833733320236206,
	"learning_rate": 8.820574643359454e-06,
	"loss": 0.5374,
	"mean_token_accuracy": 0.9102728597819805,
	"step": 4100
	},
	{
	"epoch": 2.5000753125470703,
	"grad_norm": 0.4845290780067444,
	"learning_rate": 8.318264014466546e-06,
	"loss": 0.6115,
	"mean_token_accuracy": 0.9012929057329893,
	"step": 4150
	},
	{
	"epoch": 2.530200331375207,
	"grad_norm": 0.4215283691883087,
	"learning_rate": 7.815953385573639e-06,
	"loss": 0.5214,
	"mean_token_accuracy": 0.909003015756607,
	"step": 4200
	},
	{
	"epoch": 2.560325350203344,
	"grad_norm": 0.4454072415828705,
	"learning_rate": 7.313642756680732e-06,
	"loss": 0.6277,
	"mean_token_accuracy": 0.8945660217106343,
	"step": 4250
	},
	{
	"epoch": 2.5904503690314806,
	"grad_norm": 0.7070040106773376,
	"learning_rate": 6.811332127787824e-06,
	"loss": 0.5678,
	"mean_token_accuracy": 0.9047226509451867,
	"step": 4300
	},
	{
	"epoch": 2.6205753878596174,
	"grad_norm": 0.545863687992096,
	"learning_rate": 6.3090214988949165e-06,
	"loss": 0.5955,
	"mean_token_accuracy": 0.901444385945797,
	"step": 4350
	},
	{
	"epoch": 2.650700406687754,
	"grad_norm": 0.4422617554664612,
	"learning_rate": 5.80671087000201e-06,
	"loss": 0.5588,
	"mean_token_accuracy": 0.9066709437966347,
	"step": 4400
	},
	{
	"epoch": 2.680825425515891,
	"grad_norm": 0.7092880010604858,
	"learning_rate": 5.304400241109103e-06,
	"loss": 0.602,
	"mean_token_accuracy": 0.900201300829649,
	"step": 4450
	},
	{
	"epoch": 2.7109504443440278,
	"grad_norm": 0.33753281831741333,
	"learning_rate": 4.802089612216195e-06,
	"loss": 0.5353,
	"mean_token_accuracy": 0.9101526521146297,
	"step": 4500
	},
	{
	"epoch": 2.7410754631721646,
	"grad_norm": 0.49151691794395447,
	"learning_rate": 4.2997789833232875e-06,
	"loss": 0.6013,
	"mean_token_accuracy": 0.8975072601437568,
	"step": 4550
	},
	{
	"epoch": 2.7712004820003013,
	"grad_norm": 0.5509622693061829,
	"learning_rate": 3.7974683544303802e-06,
	"loss": 0.5806,
	"mean_token_accuracy": 0.9017076626420021,
	"step": 4600
	},
	{
	"epoch": 2.801325500828438,
	"grad_norm": 0.46273571252822876,
	"learning_rate": 3.2951577255374726e-06,
	"loss": 0.6097,
	"mean_token_accuracy": 0.8960529206693173,
	"step": 4650
	},
	{
	"epoch": 2.831450519656575,
	"grad_norm": 0.4964665174484253,
	"learning_rate": 2.792847096644565e-06,
	"loss": 0.546,
	"mean_token_accuracy": 0.9039208325743675,
	"step": 4700
	},
	{
	"epoch": 2.8615755384847117,
	"grad_norm": 0.5726104378700256,
	"learning_rate": 2.2905364677516576e-06,
	"loss": 0.5698,
	"mean_token_accuracy": 0.9045622007548809,
	"step": 4750
	},
	{
	"epoch": 2.8917005573128485,
	"grad_norm": 0.47625041007995605,
	"learning_rate": 1.7882258388587504e-06,
	"loss": 0.6098,
	"mean_token_accuracy": 0.8977401655912399,
	"step": 4800
	},
	{
	"epoch": 2.921825576140985,
	"grad_norm": 0.8348466157913208,
	"learning_rate": 1.285915209965843e-06,
	"loss": 0.5718,
	"mean_token_accuracy": 0.9037941220402718,
	"step": 4850
	},
	{
	"epoch": 2.951950594969122,
	"grad_norm": 0.6317358016967773,
	"learning_rate": 7.836045810729356e-07,
	"loss": 0.5573,
	"mean_token_accuracy": 0.9056886151432991,
	"step": 4900
	},
	{
	"epoch": 2.9820756137972584,
	"grad_norm": 0.5102740526199341,
	"learning_rate": 2.8129395218002816e-07,
	"loss": 0.5308,
	"mean_token_accuracy": 0.9070908261835575,
	"step": 4950
	},
	{
	"epoch": 2.9983431239644522,
	"eval_loss": 0.6088222861289978,
	"eval_mean_token_accuracy": 0.8896377841730665,
	"eval_runtime": 76.8211,
	"eval_samples_per_second": 19.213,
	"eval_steps_per_second": 2.408,
	"step": 4977
	},
	{
	"epoch": 2.9983431239644522,
	"step": 4977,
	"total_flos": 1017098040639488.0,
	"train_loss": 0.6195706200211647,
	"train_runtime": 35359.1981,
	"train_samples_per_second": 1.127,
	"train_steps_per_second": 0.141
	}
	],
	"logging_steps": 50,
	"max_steps": 4977,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1017098040639488.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}