Upload 7 files

72639a7 verified about 1 year ago

122 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.816798539257456,
	"eval_steps": 500,
	"global_step": 56000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.012172854534388313,
	"grad_norm": 21.32210922241211,
	"learning_rate": 4.85e-06,
	"loss": 3.6457,
	"step": 100
	},
	{
	"epoch": 0.024345709068776627,
	"grad_norm": 17.6686954498291,
	"learning_rate": 9.85e-06,
	"loss": 3.3243,
	"step": 200
	},
	{
	"epoch": 0.036518563603164945,
	"grad_norm": 17.45920181274414,
	"learning_rate": 1.4850000000000002e-05,
	"loss": 3.2128,
	"step": 300
	},
	{
	"epoch": 0.048691418137553254,
	"grad_norm": 18.293773651123047,
	"learning_rate": 1.985e-05,
	"loss": 3.124,
	"step": 400
	},
	{
	"epoch": 0.06086427267194157,
	"grad_norm": 15.793401718139648,
	"learning_rate": 1.995650224215247e-05,
	"loss": 3.1209,
	"step": 500
	},
	{
	"epoch": 0.06086427267194157,
	"eval_loss": 3.249819278717041,
	"eval_runtime": 6.941,
	"eval_samples_per_second": 144.072,
	"eval_steps_per_second": 36.018,
	"step": 500
	},
	{
	"epoch": 0.07303712720632989,
	"grad_norm": 13.932258605957031,
	"learning_rate": 1.9911659192825115e-05,
	"loss": 3.094,
	"step": 600
	},
	{
	"epoch": 0.0852099817407182,
	"grad_norm": 11.793479919433594,
	"learning_rate": 1.986681614349776e-05,
	"loss": 3.0426,
	"step": 700
	},
	{
	"epoch": 0.09738283627510651,
	"grad_norm": 11.373984336853027,
	"learning_rate": 1.9821973094170406e-05,
	"loss": 3.0645,
	"step": 800
	},
	{
	"epoch": 0.10955569080949483,
	"grad_norm": 10.407483100891113,
	"learning_rate": 1.9777130044843052e-05,
	"loss": 3.0681,
	"step": 900
	},
	{
	"epoch": 0.12172854534388314,
	"grad_norm": 9.600470542907715,
	"learning_rate": 1.9732286995515698e-05,
	"loss": 3.0599,
	"step": 1000
	},
	{
	"epoch": 0.12172854534388314,
	"eval_loss": 3.157822847366333,
	"eval_runtime": 6.8366,
	"eval_samples_per_second": 146.272,
	"eval_steps_per_second": 36.568,
	"step": 1000
	},
	{
	"epoch": 0.13390139987827146,
	"grad_norm": 10.010004043579102,
	"learning_rate": 1.9687443946188343e-05,
	"loss": 3.0379,
	"step": 1100
	},
	{
	"epoch": 0.14607425441265978,
	"grad_norm": 9.130040168762207,
	"learning_rate": 1.964260089686099e-05,
	"loss": 2.9859,
	"step": 1200
	},
	{
	"epoch": 0.15824710894704808,
	"grad_norm": 8.330909729003906,
	"learning_rate": 1.9597757847533635e-05,
	"loss": 3.0213,
	"step": 1300
	},
	{
	"epoch": 0.1704199634814364,
	"grad_norm": 7.502275466918945,
	"learning_rate": 1.955291479820628e-05,
	"loss": 3.0415,
	"step": 1400
	},
	{
	"epoch": 0.18259281801582472,
	"grad_norm": 7.305887222290039,
	"learning_rate": 1.9508071748878926e-05,
	"loss": 2.966,
	"step": 1500
	},
	{
	"epoch": 0.18259281801582472,
	"eval_loss": 3.091937303543091,
	"eval_runtime": 6.9209,
	"eval_samples_per_second": 144.491,
	"eval_steps_per_second": 36.123,
	"step": 1500
	},
	{
	"epoch": 0.19476567255021301,
	"grad_norm": 8.190788269042969,
	"learning_rate": 1.9463228699551572e-05,
	"loss": 2.9814,
	"step": 1600
	},
	{
	"epoch": 0.20693852708460134,
	"grad_norm": 7.867215633392334,
	"learning_rate": 1.9418385650224218e-05,
	"loss": 2.9614,
	"step": 1700
	},
	{
	"epoch": 0.21911138161898966,
	"grad_norm": 7.410882472991943,
	"learning_rate": 1.9373542600896864e-05,
	"loss": 2.9515,
	"step": 1800
	},
	{
	"epoch": 0.23128423615337795,
	"grad_norm": 6.388878345489502,
	"learning_rate": 1.9328699551569506e-05,
	"loss": 2.915,
	"step": 1900
	},
	{
	"epoch": 0.24345709068776628,
	"grad_norm": 6.401773452758789,
	"learning_rate": 1.928385650224215e-05,
	"loss": 2.942,
	"step": 2000
	},
	{
	"epoch": 0.24345709068776628,
	"eval_loss": 3.0528335571289062,
	"eval_runtime": 6.9438,
	"eval_samples_per_second": 144.014,
	"eval_steps_per_second": 36.004,
	"step": 2000
	},
	{
	"epoch": 0.2556299452221546,
	"grad_norm": 6.346031665802002,
	"learning_rate": 1.9239013452914797e-05,
	"loss": 2.952,
	"step": 2100
	},
	{
	"epoch": 0.2678027997565429,
	"grad_norm": 7.141861438751221,
	"learning_rate": 1.9194170403587446e-05,
	"loss": 2.9309,
	"step": 2200
	},
	{
	"epoch": 0.27997565429093124,
	"grad_norm": 7.175647735595703,
	"learning_rate": 1.9149327354260092e-05,
	"loss": 2.9315,
	"step": 2300
	},
	{
	"epoch": 0.29214850882531956,
	"grad_norm": 5.47502326965332,
	"learning_rate": 1.9104484304932738e-05,
	"loss": 2.944,
	"step": 2400
	},
	{
	"epoch": 0.30432136335970783,
	"grad_norm": 6.102653980255127,
	"learning_rate": 1.9059641255605384e-05,
	"loss": 2.8639,
	"step": 2500
	},
	{
	"epoch": 0.30432136335970783,
	"eval_loss": 3.0088276863098145,
	"eval_runtime": 6.9657,
	"eval_samples_per_second": 143.56,
	"eval_steps_per_second": 35.89,
	"step": 2500
	},
	{
	"epoch": 0.31649421789409615,
	"grad_norm": 6.21509313583374,
	"learning_rate": 1.901479820627803e-05,
	"loss": 2.8462,
	"step": 2600
	},
	{
	"epoch": 0.3286670724284845,
	"grad_norm": 7.218765735626221,
	"learning_rate": 1.8969955156950675e-05,
	"loss": 2.8849,
	"step": 2700
	},
	{
	"epoch": 0.3408399269628728,
	"grad_norm": 6.037746429443359,
	"learning_rate": 1.892511210762332e-05,
	"loss": 2.894,
	"step": 2800
	},
	{
	"epoch": 0.3530127814972611,
	"grad_norm": 5.483625411987305,
	"learning_rate": 1.8880269058295967e-05,
	"loss": 2.8988,
	"step": 2900
	},
	{
	"epoch": 0.36518563603164944,
	"grad_norm": 4.460190296173096,
	"learning_rate": 1.8835426008968612e-05,
	"loss": 2.8909,
	"step": 3000
	},
	{
	"epoch": 0.36518563603164944,
	"eval_loss": 2.9809019565582275,
	"eval_runtime": 6.9067,
	"eval_samples_per_second": 144.787,
	"eval_steps_per_second": 36.197,
	"step": 3000
	},
	{
	"epoch": 0.37735849056603776,
	"grad_norm": 5.2231125831604,
	"learning_rate": 1.8790582959641258e-05,
	"loss": 2.894,
	"step": 3100
	},
	{
	"epoch": 0.38953134510042603,
	"grad_norm": 5.9949517250061035,
	"learning_rate": 1.8745739910313904e-05,
	"loss": 2.8816,
	"step": 3200
	},
	{
	"epoch": 0.40170419963481435,
	"grad_norm": 5.3864054679870605,
	"learning_rate": 1.870089686098655e-05,
	"loss": 2.863,
	"step": 3300
	},
	{
	"epoch": 0.4138770541692027,
	"grad_norm": 6.138455390930176,
	"learning_rate": 1.8656053811659195e-05,
	"loss": 2.8577,
	"step": 3400
	},
	{
	"epoch": 0.426049908703591,
	"grad_norm": 5.222280025482178,
	"learning_rate": 1.861121076233184e-05,
	"loss": 2.901,
	"step": 3500
	},
	{
	"epoch": 0.426049908703591,
	"eval_loss": 2.944925308227539,
	"eval_runtime": 6.9152,
	"eval_samples_per_second": 144.608,
	"eval_steps_per_second": 36.152,
	"step": 3500
	},
	{
	"epoch": 0.4382227632379793,
	"grad_norm": 4.749873638153076,
	"learning_rate": 1.8566367713004487e-05,
	"loss": 2.8628,
	"step": 3600
	},
	{
	"epoch": 0.45039561777236764,
	"grad_norm": 4.7014336585998535,
	"learning_rate": 1.852152466367713e-05,
	"loss": 2.8418,
	"step": 3700
	},
	{
	"epoch": 0.4625684723067559,
	"grad_norm": 5.343926429748535,
	"learning_rate": 1.8476681614349775e-05,
	"loss": 2.9097,
	"step": 3800
	},
	{
	"epoch": 0.47474132684114423,
	"grad_norm": 5.276562690734863,
	"learning_rate": 1.8431838565022424e-05,
	"loss": 2.8659,
	"step": 3900
	},
	{
	"epoch": 0.48691418137553255,
	"grad_norm": 5.228163242340088,
	"learning_rate": 1.838699551569507e-05,
	"loss": 2.8497,
	"step": 4000
	},
	{
	"epoch": 0.48691418137553255,
	"eval_loss": 2.9137816429138184,
	"eval_runtime": 6.8289,
	"eval_samples_per_second": 146.437,
	"eval_steps_per_second": 36.609,
	"step": 4000
	},
	{
	"epoch": 0.4990870359099209,
	"grad_norm": 5.291093826293945,
	"learning_rate": 1.8342600896860988e-05,
	"loss": 2.8562,
	"step": 4100
	},
	{
	"epoch": 0.5112598904443092,
	"grad_norm": 5.388160705566406,
	"learning_rate": 1.8297757847533634e-05,
	"loss": 2.87,
	"step": 4200
	},
	{
	"epoch": 0.5234327449786975,
	"grad_norm": 5.260839939117432,
	"learning_rate": 1.825291479820628e-05,
	"loss": 2.8755,
	"step": 4300
	},
	{
	"epoch": 0.5356055995130858,
	"grad_norm": 5.170462131500244,
	"learning_rate": 1.8208071748878925e-05,
	"loss": 2.8342,
	"step": 4400
	},
	{
	"epoch": 0.5477784540474742,
	"grad_norm": 4.9179582595825195,
	"learning_rate": 1.816322869955157e-05,
	"loss": 2.8494,
	"step": 4500
	},
	{
	"epoch": 0.5477784540474742,
	"eval_loss": 2.886016607284546,
	"eval_runtime": 6.8492,
	"eval_samples_per_second": 146.002,
	"eval_steps_per_second": 36.5,
	"step": 4500
	},
	{
	"epoch": 0.5599513085818625,
	"grad_norm": 5.140480041503906,
	"learning_rate": 1.8118385650224217e-05,
	"loss": 2.8659,
	"step": 4600
	},
	{
	"epoch": 0.5721241631162508,
	"grad_norm": 5.088667869567871,
	"learning_rate": 1.8073542600896862e-05,
	"loss": 2.8228,
	"step": 4700
	},
	{
	"epoch": 0.5842970176506391,
	"grad_norm": 4.764868259429932,
	"learning_rate": 1.8028699551569508e-05,
	"loss": 2.8455,
	"step": 4800
	},
	{
	"epoch": 0.5964698721850273,
	"grad_norm": 4.458358287811279,
	"learning_rate": 1.7983856502242154e-05,
	"loss": 2.8196,
	"step": 4900
	},
	{
	"epoch": 0.6086427267194157,
	"grad_norm": 5.425631999969482,
	"learning_rate": 1.79390134529148e-05,
	"loss": 2.8247,
	"step": 5000
	},
	{
	"epoch": 0.6086427267194157,
	"eval_loss": 2.85610294342041,
	"eval_runtime": 6.9206,
	"eval_samples_per_second": 144.495,
	"eval_steps_per_second": 36.124,
	"step": 5000
	},
	{
	"epoch": 0.620815581253804,
	"grad_norm": 4.651830196380615,
	"learning_rate": 1.7894170403587445e-05,
	"loss": 2.8296,
	"step": 5100
	},
	{
	"epoch": 0.6329884357881923,
	"grad_norm": 5.064242839813232,
	"learning_rate": 1.784932735426009e-05,
	"loss": 2.8446,
	"step": 5200
	},
	{
	"epoch": 0.6451612903225806,
	"grad_norm": 5.3180413246154785,
	"learning_rate": 1.7804484304932737e-05,
	"loss": 2.7944,
	"step": 5300
	},
	{
	"epoch": 0.657334144856969,
	"grad_norm": 4.934672832489014,
	"learning_rate": 1.7759641255605383e-05,
	"loss": 2.7975,
	"step": 5400
	},
	{
	"epoch": 0.6695069993913573,
	"grad_norm": 5.154861927032471,
	"learning_rate": 1.7714798206278028e-05,
	"loss": 2.8144,
	"step": 5500
	},
	{
	"epoch": 0.6695069993913573,
	"eval_loss": 2.831345319747925,
	"eval_runtime": 6.9102,
	"eval_samples_per_second": 144.714,
	"eval_steps_per_second": 36.179,
	"step": 5500
	},
	{
	"epoch": 0.6816798539257456,
	"grad_norm": 5.322381973266602,
	"learning_rate": 1.7669955156950674e-05,
	"loss": 2.8196,
	"step": 5600
	},
	{
	"epoch": 0.6938527084601339,
	"grad_norm": 4.949143886566162,
	"learning_rate": 1.762511210762332e-05,
	"loss": 2.8154,
	"step": 5700
	},
	{
	"epoch": 0.7060255629945222,
	"grad_norm": 4.853809356689453,
	"learning_rate": 1.7580269058295965e-05,
	"loss": 2.8085,
	"step": 5800
	},
	{
	"epoch": 0.7181984175289106,
	"grad_norm": 4.941267490386963,
	"learning_rate": 1.753542600896861e-05,
	"loss": 2.7982,
	"step": 5900
	},
	{
	"epoch": 0.7303712720632989,
	"grad_norm": 4.971885681152344,
	"learning_rate": 1.7490582959641257e-05,
	"loss": 2.8049,
	"step": 6000
	},
	{
	"epoch": 0.7303712720632989,
	"eval_loss": 2.8138246536254883,
	"eval_runtime": 6.8576,
	"eval_samples_per_second": 145.824,
	"eval_steps_per_second": 36.456,
	"step": 6000
	},
	{
	"epoch": 0.7425441265976872,
	"grad_norm": 4.718198776245117,
	"learning_rate": 1.7445739910313903e-05,
	"loss": 2.7546,
	"step": 6100
	},
	{
	"epoch": 0.7547169811320755,
	"grad_norm": 5.367305278778076,
	"learning_rate": 1.740089686098655e-05,
	"loss": 2.7714,
	"step": 6200
	},
	{
	"epoch": 0.7668898356664637,
	"grad_norm": 4.827259063720703,
	"learning_rate": 1.7356053811659194e-05,
	"loss": 2.8043,
	"step": 6300
	},
	{
	"epoch": 0.7790626902008521,
	"grad_norm": 5.011576175689697,
	"learning_rate": 1.731121076233184e-05,
	"loss": 2.7859,
	"step": 6400
	},
	{
	"epoch": 0.7912355447352404,
	"grad_norm": 5.363623142242432,
	"learning_rate": 1.7266816143497758e-05,
	"loss": 2.8161,
	"step": 6500
	},
	{
	"epoch": 0.7912355447352404,
	"eval_loss": 2.791551113128662,
	"eval_runtime": 6.8881,
	"eval_samples_per_second": 145.177,
	"eval_steps_per_second": 36.294,
	"step": 6500
	},
	{
	"epoch": 0.8034083992696287,
	"grad_norm": 4.721231937408447,
	"learning_rate": 1.7221973094170404e-05,
	"loss": 2.7857,
	"step": 6600
	},
	{
	"epoch": 0.815581253804017,
	"grad_norm": 4.657351016998291,
	"learning_rate": 1.717713004484305e-05,
	"loss": 2.7734,
	"step": 6700
	},
	{
	"epoch": 0.8277541083384053,
	"grad_norm": 4.4942145347595215,
	"learning_rate": 1.7132286995515695e-05,
	"loss": 2.7885,
	"step": 6800
	},
	{
	"epoch": 0.8399269628727937,
	"grad_norm": 5.061729431152344,
	"learning_rate": 1.708744394618834e-05,
	"loss": 2.7841,
	"step": 6900
	},
	{
	"epoch": 0.852099817407182,
	"grad_norm": 4.816007137298584,
	"learning_rate": 1.7042600896860987e-05,
	"loss": 2.741,
	"step": 7000
	},
	{
	"epoch": 0.852099817407182,
	"eval_loss": 2.7756857872009277,
	"eval_runtime": 6.8679,
	"eval_samples_per_second": 145.605,
	"eval_steps_per_second": 36.401,
	"step": 7000
	},
	{
	"epoch": 0.8642726719415703,
	"grad_norm": 5.255375385284424,
	"learning_rate": 1.6997757847533633e-05,
	"loss": 2.7561,
	"step": 7100
	},
	{
	"epoch": 0.8764455264759586,
	"grad_norm": 4.844815254211426,
	"learning_rate": 1.695291479820628e-05,
	"loss": 2.7558,
	"step": 7200
	},
	{
	"epoch": 0.888618381010347,
	"grad_norm": 4.8912224769592285,
	"learning_rate": 1.6908071748878924e-05,
	"loss": 2.7512,
	"step": 7300
	},
	{
	"epoch": 0.9007912355447353,
	"grad_norm": 4.5775017738342285,
	"learning_rate": 1.686322869955157e-05,
	"loss": 2.745,
	"step": 7400
	},
	{
	"epoch": 0.9129640900791236,
	"grad_norm": 4.753942012786865,
	"learning_rate": 1.6818385650224216e-05,
	"loss": 2.7173,
	"step": 7500
	},
	{
	"epoch": 0.9129640900791236,
	"eval_loss": 2.7591283321380615,
	"eval_runtime": 6.877,
	"eval_samples_per_second": 145.412,
	"eval_steps_per_second": 36.353,
	"step": 7500
	},
	{
	"epoch": 0.9251369446135118,
	"grad_norm": 5.192244052886963,
	"learning_rate": 1.677354260089686e-05,
	"loss": 2.7373,
	"step": 7600
	},
	{
	"epoch": 0.9373097991479001,
	"grad_norm": 4.5390801429748535,
	"learning_rate": 1.6728699551569507e-05,
	"loss": 2.7654,
	"step": 7700
	},
	{
	"epoch": 0.9494826536822885,
	"grad_norm": 5.091897487640381,
	"learning_rate": 1.6683856502242153e-05,
	"loss": 2.7615,
	"step": 7800
	},
	{
	"epoch": 0.9616555082166768,
	"grad_norm": 4.253417015075684,
	"learning_rate": 1.6639013452914802e-05,
	"loss": 2.7521,
	"step": 7900
	},
	{
	"epoch": 0.9738283627510651,
	"grad_norm": 4.891059875488281,
	"learning_rate": 1.6594170403587448e-05,
	"loss": 2.7665,
	"step": 8000
	},
	{
	"epoch": 0.9738283627510651,
	"eval_loss": 2.7409751415252686,
	"eval_runtime": 6.8856,
	"eval_samples_per_second": 145.23,
	"eval_steps_per_second": 36.308,
	"step": 8000
	},
	{
	"epoch": 0.9860012172854534,
	"grad_norm": 4.412657260894775,
	"learning_rate": 1.6549327354260093e-05,
	"loss": 2.7471,
	"step": 8100
	},
	{
	"epoch": 0.9981740718198417,
	"grad_norm": 5.708240509033203,
	"learning_rate": 1.650448430493274e-05,
	"loss": 2.7545,
	"step": 8200
	},
	{
	"epoch": 1.01034692635423,
	"grad_norm": 4.956757068634033,
	"learning_rate": 1.645964125560538e-05,
	"loss": 2.6015,
	"step": 8300
	},
	{
	"epoch": 1.0225197808886184,
	"grad_norm": 5.220682621002197,
	"learning_rate": 1.6414798206278027e-05,
	"loss": 2.6077,
	"step": 8400
	},
	{
	"epoch": 1.0346926354230066,
	"grad_norm": 5.160597801208496,
	"learning_rate": 1.6369955156950673e-05,
	"loss": 2.5857,
	"step": 8500
	},
	{
	"epoch": 1.0346926354230066,
	"eval_loss": 2.7148427963256836,
	"eval_runtime": 6.8912,
	"eval_samples_per_second": 145.113,
	"eval_steps_per_second": 36.278,
	"step": 8500
	},
	{
	"epoch": 1.046865489957395,
	"grad_norm": 5.304019927978516,
	"learning_rate": 1.6325560538116595e-05,
	"loss": 2.5738,
	"step": 8600
	},
	{
	"epoch": 1.0590383444917832,
	"grad_norm": 5.3433637619018555,
	"learning_rate": 1.628071748878924e-05,
	"loss": 2.5499,
	"step": 8700
	},
	{
	"epoch": 1.0712111990261717,
	"grad_norm": 4.527110576629639,
	"learning_rate": 1.6235874439461886e-05,
	"loss": 2.6156,
	"step": 8800
	},
	{
	"epoch": 1.08338405356056,
	"grad_norm": 5.513104438781738,
	"learning_rate": 1.6191031390134532e-05,
	"loss": 2.6217,
	"step": 8900
	},
	{
	"epoch": 1.0955569080949483,
	"grad_norm": 5.579029083251953,
	"learning_rate": 1.6146188340807178e-05,
	"loss": 2.5829,
	"step": 9000
	},
	{
	"epoch": 1.0955569080949483,
	"eval_loss": 2.6865806579589844,
	"eval_runtime": 6.8369,
	"eval_samples_per_second": 146.265,
	"eval_steps_per_second": 36.566,
	"step": 9000
	},
	{
	"epoch": 1.1077297626293365,
	"grad_norm": 4.849677562713623,
	"learning_rate": 1.6101345291479823e-05,
	"loss": 2.6253,
	"step": 9100
	},
	{
	"epoch": 1.119902617163725,
	"grad_norm": 5.025945663452148,
	"learning_rate": 1.605650224215247e-05,
	"loss": 2.5725,
	"step": 9200
	},
	{
	"epoch": 1.1320754716981132,
	"grad_norm": 5.991898059844971,
	"learning_rate": 1.601165919282511e-05,
	"loss": 2.5994,
	"step": 9300
	},
	{
	"epoch": 1.1442483262325016,
	"grad_norm": 4.980128765106201,
	"learning_rate": 1.5966816143497757e-05,
	"loss": 2.5645,
	"step": 9400
	},
	{
	"epoch": 1.1564211807668898,
	"grad_norm": 4.839084625244141,
	"learning_rate": 1.5921973094170403e-05,
	"loss": 2.5861,
	"step": 9500
	},
	{
	"epoch": 1.1564211807668898,
	"eval_loss": 2.6708385944366455,
	"eval_runtime": 6.8615,
	"eval_samples_per_second": 145.74,
	"eval_steps_per_second": 36.435,
	"step": 9500
	},
	{
	"epoch": 1.168594035301278,
	"grad_norm": 5.058382511138916,
	"learning_rate": 1.587713004484305e-05,
	"loss": 2.5524,
	"step": 9600
	},
	{
	"epoch": 1.1807668898356665,
	"grad_norm": 4.867978572845459,
	"learning_rate": 1.5832286995515694e-05,
	"loss": 2.582,
	"step": 9700
	},
	{
	"epoch": 1.192939744370055,
	"grad_norm": 5.896303653717041,
	"learning_rate": 1.578744394618834e-05,
	"loss": 2.5899,
	"step": 9800
	},
	{
	"epoch": 1.205112598904443,
	"grad_norm": 4.735970497131348,
	"learning_rate": 1.574260089686099e-05,
	"loss": 2.5878,
	"step": 9900
	},
	{
	"epoch": 1.2172854534388313,
	"grad_norm": 4.8292670249938965,
	"learning_rate": 1.5697757847533635e-05,
	"loss": 2.6047,
	"step": 10000
	},
	{
	"epoch": 1.2172854534388313,
	"eval_loss": 2.65461802482605,
	"eval_runtime": 6.8819,
	"eval_samples_per_second": 145.309,
	"eval_steps_per_second": 36.327,
	"step": 10000
	},
	{
	"epoch": 1.2294583079732198,
	"grad_norm": 5.350712299346924,
	"learning_rate": 1.565291479820628e-05,
	"loss": 2.5777,
	"step": 10100
	},
	{
	"epoch": 1.241631162507608,
	"grad_norm": 5.471200466156006,
	"learning_rate": 1.5608071748878926e-05,
	"loss": 2.5908,
	"step": 10200
	},
	{
	"epoch": 1.2538040170419964,
	"grad_norm": 5.038080215454102,
	"learning_rate": 1.5563228699551572e-05,
	"loss": 2.5951,
	"step": 10300
	},
	{
	"epoch": 1.2659768715763846,
	"grad_norm": 4.982104778289795,
	"learning_rate": 1.5518385650224218e-05,
	"loss": 2.5461,
	"step": 10400
	},
	{
	"epoch": 1.278149726110773,
	"grad_norm": 4.736184120178223,
	"learning_rate": 1.5473542600896864e-05,
	"loss": 2.5874,
	"step": 10500
	},
	{
	"epoch": 1.278149726110773,
	"eval_loss": 2.6384053230285645,
	"eval_runtime": 6.8888,
	"eval_samples_per_second": 145.164,
	"eval_steps_per_second": 36.291,
	"step": 10500
	},
	{
	"epoch": 1.2903225806451613,
	"grad_norm": 5.710967540740967,
	"learning_rate": 1.5429147982062782e-05,
	"loss": 2.5818,
	"step": 10600
	},
	{
	"epoch": 1.3024954351795497,
	"grad_norm": 5.1653947830200195,
	"learning_rate": 1.5384304932735428e-05,
	"loss": 2.5916,
	"step": 10700
	},
	{
	"epoch": 1.314668289713938,
	"grad_norm": 5.706851959228516,
	"learning_rate": 1.5339461883408074e-05,
	"loss": 2.563,
	"step": 10800
	},
	{
	"epoch": 1.326841144248326,
	"grad_norm": 5.320187568664551,
	"learning_rate": 1.529461883408072e-05,
	"loss": 2.5657,
	"step": 10900
	},
	{
	"epoch": 1.3390139987827145,
	"grad_norm": 5.1567463874816895,
	"learning_rate": 1.5249775784753365e-05,
	"loss": 2.5362,
	"step": 11000
	},
	{
	"epoch": 1.3390139987827145,
	"eval_loss": 2.6256721019744873,
	"eval_runtime": 6.8781,
	"eval_samples_per_second": 145.389,
	"eval_steps_per_second": 36.347,
	"step": 11000
	},
	{
	"epoch": 1.351186853317103,
	"grad_norm": 5.355208396911621,
	"learning_rate": 1.520493273542601e-05,
	"loss": 2.5748,
	"step": 11100
	},
	{
	"epoch": 1.3633597078514912,
	"grad_norm": 4.878857612609863,
	"learning_rate": 1.5160089686098656e-05,
	"loss": 2.5768,
	"step": 11200
	},
	{
	"epoch": 1.3755325623858794,
	"grad_norm": 5.551296234130859,
	"learning_rate": 1.51152466367713e-05,
	"loss": 2.5616,
	"step": 11300
	},
	{
	"epoch": 1.3877054169202678,
	"grad_norm": 4.894459247589111,
	"learning_rate": 1.5070403587443946e-05,
	"loss": 2.5366,
	"step": 11400
	},
	{
	"epoch": 1.399878271454656,
	"grad_norm": 5.237545967102051,
	"learning_rate": 1.5025560538116592e-05,
	"loss": 2.5516,
	"step": 11500
	},
	{
	"epoch": 1.399878271454656,
	"eval_loss": 2.6034560203552246,
	"eval_runtime": 6.9038,
	"eval_samples_per_second": 144.848,
	"eval_steps_per_second": 36.212,
	"step": 11500
	},
	{
	"epoch": 1.4120511259890445,
	"grad_norm": 4.714597702026367,
	"learning_rate": 1.4980717488789238e-05,
	"loss": 2.5384,
	"step": 11600
	},
	{
	"epoch": 1.4242239805234327,
	"grad_norm": 4.776740550994873,
	"learning_rate": 1.4935874439461883e-05,
	"loss": 2.5733,
	"step": 11700
	},
	{
	"epoch": 1.4363968350578211,
	"grad_norm": 5.181590557098389,
	"learning_rate": 1.4891031390134529e-05,
	"loss": 2.5698,
	"step": 11800
	},
	{
	"epoch": 1.4485696895922093,
	"grad_norm": 4.948436737060547,
	"learning_rate": 1.4846188340807177e-05,
	"loss": 2.5288,
	"step": 11900
	},
	{
	"epoch": 1.4607425441265978,
	"grad_norm": 5.549213409423828,
	"learning_rate": 1.4801345291479822e-05,
	"loss": 2.5291,
	"step": 12000
	},
	{
	"epoch": 1.4607425441265978,
	"eval_loss": 2.5940563678741455,
	"eval_runtime": 6.8627,
	"eval_samples_per_second": 145.716,
	"eval_steps_per_second": 36.429,
	"step": 12000
	},
	{
	"epoch": 1.472915398660986,
	"grad_norm": 6.372870445251465,
	"learning_rate": 1.4756502242152468e-05,
	"loss": 2.5457,
	"step": 12100
	},
	{
	"epoch": 1.4850882531953742,
	"grad_norm": 5.433255195617676,
	"learning_rate": 1.4711659192825114e-05,
	"loss": 2.5521,
	"step": 12200
	},
	{
	"epoch": 1.4972611077297626,
	"grad_norm": 5.604691028594971,
	"learning_rate": 1.466681614349776e-05,
	"loss": 2.5585,
	"step": 12300
	},
	{
	"epoch": 1.509433962264151,
	"grad_norm": 5.348121643066406,
	"learning_rate": 1.4621973094170405e-05,
	"loss": 2.527,
	"step": 12400
	},
	{
	"epoch": 1.5216068167985393,
	"grad_norm": 4.68524694442749,
	"learning_rate": 1.4577130044843051e-05,
	"loss": 2.5351,
	"step": 12500
	},
	{
	"epoch": 1.5216068167985393,
	"eval_loss": 2.5787315368652344,
	"eval_runtime": 6.8521,
	"eval_samples_per_second": 145.94,
	"eval_steps_per_second": 36.485,
	"step": 12500
	},
	{
	"epoch": 1.5337796713329275,
	"grad_norm": 5.369399070739746,
	"learning_rate": 1.4532286995515697e-05,
	"loss": 2.5457,
	"step": 12600
	},
	{
	"epoch": 1.545952525867316,
	"grad_norm": 5.384763717651367,
	"learning_rate": 1.4487892376681615e-05,
	"loss": 2.5603,
	"step": 12700
	},
	{
	"epoch": 1.5581253804017043,
	"grad_norm": 5.1856369972229,
	"learning_rate": 1.4443049327354261e-05,
	"loss": 2.5531,
	"step": 12800
	},
	{
	"epoch": 1.5702982349360926,
	"grad_norm": 5.600665092468262,
	"learning_rate": 1.4398206278026907e-05,
	"loss": 2.5226,
	"step": 12900
	},
	{
	"epoch": 1.5824710894704808,
	"grad_norm": 5.185864448547363,
	"learning_rate": 1.4353363228699552e-05,
	"loss": 2.5585,
	"step": 13000
	},
	{
	"epoch": 1.5824710894704808,
	"eval_loss": 2.5597262382507324,
	"eval_runtime": 6.9067,
	"eval_samples_per_second": 144.787,
	"eval_steps_per_second": 36.197,
	"step": 13000
	},
	{
	"epoch": 1.5946439440048692,
	"grad_norm": 5.945424556732178,
	"learning_rate": 1.4308520179372198e-05,
	"loss": 2.5447,
	"step": 13100
	},
	{
	"epoch": 1.6068167985392574,
	"grad_norm": 4.447841167449951,
	"learning_rate": 1.4263677130044844e-05,
	"loss": 2.5638,
	"step": 13200
	},
	{
	"epoch": 1.6189896530736458,
	"grad_norm": 4.947375297546387,
	"learning_rate": 1.421883408071749e-05,
	"loss": 2.5245,
	"step": 13300
	},
	{
	"epoch": 1.631162507608034,
	"grad_norm": 5.11275053024292,
	"learning_rate": 1.4173991031390135e-05,
	"loss": 2.504,
	"step": 13400
	},
	{
	"epoch": 1.6433353621424223,
	"grad_norm": 5.144463539123535,
	"learning_rate": 1.4129147982062781e-05,
	"loss": 2.5517,
	"step": 13500
	},
	{
	"epoch": 1.6433353621424223,
	"eval_loss": 2.5378565788269043,
	"eval_runtime": 6.8542,
	"eval_samples_per_second": 145.896,
	"eval_steps_per_second": 36.474,
	"step": 13500
	},
	{
	"epoch": 1.6555082166768107,
	"grad_norm": 6.138312816619873,
	"learning_rate": 1.4084304932735427e-05,
	"loss": 2.5334,
	"step": 13600
	},
	{
	"epoch": 1.6676810712111991,
	"grad_norm": 4.641015529632568,
	"learning_rate": 1.4039461883408072e-05,
	"loss": 2.5692,
	"step": 13700
	},
	{
	"epoch": 1.6798539257455873,
	"grad_norm": 5.140405178070068,
	"learning_rate": 1.3994618834080718e-05,
	"loss": 2.5462,
	"step": 13800
	},
	{
	"epoch": 1.6920267802799756,
	"grad_norm": 5.093076705932617,
	"learning_rate": 1.3949775784753366e-05,
	"loss": 2.5227,
	"step": 13900
	},
	{
	"epoch": 1.704199634814364,
	"grad_norm": 5.549164772033691,
	"learning_rate": 1.3904932735426011e-05,
	"loss": 2.5469,
	"step": 14000
	},
	{
	"epoch": 1.704199634814364,
	"eval_loss": 2.5302209854125977,
	"eval_runtime": 6.8833,
	"eval_samples_per_second": 145.279,
	"eval_steps_per_second": 36.32,
	"step": 14000
	},
	{
	"epoch": 1.7163724893487524,
	"grad_norm": 5.112196922302246,
	"learning_rate": 1.3860089686098657e-05,
	"loss": 2.4753,
	"step": 14100
	},
	{
	"epoch": 1.7285453438831406,
	"grad_norm": 4.9223313331604,
	"learning_rate": 1.3815246636771303e-05,
	"loss": 2.5477,
	"step": 14200
	},
	{
	"epoch": 1.7407181984175288,
	"grad_norm": 5.270020484924316,
	"learning_rate": 1.3770403587443948e-05,
	"loss": 2.5141,
	"step": 14300
	},
	{
	"epoch": 1.7528910529519173,
	"grad_norm": 5.377967357635498,
	"learning_rate": 1.3725560538116594e-05,
	"loss": 2.5151,
	"step": 14400
	},
	{
	"epoch": 1.7650639074863055,
	"grad_norm": 4.732293605804443,
	"learning_rate": 1.368071748878924e-05,
	"loss": 2.559,
	"step": 14500
	},
	{
	"epoch": 1.7650639074863055,
	"eval_loss": 2.5161020755767822,
	"eval_runtime": 6.8279,
	"eval_samples_per_second": 146.457,
	"eval_steps_per_second": 36.614,
	"step": 14500
	},
	{
	"epoch": 1.777236762020694,
	"grad_norm": 5.2639241218566895,
	"learning_rate": 1.3635874439461884e-05,
	"loss": 2.5199,
	"step": 14600
	},
	{
	"epoch": 1.7894096165550821,
	"grad_norm": 5.222829818725586,
	"learning_rate": 1.3591479820627804e-05,
	"loss": 2.5122,
	"step": 14700
	},
	{
	"epoch": 1.8015824710894703,
	"grad_norm": 5.396998882293701,
	"learning_rate": 1.354663677130045e-05,
	"loss": 2.5665,
	"step": 14800
	},
	{
	"epoch": 1.8137553256238588,
	"grad_norm": 5.598328113555908,
	"learning_rate": 1.3501793721973096e-05,
	"loss": 2.5061,
	"step": 14900
	},
	{
	"epoch": 1.8259281801582472,
	"grad_norm": 4.519299507141113,
	"learning_rate": 1.3456950672645741e-05,
	"loss": 2.5173,
	"step": 15000
	},
	{
	"epoch": 1.8259281801582472,
	"eval_loss": 2.505549430847168,
	"eval_runtime": 6.8476,
	"eval_samples_per_second": 146.036,
	"eval_steps_per_second": 36.509,
	"step": 15000
	},
	{
	"epoch": 1.8381010346926354,
	"grad_norm": 5.07867431640625,
	"learning_rate": 1.3412107623318387e-05,
	"loss": 2.5085,
	"step": 15100
	},
	{
	"epoch": 1.8502738892270236,
	"grad_norm": 4.80793571472168,
	"learning_rate": 1.3367264573991033e-05,
	"loss": 2.5269,
	"step": 15200
	},
	{
	"epoch": 1.862446743761412,
	"grad_norm": 5.122992992401123,
	"learning_rate": 1.3322421524663679e-05,
	"loss": 2.5165,
	"step": 15300
	},
	{
	"epoch": 1.8746195982958005,
	"grad_norm": 5.070724010467529,
	"learning_rate": 1.3277578475336324e-05,
	"loss": 2.4733,
	"step": 15400
	},
	{
	"epoch": 1.8867924528301887,
	"grad_norm": 4.850822448730469,
	"learning_rate": 1.3232735426008968e-05,
	"loss": 2.5045,
	"step": 15500
	},
	{
	"epoch": 1.8867924528301887,
	"eval_loss": 2.49042010307312,
	"eval_runtime": 6.9202,
	"eval_samples_per_second": 144.505,
	"eval_steps_per_second": 36.126,
	"step": 15500
	},
	{
	"epoch": 1.898965307364577,
	"grad_norm": 5.182281494140625,
	"learning_rate": 1.3187892376681614e-05,
	"loss": 2.4858,
	"step": 15600
	},
	{
	"epoch": 1.9111381618989653,
	"grad_norm": 4.803709030151367,
	"learning_rate": 1.314304932735426e-05,
	"loss": 2.5043,
	"step": 15700
	},
	{
	"epoch": 1.9233110164333538,
	"grad_norm": 5.211897850036621,
	"learning_rate": 1.3098206278026905e-05,
	"loss": 2.4974,
	"step": 15800
	},
	{
	"epoch": 1.935483870967742,
	"grad_norm": 4.982048988342285,
	"learning_rate": 1.3053363228699553e-05,
	"loss": 2.4901,
	"step": 15900
	},
	{
	"epoch": 1.9476567255021302,
	"grad_norm": 5.34013557434082,
	"learning_rate": 1.3008520179372199e-05,
	"loss": 2.4938,
	"step": 16000
	},
	{
	"epoch": 1.9476567255021302,
	"eval_loss": 2.479241371154785,
	"eval_runtime": 6.9209,
	"eval_samples_per_second": 144.49,
	"eval_steps_per_second": 36.122,
	"step": 16000
	},
	{
	"epoch": 1.9598295800365184,
	"grad_norm": 4.926109790802002,
	"learning_rate": 1.2963677130044844e-05,
	"loss": 2.522,
	"step": 16100
	},
	{
	"epoch": 1.9720024345709068,
	"grad_norm": 5.252937316894531,
	"learning_rate": 1.291883408071749e-05,
	"loss": 2.4979,
	"step": 16200
	},
	{
	"epoch": 1.9841752891052953,
	"grad_norm": 4.676843166351318,
	"learning_rate": 1.2873991031390136e-05,
	"loss": 2.5011,
	"step": 16300
	},
	{
	"epoch": 1.9963481436396835,
	"grad_norm": 4.4982171058654785,
	"learning_rate": 1.2829147982062782e-05,
	"loss": 2.5232,
	"step": 16400
	},
	{
	"epoch": 2.0085209981740717,
	"grad_norm": 5.115514278411865,
	"learning_rate": 1.2784304932735427e-05,
	"loss": 2.4807,
	"step": 16500
	},
	{
	"epoch": 2.0085209981740717,
	"eval_loss": 2.4553143978118896,
	"eval_runtime": 6.8911,
	"eval_samples_per_second": 145.114,
	"eval_steps_per_second": 36.279,
	"step": 16500
	},
	{
	"epoch": 2.02069385270846,
	"grad_norm": 5.778520107269287,
	"learning_rate": 1.2739461883408073e-05,
	"loss": 2.3637,
	"step": 16600
	},
	{
	"epoch": 2.0328667072428486,
	"grad_norm": 4.936229705810547,
	"learning_rate": 1.2694618834080719e-05,
	"loss": 2.3936,
	"step": 16700
	},
	{
	"epoch": 2.045039561777237,
	"grad_norm": 6.013847827911377,
	"learning_rate": 1.2649775784753364e-05,
	"loss": 2.3953,
	"step": 16800
	},
	{
	"epoch": 2.057212416311625,
	"grad_norm": 6.078458786010742,
	"learning_rate": 1.2605381165919283e-05,
	"loss": 2.3312,
	"step": 16900
	},
	{
	"epoch": 2.069385270846013,
	"grad_norm": 5.697019100189209,
	"learning_rate": 1.2560538116591929e-05,
	"loss": 2.334,
	"step": 17000
	},
	{
	"epoch": 2.069385270846013,
	"eval_loss": 2.4449574947357178,
	"eval_runtime": 6.9363,
	"eval_samples_per_second": 144.169,
	"eval_steps_per_second": 36.042,
	"step": 17000
	},
	{
	"epoch": 2.081558125380402,
	"grad_norm": 5.652517795562744,
	"learning_rate": 1.2515695067264574e-05,
	"loss": 2.3902,
	"step": 17100
	},
	{
	"epoch": 2.09373097991479,
	"grad_norm": 6.007380485534668,
	"learning_rate": 1.247085201793722e-05,
	"loss": 2.3629,
	"step": 17200
	},
	{
	"epoch": 2.1059038344491783,
	"grad_norm": 5.070584774017334,
	"learning_rate": 1.2426008968609866e-05,
	"loss": 2.3523,
	"step": 17300
	},
	{
	"epoch": 2.1180766889835665,
	"grad_norm": 5.079153537750244,
	"learning_rate": 1.2381165919282512e-05,
	"loss": 2.3429,
	"step": 17400
	},
	{
	"epoch": 2.130249543517955,
	"grad_norm": 5.278266906738281,
	"learning_rate": 1.2336322869955157e-05,
	"loss": 2.2969,
	"step": 17500
	},
	{
	"epoch": 2.130249543517955,
	"eval_loss": 2.4217474460601807,
	"eval_runtime": 6.9637,
	"eval_samples_per_second": 143.601,
	"eval_steps_per_second": 35.9,
	"step": 17500
	},
	{
	"epoch": 2.1424223980523434,
	"grad_norm": 5.2419633865356445,
	"learning_rate": 1.2291479820627803e-05,
	"loss": 2.3671,
	"step": 17600
	},
	{
	"epoch": 2.1545952525867316,
	"grad_norm": 5.445255279541016,
	"learning_rate": 1.2246636771300449e-05,
	"loss": 2.3834,
	"step": 17700
	},
	{
	"epoch": 2.16676810712112,
	"grad_norm": 5.891075134277344,
	"learning_rate": 1.2201793721973095e-05,
	"loss": 2.36,
	"step": 17800
	},
	{
	"epoch": 2.178940961655508,
	"grad_norm": 5.8141865730285645,
	"learning_rate": 1.215695067264574e-05,
	"loss": 2.3596,
	"step": 17900
	},
	{
	"epoch": 2.1911138161898966,
	"grad_norm": 5.558561325073242,
	"learning_rate": 1.2112107623318388e-05,
	"loss": 2.3926,
	"step": 18000
	},
	{
	"epoch": 2.1911138161898966,
	"eval_loss": 2.415804624557495,
	"eval_runtime": 6.8469,
	"eval_samples_per_second": 146.052,
	"eval_steps_per_second": 36.513,
	"step": 18000
	},
	{
	"epoch": 2.203286670724285,
	"grad_norm": 5.968663692474365,
	"learning_rate": 1.2067264573991033e-05,
	"loss": 2.3609,
	"step": 18100
	},
	{
	"epoch": 2.215459525258673,
	"grad_norm": 5.241644382476807,
	"learning_rate": 1.2022421524663679e-05,
	"loss": 2.3634,
	"step": 18200
	},
	{
	"epoch": 2.2276323797930613,
	"grad_norm": 6.328832149505615,
	"learning_rate": 1.1977578475336325e-05,
	"loss": 2.3465,
	"step": 18300
	},
	{
	"epoch": 2.23980523432745,
	"grad_norm": 5.125701904296875,
	"learning_rate": 1.193273542600897e-05,
	"loss": 2.3171,
	"step": 18400
	},
	{
	"epoch": 2.251978088861838,
	"grad_norm": 4.962270259857178,
	"learning_rate": 1.1887892376681616e-05,
	"loss": 2.3739,
	"step": 18500
	},
	{
	"epoch": 2.251978088861838,
	"eval_loss": 2.4065887928009033,
	"eval_runtime": 6.9359,
	"eval_samples_per_second": 144.178,
	"eval_steps_per_second": 36.045,
	"step": 18500
	},
	{
	"epoch": 2.2641509433962264,
	"grad_norm": 5.895593643188477,
	"learning_rate": 1.1843049327354262e-05,
	"loss": 2.3656,
	"step": 18600
	},
	{
	"epoch": 2.2763237979306146,
	"grad_norm": 6.21762752532959,
	"learning_rate": 1.1798206278026906e-05,
	"loss": 2.3575,
	"step": 18700
	},
	{
	"epoch": 2.2884966524650032,
	"grad_norm": 5.935133934020996,
	"learning_rate": 1.1753363228699552e-05,
	"loss": 2.3687,
	"step": 18800
	},
	{
	"epoch": 2.3006695069993914,
	"grad_norm": 5.431483268737793,
	"learning_rate": 1.1708520179372198e-05,
	"loss": 2.3465,
	"step": 18900
	},
	{
	"epoch": 2.3128423615337796,
	"grad_norm": 6.319828510284424,
	"learning_rate": 1.1664125560538118e-05,
	"loss": 2.3659,
	"step": 19000
	},
	{
	"epoch": 2.3128423615337796,
	"eval_loss": 2.390819787979126,
	"eval_runtime": 6.9389,
	"eval_samples_per_second": 144.115,
	"eval_steps_per_second": 36.029,
	"step": 19000
	},
	{
	"epoch": 2.325015216068168,
	"grad_norm": 5.955752372741699,
	"learning_rate": 1.1619282511210763e-05,
	"loss": 2.3702,
	"step": 19100
	},
	{
	"epoch": 2.337188070602556,
	"grad_norm": 5.977270603179932,
	"learning_rate": 1.157443946188341e-05,
	"loss": 2.3935,
	"step": 19200
	},
	{
	"epoch": 2.3493609251369447,
	"grad_norm": 5.417830944061279,
	"learning_rate": 1.1529596412556055e-05,
	"loss": 2.359,
	"step": 19300
	},
	{
	"epoch": 2.361533779671333,
	"grad_norm": 5.452037334442139,
	"learning_rate": 1.14847533632287e-05,
	"loss": 2.3496,
	"step": 19400
	},
	{
	"epoch": 2.373706634205721,
	"grad_norm": 4.931158065795898,
	"learning_rate": 1.1439910313901346e-05,
	"loss": 2.3483,
	"step": 19500
	},
	{
	"epoch": 2.373706634205721,
	"eval_loss": 2.3805489540100098,
	"eval_runtime": 6.803,
	"eval_samples_per_second": 146.994,
	"eval_steps_per_second": 36.749,
	"step": 19500
	},
	{
	"epoch": 2.38587948874011,
	"grad_norm": 5.650387287139893,
	"learning_rate": 1.1395067264573992e-05,
	"loss": 2.3644,
	"step": 19600
	},
	{
	"epoch": 2.398052343274498,
	"grad_norm": 5.70589542388916,
	"learning_rate": 1.1350224215246636e-05,
	"loss": 2.3472,
	"step": 19700
	},
	{
	"epoch": 2.410225197808886,
	"grad_norm": 5.833774566650391,
	"learning_rate": 1.1305381165919282e-05,
	"loss": 2.3663,
	"step": 19800
	},
	{
	"epoch": 2.4223980523432744,
	"grad_norm": 5.079782485961914,
	"learning_rate": 1.1260538116591928e-05,
	"loss": 2.3726,
	"step": 19900
	},
	{
	"epoch": 2.4345709068776626,
	"grad_norm": 5.578153610229492,
	"learning_rate": 1.1215695067264577e-05,
	"loss": 2.3432,
	"step": 20000
	},
	{
	"epoch": 2.4345709068776626,
	"eval_loss": 2.3689472675323486,
	"eval_runtime": 6.993,
	"eval_samples_per_second": 143.0,
	"eval_steps_per_second": 35.75,
	"step": 20000
	},
	{
	"epoch": 2.4467437614120513,
	"grad_norm": 5.551452159881592,
	"learning_rate": 1.117085201793722e-05,
	"loss": 2.3658,
	"step": 20100
	},
	{
	"epoch": 2.4589166159464395,
	"grad_norm": 5.28959321975708,
	"learning_rate": 1.1126008968609866e-05,
	"loss": 2.3526,
	"step": 20200
	},
	{
	"epoch": 2.4710894704808277,
	"grad_norm": 5.358762741088867,
	"learning_rate": 1.1081165919282512e-05,
	"loss": 2.3161,
	"step": 20300
	},
	{
	"epoch": 2.483262325015216,
	"grad_norm": 5.633576393127441,
	"learning_rate": 1.1036322869955158e-05,
	"loss": 2.3778,
	"step": 20400
	},
	{
	"epoch": 2.495435179549604,
	"grad_norm": 5.258509635925293,
	"learning_rate": 1.0991479820627804e-05,
	"loss": 2.3538,
	"step": 20500
	},
	{
	"epoch": 2.495435179549604,
	"eval_loss": 2.358330488204956,
	"eval_runtime": 6.9369,
	"eval_samples_per_second": 144.156,
	"eval_steps_per_second": 36.039,
	"step": 20500
	},
	{
	"epoch": 2.507608034083993,
	"grad_norm": 5.632132053375244,
	"learning_rate": 1.094663677130045e-05,
	"loss": 2.3514,
	"step": 20600
	},
	{
	"epoch": 2.519780888618381,
	"grad_norm": 5.449893951416016,
	"learning_rate": 1.0901793721973095e-05,
	"loss": 2.3404,
	"step": 20700
	},
	{
	"epoch": 2.531953743152769,
	"grad_norm": 5.66605281829834,
	"learning_rate": 1.085695067264574e-05,
	"loss": 2.3335,
	"step": 20800
	},
	{
	"epoch": 2.544126597687158,
	"grad_norm": 6.729547500610352,
	"learning_rate": 1.0812107623318387e-05,
	"loss": 2.3784,
	"step": 20900
	},
	{
	"epoch": 2.556299452221546,
	"grad_norm": 5.5277581214904785,
	"learning_rate": 1.0767713004484305e-05,
	"loss": 2.3424,
	"step": 21000
	},
	{
	"epoch": 2.556299452221546,
	"eval_loss": 2.3434271812438965,
	"eval_runtime": 6.8629,
	"eval_samples_per_second": 145.712,
	"eval_steps_per_second": 36.428,
	"step": 21000
	},
	{
	"epoch": 2.5684723067559343,
	"grad_norm": 5.892464637756348,
	"learning_rate": 1.072286995515695e-05,
	"loss": 2.3577,
	"step": 21100
	},
	{
	"epoch": 2.5806451612903225,
	"grad_norm": 5.313469409942627,
	"learning_rate": 1.0678026905829597e-05,
	"loss": 2.3489,
	"step": 21200
	},
	{
	"epoch": 2.5928180158247107,
	"grad_norm": 5.569064140319824,
	"learning_rate": 1.0633183856502242e-05,
	"loss": 2.3828,
	"step": 21300
	},
	{
	"epoch": 2.6049908703590994,
	"grad_norm": 6.133281707763672,
	"learning_rate": 1.0588340807174888e-05,
	"loss": 2.3203,
	"step": 21400
	},
	{
	"epoch": 2.6171637248934876,
	"grad_norm": 5.569573402404785,
	"learning_rate": 1.0543497757847534e-05,
	"loss": 2.3508,
	"step": 21500
	},
	{
	"epoch": 2.6171637248934876,
	"eval_loss": 2.3320422172546387,
	"eval_runtime": 6.8431,
	"eval_samples_per_second": 146.132,
	"eval_steps_per_second": 36.533,
	"step": 21500
	},
	{
	"epoch": 2.629336579427876,
	"grad_norm": 5.560952186584473,
	"learning_rate": 1.049865470852018e-05,
	"loss": 2.3532,
	"step": 21600
	},
	{
	"epoch": 2.641509433962264,
	"grad_norm": 5.652987957000732,
	"learning_rate": 1.0453811659192825e-05,
	"loss": 2.3233,
	"step": 21700
	},
	{
	"epoch": 2.653682288496652,
	"grad_norm": 5.666792869567871,
	"learning_rate": 1.0408968609865471e-05,
	"loss": 2.353,
	"step": 21800
	},
	{
	"epoch": 2.665855143031041,
	"grad_norm": 5.652164936065674,
	"learning_rate": 1.0364125560538117e-05,
	"loss": 2.3483,
	"step": 21900
	},
	{
	"epoch": 2.678027997565429,
	"grad_norm": 5.158956527709961,
	"learning_rate": 1.0319282511210764e-05,
	"loss": 2.3344,
	"step": 22000
	},
	{
	"epoch": 2.678027997565429,
	"eval_loss": 2.3204360008239746,
	"eval_runtime": 6.8964,
	"eval_samples_per_second": 145.003,
	"eval_steps_per_second": 36.251,
	"step": 22000
	},
	{
	"epoch": 2.6902008520998173,
	"grad_norm": 4.993370056152344,
	"learning_rate": 1.027443946188341e-05,
	"loss": 2.3185,
	"step": 22100
	},
	{
	"epoch": 2.702373706634206,
	"grad_norm": 5.251499652862549,
	"learning_rate": 1.0229596412556056e-05,
	"loss": 2.3463,
	"step": 22200
	},
	{
	"epoch": 2.714546561168594,
	"grad_norm": 5.155273914337158,
	"learning_rate": 1.0184753363228701e-05,
	"loss": 2.3299,
	"step": 22300
	},
	{
	"epoch": 2.7267194157029824,
	"grad_norm": 4.445164680480957,
	"learning_rate": 1.0139910313901347e-05,
	"loss": 2.3368,
	"step": 22400
	},
	{
	"epoch": 2.7388922702373706,
	"grad_norm": 5.968411445617676,
	"learning_rate": 1.0095067264573993e-05,
	"loss": 2.321,
	"step": 22500
	},
	{
	"epoch": 2.7388922702373706,
	"eval_loss": 2.3084633350372314,
	"eval_runtime": 6.9774,
	"eval_samples_per_second": 143.32,
	"eval_steps_per_second": 35.83,
	"step": 22500
	},
	{
	"epoch": 2.751065124771759,
	"grad_norm": 5.2266364097595215,
	"learning_rate": 1.0050224215246638e-05,
	"loss": 2.3387,
	"step": 22600
	},
	{
	"epoch": 2.7632379793061475,
	"grad_norm": 5.649938583374023,
	"learning_rate": 1.0005381165919284e-05,
	"loss": 2.3388,
	"step": 22700
	},
	{
	"epoch": 2.7754108338405357,
	"grad_norm": 5.603872299194336,
	"learning_rate": 9.96053811659193e-06,
	"loss": 2.3331,
	"step": 22800
	},
	{
	"epoch": 2.787583688374924,
	"grad_norm": 5.831801891326904,
	"learning_rate": 9.915695067264574e-06,
	"loss": 2.3509,
	"step": 22900
	},
	{
	"epoch": 2.799756542909312,
	"grad_norm": 5.071148872375488,
	"learning_rate": 9.871300448430494e-06,
	"loss": 2.3296,
	"step": 23000
	},
	{
	"epoch": 2.799756542909312,
	"eval_loss": 2.298048257827759,
	"eval_runtime": 6.8909,
	"eval_samples_per_second": 145.119,
	"eval_steps_per_second": 36.28,
	"step": 23000
	},
	{
	"epoch": 2.8119293974437003,
	"grad_norm": 5.613708972930908,
	"learning_rate": 9.82645739910314e-06,
	"loss": 2.3458,
	"step": 23100
	},
	{
	"epoch": 2.824102251978089,
	"grad_norm": 6.964206218719482,
	"learning_rate": 9.781614349775786e-06,
	"loss": 2.3523,
	"step": 23200
	},
	{
	"epoch": 2.836275106512477,
	"grad_norm": 6.069615364074707,
	"learning_rate": 9.737219730941706e-06,
	"loss": 2.3364,
	"step": 23300
	},
	{
	"epoch": 2.8484479610468654,
	"grad_norm": 4.563328266143799,
	"learning_rate": 9.69237668161435e-06,
	"loss": 2.3164,
	"step": 23400
	},
	{
	"epoch": 2.860620815581254,
	"grad_norm": 5.069984436035156,
	"learning_rate": 9.647533632286995e-06,
	"loss": 2.3347,
	"step": 23500
	},
	{
	"epoch": 2.860620815581254,
	"eval_loss": 2.2902982234954834,
	"eval_runtime": 6.9027,
	"eval_samples_per_second": 144.87,
	"eval_steps_per_second": 36.218,
	"step": 23500
	},
	{
	"epoch": 2.8727936701156422,
	"grad_norm": 5.443928241729736,
	"learning_rate": 9.602690582959641e-06,
	"loss": 2.3211,
	"step": 23600
	},
	{
	"epoch": 2.8849665246500305,
	"grad_norm": 5.5851664543151855,
	"learning_rate": 9.557847533632287e-06,
	"loss": 2.3469,
	"step": 23700
	},
	{
	"epoch": 2.8971393791844187,
	"grad_norm": 5.386264324188232,
	"learning_rate": 9.513004484304934e-06,
	"loss": 2.3303,
	"step": 23800
	},
	{
	"epoch": 2.909312233718807,
	"grad_norm": 5.505928993225098,
	"learning_rate": 9.46816143497758e-06,
	"loss": 2.3396,
	"step": 23900
	},
	{
	"epoch": 2.9214850882531955,
	"grad_norm": 5.181743621826172,
	"learning_rate": 9.423318385650226e-06,
	"loss": 2.3214,
	"step": 24000
	},
	{
	"epoch": 2.9214850882531955,
	"eval_loss": 2.28114652633667,
	"eval_runtime": 6.8437,
	"eval_samples_per_second": 146.121,
	"eval_steps_per_second": 36.53,
	"step": 24000
	},
	{
	"epoch": 2.9336579427875837,
	"grad_norm": 6.292041301727295,
	"learning_rate": 9.378475336322872e-06,
	"loss": 2.3341,
	"step": 24100
	},
	{
	"epoch": 2.945830797321972,
	"grad_norm": 5.232330322265625,
	"learning_rate": 9.333632286995517e-06,
	"loss": 2.2984,
	"step": 24200
	},
	{
	"epoch": 2.95800365185636,
	"grad_norm": 5.351822376251221,
	"learning_rate": 9.288789237668161e-06,
	"loss": 2.326,
	"step": 24300
	},
	{
	"epoch": 2.9701765063907484,
	"grad_norm": 5.880828380584717,
	"learning_rate": 9.243946188340807e-06,
	"loss": 2.3399,
	"step": 24400
	},
	{
	"epoch": 2.982349360925137,
	"grad_norm": 5.407314777374268,
	"learning_rate": 9.199103139013453e-06,
	"loss": 2.3007,
	"step": 24500
	},
	{
	"epoch": 2.982349360925137,
	"eval_loss": 2.273526906967163,
	"eval_runtime": 6.9358,
	"eval_samples_per_second": 144.179,
	"eval_steps_per_second": 36.045,
	"step": 24500
	},
	{
	"epoch": 2.9945222154595252,
	"grad_norm": 5.49412727355957,
	"learning_rate": 9.154260089686099e-06,
	"loss": 2.3325,
	"step": 24600
	},
	{
	"epoch": 3.0066950699939134,
	"grad_norm": 5.382359981536865,
	"learning_rate": 9.109417040358746e-06,
	"loss": 2.2779,
	"step": 24700
	},
	{
	"epoch": 3.018867924528302,
	"grad_norm": 6.563231945037842,
	"learning_rate": 9.064573991031392e-06,
	"loss": 2.2142,
	"step": 24800
	},
	{
	"epoch": 3.0310407790626903,
	"grad_norm": 6.05570650100708,
	"learning_rate": 9.019730941704037e-06,
	"loss": 2.1952,
	"step": 24900
	},
	{
	"epoch": 3.0432136335970785,
	"grad_norm": 5.2819366455078125,
	"learning_rate": 8.974887892376683e-06,
	"loss": 2.2244,
	"step": 25000
	},
	{
	"epoch": 3.0432136335970785,
	"eval_loss": 2.253713846206665,
	"eval_runtime": 6.8869,
	"eval_samples_per_second": 145.202,
	"eval_steps_per_second": 36.301,
	"step": 25000
	},
	{
	"epoch": 3.0553864881314667,
	"grad_norm": 5.801946640014648,
	"learning_rate": 8.930044843049329e-06,
	"loss": 2.2423,
	"step": 25100
	},
	{
	"epoch": 3.067559342665855,
	"grad_norm": 5.829814910888672,
	"learning_rate": 8.885201793721973e-06,
	"loss": 2.2372,
	"step": 25200
	},
	{
	"epoch": 3.0797321972002436,
	"grad_norm": 5.983118534088135,
	"learning_rate": 8.840358744394619e-06,
	"loss": 2.2363,
	"step": 25300
	},
	{
	"epoch": 3.091905051734632,
	"grad_norm": 5.694368839263916,
	"learning_rate": 8.795515695067264e-06,
	"loss": 2.1785,
	"step": 25400
	},
	{
	"epoch": 3.10407790626902,
	"grad_norm": 5.976083755493164,
	"learning_rate": 8.75067264573991e-06,
	"loss": 2.2061,
	"step": 25500
	},
	{
	"epoch": 3.10407790626902,
	"eval_loss": 2.2468533515930176,
	"eval_runtime": 6.9894,
	"eval_samples_per_second": 143.075,
	"eval_steps_per_second": 35.769,
	"step": 25500
	},
	{
	"epoch": 3.1162507608034082,
	"grad_norm": 5.972872734069824,
	"learning_rate": 8.705829596412557e-06,
	"loss": 2.2269,
	"step": 25600
	},
	{
	"epoch": 3.128423615337797,
	"grad_norm": 5.245333671569824,
	"learning_rate": 8.660986547085203e-06,
	"loss": 2.2519,
	"step": 25700
	},
	{
	"epoch": 3.140596469872185,
	"grad_norm": 6.581233501434326,
	"learning_rate": 8.616143497757849e-06,
	"loss": 2.2181,
	"step": 25800
	},
	{
	"epoch": 3.1527693244065733,
	"grad_norm": 6.18913459777832,
	"learning_rate": 8.571300448430495e-06,
	"loss": 2.1892,
	"step": 25900
	},
	{
	"epoch": 3.1649421789409615,
	"grad_norm": 5.771265983581543,
	"learning_rate": 8.52645739910314e-06,
	"loss": 2.1789,
	"step": 26000
	},
	{
	"epoch": 3.1649421789409615,
	"eval_loss": 2.2344589233398438,
	"eval_runtime": 6.8267,
	"eval_samples_per_second": 146.484,
	"eval_steps_per_second": 36.621,
	"step": 26000
	},
	{
	"epoch": 3.17711503347535,
	"grad_norm": 6.273107528686523,
	"learning_rate": 8.481614349775784e-06,
	"loss": 2.2029,
	"step": 26100
	},
	{
	"epoch": 3.1892878880097384,
	"grad_norm": 6.768197059631348,
	"learning_rate": 8.43677130044843e-06,
	"loss": 2.2042,
	"step": 26200
	},
	{
	"epoch": 3.2014607425441266,
	"grad_norm": 7.103708267211914,
	"learning_rate": 8.391928251121076e-06,
	"loss": 2.2142,
	"step": 26300
	},
	{
	"epoch": 3.213633597078515,
	"grad_norm": 6.05976676940918,
	"learning_rate": 8.347085201793723e-06,
	"loss": 2.1747,
	"step": 26400
	},
	{
	"epoch": 3.225806451612903,
	"grad_norm": 5.711021900177002,
	"learning_rate": 8.302242152466369e-06,
	"loss": 2.2039,
	"step": 26500
	},
	{
	"epoch": 3.225806451612903,
	"eval_loss": 2.2293026447296143,
	"eval_runtime": 6.8771,
	"eval_samples_per_second": 145.41,
	"eval_steps_per_second": 36.352,
	"step": 26500
	},
	{
	"epoch": 3.2379793061472917,
	"grad_norm": 5.777741432189941,
	"learning_rate": 8.257399103139015e-06,
	"loss": 2.2259,
	"step": 26600
	},
	{
	"epoch": 3.25015216068168,
	"grad_norm": 5.676499843597412,
	"learning_rate": 8.21255605381166e-06,
	"loss": 2.1918,
	"step": 26700
	},
	{
	"epoch": 3.262325015216068,
	"grad_norm": 6.470264911651611,
	"learning_rate": 8.167713004484306e-06,
	"loss": 2.212,
	"step": 26800
	},
	{
	"epoch": 3.2744978697504563,
	"grad_norm": 6.308848857879639,
	"learning_rate": 8.122869955156952e-06,
	"loss": 2.2138,
	"step": 26900
	},
	{
	"epoch": 3.286670724284845,
	"grad_norm": 5.39501428604126,
	"learning_rate": 8.078026905829596e-06,
	"loss": 2.248,
	"step": 27000
	},
	{
	"epoch": 3.286670724284845,
	"eval_loss": 2.2192747592926025,
	"eval_runtime": 6.9636,
	"eval_samples_per_second": 143.603,
	"eval_steps_per_second": 35.901,
	"step": 27000
	},
	{
	"epoch": 3.298843578819233,
	"grad_norm": 5.875838756561279,
	"learning_rate": 8.033183856502242e-06,
	"loss": 2.2131,
	"step": 27100
	},
	{
	"epoch": 3.3110164333536214,
	"grad_norm": 5.159265518188477,
	"learning_rate": 7.988340807174887e-06,
	"loss": 2.2037,
	"step": 27200
	},
	{
	"epoch": 3.3231892878880096,
	"grad_norm": 5.619683265686035,
	"learning_rate": 7.943946188340808e-06,
	"loss": 2.1818,
	"step": 27300
	},
	{
	"epoch": 3.3353621424223983,
	"grad_norm": 7.503751277923584,
	"learning_rate": 7.899103139013453e-06,
	"loss": 2.2087,
	"step": 27400
	},
	{
	"epoch": 3.3475349969567865,
	"grad_norm": 5.3004937171936035,
	"learning_rate": 7.854260089686099e-06,
	"loss": 2.2151,
	"step": 27500
	},
	{
	"epoch": 3.3475349969567865,
	"eval_loss": 2.209369659423828,
	"eval_runtime": 6.9186,
	"eval_samples_per_second": 144.537,
	"eval_steps_per_second": 36.134,
	"step": 27500
	},
	{
	"epoch": 3.3597078514911747,
	"grad_norm": 6.6273193359375,
	"learning_rate": 7.809417040358745e-06,
	"loss": 2.2208,
	"step": 27600
	},
	{
	"epoch": 3.371880706025563,
	"grad_norm": 6.1234588623046875,
	"learning_rate": 7.76457399103139e-06,
	"loss": 2.1957,
	"step": 27700
	},
	{
	"epoch": 3.384053560559951,
	"grad_norm": 6.082681655883789,
	"learning_rate": 7.719730941704036e-06,
	"loss": 2.2202,
	"step": 27800
	},
	{
	"epoch": 3.3962264150943398,
	"grad_norm": 6.618956089019775,
	"learning_rate": 7.674887892376682e-06,
	"loss": 2.2045,
	"step": 27900
	},
	{
	"epoch": 3.408399269628728,
	"grad_norm": 5.74383544921875,
	"learning_rate": 7.630044843049328e-06,
	"loss": 2.2308,
	"step": 28000
	},
	{
	"epoch": 3.408399269628728,
	"eval_loss": 2.206360340118408,
	"eval_runtime": 6.9078,
	"eval_samples_per_second": 144.763,
	"eval_steps_per_second": 36.191,
	"step": 28000
	},
	{
	"epoch": 3.420572124163116,
	"grad_norm": 6.5505690574646,
	"learning_rate": 7.5852017937219735e-06,
	"loss": 2.2036,
	"step": 28100
	},
	{
	"epoch": 3.4327449786975044,
	"grad_norm": 5.887704372406006,
	"learning_rate": 7.540358744394619e-06,
	"loss": 2.1714,
	"step": 28200
	},
	{
	"epoch": 3.444917833231893,
	"grad_norm": 6.853738784790039,
	"learning_rate": 7.495515695067265e-06,
	"loss": 2.2269,
	"step": 28300
	},
	{
	"epoch": 3.4570906877662813,
	"grad_norm": 5.702883243560791,
	"learning_rate": 7.4506726457399115e-06,
	"loss": 2.192,
	"step": 28400
	},
	{
	"epoch": 3.4692635423006695,
	"grad_norm": 6.062043190002441,
	"learning_rate": 7.405829596412557e-06,
	"loss": 2.2095,
	"step": 28500
	},
	{
	"epoch": 3.4692635423006695,
	"eval_loss": 2.1974008083343506,
	"eval_runtime": 6.9256,
	"eval_samples_per_second": 144.392,
	"eval_steps_per_second": 36.098,
	"step": 28500
	},
	{
	"epoch": 3.4814363968350577,
	"grad_norm": 5.228243827819824,
	"learning_rate": 7.360986547085203e-06,
	"loss": 2.221,
	"step": 28600
	},
	{
	"epoch": 3.4936092513694463,
	"grad_norm": 5.8091607093811035,
	"learning_rate": 7.316143497757848e-06,
	"loss": 2.2062,
	"step": 28700
	},
	{
	"epoch": 3.5057821059038345,
	"grad_norm": 4.786416053771973,
	"learning_rate": 7.2713004484304936e-06,
	"loss": 2.1716,
	"step": 28800
	},
	{
	"epoch": 3.5179549604382228,
	"grad_norm": 6.92462158203125,
	"learning_rate": 7.226457399103139e-06,
	"loss": 2.211,
	"step": 28900
	},
	{
	"epoch": 3.530127814972611,
	"grad_norm": 7.192811489105225,
	"learning_rate": 7.181614349775785e-06,
	"loss": 2.2085,
	"step": 29000
	},
	{
	"epoch": 3.530127814972611,
	"eval_loss": 2.185516595840454,
	"eval_runtime": 6.8385,
	"eval_samples_per_second": 146.231,
	"eval_steps_per_second": 36.558,
	"step": 29000
	},
	{
	"epoch": 3.542300669506999,
	"grad_norm": 5.579026222229004,
	"learning_rate": 7.136771300448431e-06,
	"loss": 2.1974,
	"step": 29100
	},
	{
	"epoch": 3.554473524041388,
	"grad_norm": 6.277022838592529,
	"learning_rate": 7.0919282511210765e-06,
	"loss": 2.1982,
	"step": 29200
	},
	{
	"epoch": 3.566646378575776,
	"grad_norm": 5.486943244934082,
	"learning_rate": 7.047533632286996e-06,
	"loss": 2.1877,
	"step": 29300
	},
	{
	"epoch": 3.5788192331101643,
	"grad_norm": 6.431853771209717,
	"learning_rate": 7.0026905829596416e-06,
	"loss": 2.2109,
	"step": 29400
	},
	{
	"epoch": 3.590992087644553,
	"grad_norm": 6.601170539855957,
	"learning_rate": 6.957847533632287e-06,
	"loss": 2.2122,
	"step": 29500
	},
	{
	"epoch": 3.590992087644553,
	"eval_loss": 2.1791625022888184,
	"eval_runtime": 6.9136,
	"eval_samples_per_second": 144.642,
	"eval_steps_per_second": 36.161,
	"step": 29500
	},
	{
	"epoch": 3.603164942178941,
	"grad_norm": 5.159702301025391,
	"learning_rate": 6.913004484304934e-06,
	"loss": 2.2246,
	"step": 29600
	},
	{
	"epoch": 3.6153377967133293,
	"grad_norm": 6.260033130645752,
	"learning_rate": 6.86816143497758e-06,
	"loss": 2.2044,
	"step": 29700
	},
	{
	"epoch": 3.6275106512477175,
	"grad_norm": 5.428004741668701,
	"learning_rate": 6.823318385650225e-06,
	"loss": 2.1735,
	"step": 29800
	},
	{
	"epoch": 3.6396835057821058,
	"grad_norm": 5.895395278930664,
	"learning_rate": 6.77847533632287e-06,
	"loss": 2.2027,
	"step": 29900
	},
	{
	"epoch": 3.6518563603164944,
	"grad_norm": 5.690395355224609,
	"learning_rate": 6.733632286995516e-06,
	"loss": 2.2145,
	"step": 30000
	},
	{
	"epoch": 3.6518563603164944,
	"eval_loss": 2.177266836166382,
	"eval_runtime": 7.0906,
	"eval_samples_per_second": 141.032,
	"eval_steps_per_second": 35.258,
	"step": 30000
	},
	{
	"epoch": 3.6640292148508826,
	"grad_norm": 5.669330596923828,
	"learning_rate": 6.688789237668162e-06,
	"loss": 2.1954,
	"step": 30100
	},
	{
	"epoch": 3.676202069385271,
	"grad_norm": 6.493986129760742,
	"learning_rate": 6.643946188340807e-06,
	"loss": 2.2011,
	"step": 30200
	},
	{
	"epoch": 3.688374923919659,
	"grad_norm": 7.738183975219727,
	"learning_rate": 6.599103139013453e-06,
	"loss": 2.2347,
	"step": 30300
	},
	{
	"epoch": 3.7005477784540473,
	"grad_norm": 6.565354347229004,
	"learning_rate": 6.5542600896861e-06,
	"loss": 2.1945,
	"step": 30400
	},
	{
	"epoch": 3.712720632988436,
	"grad_norm": 6.189778804779053,
	"learning_rate": 6.509417040358745e-06,
	"loss": 2.2141,
	"step": 30500
	},
	{
	"epoch": 3.712720632988436,
	"eval_loss": 2.168225049972534,
	"eval_runtime": 6.9549,
	"eval_samples_per_second": 143.785,
	"eval_steps_per_second": 35.946,
	"step": 30500
	},
	{
	"epoch": 3.724893487522824,
	"grad_norm": 5.11403226852417,
	"learning_rate": 6.464573991031391e-06,
	"loss": 2.2121,
	"step": 30600
	},
	{
	"epoch": 3.7370663420572123,
	"grad_norm": 6.672878742218018,
	"learning_rate": 6.419730941704037e-06,
	"loss": 2.181,
	"step": 30700
	},
	{
	"epoch": 3.749239196591601,
	"grad_norm": 5.224799156188965,
	"learning_rate": 6.374887892376682e-06,
	"loss": 2.1807,
	"step": 30800
	},
	{
	"epoch": 3.761412051125989,
	"grad_norm": 6.442698955535889,
	"learning_rate": 6.330493273542602e-06,
	"loss": 2.2021,
	"step": 30900
	},
	{
	"epoch": 3.7735849056603774,
	"grad_norm": 6.708118438720703,
	"learning_rate": 6.285650224215248e-06,
	"loss": 2.182,
	"step": 31000
	},
	{
	"epoch": 3.7735849056603774,
	"eval_loss": 2.1596100330352783,
	"eval_runtime": 6.872,
	"eval_samples_per_second": 145.518,
	"eval_steps_per_second": 36.38,
	"step": 31000
	},
	{
	"epoch": 3.7857577601947656,
	"grad_norm": 6.288793087005615,
	"learning_rate": 6.2408071748878926e-06,
	"loss": 2.1886,
	"step": 31100
	},
	{
	"epoch": 3.797930614729154,
	"grad_norm": 6.112220287322998,
	"learning_rate": 6.195964125560538e-06,
	"loss": 2.2107,
	"step": 31200
	},
	{
	"epoch": 3.8101034692635425,
	"grad_norm": 6.044913291931152,
	"learning_rate": 6.151121076233184e-06,
	"loss": 2.2246,
	"step": 31300
	},
	{
	"epoch": 3.8222763237979307,
	"grad_norm": 6.079142093658447,
	"learning_rate": 6.10627802690583e-06,
	"loss": 2.2187,
	"step": 31400
	},
	{
	"epoch": 3.834449178332319,
	"grad_norm": 5.865757942199707,
	"learning_rate": 6.0614349775784755e-06,
	"loss": 2.2069,
	"step": 31500
	},
	{
	"epoch": 3.834449178332319,
	"eval_loss": 2.156599760055542,
	"eval_runtime": 6.8965,
	"eval_samples_per_second": 145.001,
	"eval_steps_per_second": 36.25,
	"step": 31500
	},
	{
	"epoch": 3.846622032866707,
	"grad_norm": 6.289271354675293,
	"learning_rate": 6.016591928251122e-06,
	"loss": 2.2349,
	"step": 31600
	},
	{
	"epoch": 3.8587948874010953,
	"grad_norm": 6.607455730438232,
	"learning_rate": 5.971748878923768e-06,
	"loss": 2.1849,
	"step": 31700
	},
	{
	"epoch": 3.870967741935484,
	"grad_norm": 6.193937301635742,
	"learning_rate": 5.9269058295964135e-06,
	"loss": 2.1901,
	"step": 31800
	},
	{
	"epoch": 3.883140596469872,
	"grad_norm": 5.6171650886535645,
	"learning_rate": 5.882062780269059e-06,
	"loss": 2.1968,
	"step": 31900
	},
	{
	"epoch": 3.8953134510042604,
	"grad_norm": 7.239607334136963,
	"learning_rate": 5.837219730941704e-06,
	"loss": 2.1984,
	"step": 32000
	},
	{
	"epoch": 3.8953134510042604,
	"eval_loss": 2.1437973976135254,
	"eval_runtime": 6.9069,
	"eval_samples_per_second": 144.782,
	"eval_steps_per_second": 36.195,
	"step": 32000
	},
	{
	"epoch": 3.907486305538649,
	"grad_norm": 6.314813613891602,
	"learning_rate": 5.79237668161435e-06,
	"loss": 2.1706,
	"step": 32100
	},
	{
	"epoch": 3.9196591600730373,
	"grad_norm": 5.416664123535156,
	"learning_rate": 5.7475336322869956e-06,
	"loss": 2.1852,
	"step": 32200
	},
	{
	"epoch": 3.9318320146074255,
	"grad_norm": 6.1277594566345215,
	"learning_rate": 5.702690582959641e-06,
	"loss": 2.2202,
	"step": 32300
	},
	{
	"epoch": 3.9440048691418137,
	"grad_norm": 6.0932440757751465,
	"learning_rate": 5.657847533632288e-06,
	"loss": 2.1591,
	"step": 32400
	},
	{
	"epoch": 3.956177723676202,
	"grad_norm": 6.029341697692871,
	"learning_rate": 5.613004484304934e-06,
	"loss": 2.1805,
	"step": 32500
	},
	{
	"epoch": 3.956177723676202,
	"eval_loss": 2.138620138168335,
	"eval_runtime": 6.9091,
	"eval_samples_per_second": 144.737,
	"eval_steps_per_second": 36.184,
	"step": 32500
	},
	{
	"epoch": 3.9683505782105906,
	"grad_norm": 6.374738693237305,
	"learning_rate": 5.568161434977579e-06,
	"loss": 2.168,
	"step": 32600
	},
	{
	"epoch": 3.9805234327449788,
	"grad_norm": 6.206404209136963,
	"learning_rate": 5.523318385650225e-06,
	"loss": 2.2168,
	"step": 32700
	},
	{
	"epoch": 3.992696287279367,
	"grad_norm": 6.701908588409424,
	"learning_rate": 5.478475336322871e-06,
	"loss": 2.1796,
	"step": 32800
	},
	{
	"epoch": 4.004869141813756,
	"grad_norm": 6.456433296203613,
	"learning_rate": 5.433632286995516e-06,
	"loss": 2.1461,
	"step": 32900
	},
	{
	"epoch": 4.017041996348143,
	"grad_norm": 6.578303337097168,
	"learning_rate": 5.388789237668161e-06,
	"loss": 2.1061,
	"step": 33000
	},
	{
	"epoch": 4.017041996348143,
	"eval_loss": 2.123652458190918,
	"eval_runtime": 6.8771,
	"eval_samples_per_second": 145.409,
	"eval_steps_per_second": 36.352,
	"step": 33000
	},
	{
	"epoch": 4.029214850882532,
	"grad_norm": 5.736875057220459,
	"learning_rate": 5.343946188340807e-06,
	"loss": 2.098,
	"step": 33100
	},
	{
	"epoch": 4.04138770541692,
	"grad_norm": 6.322964191436768,
	"learning_rate": 5.299103139013453e-06,
	"loss": 2.1334,
	"step": 33200
	},
	{
	"epoch": 4.0535605599513085,
	"grad_norm": 7.002594470977783,
	"learning_rate": 5.2542600896860994e-06,
	"loss": 2.1186,
	"step": 33300
	},
	{
	"epoch": 4.065733414485697,
	"grad_norm": 6.592886924743652,
	"learning_rate": 5.209417040358745e-06,
	"loss": 2.1218,
	"step": 33400
	},
	{
	"epoch": 4.077906269020085,
	"grad_norm": 6.610073566436768,
	"learning_rate": 5.164573991031391e-06,
	"loss": 2.1112,
	"step": 33500
	},
	{
	"epoch": 4.077906269020085,
	"eval_loss": 2.115506172180176,
	"eval_runtime": 6.8933,
	"eval_samples_per_second": 145.068,
	"eval_steps_per_second": 36.267,
	"step": 33500
	},
	{
	"epoch": 4.090079123554474,
	"grad_norm": 6.308100700378418,
	"learning_rate": 5.119730941704037e-06,
	"loss": 2.0984,
	"step": 33600
	},
	{
	"epoch": 4.102251978088862,
	"grad_norm": 5.7667083740234375,
	"learning_rate": 5.074887892376682e-06,
	"loss": 2.1189,
	"step": 33700
	},
	{
	"epoch": 4.11442483262325,
	"grad_norm": 6.554234504699707,
	"learning_rate": 5.030044843049327e-06,
	"loss": 2.1006,
	"step": 33800
	},
	{
	"epoch": 4.126597687157639,
	"grad_norm": 6.494872570037842,
	"learning_rate": 4.985201793721974e-06,
	"loss": 2.1258,
	"step": 33900
	},
	{
	"epoch": 4.138770541692026,
	"grad_norm": 6.796899318695068,
	"learning_rate": 4.940807174887893e-06,
	"loss": 2.1335,
	"step": 34000
	},
	{
	"epoch": 4.138770541692026,
	"eval_loss": 2.1111514568328857,
	"eval_runtime": 6.8774,
	"eval_samples_per_second": 145.404,
	"eval_steps_per_second": 36.351,
	"step": 34000
	},
	{
	"epoch": 4.150943396226415,
	"grad_norm": 5.832895755767822,
	"learning_rate": 4.895964125560538e-06,
	"loss": 2.0956,
	"step": 34100
	},
	{
	"epoch": 4.163116250760804,
	"grad_norm": 5.17689847946167,
	"learning_rate": 4.851121076233185e-06,
	"loss": 2.1503,
	"step": 34200
	},
	{
	"epoch": 4.1752891052951915,
	"grad_norm": 6.65399694442749,
	"learning_rate": 4.80627802690583e-06,
	"loss": 2.1244,
	"step": 34300
	},
	{
	"epoch": 4.18746195982958,
	"grad_norm": 6.744587421417236,
	"learning_rate": 4.761434977578476e-06,
	"loss": 2.1237,
	"step": 34400
	},
	{
	"epoch": 4.199634814363968,
	"grad_norm": 6.663182258605957,
	"learning_rate": 4.716591928251121e-06,
	"loss": 2.1198,
	"step": 34500
	},
	{
	"epoch": 4.199634814363968,
	"eval_loss": 2.1056010723114014,
	"eval_runtime": 6.9075,
	"eval_samples_per_second": 144.771,
	"eval_steps_per_second": 36.193,
	"step": 34500
	},
	{
	"epoch": 4.211807668898357,
	"grad_norm": 6.046566009521484,
	"learning_rate": 4.671748878923767e-06,
	"loss": 2.0746,
	"step": 34600
	},
	{
	"epoch": 4.223980523432745,
	"grad_norm": 6.08657169342041,
	"learning_rate": 4.626905829596413e-06,
	"loss": 2.1154,
	"step": 34700
	},
	{
	"epoch": 4.236153377967133,
	"grad_norm": 6.235377788543701,
	"learning_rate": 4.582062780269059e-06,
	"loss": 2.1013,
	"step": 34800
	},
	{
	"epoch": 4.248326232501522,
	"grad_norm": 5.864556312561035,
	"learning_rate": 4.537219730941705e-06,
	"loss": 2.1293,
	"step": 34900
	},
	{
	"epoch": 4.26049908703591,
	"grad_norm": 6.5032124519348145,
	"learning_rate": 4.49237668161435e-06,
	"loss": 2.0909,
	"step": 35000
	},
	{
	"epoch": 4.26049908703591,
	"eval_loss": 2.1002509593963623,
	"eval_runtime": 6.9552,
	"eval_samples_per_second": 143.777,
	"eval_steps_per_second": 35.944,
	"step": 35000
	},
	{
	"epoch": 4.272671941570298,
	"grad_norm": 5.491804599761963,
	"learning_rate": 4.447533632286996e-06,
	"loss": 2.1075,
	"step": 35100
	},
	{
	"epoch": 4.284844796104687,
	"grad_norm": 6.165935516357422,
	"learning_rate": 4.402690582959642e-06,
	"loss": 2.1172,
	"step": 35200
	},
	{
	"epoch": 4.2970176506390745,
	"grad_norm": 6.2660369873046875,
	"learning_rate": 4.357847533632288e-06,
	"loss": 2.1234,
	"step": 35300
	},
	{
	"epoch": 4.309190505173463,
	"grad_norm": 6.266602516174316,
	"learning_rate": 4.3130044843049325e-06,
	"loss": 2.1023,
	"step": 35400
	},
	{
	"epoch": 4.321363359707852,
	"grad_norm": 6.377227306365967,
	"learning_rate": 4.268161434977579e-06,
	"loss": 2.095,
	"step": 35500
	},
	{
	"epoch": 4.321363359707852,
	"eval_loss": 2.096508264541626,
	"eval_runtime": 6.896,
	"eval_samples_per_second": 145.011,
	"eval_steps_per_second": 36.253,
	"step": 35500
	},
	{
	"epoch": 4.33353621424224,
	"grad_norm": 5.756918907165527,
	"learning_rate": 4.223318385650225e-06,
	"loss": 2.1258,
	"step": 35600
	},
	{
	"epoch": 4.345709068776628,
	"grad_norm": 6.3634934425354,
	"learning_rate": 4.1784753363228705e-06,
	"loss": 2.1326,
	"step": 35700
	},
	{
	"epoch": 4.357881923311016,
	"grad_norm": 6.081814765930176,
	"learning_rate": 4.133632286995516e-06,
	"loss": 2.0923,
	"step": 35800
	},
	{
	"epoch": 4.370054777845405,
	"grad_norm": 5.829545021057129,
	"learning_rate": 4.088789237668161e-06,
	"loss": 2.1001,
	"step": 35900
	},
	{
	"epoch": 4.382227632379793,
	"grad_norm": 7.019509315490723,
	"learning_rate": 4.043946188340808e-06,
	"loss": 2.0947,
	"step": 36000
	},
	{
	"epoch": 4.382227632379793,
	"eval_loss": 2.0914690494537354,
	"eval_runtime": 6.9162,
	"eval_samples_per_second": 144.589,
	"eval_steps_per_second": 36.147,
	"step": 36000
	},
	{
	"epoch": 4.394400486914181,
	"grad_norm": 7.135252952575684,
	"learning_rate": 3.9991031390134534e-06,
	"loss": 2.111,
	"step": 36100
	},
	{
	"epoch": 4.40657334144857,
	"grad_norm": 5.3956522941589355,
	"learning_rate": 3.954260089686099e-06,
	"loss": 2.1072,
	"step": 36200
	},
	{
	"epoch": 4.418746195982958,
	"grad_norm": 5.853066921234131,
	"learning_rate": 3.909417040358744e-06,
	"loss": 2.1327,
	"step": 36300
	},
	{
	"epoch": 4.430919050517346,
	"grad_norm": 6.294539928436279,
	"learning_rate": 3.864573991031391e-06,
	"loss": 2.0886,
	"step": 36400
	},
	{
	"epoch": 4.443091905051735,
	"grad_norm": 7.183646202087402,
	"learning_rate": 3.819730941704036e-06,
	"loss": 2.139,
	"step": 36500
	},
	{
	"epoch": 4.443091905051735,
	"eval_loss": 2.0876991748809814,
	"eval_runtime": 6.8527,
	"eval_samples_per_second": 145.928,
	"eval_steps_per_second": 36.482,
	"step": 36500
	},
	{
	"epoch": 4.455264759586123,
	"grad_norm": 6.069007396697998,
	"learning_rate": 3.7748878923766817e-06,
	"loss": 2.1076,
	"step": 36600
	},
	{
	"epoch": 4.467437614120511,
	"grad_norm": 6.092281341552734,
	"learning_rate": 3.7300448430493274e-06,
	"loss": 2.1274,
	"step": 36700
	},
	{
	"epoch": 4.4796104686549,
	"grad_norm": 6.095892429351807,
	"learning_rate": 3.6852017937219735e-06,
	"loss": 2.1202,
	"step": 36800
	},
	{
	"epoch": 4.491783323189288,
	"grad_norm": 6.349238395690918,
	"learning_rate": 3.6403587443946193e-06,
	"loss": 2.1192,
	"step": 36900
	},
	{
	"epoch": 4.503956177723676,
	"grad_norm": 6.508525848388672,
	"learning_rate": 3.595515695067265e-06,
	"loss": 2.106,
	"step": 37000
	},
	{
	"epoch": 4.503956177723676,
	"eval_loss": 2.0852510929107666,
	"eval_runtime": 6.9159,
	"eval_samples_per_second": 144.595,
	"eval_steps_per_second": 36.149,
	"step": 37000
	},
	{
	"epoch": 4.516129032258064,
	"grad_norm": 6.2998046875,
	"learning_rate": 3.5506726457399103e-06,
	"loss": 2.1264,
	"step": 37100
	},
	{
	"epoch": 4.528301886792453,
	"grad_norm": 6.988924503326416,
	"learning_rate": 3.5058295964125565e-06,
	"loss": 2.0855,
	"step": 37200
	},
	{
	"epoch": 4.540474741326841,
	"grad_norm": 5.999715328216553,
	"learning_rate": 3.460986547085202e-06,
	"loss": 2.1288,
	"step": 37300
	},
	{
	"epoch": 4.552647595861229,
	"grad_norm": 5.390603542327881,
	"learning_rate": 3.416143497757848e-06,
	"loss": 2.1119,
	"step": 37400
	},
	{
	"epoch": 4.564820450395618,
	"grad_norm": 5.443009853363037,
	"learning_rate": 3.3713004484304932e-06,
	"loss": 2.1137,
	"step": 37500
	},
	{
	"epoch": 4.564820450395618,
	"eval_loss": 2.0807323455810547,
	"eval_runtime": 6.868,
	"eval_samples_per_second": 145.603,
	"eval_steps_per_second": 36.401,
	"step": 37500
	},
	{
	"epoch": 4.5769933049300064,
	"grad_norm": 6.028597831726074,
	"learning_rate": 3.326457399103139e-06,
	"loss": 2.1233,
	"step": 37600
	},
	{
	"epoch": 4.589166159464394,
	"grad_norm": 6.3508992195129395,
	"learning_rate": 3.281614349775785e-06,
	"loss": 2.0785,
	"step": 37700
	},
	{
	"epoch": 4.601339013998783,
	"grad_norm": 6.304683685302734,
	"learning_rate": 3.237219730941704e-06,
	"loss": 2.1058,
	"step": 37800
	},
	{
	"epoch": 4.6135118685331715,
	"grad_norm": 5.774105548858643,
	"learning_rate": 3.1923766816143497e-06,
	"loss": 2.1363,
	"step": 37900
	},
	{
	"epoch": 4.625684723067559,
	"grad_norm": 6.000542163848877,
	"learning_rate": 3.147533632286996e-06,
	"loss": 2.1097,
	"step": 38000
	},
	{
	"epoch": 4.625684723067559,
	"eval_loss": 2.0734775066375732,
	"eval_runtime": 6.9601,
	"eval_samples_per_second": 143.677,
	"eval_steps_per_second": 35.919,
	"step": 38000
	},
	{
	"epoch": 4.637857577601948,
	"grad_norm": 6.037074565887451,
	"learning_rate": 3.1026905829596416e-06,
	"loss": 2.0839,
	"step": 38100
	},
	{
	"epoch": 4.650030432136336,
	"grad_norm": 6.941400051116943,
	"learning_rate": 3.0578475336322874e-06,
	"loss": 2.0961,
	"step": 38200
	},
	{
	"epoch": 4.662203286670724,
	"grad_norm": 6.625183582305908,
	"learning_rate": 3.0130044843049327e-06,
	"loss": 2.1532,
	"step": 38300
	},
	{
	"epoch": 4.674376141205112,
	"grad_norm": 5.852269649505615,
	"learning_rate": 2.968161434977579e-06,
	"loss": 2.1085,
	"step": 38400
	},
	{
	"epoch": 4.686548995739501,
	"grad_norm": 5.130061626434326,
	"learning_rate": 2.9233183856502245e-06,
	"loss": 2.1028,
	"step": 38500
	},
	{
	"epoch": 4.686548995739501,
	"eval_loss": 2.070453643798828,
	"eval_runtime": 6.9577,
	"eval_samples_per_second": 143.725,
	"eval_steps_per_second": 35.931,
	"step": 38500
	},
	{
	"epoch": 4.6987218502738894,
	"grad_norm": 6.478227615356445,
	"learning_rate": 2.8784753363228703e-06,
	"loss": 2.0895,
	"step": 38600
	},
	{
	"epoch": 4.710894704808277,
	"grad_norm": 6.043088436126709,
	"learning_rate": 2.8336322869955156e-06,
	"loss": 2.1032,
	"step": 38700
	},
	{
	"epoch": 4.723067559342666,
	"grad_norm": 6.732186317443848,
	"learning_rate": 2.7887892376681617e-06,
	"loss": 2.0838,
	"step": 38800
	},
	{
	"epoch": 4.7352404138770545,
	"grad_norm": 6.393290996551514,
	"learning_rate": 2.7439461883408075e-06,
	"loss": 2.1058,
	"step": 38900
	},
	{
	"epoch": 4.747413268411442,
	"grad_norm": 6.3943705558776855,
	"learning_rate": 2.699103139013453e-06,
	"loss": 2.1142,
	"step": 39000
	},
	{
	"epoch": 4.747413268411442,
	"eval_loss": 2.0703060626983643,
	"eval_runtime": 7.0835,
	"eval_samples_per_second": 141.172,
	"eval_steps_per_second": 35.293,
	"step": 39000
	},
	{
	"epoch": 4.759586122945831,
	"grad_norm": 5.651825428009033,
	"learning_rate": 2.654260089686099e-06,
	"loss": 2.1099,
	"step": 39100
	},
	{
	"epoch": 4.77175897748022,
	"grad_norm": 5.763203144073486,
	"learning_rate": 2.609417040358745e-06,
	"loss": 2.1199,
	"step": 39200
	},
	{
	"epoch": 4.783931832014607,
	"grad_norm": 6.404742240905762,
	"learning_rate": 2.5645739910313904e-06,
	"loss": 2.1065,
	"step": 39300
	},
	{
	"epoch": 4.796104686548996,
	"grad_norm": 6.63946533203125,
	"learning_rate": 2.519730941704036e-06,
	"loss": 2.0982,
	"step": 39400
	},
	{
	"epoch": 4.808277541083384,
	"grad_norm": 6.3910675048828125,
	"learning_rate": 2.474887892376682e-06,
	"loss": 2.0945,
	"step": 39500
	},
	{
	"epoch": 4.808277541083384,
	"eval_loss": 2.066244602203369,
	"eval_runtime": 7.0266,
	"eval_samples_per_second": 142.317,
	"eval_steps_per_second": 35.579,
	"step": 39500
	},
	{
	"epoch": 4.820450395617772,
	"grad_norm": 6.50945520401001,
	"learning_rate": 2.4300448430493276e-06,
	"loss": 2.0619,
	"step": 39600
	},
	{
	"epoch": 4.83262325015216,
	"grad_norm": 6.681357383728027,
	"learning_rate": 2.3852017937219733e-06,
	"loss": 2.097,
	"step": 39700
	},
	{
	"epoch": 4.844796104686549,
	"grad_norm": 5.813176155090332,
	"learning_rate": 2.340358744394619e-06,
	"loss": 2.1173,
	"step": 39800
	},
	{
	"epoch": 4.8569689592209375,
	"grad_norm": 6.834031581878662,
	"learning_rate": 2.2955156950672647e-06,
	"loss": 2.0721,
	"step": 39900
	},
	{
	"epoch": 4.869141813755325,
	"grad_norm": 5.929574966430664,
	"learning_rate": 2.2506726457399105e-06,
	"loss": 2.1325,
	"step": 40000
	},
	{
	"epoch": 4.869141813755325,
	"eval_loss": 2.064162254333496,
	"eval_runtime": 7.021,
	"eval_samples_per_second": 142.43,
	"eval_steps_per_second": 35.608,
	"step": 40000
	},
	{
	"epoch": 4.881314668289714,
	"grad_norm": 6.4569830894470215,
	"learning_rate": 2.205829596412556e-06,
	"loss": 2.1224,
	"step": 40100
	},
	{
	"epoch": 4.893487522824103,
	"grad_norm": 6.773449897766113,
	"learning_rate": 2.160986547085202e-06,
	"loss": 2.1037,
	"step": 40200
	},
	{
	"epoch": 4.90566037735849,
	"grad_norm": 6.341082572937012,
	"learning_rate": 2.1165919282511213e-06,
	"loss": 2.0936,
	"step": 40300
	},
	{
	"epoch": 4.917833231892879,
	"grad_norm": 6.29095983505249,
	"learning_rate": 2.071748878923767e-06,
	"loss": 2.141,
	"step": 40400
	},
	{
	"epoch": 4.930006086427268,
	"grad_norm": 7.924270153045654,
	"learning_rate": 2.0269058295964127e-06,
	"loss": 2.0937,
	"step": 40500
	},
	{
	"epoch": 4.930006086427268,
	"eval_loss": 2.0617458820343018,
	"eval_runtime": 6.9841,
	"eval_samples_per_second": 143.183,
	"eval_steps_per_second": 35.796,
	"step": 40500
	},
	{
	"epoch": 4.942178940961655,
	"grad_norm": 7.386099338531494,
	"learning_rate": 1.9820627802690585e-06,
	"loss": 2.1187,
	"step": 40600
	},
	{
	"epoch": 4.954351795496044,
	"grad_norm": 6.6330413818359375,
	"learning_rate": 1.937219730941704e-06,
	"loss": 2.0891,
	"step": 40700
	},
	{
	"epoch": 4.966524650030432,
	"grad_norm": 5.590965747833252,
	"learning_rate": 1.89237668161435e-06,
	"loss": 2.0809,
	"step": 40800
	},
	{
	"epoch": 4.9786975045648205,
	"grad_norm": 6.468350410461426,
	"learning_rate": 1.8475336322869959e-06,
	"loss": 2.0654,
	"step": 40900
	},
	{
	"epoch": 4.990870359099208,
	"grad_norm": 6.724806308746338,
	"learning_rate": 1.8026905829596414e-06,
	"loss": 2.0938,
	"step": 41000
	},
	{
	"epoch": 4.990870359099208,
	"eval_loss": 2.057617664337158,
	"eval_runtime": 7.1367,
	"eval_samples_per_second": 140.121,
	"eval_steps_per_second": 35.03,
	"step": 41000
	},
	{
	"epoch": 5.003043213633597,
	"grad_norm": 5.549363136291504,
	"learning_rate": 1.7578475336322873e-06,
	"loss": 2.0672,
	"step": 41100
	},
	{
	"epoch": 5.015216068167986,
	"grad_norm": 6.4161152839660645,
	"learning_rate": 1.7130044843049328e-06,
	"loss": 2.0589,
	"step": 41200
	},
	{
	"epoch": 5.027388922702373,
	"grad_norm": 6.318953514099121,
	"learning_rate": 1.6681614349775786e-06,
	"loss": 2.0643,
	"step": 41300
	},
	{
	"epoch": 5.039561777236762,
	"grad_norm": 7.292160987854004,
	"learning_rate": 1.6233183856502243e-06,
	"loss": 2.0718,
	"step": 41400
	},
	{
	"epoch": 5.051734631771151,
	"grad_norm": 6.140988349914551,
	"learning_rate": 1.57847533632287e-06,
	"loss": 2.0437,
	"step": 41500
	},
	{
	"epoch": 5.051734631771151,
	"eval_loss": 2.051799774169922,
	"eval_runtime": 7.0596,
	"eval_samples_per_second": 141.651,
	"eval_steps_per_second": 35.413,
	"step": 41500
	},
	{
	"epoch": 5.063907486305538,
	"grad_norm": 6.15008020401001,
	"learning_rate": 1.533632286995516e-06,
	"loss": 2.0561,
	"step": 41600
	},
	{
	"epoch": 5.076080340839927,
	"grad_norm": 6.889511585235596,
	"learning_rate": 1.4887892376681615e-06,
	"loss": 2.0729,
	"step": 41700
	},
	{
	"epoch": 5.088253195374315,
	"grad_norm": 5.815738201141357,
	"learning_rate": 1.4439461883408074e-06,
	"loss": 2.0413,
	"step": 41800
	},
	{
	"epoch": 5.1004260499087035,
	"grad_norm": 5.965245723724365,
	"learning_rate": 1.399103139013453e-06,
	"loss": 2.0407,
	"step": 41900
	},
	{
	"epoch": 5.112598904443092,
	"grad_norm": 7.188913345336914,
	"learning_rate": 1.3542600896860989e-06,
	"loss": 2.0781,
	"step": 42000
	},
	{
	"epoch": 5.112598904443092,
	"eval_loss": 2.0501816272735596,
	"eval_runtime": 6.9017,
	"eval_samples_per_second": 144.892,
	"eval_steps_per_second": 36.223,
	"step": 42000
	},
	{
	"epoch": 5.12477175897748,
	"grad_norm": 7.101166725158691,
	"learning_rate": 1.3094170403587444e-06,
	"loss": 2.0348,
	"step": 42100
	},
	{
	"epoch": 5.136944613511869,
	"grad_norm": 5.820453643798828,
	"learning_rate": 1.2645739910313903e-06,
	"loss": 2.0497,
	"step": 42200
	},
	{
	"epoch": 5.149117468046257,
	"grad_norm": 5.811570167541504,
	"learning_rate": 1.2197309417040358e-06,
	"loss": 2.058,
	"step": 42300
	},
	{
	"epoch": 5.161290322580645,
	"grad_norm": 6.54494047164917,
	"learning_rate": 1.1748878923766818e-06,
	"loss": 2.0833,
	"step": 42400
	},
	{
	"epoch": 5.173463177115034,
	"grad_norm": 6.547015190124512,
	"learning_rate": 1.1300448430493275e-06,
	"loss": 2.0671,
	"step": 42500
	},
	{
	"epoch": 5.173463177115034,
	"eval_loss": 2.049518346786499,
	"eval_runtime": 7.0155,
	"eval_samples_per_second": 142.542,
	"eval_steps_per_second": 35.636,
	"step": 42500
	},
	{
	"epoch": 5.185636031649421,
	"grad_norm": 6.079003810882568,
	"learning_rate": 1.0852017937219732e-06,
	"loss": 2.0732,
	"step": 42600
	},
	{
	"epoch": 5.19780888618381,
	"grad_norm": 6.835382461547852,
	"learning_rate": 1.040358744394619e-06,
	"loss": 2.0516,
	"step": 42700
	},
	{
	"epoch": 5.209981740718199,
	"grad_norm": 6.055761814117432,
	"learning_rate": 9.955156950672647e-07,
	"loss": 2.0639,
	"step": 42800
	},
	{
	"epoch": 5.2221545952525865,
	"grad_norm": 6.516651630401611,
	"learning_rate": 9.511210762331839e-07,
	"loss": 2.0597,
	"step": 42900
	},
	{
	"epoch": 5.234327449786975,
	"grad_norm": 5.874512195587158,
	"learning_rate": 9.062780269058297e-07,
	"loss": 2.073,
	"step": 43000
	},
	{
	"epoch": 5.234327449786975,
	"eval_loss": 2.0482187271118164,
	"eval_runtime": 6.8896,
	"eval_samples_per_second": 145.145,
	"eval_steps_per_second": 36.286,
	"step": 43000
	},
	{
	"epoch": 5.246500304321363,
	"grad_norm": 6.2515459060668945,
	"learning_rate": 8.614349775784754e-07,
	"loss": 2.0594,
	"step": 43100
	},
	{
	"epoch": 5.258673158855752,
	"grad_norm": 6.7219438552856445,
	"learning_rate": 8.165919282511211e-07,
	"loss": 2.0138,
	"step": 43200
	},
	{
	"epoch": 5.27084601339014,
	"grad_norm": 6.588565349578857,
	"learning_rate": 7.71748878923767e-07,
	"loss": 2.089,
	"step": 43300
	},
	{
	"epoch": 5.283018867924528,
	"grad_norm": 6.52641487121582,
	"learning_rate": 7.269058295964127e-07,
	"loss": 2.0274,
	"step": 43400
	},
	{
	"epoch": 5.295191722458917,
	"grad_norm": 7.77009391784668,
	"learning_rate": 6.820627802690584e-07,
	"loss": 2.0412,
	"step": 43500
	},
	{
	"epoch": 5.295191722458917,
	"eval_loss": 2.0471861362457275,
	"eval_runtime": 6.8473,
	"eval_samples_per_second": 146.043,
	"eval_steps_per_second": 36.511,
	"step": 43500
	},
	{
	"epoch": 5.307364576993305,
	"grad_norm": 6.563704490661621,
	"learning_rate": 6.372197309417041e-07,
	"loss": 2.0538,
	"step": 43600
	},
	{
	"epoch": 5.319537431527693,
	"grad_norm": 5.842877388000488,
	"learning_rate": 5.923766816143499e-07,
	"loss": 2.0378,
	"step": 43700
	},
	{
	"epoch": 5.331710286062082,
	"grad_norm": 5.96117639541626,
	"learning_rate": 5.475336322869956e-07,
	"loss": 2.0702,
	"step": 43800
	},
	{
	"epoch": 5.3438831405964695,
	"grad_norm": 6.195252895355225,
	"learning_rate": 5.026905829596413e-07,
	"loss": 2.0519,
	"step": 43900
	},
	{
	"epoch": 5.356055995130858,
	"grad_norm": 6.967134475708008,
	"learning_rate": 4.5784753363228705e-07,
	"loss": 2.0747,
	"step": 44000
	},
	{
	"epoch": 5.356055995130858,
	"eval_loss": 2.046496629714966,
	"eval_runtime": 6.9289,
	"eval_samples_per_second": 144.322,
	"eval_steps_per_second": 36.081,
	"step": 44000
	},
	{
	"epoch": 5.368228849665247,
	"grad_norm": 5.7902984619140625,
	"learning_rate": 4.130044843049328e-07,
	"loss": 2.0551,
	"step": 44100
	},
	{
	"epoch": 5.380401704199635,
	"grad_norm": 6.01054048538208,
	"learning_rate": 3.6816143497757846e-07,
	"loss": 2.0569,
	"step": 44200
	},
	{
	"epoch": 5.392574558734023,
	"grad_norm": 6.690357685089111,
	"learning_rate": 3.2331838565022424e-07,
	"loss": 2.08,
	"step": 44300
	},
	{
	"epoch": 5.404747413268412,
	"grad_norm": 5.836359024047852,
	"learning_rate": 2.7847533632286997e-07,
	"loss": 2.0405,
	"step": 44400
	},
	{
	"epoch": 5.4169202678028,
	"grad_norm": 6.3250298500061035,
	"learning_rate": 2.3363228699551572e-07,
	"loss": 2.0717,
	"step": 44500
	},
	{
	"epoch": 5.4169202678028,
	"eval_loss": 2.04555606842041,
	"eval_runtime": 6.9014,
	"eval_samples_per_second": 144.899,
	"eval_steps_per_second": 36.225,
	"step": 44500
	},
	{
	"epoch": 5.429093122337188,
	"grad_norm": 6.5666890144348145,
	"learning_rate": 1.8878923766816145e-07,
	"loss": 2.06,
	"step": 44600
	},
	{
	"epoch": 5.441265976871576,
	"grad_norm": 7.2658843994140625,
	"learning_rate": 1.4394618834080718e-07,
	"loss": 2.0556,
	"step": 44700
	},
	{
	"epoch": 5.453438831405965,
	"grad_norm": 6.671789646148682,
	"learning_rate": 9.910313901345293e-08,
	"loss": 2.0642,
	"step": 44800
	},
	{
	"epoch": 5.465611685940353,
	"grad_norm": 5.944987773895264,
	"learning_rate": 5.426008968609866e-08,
	"loss": 2.0414,
	"step": 44900
	},
	{
	"epoch": 5.477784540474741,
	"grad_norm": 6.427646636962891,
	"learning_rate": 9.417040358744396e-09,
	"loss": 2.0667,
	"step": 45000
	},
	{
	"epoch": 5.477784540474741,
	"eval_loss": 2.0452468395233154,
	"eval_runtime": 7.0229,
	"eval_samples_per_second": 142.391,
	"eval_steps_per_second": 35.598,
	"step": 45000
	},
	{
	"epoch": 5.48995739500913,
	"grad_norm": 6.559889793395996,
	"learning_rate": 5.007718120805369e-06,
	"loss": 2.0447,
	"step": 45100
	},
	{
	"epoch": 5.502130249543518,
	"grad_norm": 6.235354423522949,
	"learning_rate": 4.974161073825503e-06,
	"loss": 2.0806,
	"step": 45200
	},
	{
	"epoch": 5.514303104077906,
	"grad_norm": 7.230030536651611,
	"learning_rate": 4.940604026845638e-06,
	"loss": 2.0696,
	"step": 45300
	},
	{
	"epoch": 5.526475958612295,
	"grad_norm": 5.613503456115723,
	"learning_rate": 4.907046979865772e-06,
	"loss": 2.0662,
	"step": 45400
	},
	{
	"epoch": 5.538648813146683,
	"grad_norm": 5.988820552825928,
	"learning_rate": 4.873489932885906e-06,
	"loss": 2.0551,
	"step": 45500
	},
	{
	"epoch": 5.538648813146683,
	"eval_loss": 2.0472412109375,
	"eval_runtime": 6.7805,
	"eval_samples_per_second": 147.481,
	"eval_steps_per_second": 36.87,
	"step": 45500
	},
	{
	"epoch": 5.550821667681071,
	"grad_norm": 6.566047191619873,
	"learning_rate": 4.8399328859060404e-06,
	"loss": 2.0652,
	"step": 45600
	},
	{
	"epoch": 5.56299452221546,
	"grad_norm": 6.979294300079346,
	"learning_rate": 4.806375838926175e-06,
	"loss": 2.0409,
	"step": 45700
	},
	{
	"epoch": 5.575167376749848,
	"grad_norm": 6.474365234375,
	"learning_rate": 4.772818791946309e-06,
	"loss": 2.0562,
	"step": 45800
	},
	{
	"epoch": 5.587340231284236,
	"grad_norm": 6.100124835968018,
	"learning_rate": 4.739261744966443e-06,
	"loss": 2.0448,
	"step": 45900
	},
	{
	"epoch": 5.599513085818624,
	"grad_norm": 6.383643627166748,
	"learning_rate": 4.706040268456376e-06,
	"loss": 2.0798,
	"step": 46000
	},
	{
	"epoch": 5.599513085818624,
	"eval_loss": 2.042715311050415,
	"eval_runtime": 6.7981,
	"eval_samples_per_second": 147.1,
	"eval_steps_per_second": 36.775,
	"step": 46000
	},
	{
	"epoch": 5.611685940353013,
	"grad_norm": 6.848605632781982,
	"learning_rate": 4.67248322147651e-06,
	"loss": 2.0615,
	"step": 46100
	},
	{
	"epoch": 5.6238587948874015,
	"grad_norm": 6.921677589416504,
	"learning_rate": 4.638926174496644e-06,
	"loss": 2.0888,
	"step": 46200
	},
	{
	"epoch": 5.636031649421789,
	"grad_norm": 6.901805400848389,
	"learning_rate": 4.6053691275167785e-06,
	"loss": 2.0552,
	"step": 46300
	},
	{
	"epoch": 5.648204503956178,
	"grad_norm": 6.497274398803711,
	"learning_rate": 4.571812080536913e-06,
	"loss": 2.0596,
	"step": 46400
	},
	{
	"epoch": 5.660377358490566,
	"grad_norm": 6.1705803871154785,
	"learning_rate": 4.538255033557047e-06,
	"loss": 2.0352,
	"step": 46500
	},
	{
	"epoch": 5.660377358490566,
	"eval_loss": 2.0392038822174072,
	"eval_runtime": 6.8175,
	"eval_samples_per_second": 146.681,
	"eval_steps_per_second": 36.67,
	"step": 46500
	},
	{
	"epoch": 5.672550213024954,
	"grad_norm": 6.3149847984313965,
	"learning_rate": 4.504697986577181e-06,
	"loss": 2.0782,
	"step": 46600
	},
	{
	"epoch": 5.684723067559343,
	"grad_norm": 5.7811760902404785,
	"learning_rate": 4.471140939597316e-06,
	"loss": 2.0745,
	"step": 46700
	},
	{
	"epoch": 5.696895922093731,
	"grad_norm": 6.381850719451904,
	"learning_rate": 4.43758389261745e-06,
	"loss": 2.0967,
	"step": 46800
	},
	{
	"epoch": 5.709068776628119,
	"grad_norm": 6.7904534339904785,
	"learning_rate": 4.404026845637584e-06,
	"loss": 2.048,
	"step": 46900
	},
	{
	"epoch": 5.721241631162508,
	"grad_norm": 6.390072822570801,
	"learning_rate": 4.370469798657718e-06,
	"loss": 2.0458,
	"step": 47000
	},
	{
	"epoch": 5.721241631162508,
	"eval_loss": 2.0331013202667236,
	"eval_runtime": 6.7556,
	"eval_samples_per_second": 148.026,
	"eval_steps_per_second": 37.006,
	"step": 47000
	},
	{
	"epoch": 5.733414485696896,
	"grad_norm": 6.4294514656066895,
	"learning_rate": 4.336912751677853e-06,
	"loss": 2.0555,
	"step": 47100
	},
	{
	"epoch": 5.7455873402312845,
	"grad_norm": 7.039945602416992,
	"learning_rate": 4.303355704697987e-06,
	"loss": 2.0973,
	"step": 47200
	},
	{
	"epoch": 5.757760194765672,
	"grad_norm": 6.919515132904053,
	"learning_rate": 4.269798657718121e-06,
	"loss": 2.0572,
	"step": 47300
	},
	{
	"epoch": 5.769933049300061,
	"grad_norm": 6.846578598022461,
	"learning_rate": 4.2362416107382554e-06,
	"loss": 2.0703,
	"step": 47400
	},
	{
	"epoch": 5.78210590383445,
	"grad_norm": 6.899037837982178,
	"learning_rate": 4.20268456375839e-06,
	"loss": 2.0382,
	"step": 47500
	},
	{
	"epoch": 5.78210590383445,
	"eval_loss": 2.0307412147521973,
	"eval_runtime": 6.8182,
	"eval_samples_per_second": 146.666,
	"eval_steps_per_second": 36.667,
	"step": 47500
	},
	{
	"epoch": 5.794278758368837,
	"grad_norm": 5.726818084716797,
	"learning_rate": 4.169127516778524e-06,
	"loss": 2.0595,
	"step": 47600
	},
	{
	"epoch": 5.806451612903226,
	"grad_norm": 7.426904201507568,
	"learning_rate": 4.135570469798658e-06,
	"loss": 2.0605,
	"step": 47700
	},
	{
	"epoch": 5.818624467437614,
	"grad_norm": 6.416141986846924,
	"learning_rate": 4.1020134228187925e-06,
	"loss": 2.071,
	"step": 47800
	},
	{
	"epoch": 5.830797321972002,
	"grad_norm": 6.170881748199463,
	"learning_rate": 4.068456375838927e-06,
	"loss": 2.0601,
	"step": 47900
	},
	{
	"epoch": 5.842970176506391,
	"grad_norm": 5.913904666900635,
	"learning_rate": 4.034899328859061e-06,
	"loss": 2.0663,
	"step": 48000
	},
	{
	"epoch": 5.842970176506391,
	"eval_loss": 2.0260586738586426,
	"eval_runtime": 6.7968,
	"eval_samples_per_second": 147.127,
	"eval_steps_per_second": 36.782,
	"step": 48000
	},
	{
	"epoch": 5.855143031040779,
	"grad_norm": 6.9575090408325195,
	"learning_rate": 4.0013422818791944e-06,
	"loss": 2.0487,
	"step": 48100
	},
	{
	"epoch": 5.8673158855751675,
	"grad_norm": 7.018653392791748,
	"learning_rate": 3.967785234899329e-06,
	"loss": 2.0836,
	"step": 48200
	},
	{
	"epoch": 5.879488740109556,
	"grad_norm": 6.9810285568237305,
	"learning_rate": 3.934228187919463e-06,
	"loss": 2.0645,
	"step": 48300
	},
	{
	"epoch": 5.891661594643944,
	"grad_norm": 5.732436656951904,
	"learning_rate": 3.900671140939597e-06,
	"loss": 2.0682,
	"step": 48400
	},
	{
	"epoch": 5.9038344491783326,
	"grad_norm": 6.543402671813965,
	"learning_rate": 3.8671140939597315e-06,
	"loss": 2.0797,
	"step": 48500
	},
	{
	"epoch": 5.9038344491783326,
	"eval_loss": 2.0245697498321533,
	"eval_runtime": 6.7746,
	"eval_samples_per_second": 147.609,
	"eval_steps_per_second": 36.902,
	"step": 48500
	},
	{
	"epoch": 5.91600730371272,
	"grad_norm": 6.355215072631836,
	"learning_rate": 3.833557046979866e-06,
	"loss": 2.0386,
	"step": 48600
	},
	{
	"epoch": 5.928180158247109,
	"grad_norm": 5.7379889488220215,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 2.0498,
	"step": 48700
	},
	{
	"epoch": 5.940353012781498,
	"grad_norm": 5.857077121734619,
	"learning_rate": 3.7664429530201347e-06,
	"loss": 2.061,
	"step": 48800
	},
	{
	"epoch": 5.952525867315885,
	"grad_norm": 7.078189373016357,
	"learning_rate": 3.732885906040269e-06,
	"loss": 2.0569,
	"step": 48900
	},
	{
	"epoch": 5.964698721850274,
	"grad_norm": 6.31903600692749,
	"learning_rate": 3.6993288590604033e-06,
	"loss": 2.0755,
	"step": 49000
	},
	{
	"epoch": 5.964698721850274,
	"eval_loss": 2.0195415019989014,
	"eval_runtime": 6.7847,
	"eval_samples_per_second": 147.392,
	"eval_steps_per_second": 36.848,
	"step": 49000
	},
	{
	"epoch": 5.976871576384662,
	"grad_norm": 6.295201778411865,
	"learning_rate": 3.6657718120805375e-06,
	"loss": 2.0393,
	"step": 49100
	},
	{
	"epoch": 5.9890444309190505,
	"grad_norm": 5.829520225524902,
	"learning_rate": 3.6322147651006714e-06,
	"loss": 2.0839,
	"step": 49200
	},
	{
	"epoch": 6.001217285453439,
	"grad_norm": 6.653756141662598,
	"learning_rate": 3.5986577181208056e-06,
	"loss": 2.0581,
	"step": 49300
	},
	{
	"epoch": 6.013390139987827,
	"grad_norm": 6.303423881530762,
	"learning_rate": 3.56510067114094e-06,
	"loss": 2.0524,
	"step": 49400
	},
	{
	"epoch": 6.0255629945222156,
	"grad_norm": 6.783233642578125,
	"learning_rate": 3.531543624161074e-06,
	"loss": 2.0284,
	"step": 49500
	},
	{
	"epoch": 6.0255629945222156,
	"eval_loss": 2.013944387435913,
	"eval_runtime": 6.7878,
	"eval_samples_per_second": 147.323,
	"eval_steps_per_second": 36.831,
	"step": 49500
	},
	{
	"epoch": 6.037735849056604,
	"grad_norm": 5.857462406158447,
	"learning_rate": 3.4979865771812084e-06,
	"loss": 2.0229,
	"step": 49600
	},
	{
	"epoch": 6.049908703590992,
	"grad_norm": 6.777635097503662,
	"learning_rate": 3.4644295302013427e-06,
	"loss": 1.9982,
	"step": 49700
	},
	{
	"epoch": 6.062081558125381,
	"grad_norm": 7.1341328620910645,
	"learning_rate": 3.430872483221477e-06,
	"loss": 2.0211,
	"step": 49800
	},
	{
	"epoch": 6.074254412659768,
	"grad_norm": 6.320338249206543,
	"learning_rate": 3.3973154362416112e-06,
	"loss": 2.0137,
	"step": 49900
	},
	{
	"epoch": 6.086427267194157,
	"grad_norm": 6.523722171783447,
	"learning_rate": 3.3640939597315437e-06,
	"loss": 2.0073,
	"step": 50000
	},
	{
	"epoch": 6.086427267194157,
	"eval_loss": 2.0087661743164062,
	"eval_runtime": 6.731,
	"eval_samples_per_second": 148.565,
	"eval_steps_per_second": 37.141,
	"step": 50000
	},
	{
	"epoch": 6.098600121728546,
	"grad_norm": 6.2543559074401855,
	"learning_rate": 3.330536912751678e-06,
	"loss": 2.05,
	"step": 50100
	},
	{
	"epoch": 6.1107729762629335,
	"grad_norm": 6.838403701782227,
	"learning_rate": 3.2969798657718123e-06,
	"loss": 2.0041,
	"step": 50200
	},
	{
	"epoch": 6.122945830797322,
	"grad_norm": 6.734765529632568,
	"learning_rate": 3.2634228187919465e-06,
	"loss": 2.0144,
	"step": 50300
	},
	{
	"epoch": 6.13511868533171,
	"grad_norm": 7.506516933441162,
	"learning_rate": 3.2298657718120808e-06,
	"loss": 2.0238,
	"step": 50400
	},
	{
	"epoch": 6.1472915398660986,
	"grad_norm": 7.153513431549072,
	"learning_rate": 3.196308724832215e-06,
	"loss": 2.0032,
	"step": 50500
	},
	{
	"epoch": 6.1472915398660986,
	"eval_loss": 2.0054242610931396,
	"eval_runtime": 6.8452,
	"eval_samples_per_second": 146.089,
	"eval_steps_per_second": 36.522,
	"step": 50500
	},
	{
	"epoch": 6.159464394400487,
	"grad_norm": 5.951141834259033,
	"learning_rate": 3.1627516778523493e-06,
	"loss": 2.0768,
	"step": 50600
	},
	{
	"epoch": 6.171637248934875,
	"grad_norm": 6.877615928649902,
	"learning_rate": 3.1291946308724836e-06,
	"loss": 2.0123,
	"step": 50700
	},
	{
	"epoch": 6.183810103469264,
	"grad_norm": 6.209372520446777,
	"learning_rate": 3.095637583892618e-06,
	"loss": 2.0153,
	"step": 50800
	},
	{
	"epoch": 6.195982958003652,
	"grad_norm": 6.799842834472656,
	"learning_rate": 3.062080536912752e-06,
	"loss": 1.9955,
	"step": 50900
	},
	{
	"epoch": 6.20815581253804,
	"grad_norm": 6.479254722595215,
	"learning_rate": 3.0285234899328864e-06,
	"loss": 2.0315,
	"step": 51000
	},
	{
	"epoch": 6.20815581253804,
	"eval_loss": 2.0038652420043945,
	"eval_runtime": 6.8012,
	"eval_samples_per_second": 147.033,
	"eval_steps_per_second": 36.758,
	"step": 51000
	},
	{
	"epoch": 6.220328667072429,
	"grad_norm": 6.269389629364014,
	"learning_rate": 2.9949664429530206e-06,
	"loss": 1.9839,
	"step": 51100
	},
	{
	"epoch": 6.2325015216068165,
	"grad_norm": 7.240963935852051,
	"learning_rate": 2.9614093959731545e-06,
	"loss": 2.0155,
	"step": 51200
	},
	{
	"epoch": 6.244674376141205,
	"grad_norm": 5.774966716766357,
	"learning_rate": 2.9278523489932887e-06,
	"loss": 2.0198,
	"step": 51300
	},
	{
	"epoch": 6.256847230675594,
	"grad_norm": 6.272314071655273,
	"learning_rate": 2.894295302013423e-06,
	"loss": 2.0554,
	"step": 51400
	},
	{
	"epoch": 6.2690200852099816,
	"grad_norm": 9.089746475219727,
	"learning_rate": 2.8607382550335573e-06,
	"loss": 2.0408,
	"step": 51500
	},
	{
	"epoch": 6.2690200852099816,
	"eval_loss": 2.000591278076172,
	"eval_runtime": 6.7821,
	"eval_samples_per_second": 147.447,
	"eval_steps_per_second": 36.862,
	"step": 51500
	},
	{
	"epoch": 6.28119293974437,
	"grad_norm": 6.007697105407715,
	"learning_rate": 2.8271812080536915e-06,
	"loss": 2.0251,
	"step": 51600
	},
	{
	"epoch": 6.293365794278758,
	"grad_norm": 7.7493791580200195,
	"learning_rate": 2.793624161073826e-06,
	"loss": 2.0447,
	"step": 51700
	},
	{
	"epoch": 6.305538648813147,
	"grad_norm": 7.068716526031494,
	"learning_rate": 2.76006711409396e-06,
	"loss": 2.0377,
	"step": 51800
	},
	{
	"epoch": 6.317711503347535,
	"grad_norm": 6.732091903686523,
	"learning_rate": 2.7265100671140943e-06,
	"loss": 2.0131,
	"step": 51900
	},
	{
	"epoch": 6.329884357881923,
	"grad_norm": 6.7231125831604,
	"learning_rate": 2.693288590604027e-06,
	"loss": 2.0385,
	"step": 52000
	},
	{
	"epoch": 6.329884357881923,
	"eval_loss": 1.9973669052124023,
	"eval_runtime": 6.7984,
	"eval_samples_per_second": 147.093,
	"eval_steps_per_second": 36.773,
	"step": 52000
	},
	{
	"epoch": 6.342057212416312,
	"grad_norm": 6.017531394958496,
	"learning_rate": 2.659731543624161e-06,
	"loss": 2.0407,
	"step": 52100
	},
	{
	"epoch": 6.3542300669507,
	"grad_norm": 5.93875789642334,
	"learning_rate": 2.6261744966442954e-06,
	"loss": 2.0368,
	"step": 52200
	},
	{
	"epoch": 6.366402921485088,
	"grad_norm": 6.382920265197754,
	"learning_rate": 2.5926174496644296e-06,
	"loss": 2.036,
	"step": 52300
	},
	{
	"epoch": 6.378575776019477,
	"grad_norm": 6.723759651184082,
	"learning_rate": 2.559060402684564e-06,
	"loss": 1.9914,
	"step": 52400
	},
	{
	"epoch": 6.3907486305538646,
	"grad_norm": 8.295475959777832,
	"learning_rate": 2.525503355704698e-06,
	"loss": 2.0401,
	"step": 52500
	},
	{
	"epoch": 6.3907486305538646,
	"eval_loss": 1.9946650266647339,
	"eval_runtime": 6.8495,
	"eval_samples_per_second": 145.995,
	"eval_steps_per_second": 36.499,
	"step": 52500
	},
	{
	"epoch": 6.402921485088253,
	"grad_norm": 6.045047283172607,
	"learning_rate": 2.4919463087248324e-06,
	"loss": 2.0287,
	"step": 52600
	},
	{
	"epoch": 6.415094339622642,
	"grad_norm": 7.3694000244140625,
	"learning_rate": 2.4583892617449667e-06,
	"loss": 2.0318,
	"step": 52700
	},
	{
	"epoch": 6.42726719415703,
	"grad_norm": 6.970037460327148,
	"learning_rate": 2.424832214765101e-06,
	"loss": 2.0352,
	"step": 52800
	},
	{
	"epoch": 6.439440048691418,
	"grad_norm": 7.87092399597168,
	"learning_rate": 2.391275167785235e-06,
	"loss": 2.0522,
	"step": 52900
	},
	{
	"epoch": 6.451612903225806,
	"grad_norm": 6.341009616851807,
	"learning_rate": 2.357718120805369e-06,
	"loss": 2.0717,
	"step": 53000
	},
	{
	"epoch": 6.451612903225806,
	"eval_loss": 1.9915155172348022,
	"eval_runtime": 6.8145,
	"eval_samples_per_second": 146.746,
	"eval_steps_per_second": 36.686,
	"step": 53000
	},
	{
	"epoch": 6.463785757760195,
	"grad_norm": 7.210479736328125,
	"learning_rate": 2.3241610738255038e-06,
	"loss": 2.0154,
	"step": 53100
	},
	{
	"epoch": 6.475958612294583,
	"grad_norm": 8.30247688293457,
	"learning_rate": 2.290604026845638e-06,
	"loss": 2.0242,
	"step": 53200
	},
	{
	"epoch": 6.488131466828971,
	"grad_norm": 5.9992570877075195,
	"learning_rate": 2.2573825503355705e-06,
	"loss": 2.0372,
	"step": 53300
	},
	{
	"epoch": 6.50030432136336,
	"grad_norm": 6.450936317443848,
	"learning_rate": 2.2238255033557048e-06,
	"loss": 2.0267,
	"step": 53400
	},
	{
	"epoch": 6.512477175897748,
	"grad_norm": 6.037837982177734,
	"learning_rate": 2.190268456375839e-06,
	"loss": 2.0178,
	"step": 53500
	},
	{
	"epoch": 6.512477175897748,
	"eval_loss": 1.9894185066223145,
	"eval_runtime": 6.8572,
	"eval_samples_per_second": 145.831,
	"eval_steps_per_second": 36.458,
	"step": 53500
	},
	{
	"epoch": 6.524650030432136,
	"grad_norm": 6.875925064086914,
	"learning_rate": 2.1567114093959733e-06,
	"loss": 2.0354,
	"step": 53600
	},
	{
	"epoch": 6.536822884966525,
	"grad_norm": 6.961463451385498,
	"learning_rate": 2.1231543624161076e-06,
	"loss": 2.06,
	"step": 53700
	},
	{
	"epoch": 6.548995739500913,
	"grad_norm": 5.773210525512695,
	"learning_rate": 2.089597315436242e-06,
	"loss": 2.0167,
	"step": 53800
	},
	{
	"epoch": 6.561168594035301,
	"grad_norm": 6.747873783111572,
	"learning_rate": 2.056040268456376e-06,
	"loss": 1.9882,
	"step": 53900
	},
	{
	"epoch": 6.57334144856969,
	"grad_norm": 6.432974338531494,
	"learning_rate": 2.0224832214765104e-06,
	"loss": 2.0029,
	"step": 54000
	},
	{
	"epoch": 6.57334144856969,
	"eval_loss": 1.9841845035552979,
	"eval_runtime": 6.8372,
	"eval_samples_per_second": 146.258,
	"eval_steps_per_second": 36.564,
	"step": 54000
	},
	{
	"epoch": 6.585514303104078,
	"grad_norm": 6.159907341003418,
	"learning_rate": 1.9889261744966446e-06,
	"loss": 2.0454,
	"step": 54100
	},
	{
	"epoch": 6.597687157638466,
	"grad_norm": 7.004731178283691,
	"learning_rate": 1.955369127516779e-06,
	"loss": 2.0011,
	"step": 54200
	},
	{
	"epoch": 6.609860012172854,
	"grad_norm": 7.388941764831543,
	"learning_rate": 1.9218120805369127e-06,
	"loss": 2.0446,
	"step": 54300
	},
	{
	"epoch": 6.622032866707243,
	"grad_norm": 7.399050235748291,
	"learning_rate": 1.888255033557047e-06,
	"loss": 2.0265,
	"step": 54400
	},
	{
	"epoch": 6.634205721241631,
	"grad_norm": 6.445584297180176,
	"learning_rate": 1.8546979865771813e-06,
	"loss": 2.0124,
	"step": 54500
	},
	{
	"epoch": 6.634205721241631,
	"eval_loss": 1.9837737083435059,
	"eval_runtime": 6.903,
	"eval_samples_per_second": 144.864,
	"eval_steps_per_second": 36.216,
	"step": 54500
	},
	{
	"epoch": 6.646378575776019,
	"grad_norm": 6.1334967613220215,
	"learning_rate": 1.8211409395973155e-06,
	"loss": 2.0495,
	"step": 54600
	},
	{
	"epoch": 6.658551430310408,
	"grad_norm": 6.132894992828369,
	"learning_rate": 1.7875838926174498e-06,
	"loss": 2.0308,
	"step": 54700
	},
	{
	"epoch": 6.6707242848447965,
	"grad_norm": 7.038134574890137,
	"learning_rate": 1.7540268456375839e-06,
	"loss": 2.0532,
	"step": 54800
	},
	{
	"epoch": 6.682897139379184,
	"grad_norm": 6.755254745483398,
	"learning_rate": 1.7204697986577181e-06,
	"loss": 2.0178,
	"step": 54900
	},
	{
	"epoch": 6.695069993913573,
	"grad_norm": 6.841146945953369,
	"learning_rate": 1.6869127516778524e-06,
	"loss": 2.0442,
	"step": 55000
	},
	{
	"epoch": 6.695069993913573,
	"eval_loss": 1.9824799299240112,
	"eval_runtime": 6.8019,
	"eval_samples_per_second": 147.018,
	"eval_steps_per_second": 36.755,
	"step": 55000
	},
	{
	"epoch": 6.707242848447961,
	"grad_norm": 6.4666547775268555,
	"learning_rate": 1.6533557046979867e-06,
	"loss": 2.0205,
	"step": 55100
	},
	{
	"epoch": 6.719415702982349,
	"grad_norm": 7.502538204193115,
	"learning_rate": 1.619798657718121e-06,
	"loss": 2.0261,
	"step": 55200
	},
	{
	"epoch": 6.731588557516738,
	"grad_norm": 7.378790378570557,
	"learning_rate": 1.5862416107382552e-06,
	"loss": 2.0288,
	"step": 55300
	},
	{
	"epoch": 6.743761412051126,
	"grad_norm": 7.264867305755615,
	"learning_rate": 1.5526845637583892e-06,
	"loss": 2.0187,
	"step": 55400
	},
	{
	"epoch": 6.755934266585514,
	"grad_norm": 7.020994663238525,
	"learning_rate": 1.5191275167785235e-06,
	"loss": 2.038,
	"step": 55500
	},
	{
	"epoch": 6.755934266585514,
	"eval_loss": 1.9808002710342407,
	"eval_runtime": 6.8401,
	"eval_samples_per_second": 146.197,
	"eval_steps_per_second": 36.549,
	"step": 55500
	},
	{
	"epoch": 6.768107121119902,
	"grad_norm": 6.773026943206787,
	"learning_rate": 1.4855704697986578e-06,
	"loss": 2.0144,
	"step": 55600
	},
	{
	"epoch": 6.780279975654291,
	"grad_norm": 5.357457160949707,
	"learning_rate": 1.452013422818792e-06,
	"loss": 2.0353,
	"step": 55700
	},
	{
	"epoch": 6.7924528301886795,
	"grad_norm": 6.2290873527526855,
	"learning_rate": 1.4184563758389263e-06,
	"loss": 2.0328,
	"step": 55800
	},
	{
	"epoch": 6.804625684723067,
	"grad_norm": 6.145375728607178,
	"learning_rate": 1.3848993288590606e-06,
	"loss": 2.0438,
	"step": 55900
	},
	{
	"epoch": 6.816798539257456,
	"grad_norm": 6.537805080413818,
	"learning_rate": 1.3513422818791946e-06,
	"loss": 2.0634,
	"step": 56000
	},
	{
	"epoch": 6.816798539257456,
	"eval_loss": 1.9801044464111328,
	"eval_runtime": 6.8399,
	"eval_samples_per_second": 146.202,
	"eval_steps_per_second": 36.55,
	"step": 56000
	}
	],
	"logging_steps": 100,
	"max_steps": 60000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 8,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.080261694721884e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}