Add LoRA checkpoints (without PNG loss curves)

b843574 4 months ago

93.7 kB

	{
	"best_global_step": 26250,
	"best_metric": 0.9502699810655684,
	"best_model_checkpoint": "D:\\Task_design\\Topic\\strategy_train\\outputs\\qwen7b-lora-topic_strategy\\checkpoint-26250",
	"epoch": 0.7518231711901361,
	"eval_steps": 1250,
	"global_step": 26250,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0014320441356002593,
	"grad_norm": 608.0,
	"learning_rate": 9.351145038167939e-06,
	"loss": 28.2021,
	"step": 50
	},
	{
	"epoch": 0.0028640882712005185,
	"grad_norm": 326.0,
	"learning_rate": 1.8893129770992367e-05,
	"loss": 13.4193,
	"step": 100
	},
	{
	"epoch": 0.004296132406800777,
	"grad_norm": 600.0,
	"learning_rate": 2.8435114503816796e-05,
	"loss": 8.5573,
	"step": 150
	},
	{
	"epoch": 0.005728176542401037,
	"grad_norm": 146.0,
	"learning_rate": 3.797709923664122e-05,
	"loss": 4.1909,
	"step": 200
	},
	{
	"epoch": 0.007160220678001296,
	"grad_norm": 372.0,
	"learning_rate": 4.751908396946565e-05,
	"loss": 3.6133,
	"step": 250
	},
	{
	"epoch": 0.008592264813601555,
	"grad_norm": 36.75,
	"learning_rate": 5.7061068702290074e-05,
	"loss": 2.8409,
	"step": 300
	},
	{
	"epoch": 0.010024308949201815,
	"grad_norm": 210.0,
	"learning_rate": 6.66030534351145e-05,
	"loss": 2.9306,
	"step": 350
	},
	{
	"epoch": 0.011456353084802074,
	"grad_norm": 0.00037384033203125,
	"learning_rate": 7.614503816793893e-05,
	"loss": 4.0291,
	"step": 400
	},
	{
	"epoch": 0.012888397220402333,
	"grad_norm": 24.875,
	"learning_rate": 8.568702290076335e-05,
	"loss": 4.0621,
	"step": 450
	},
	{
	"epoch": 0.014320441356002592,
	"grad_norm": 378.0,
	"learning_rate": 9.522900763358779e-05,
	"loss": 5.0668,
	"step": 500
	},
	{
	"epoch": 0.015752485491602852,
	"grad_norm": 20.5,
	"learning_rate": 0.00010477099236641222,
	"loss": 3.8491,
	"step": 550
	},
	{
	"epoch": 0.01718452962720311,
	"grad_norm": 478.0,
	"learning_rate": 0.00011431297709923666,
	"loss": 2.9158,
	"step": 600
	},
	{
	"epoch": 0.01861657376280337,
	"grad_norm": 53.5,
	"learning_rate": 0.00012385496183206106,
	"loss": 4.3353,
	"step": 650
	},
	{
	"epoch": 0.02004861789840363,
	"grad_norm": 0.0010986328125,
	"learning_rate": 0.0001333969465648855,
	"loss": 4.2307,
	"step": 700
	},
	{
	"epoch": 0.021480662034003888,
	"grad_norm": 44.75,
	"learning_rate": 0.0001429389312977099,
	"loss": 3.1633,
	"step": 750
	},
	{
	"epoch": 0.022912706169604148,
	"grad_norm": 396.0,
	"learning_rate": 0.00015248091603053436,
	"loss": 4.8827,
	"step": 800
	},
	{
	"epoch": 0.024344750305204405,
	"grad_norm": 3.838539123535156e-05,
	"learning_rate": 0.0001620229007633588,
	"loss": 3.0475,
	"step": 850
	},
	{
	"epoch": 0.025776794440804666,
	"grad_norm": 12.625,
	"learning_rate": 0.0001715648854961832,
	"loss": 4.3648,
	"step": 900
	},
	{
	"epoch": 0.027208838576404926,
	"grad_norm": 0.009033203125,
	"learning_rate": 0.00018110687022900764,
	"loss": 3.8295,
	"step": 950
	},
	{
	"epoch": 0.028640882712005183,
	"grad_norm": 304.0,
	"learning_rate": 0.00019064885496183207,
	"loss": 5.2518,
	"step": 1000
	},
	{
	"epoch": 0.030072926847605444,
	"grad_norm": 872.0,
	"learning_rate": 0.0001999940947206803,
	"loss": 17.7632,
	"step": 1050
	},
	{
	"epoch": 0.031504970983205705,
	"grad_norm": 328.0,
	"learning_rate": 0.00019969883075469472,
	"loss": 16.0223,
	"step": 1100
	},
	{
	"epoch": 0.03293701511880596,
	"grad_norm": 468.0,
	"learning_rate": 0.0001994035667887091,
	"loss": 10.9938,
	"step": 1150
	},
	{
	"epoch": 0.03436905925440622,
	"grad_norm": 462.0,
	"learning_rate": 0.00019910830282272353,
	"loss": 9.1089,
	"step": 1200
	},
	{
	"epoch": 0.03580110339000648,
	"grad_norm": 43.25,
	"learning_rate": 0.00019881303885673795,
	"loss": 8.8076,
	"step": 1250
	},
	{
	"epoch": 0.03580110339000648,
	"eval_accuracy": 0.473,
	"eval_loss": 1.0368720293045044,
	"eval_macro_f1": 0.3829550887916939,
	"eval_runtime": 172.7823,
	"eval_samples_per_second": 11.575,
	"eval_steps_per_second": 11.575,
	"step": 1250
	},
	{
	"epoch": 0.03723314752560674,
	"grad_norm": 276.0,
	"learning_rate": 0.00019851777489075234,
	"loss": 8.0924,
	"step": 1300
	},
	{
	"epoch": 0.038665191661207,
	"grad_norm": 150.0,
	"learning_rate": 0.00019822251092476676,
	"loss": 7.168,
	"step": 1350
	},
	{
	"epoch": 0.04009723579680726,
	"grad_norm": 282.0,
	"learning_rate": 0.00019792724695878115,
	"loss": 6.6729,
	"step": 1400
	},
	{
	"epoch": 0.041529279932407515,
	"grad_norm": 155.0,
	"learning_rate": 0.00019763198299279557,
	"loss": 6.2658,
	"step": 1450
	},
	{
	"epoch": 0.042961324068007775,
	"grad_norm": 95.0,
	"learning_rate": 0.00019733671902680996,
	"loss": 4.2749,
	"step": 1500
	},
	{
	"epoch": 0.044393368203608036,
	"grad_norm": 121.5,
	"learning_rate": 0.00019704145506082438,
	"loss": 6.0376,
	"step": 1550
	},
	{
	"epoch": 0.045825412339208296,
	"grad_norm": 484.0,
	"learning_rate": 0.0001967461910948388,
	"loss": 5.4624,
	"step": 1600
	},
	{
	"epoch": 0.04725745647480856,
	"grad_norm": 83.0,
	"learning_rate": 0.00019645092712885321,
	"loss": 4.8571,
	"step": 1650
	},
	{
	"epoch": 0.04868950061040881,
	"grad_norm": 86.0,
	"learning_rate": 0.00019615566316286763,
	"loss": 5.2631,
	"step": 1700
	},
	{
	"epoch": 0.05012154474600907,
	"grad_norm": 0.35546875,
	"learning_rate": 0.00019586039919688202,
	"loss": 4.2013,
	"step": 1750
	},
	{
	"epoch": 0.05155358888160933,
	"grad_norm": 58.0,
	"learning_rate": 0.00019556513523089644,
	"loss": 5.4813,
	"step": 1800
	},
	{
	"epoch": 0.05298563301720959,
	"grad_norm": 868.0,
	"learning_rate": 0.00019526987126491083,
	"loss": 4.6324,
	"step": 1850
	},
	{
	"epoch": 0.05441767715280985,
	"grad_norm": 169.0,
	"learning_rate": 0.00019497460729892525,
	"loss": 3.9849,
	"step": 1900
	},
	{
	"epoch": 0.055849721288410106,
	"grad_norm": 4.28125,
	"learning_rate": 0.00019467934333293967,
	"loss": 3.2505,
	"step": 1950
	},
	{
	"epoch": 0.05728176542401037,
	"grad_norm": 11.0625,
	"learning_rate": 0.00019438407936695406,
	"loss": 3.7368,
	"step": 2000
	},
	{
	"epoch": 0.05871380955961063,
	"grad_norm": 40.75,
	"learning_rate": 0.00019408881540096848,
	"loss": 4.2252,
	"step": 2050
	},
	{
	"epoch": 0.06014585369521089,
	"grad_norm": 2240.0,
	"learning_rate": 0.00019379355143498287,
	"loss": 3.8708,
	"step": 2100
	},
	{
	"epoch": 0.06157789783081115,
	"grad_norm": 318.0,
	"learning_rate": 0.0001934982874689973,
	"loss": 3.7427,
	"step": 2150
	},
	{
	"epoch": 0.06300994196641141,
	"grad_norm": 79.0,
	"learning_rate": 0.00019320302350301168,
	"loss": 2.5798,
	"step": 2200
	},
	{
	"epoch": 0.06444198610201167,
	"grad_norm": 188.0,
	"learning_rate": 0.0001929077595370261,
	"loss": 3.2888,
	"step": 2250
	},
	{
	"epoch": 0.06587403023761192,
	"grad_norm": 255.0,
	"learning_rate": 0.00019261249557104052,
	"loss": 3.5956,
	"step": 2300
	},
	{
	"epoch": 0.06730607437321218,
	"grad_norm": 111.5,
	"learning_rate": 0.0001923172316050549,
	"loss": 2.6906,
	"step": 2350
	},
	{
	"epoch": 0.06873811850881244,
	"grad_norm": 8.8125,
	"learning_rate": 0.00019202196763906933,
	"loss": 2.9821,
	"step": 2400
	},
	{
	"epoch": 0.0701701626444127,
	"grad_norm": 62.25,
	"learning_rate": 0.00019172670367308375,
	"loss": 2.9432,
	"step": 2450
	},
	{
	"epoch": 0.07160220678001296,
	"grad_norm": 268.0,
	"learning_rate": 0.00019143143970709817,
	"loss": 5.8543,
	"step": 2500
	},
	{
	"epoch": 0.07160220678001296,
	"eval_accuracy": 0.8855,
	"eval_loss": 0.4594672918319702,
	"eval_macro_f1": 0.8847948863660271,
	"eval_runtime": 174.3198,
	"eval_samples_per_second": 11.473,
	"eval_steps_per_second": 11.473,
	"step": 2500
	},
	{
	"epoch": 0.07303425091561322,
	"grad_norm": 1.703125,
	"learning_rate": 0.00019113617574111256,
	"loss": 4.3718,
	"step": 2550
	},
	{
	"epoch": 0.07446629505121348,
	"grad_norm": 6.125,
	"learning_rate": 0.00019084091177512698,
	"loss": 5.6269,
	"step": 2600
	},
	{
	"epoch": 0.07589833918681374,
	"grad_norm": 2.796875,
	"learning_rate": 0.0001905456478091414,
	"loss": 4.2341,
	"step": 2650
	},
	{
	"epoch": 0.077330383322414,
	"grad_norm": 608.0,
	"learning_rate": 0.0001902503838431558,
	"loss": 3.3186,
	"step": 2700
	},
	{
	"epoch": 0.07876242745801426,
	"grad_norm": 140.0,
	"learning_rate": 0.0001899551198771702,
	"loss": 5.9126,
	"step": 2750
	},
	{
	"epoch": 0.08019447159361452,
	"grad_norm": 824.0,
	"learning_rate": 0.0001896598559111846,
	"loss": 5.0582,
	"step": 2800
	},
	{
	"epoch": 0.08162651572921477,
	"grad_norm": 165.0,
	"learning_rate": 0.00018936459194519902,
	"loss": 3.5105,
	"step": 2850
	},
	{
	"epoch": 0.08305855986481503,
	"grad_norm": 0.0284423828125,
	"learning_rate": 0.0001890693279792134,
	"loss": 4.6236,
	"step": 2900
	},
	{
	"epoch": 0.08449060400041529,
	"grad_norm": 116.5,
	"learning_rate": 0.00018877406401322783,
	"loss": 3.9021,
	"step": 2950
	},
	{
	"epoch": 0.08592264813601555,
	"grad_norm": 0.251953125,
	"learning_rate": 0.00018847880004724225,
	"loss": 3.883,
	"step": 3000
	},
	{
	"epoch": 0.08735469227161581,
	"grad_norm": 0.0260009765625,
	"learning_rate": 0.00018818353608125664,
	"loss": 3.9736,
	"step": 3050
	},
	{
	"epoch": 0.08878673640721607,
	"grad_norm": 290.0,
	"learning_rate": 0.00018788827211527106,
	"loss": 5.218,
	"step": 3100
	},
	{
	"epoch": 0.09021878054281633,
	"grad_norm": 1720.0,
	"learning_rate": 0.00018759300814928548,
	"loss": 3.2961,
	"step": 3150
	},
	{
	"epoch": 0.09165082467841659,
	"grad_norm": 0.26953125,
	"learning_rate": 0.0001872977441832999,
	"loss": 3.4482,
	"step": 3200
	},
	{
	"epoch": 0.09308286881401685,
	"grad_norm": 13.375,
	"learning_rate": 0.0001870024802173143,
	"loss": 2.928,
	"step": 3250
	},
	{
	"epoch": 0.09451491294961711,
	"grad_norm": 73.0,
	"learning_rate": 0.0001867072162513287,
	"loss": 3.4569,
	"step": 3300
	},
	{
	"epoch": 0.09594695708521736,
	"grad_norm": 9.25,
	"learning_rate": 0.00018641195228534313,
	"loss": 3.8492,
	"step": 3350
	},
	{
	"epoch": 0.09737900122081762,
	"grad_norm": 274.0,
	"learning_rate": 0.00018611668831935752,
	"loss": 3.4008,
	"step": 3400
	},
	{
	"epoch": 0.09881104535641788,
	"grad_norm": 158.0,
	"learning_rate": 0.00018582142435337194,
	"loss": 3.6703,
	"step": 3450
	},
	{
	"epoch": 0.10024308949201814,
	"grad_norm": 264.0,
	"learning_rate": 0.00018552616038738633,
	"loss": 3.4321,
	"step": 3500
	},
	{
	"epoch": 0.1016751336276184,
	"grad_norm": 2.015625,
	"learning_rate": 0.00018523089642140075,
	"loss": 2.4367,
	"step": 3550
	},
	{
	"epoch": 0.10310717776321866,
	"grad_norm": 270.0,
	"learning_rate": 0.00018493563245541514,
	"loss": 3.6473,
	"step": 3600
	},
	{
	"epoch": 0.10453922189881892,
	"grad_norm": 0.0478515625,
	"learning_rate": 0.00018464036848942956,
	"loss": 2.3759,
	"step": 3650
	},
	{
	"epoch": 0.10597126603441918,
	"grad_norm": 282.0,
	"learning_rate": 0.00018434510452344395,
	"loss": 2.5434,
	"step": 3700
	},
	{
	"epoch": 0.10740331017001944,
	"grad_norm": 100.0,
	"learning_rate": 0.00018404984055745837,
	"loss": 2.4411,
	"step": 3750
	},
	{
	"epoch": 0.10740331017001944,
	"eval_accuracy": 0.911,
	"eval_loss": 0.6009318232536316,
	"eval_macro_f1": 0.9109307309196768,
	"eval_runtime": 173.1976,
	"eval_samples_per_second": 11.548,
	"eval_steps_per_second": 11.548,
	"step": 3750
	},
	{
	"epoch": 0.1088353543056197,
	"grad_norm": 8.875,
	"learning_rate": 0.00018375457659147279,
	"loss": 3.7952,
	"step": 3800
	},
	{
	"epoch": 0.11026739844121995,
	"grad_norm": 408.0,
	"learning_rate": 0.00018345931262548718,
	"loss": 2.7528,
	"step": 3850
	},
	{
	"epoch": 0.11169944257682021,
	"grad_norm": 4.65625,
	"learning_rate": 0.0001831640486595016,
	"loss": 3.0934,
	"step": 3900
	},
	{
	"epoch": 0.11313148671242047,
	"grad_norm": 0.0274658203125,
	"learning_rate": 0.00018286878469351601,
	"loss": 3.3618,
	"step": 3950
	},
	{
	"epoch": 0.11456353084802073,
	"grad_norm": 93.0,
	"learning_rate": 0.00018257352072753043,
	"loss": 3.635,
	"step": 4000
	},
	{
	"epoch": 0.115995574983621,
	"grad_norm": 159.0,
	"learning_rate": 0.00018227825676154482,
	"loss": 2.3589,
	"step": 4050
	},
	{
	"epoch": 0.11742761911922125,
	"grad_norm": 290.0,
	"learning_rate": 0.00018198299279555924,
	"loss": 3.9717,
	"step": 4100
	},
	{
	"epoch": 0.11885966325482152,
	"grad_norm": 8.375,
	"learning_rate": 0.00018168772882957366,
	"loss": 3.0616,
	"step": 4150
	},
	{
	"epoch": 0.12029170739042178,
	"grad_norm": 264.0,
	"learning_rate": 0.00018139246486358805,
	"loss": 3.4315,
	"step": 4200
	},
	{
	"epoch": 0.12172375152602204,
	"grad_norm": 206.0,
	"learning_rate": 0.00018109720089760247,
	"loss": 3.3353,
	"step": 4250
	},
	{
	"epoch": 0.1231557956616223,
	"grad_norm": 0.37109375,
	"learning_rate": 0.00018080193693161686,
	"loss": 2.7568,
	"step": 4300
	},
	{
	"epoch": 0.12458783979722254,
	"grad_norm": 314.0,
	"learning_rate": 0.00018050667296563128,
	"loss": 3.0107,
	"step": 4350
	},
	{
	"epoch": 0.12601988393282282,
	"grad_norm": 992.0,
	"learning_rate": 0.00018021140899964567,
	"loss": 2.8247,
	"step": 4400
	},
	{
	"epoch": 0.12745192806842306,
	"grad_norm": 225.0,
	"learning_rate": 0.0001799161450336601,
	"loss": 3.3408,
	"step": 4450
	},
	{
	"epoch": 0.12888397220402334,
	"grad_norm": 0.703125,
	"learning_rate": 0.0001796208810676745,
	"loss": 2.8974,
	"step": 4500
	},
	{
	"epoch": 0.13031601633962359,
	"grad_norm": 280.0,
	"learning_rate": 0.0001793256171016889,
	"loss": 2.8223,
	"step": 4550
	},
	{
	"epoch": 0.13174806047522383,
	"grad_norm": 180.0,
	"learning_rate": 0.00017903035313570332,
	"loss": 3.7603,
	"step": 4600
	},
	{
	"epoch": 0.1331801046108241,
	"grad_norm": 6.28125,
	"learning_rate": 0.00017873508916971774,
	"loss": 4.2271,
	"step": 4650
	},
	{
	"epoch": 0.13461214874642435,
	"grad_norm": 338.0,
	"learning_rate": 0.00017843982520373216,
	"loss": 3.2114,
	"step": 4700
	},
	{
	"epoch": 0.13604419288202463,
	"grad_norm": 0.6796875,
	"learning_rate": 0.00017814456123774655,
	"loss": 3.4457,
	"step": 4750
	},
	{
	"epoch": 0.13747623701762487,
	"grad_norm": 2.34375,
	"learning_rate": 0.00017784929727176097,
	"loss": 2.2643,
	"step": 4800
	},
	{
	"epoch": 0.13890828115322515,
	"grad_norm": 288.0,
	"learning_rate": 0.0001775540333057754,
	"loss": 3.0672,
	"step": 4850
	},
	{
	"epoch": 0.1403403252888254,
	"grad_norm": 1896.0,
	"learning_rate": 0.00017725876933978978,
	"loss": 2.8551,
	"step": 4900
	},
	{
	"epoch": 0.14177236942442567,
	"grad_norm": 88.0,
	"learning_rate": 0.0001769635053738042,
	"loss": 3.5021,
	"step": 4950
	},
	{
	"epoch": 0.14320441356002592,
	"grad_norm": 94.0,
	"learning_rate": 0.0001766682414078186,
	"loss": 2.1413,
	"step": 5000
	},
	{
	"epoch": 0.14320441356002592,
	"eval_accuracy": 0.917,
	"eval_loss": 0.3995007872581482,
	"eval_macro_f1": 0.9161602620439439,
	"eval_runtime": 179.9592,
	"eval_samples_per_second": 11.114,
	"eval_steps_per_second": 11.114,
	"step": 5000
	},
	{
	"epoch": 0.1446364576956262,
	"grad_norm": 0.97265625,
	"learning_rate": 0.000176372977441833,
	"loss": 2.3626,
	"step": 5050
	},
	{
	"epoch": 0.14606850183122644,
	"grad_norm": 266.0,
	"learning_rate": 0.0001760777134758474,
	"loss": 3.3284,
	"step": 5100
	},
	{
	"epoch": 0.14750054596682668,
	"grad_norm": 0.2314453125,
	"learning_rate": 0.00017578244950986182,
	"loss": 2.2628,
	"step": 5150
	},
	{
	"epoch": 0.14893259010242696,
	"grad_norm": 237.0,
	"learning_rate": 0.00017548718554387624,
	"loss": 2.5359,
	"step": 5200
	},
	{
	"epoch": 0.1503646342380272,
	"grad_norm": 65.5,
	"learning_rate": 0.00017519192157789063,
	"loss": 2.5109,
	"step": 5250
	},
	{
	"epoch": 0.15179667837362748,
	"grad_norm": 0.2197265625,
	"learning_rate": 0.00017489665761190505,
	"loss": 3.4319,
	"step": 5300
	},
	{
	"epoch": 0.15322872250922773,
	"grad_norm": 140.0,
	"learning_rate": 0.00017460139364591944,
	"loss": 2.149,
	"step": 5350
	},
	{
	"epoch": 0.154660766644828,
	"grad_norm": 74.0,
	"learning_rate": 0.00017430612967993386,
	"loss": 3.3437,
	"step": 5400
	},
	{
	"epoch": 0.15609281078042825,
	"grad_norm": 160.0,
	"learning_rate": 0.00017401086571394828,
	"loss": 3.2952,
	"step": 5450
	},
	{
	"epoch": 0.15752485491602852,
	"grad_norm": 0.451171875,
	"learning_rate": 0.0001737156017479627,
	"loss": 2.6442,
	"step": 5500
	},
	{
	"epoch": 0.15895689905162877,
	"grad_norm": 246.0,
	"learning_rate": 0.00017342033778197712,
	"loss": 2.1805,
	"step": 5550
	},
	{
	"epoch": 0.16038894318722904,
	"grad_norm": 0.1669921875,
	"learning_rate": 0.0001731250738159915,
	"loss": 2.957,
	"step": 5600
	},
	{
	"epoch": 0.1618209873228293,
	"grad_norm": 11.4375,
	"learning_rate": 0.00017282980985000593,
	"loss": 3.791,
	"step": 5650
	},
	{
	"epoch": 0.16325303145842954,
	"grad_norm": 241.0,
	"learning_rate": 0.00017253454588402032,
	"loss": 2.3945,
	"step": 5700
	},
	{
	"epoch": 0.1646850755940298,
	"grad_norm": 0.1572265625,
	"learning_rate": 0.00017223928191803474,
	"loss": 2.3927,
	"step": 5750
	},
	{
	"epoch": 0.16611711972963006,
	"grad_norm": 0.06494140625,
	"learning_rate": 0.00017194401795204913,
	"loss": 2.4573,
	"step": 5800
	},
	{
	"epoch": 0.16754916386523033,
	"grad_norm": 0.34375,
	"learning_rate": 0.00017164875398606355,
	"loss": 2.6829,
	"step": 5850
	},
	{
	"epoch": 0.16898120800083058,
	"grad_norm": 7.46875,
	"learning_rate": 0.00017135349002007797,
	"loss": 3.0156,
	"step": 5900
	},
	{
	"epoch": 0.17041325213643085,
	"grad_norm": 0.2470703125,
	"learning_rate": 0.00017105822605409236,
	"loss": 2.5155,
	"step": 5950
	},
	{
	"epoch": 0.1718452962720311,
	"grad_norm": 3.65625,
	"learning_rate": 0.00017076296208810678,
	"loss": 2.5886,
	"step": 6000
	},
	{
	"epoch": 0.17327734040763138,
	"grad_norm": 420.0,
	"learning_rate": 0.00017046769812212117,
	"loss": 3.7327,
	"step": 6050
	},
	{
	"epoch": 0.17470938454323162,
	"grad_norm": 88.0,
	"learning_rate": 0.00017017243415613559,
	"loss": 4.1712,
	"step": 6100
	},
	{
	"epoch": 0.17614142867883187,
	"grad_norm": 1864.0,
	"learning_rate": 0.00016987717019015,
	"loss": 3.0617,
	"step": 6150
	},
	{
	"epoch": 0.17757347281443214,
	"grad_norm": 56.25,
	"learning_rate": 0.00016958190622416442,
	"loss": 2.6603,
	"step": 6200
	},
	{
	"epoch": 0.1790055169500324,
	"grad_norm": 25.25,
	"learning_rate": 0.00016928664225817884,
	"loss": 2.7308,
	"step": 6250
	},
	{
	"epoch": 0.1790055169500324,
	"eval_accuracy": 0.9195,
	"eval_loss": 0.47414371371269226,
	"eval_macro_f1": 0.9193664539192946,
	"eval_runtime": 182.0886,
	"eval_samples_per_second": 10.984,
	"eval_steps_per_second": 10.984,
	"step": 6250
	},
	{
	"epoch": 0.18043756108563266,
	"grad_norm": 66.5,
	"learning_rate": 0.00016899137829219323,
	"loss": 2.9805,
	"step": 6300
	},
	{
	"epoch": 0.1818696052212329,
	"grad_norm": 119.0,
	"learning_rate": 0.00016869611432620765,
	"loss": 2.343,
	"step": 6350
	},
	{
	"epoch": 0.18330164935683319,
	"grad_norm": 0.14453125,
	"learning_rate": 0.00016840085036022204,
	"loss": 2.5346,
	"step": 6400
	},
	{
	"epoch": 0.18473369349243343,
	"grad_norm": 67.5,
	"learning_rate": 0.00016810558639423646,
	"loss": 2.6565,
	"step": 6450
	},
	{
	"epoch": 0.1861657376280337,
	"grad_norm": 14.0,
	"learning_rate": 0.00016781032242825085,
	"loss": 3.2329,
	"step": 6500
	},
	{
	"epoch": 0.18759778176363395,
	"grad_norm": 1408.0,
	"learning_rate": 0.00016751505846226527,
	"loss": 2.7886,
	"step": 6550
	},
	{
	"epoch": 0.18902982589923423,
	"grad_norm": 23.0,
	"learning_rate": 0.0001672197944962797,
	"loss": 2.2165,
	"step": 6600
	},
	{
	"epoch": 0.19046187003483447,
	"grad_norm": 88.0,
	"learning_rate": 0.00016692453053029408,
	"loss": 2.826,
	"step": 6650
	},
	{
	"epoch": 0.19189391417043472,
	"grad_norm": 7.28125,
	"learning_rate": 0.0001666292665643085,
	"loss": 2.6884,
	"step": 6700
	},
	{
	"epoch": 0.193325958306035,
	"grad_norm": 4.3125,
	"learning_rate": 0.0001663340025983229,
	"loss": 2.3811,
	"step": 6750
	},
	{
	"epoch": 0.19475800244163524,
	"grad_norm": 2.78125,
	"learning_rate": 0.0001660387386323373,
	"loss": 2.1648,
	"step": 6800
	},
	{
	"epoch": 0.19619004657723552,
	"grad_norm": 2.65625,
	"learning_rate": 0.0001657434746663517,
	"loss": 2.0769,
	"step": 6850
	},
	{
	"epoch": 0.19762209071283576,
	"grad_norm": 0.337890625,
	"learning_rate": 0.00016544821070036612,
	"loss": 3.2644,
	"step": 6900
	},
	{
	"epoch": 0.19905413484843604,
	"grad_norm": 5.15625,
	"learning_rate": 0.00016515294673438054,
	"loss": 3.1548,
	"step": 6950
	},
	{
	"epoch": 0.20048617898403628,
	"grad_norm": 52.75,
	"learning_rate": 0.00016485768276839496,
	"loss": 2.3094,
	"step": 7000
	},
	{
	"epoch": 0.20191822311963656,
	"grad_norm": 0.15625,
	"learning_rate": 0.00016456241880240938,
	"loss": 2.2522,
	"step": 7050
	},
	{
	"epoch": 0.2033502672552368,
	"grad_norm": 0.09521484375,
	"learning_rate": 0.00016426715483642377,
	"loss": 2.1453,
	"step": 7100
	},
	{
	"epoch": 0.20478231139083705,
	"grad_norm": 274.0,
	"learning_rate": 0.0001639718908704382,
	"loss": 2.8386,
	"step": 7150
	},
	{
	"epoch": 0.20621435552643733,
	"grad_norm": 274.0,
	"learning_rate": 0.00016367662690445258,
	"loss": 3.5395,
	"step": 7200
	},
	{
	"epoch": 0.20764639966203757,
	"grad_norm": 81.0,
	"learning_rate": 0.000163381362938467,
	"loss": 2.668,
	"step": 7250
	},
	{
	"epoch": 0.20907844379763785,
	"grad_norm": 0.1162109375,
	"learning_rate": 0.00016308609897248142,
	"loss": 2.2543,
	"step": 7300
	},
	{
	"epoch": 0.2105104879332381,
	"grad_norm": 0.05517578125,
	"learning_rate": 0.0001627908350064958,
	"loss": 2.4399,
	"step": 7350
	},
	{
	"epoch": 0.21194253206883837,
	"grad_norm": 0.283203125,
	"learning_rate": 0.00016249557104051023,
	"loss": 2.0814,
	"step": 7400
	},
	{
	"epoch": 0.21337457620443862,
	"grad_norm": 79.0,
	"learning_rate": 0.00016220030707452462,
	"loss": 3.2041,
	"step": 7450
	},
	{
	"epoch": 0.2148066203400389,
	"grad_norm": 144.0,
	"learning_rate": 0.00016190504310853904,
	"loss": 1.962,
	"step": 7500
	},
	{
	"epoch": 0.2148066203400389,
	"eval_accuracy": 0.93,
	"eval_loss": 0.3529609441757202,
	"eval_macro_f1": 0.9295120271109343,
	"eval_runtime": 175.7548,
	"eval_samples_per_second": 11.379,
	"eval_steps_per_second": 11.379,
	"step": 7500
	},
	{
	"epoch": 0.21623866447563914,
	"grad_norm": 2592.0,
	"learning_rate": 0.00016160977914255343,
	"loss": 2.7684,
	"step": 7550
	},
	{
	"epoch": 0.2176707086112394,
	"grad_norm": 0.03271484375,
	"learning_rate": 0.00016131451517656785,
	"loss": 2.5066,
	"step": 7600
	},
	{
	"epoch": 0.21910275274683966,
	"grad_norm": 0.09423828125,
	"learning_rate": 0.00016101925121058227,
	"loss": 2.6791,
	"step": 7650
	},
	{
	"epoch": 0.2205347968824399,
	"grad_norm": 536.0,
	"learning_rate": 0.0001607239872445967,
	"loss": 3.3268,
	"step": 7700
	},
	{
	"epoch": 0.22196684101804018,
	"grad_norm": 0.01007080078125,
	"learning_rate": 0.0001604287232786111,
	"loss": 2.2916,
	"step": 7750
	},
	{
	"epoch": 0.22339888515364043,
	"grad_norm": 0.1396484375,
	"learning_rate": 0.0001601334593126255,
	"loss": 2.8402,
	"step": 7800
	},
	{
	"epoch": 0.2248309292892407,
	"grad_norm": 93.5,
	"learning_rate": 0.00015983819534663992,
	"loss": 2.5527,
	"step": 7850
	},
	{
	"epoch": 0.22626297342484095,
	"grad_norm": 0.318359375,
	"learning_rate": 0.0001595429313806543,
	"loss": 3.0559,
	"step": 7900
	},
	{
	"epoch": 0.22769501756044122,
	"grad_norm": 276.0,
	"learning_rate": 0.00015924766741466873,
	"loss": 1.8897,
	"step": 7950
	},
	{
	"epoch": 0.22912706169604147,
	"grad_norm": 1.7421875,
	"learning_rate": 0.00015895240344868315,
	"loss": 1.9342,
	"step": 8000
	},
	{
	"epoch": 0.23055910583164174,
	"grad_norm": 0.036865234375,
	"learning_rate": 0.00015865713948269754,
	"loss": 2.0979,
	"step": 8050
	},
	{
	"epoch": 0.231991149967242,
	"grad_norm": 164.0,
	"learning_rate": 0.00015836187551671196,
	"loss": 2.2929,
	"step": 8100
	},
	{
	"epoch": 0.23342319410284226,
	"grad_norm": 88.5,
	"learning_rate": 0.00015806661155072635,
	"loss": 3.0427,
	"step": 8150
	},
	{
	"epoch": 0.2348552382384425,
	"grad_norm": 1104.0,
	"learning_rate": 0.00015777134758474077,
	"loss": 2.8966,
	"step": 8200
	},
	{
	"epoch": 0.23628728237404276,
	"grad_norm": 520.0,
	"learning_rate": 0.00015747608361875516,
	"loss": 2.0752,
	"step": 8250
	},
	{
	"epoch": 0.23771932650964303,
	"grad_norm": 0.07568359375,
	"learning_rate": 0.00015718081965276958,
	"loss": 1.7808,
	"step": 8300
	},
	{
	"epoch": 0.23915137064524328,
	"grad_norm": 0.06982421875,
	"learning_rate": 0.000156885555686784,
	"loss": 2.9426,
	"step": 8350
	},
	{
	"epoch": 0.24058341478084355,
	"grad_norm": 242.0,
	"learning_rate": 0.00015659029172079839,
	"loss": 2.3159,
	"step": 8400
	},
	{
	"epoch": 0.2420154589164438,
	"grad_norm": 7.5,
	"learning_rate": 0.0001562950277548128,
	"loss": 2.6197,
	"step": 8450
	},
	{
	"epoch": 0.24344750305204407,
	"grad_norm": 57.25,
	"learning_rate": 0.00015599976378882722,
	"loss": 2.6834,
	"step": 8500
	},
	{
	"epoch": 0.24487954718764432,
	"grad_norm": 4.0,
	"learning_rate": 0.00015570449982284164,
	"loss": 2.116,
	"step": 8550
	},
	{
	"epoch": 0.2463115913232446,
	"grad_norm": 0.11181640625,
	"learning_rate": 0.00015540923585685603,
	"loss": 3.5668,
	"step": 8600
	},
	{
	"epoch": 0.24774363545884484,
	"grad_norm": 240.0,
	"learning_rate": 0.00015511397189087045,
	"loss": 3.1473,
	"step": 8650
	},
	{
	"epoch": 0.2491756795944451,
	"grad_norm": 117.5,
	"learning_rate": 0.00015481870792488487,
	"loss": 2.4813,
	"step": 8700
	},
	{
	"epoch": 0.25060772373004536,
	"grad_norm": 7.46875,
	"learning_rate": 0.00015452344395889926,
	"loss": 1.8936,
	"step": 8750
	},
	{
	"epoch": 0.25060772373004536,
	"eval_accuracy": 0.9365,
	"eval_loss": 0.328545480966568,
	"eval_macro_f1": 0.9360277798015127,
	"eval_runtime": 178.5517,
	"eval_samples_per_second": 11.201,
	"eval_steps_per_second": 11.201,
	"step": 8750
	},
	{
	"epoch": 0.25203976786564564,
	"grad_norm": 126.0,
	"learning_rate": 0.00015422817999291368,
	"loss": 2.649,
	"step": 8800
	},
	{
	"epoch": 0.25347181200124586,
	"grad_norm": 0.06884765625,
	"learning_rate": 0.00015393291602692807,
	"loss": 2.8102,
	"step": 8850
	},
	{
	"epoch": 0.25490385613684613,
	"grad_norm": 0.6015625,
	"learning_rate": 0.0001536376520609425,
	"loss": 2.4762,
	"step": 8900
	},
	{
	"epoch": 0.2563359002724464,
	"grad_norm": 370.0,
	"learning_rate": 0.00015334238809495688,
	"loss": 2.1245,
	"step": 8950
	},
	{
	"epoch": 0.2577679444080467,
	"grad_norm": 238.0,
	"learning_rate": 0.0001530471241289713,
	"loss": 1.4588,
	"step": 9000
	},
	{
	"epoch": 0.2591999885436469,
	"grad_norm": 8.5625,
	"learning_rate": 0.00015275186016298572,
	"loss": 2.7869,
	"step": 9050
	},
	{
	"epoch": 0.26063203267924717,
	"grad_norm": 118.5,
	"learning_rate": 0.0001524565961970001,
	"loss": 2.1987,
	"step": 9100
	},
	{
	"epoch": 0.26206407681484745,
	"grad_norm": 37.25,
	"learning_rate": 0.00015216133223101453,
	"loss": 2.8539,
	"step": 9150
	},
	{
	"epoch": 0.26349612095044767,
	"grad_norm": 0.62109375,
	"learning_rate": 0.00015186606826502895,
	"loss": 2.6421,
	"step": 9200
	},
	{
	"epoch": 0.26492816508604794,
	"grad_norm": 0.404296875,
	"learning_rate": 0.00015157080429904337,
	"loss": 3.3623,
	"step": 9250
	},
	{
	"epoch": 0.2663602092216482,
	"grad_norm": 0.09130859375,
	"learning_rate": 0.00015127554033305776,
	"loss": 2.6995,
	"step": 9300
	},
	{
	"epoch": 0.2677922533572485,
	"grad_norm": 82.5,
	"learning_rate": 0.00015098027636707218,
	"loss": 1.8874,
	"step": 9350
	},
	{
	"epoch": 0.2692242974928487,
	"grad_norm": 4416.0,
	"learning_rate": 0.0001506850124010866,
	"loss": 2.2107,
	"step": 9400
	},
	{
	"epoch": 0.270656341628449,
	"grad_norm": 18.125,
	"learning_rate": 0.000150389748435101,
	"loss": 3.2056,
	"step": 9450
	},
	{
	"epoch": 0.27208838576404926,
	"grad_norm": 3.09375,
	"learning_rate": 0.0001500944844691154,
	"loss": 2.9934,
	"step": 9500
	},
	{
	"epoch": 0.27352042989964953,
	"grad_norm": 280.0,
	"learning_rate": 0.0001497992205031298,
	"loss": 2.2205,
	"step": 9550
	},
	{
	"epoch": 0.27495247403524975,
	"grad_norm": 94.5,
	"learning_rate": 0.00014950395653714422,
	"loss": 2.5102,
	"step": 9600
	},
	{
	"epoch": 0.27638451817085,
	"grad_norm": 0.2021484375,
	"learning_rate": 0.0001492086925711586,
	"loss": 2.0138,
	"step": 9650
	},
	{
	"epoch": 0.2778165623064503,
	"grad_norm": 1.3359375,
	"learning_rate": 0.00014891342860517303,
	"loss": 1.556,
	"step": 9700
	},
	{
	"epoch": 0.2792486064420505,
	"grad_norm": 0.494140625,
	"learning_rate": 0.00014861816463918745,
	"loss": 2.7351,
	"step": 9750
	},
	{
	"epoch": 0.2806806505776508,
	"grad_norm": 0.1953125,
	"learning_rate": 0.00014832290067320184,
	"loss": 2.0641,
	"step": 9800
	},
	{
	"epoch": 0.28211269471325107,
	"grad_norm": 0.421875,
	"learning_rate": 0.00014802763670721626,
	"loss": 2.642,
	"step": 9850
	},
	{
	"epoch": 0.28354473884885134,
	"grad_norm": 292.0,
	"learning_rate": 0.00014773237274123065,
	"loss": 2.5676,
	"step": 9900
	},
	{
	"epoch": 0.28497678298445156,
	"grad_norm": 4.40625,
	"learning_rate": 0.00014743710877524507,
	"loss": 2.5438,
	"step": 9950
	},
	{
	"epoch": 0.28640882712005183,
	"grad_norm": 129.0,
	"learning_rate": 0.0001471418448092595,
	"loss": 3.0776,
	"step": 10000
	},
	{
	"epoch": 0.28640882712005183,
	"eval_accuracy": 0.9335,
	"eval_loss": 0.34245818853378296,
	"eval_macro_f1": 0.9327568911653952,
	"eval_runtime": 181.524,
	"eval_samples_per_second": 11.018,
	"eval_steps_per_second": 11.018,
	"step": 10000
	},
	{
	"epoch": 0.2878408712556521,
	"grad_norm": 9.25,
	"learning_rate": 0.0001468465808432739,
	"loss": 2.2061,
	"step": 10050
	},
	{
	"epoch": 0.2892729153912524,
	"grad_norm": 0.10693359375,
	"learning_rate": 0.00014655131687728832,
	"loss": 2.6087,
	"step": 10100
	},
	{
	"epoch": 0.2907049595268526,
	"grad_norm": 0.10107421875,
	"learning_rate": 0.00014625605291130272,
	"loss": 2.4579,
	"step": 10150
	},
	{
	"epoch": 0.2921370036624529,
	"grad_norm": 0.33203125,
	"learning_rate": 0.00014596078894531714,
	"loss": 2.2037,
	"step": 10200
	},
	{
	"epoch": 0.29356904779805315,
	"grad_norm": 0.1513671875,
	"learning_rate": 0.00014566552497933153,
	"loss": 2.3772,
	"step": 10250
	},
	{
	"epoch": 0.29500109193365337,
	"grad_norm": 80.5,
	"learning_rate": 0.00014537026101334595,
	"loss": 2.2901,
	"step": 10300
	},
	{
	"epoch": 0.29643313606925364,
	"grad_norm": 21.0,
	"learning_rate": 0.00014507499704736034,
	"loss": 2.1736,
	"step": 10350
	},
	{
	"epoch": 0.2978651802048539,
	"grad_norm": 168.0,
	"learning_rate": 0.00014477973308137476,
	"loss": 2.3493,
	"step": 10400
	},
	{
	"epoch": 0.2992972243404542,
	"grad_norm": 229.0,
	"learning_rate": 0.00014448446911538915,
	"loss": 2.4933,
	"step": 10450
	},
	{
	"epoch": 0.3007292684760544,
	"grad_norm": 274.0,
	"learning_rate": 0.00014418920514940357,
	"loss": 2.6936,
	"step": 10500
	},
	{
	"epoch": 0.3021613126116547,
	"grad_norm": 272.0,
	"learning_rate": 0.00014389394118341799,
	"loss": 3.3879,
	"step": 10550
	},
	{
	"epoch": 0.30359335674725496,
	"grad_norm": 0.0103759765625,
	"learning_rate": 0.00014359867721743238,
	"loss": 1.6445,
	"step": 10600
	},
	{
	"epoch": 0.30502540088285524,
	"grad_norm": 0.02880859375,
	"learning_rate": 0.0001433034132514468,
	"loss": 1.5567,
	"step": 10650
	},
	{
	"epoch": 0.30645744501845545,
	"grad_norm": 292.0,
	"learning_rate": 0.00014300814928546121,
	"loss": 2.5947,
	"step": 10700
	},
	{
	"epoch": 0.30788948915405573,
	"grad_norm": 97.5,
	"learning_rate": 0.00014271288531947563,
	"loss": 2.7865,
	"step": 10750
	},
	{
	"epoch": 0.309321533289656,
	"grad_norm": 79.5,
	"learning_rate": 0.00014241762135349002,
	"loss": 2.1275,
	"step": 10800
	},
	{
	"epoch": 0.3107535774252562,
	"grad_norm": 298.0,
	"learning_rate": 0.00014212235738750444,
	"loss": 2.0145,
	"step": 10850
	},
	{
	"epoch": 0.3121856215608565,
	"grad_norm": 0.040771484375,
	"learning_rate": 0.00014182709342151886,
	"loss": 1.8322,
	"step": 10900
	},
	{
	"epoch": 0.31361766569645677,
	"grad_norm": 142.0,
	"learning_rate": 0.00014153182945553325,
	"loss": 1.3864,
	"step": 10950
	},
	{
	"epoch": 0.31504970983205705,
	"grad_norm": 1.7578125,
	"learning_rate": 0.00014123656548954767,
	"loss": 2.7755,
	"step": 11000
	},
	{
	"epoch": 0.31648175396765726,
	"grad_norm": 82.0,
	"learning_rate": 0.00014094130152356206,
	"loss": 2.5528,
	"step": 11050
	},
	{
	"epoch": 0.31791379810325754,
	"grad_norm": 80.0,
	"learning_rate": 0.00014064603755757648,
	"loss": 2.5284,
	"step": 11100
	},
	{
	"epoch": 0.3193458422388578,
	"grad_norm": 0.05224609375,
	"learning_rate": 0.00014035077359159087,
	"loss": 2.8708,
	"step": 11150
	},
	{
	"epoch": 0.3207778863744581,
	"grad_norm": 0.140625,
	"learning_rate": 0.0001400555096256053,
	"loss": 3.5295,
	"step": 11200
	},
	{
	"epoch": 0.3222099305100583,
	"grad_norm": 0.050048828125,
	"learning_rate": 0.0001397602456596197,
	"loss": 3.325,
	"step": 11250
	},
	{
	"epoch": 0.3222099305100583,
	"eval_accuracy": 0.94,
	"eval_loss": 0.2819044888019562,
	"eval_macro_f1": 0.9395225640341313,
	"eval_runtime": 173.501,
	"eval_samples_per_second": 11.527,
	"eval_steps_per_second": 11.527,
	"step": 11250
	},
	{
	"epoch": 0.3236419746456586,
	"grad_norm": 1.078125,
	"learning_rate": 0.0001394649816936341,
	"loss": 3.0985,
	"step": 11300
	},
	{
	"epoch": 0.32507401878125886,
	"grad_norm": 116.0,
	"learning_rate": 0.00013916971772764852,
	"loss": 2.5793,
	"step": 11350
	},
	{
	"epoch": 0.3265060629168591,
	"grad_norm": 0.1865234375,
	"learning_rate": 0.00013887445376166291,
	"loss": 2.5646,
	"step": 11400
	},
	{
	"epoch": 0.32793810705245935,
	"grad_norm": 306.0,
	"learning_rate": 0.00013857918979567733,
	"loss": 1.9864,
	"step": 11450
	},
	{
	"epoch": 0.3293701511880596,
	"grad_norm": 274.0,
	"learning_rate": 0.00013828392582969175,
	"loss": 1.8868,
	"step": 11500
	},
	{
	"epoch": 0.3308021953236599,
	"grad_norm": 0.08984375,
	"learning_rate": 0.00013798866186370617,
	"loss": 2.5106,
	"step": 11550
	},
	{
	"epoch": 0.3322342394592601,
	"grad_norm": 270.0,
	"learning_rate": 0.0001376933978977206,
	"loss": 1.8537,
	"step": 11600
	},
	{
	"epoch": 0.3336662835948604,
	"grad_norm": 270.0,
	"learning_rate": 0.00013739813393173498,
	"loss": 2.3735,
	"step": 11650
	},
	{
	"epoch": 0.33509832773046067,
	"grad_norm": 0.416015625,
	"learning_rate": 0.0001371028699657494,
	"loss": 2.0794,
	"step": 11700
	},
	{
	"epoch": 0.3365303718660609,
	"grad_norm": 0.32421875,
	"learning_rate": 0.0001368076059997638,
	"loss": 2.5114,
	"step": 11750
	},
	{
	"epoch": 0.33796241600166116,
	"grad_norm": 0.0595703125,
	"learning_rate": 0.0001365123420337782,
	"loss": 2.199,
	"step": 11800
	},
	{
	"epoch": 0.33939446013726143,
	"grad_norm": 61.75,
	"learning_rate": 0.0001362170780677926,
	"loss": 2.64,
	"step": 11850
	},
	{
	"epoch": 0.3408265042728617,
	"grad_norm": 9.0,
	"learning_rate": 0.00013592181410180702,
	"loss": 1.8553,
	"step": 11900
	},
	{
	"epoch": 0.3422585484084619,
	"grad_norm": 177.0,
	"learning_rate": 0.00013562655013582144,
	"loss": 1.6963,
	"step": 11950
	},
	{
	"epoch": 0.3436905925440622,
	"grad_norm": 326.0,
	"learning_rate": 0.00013533128616983583,
	"loss": 3.007,
	"step": 12000
	},
	{
	"epoch": 0.3451226366796625,
	"grad_norm": 0.06787109375,
	"learning_rate": 0.00013503602220385025,
	"loss": 1.6731,
	"step": 12050
	},
	{
	"epoch": 0.34655468081526275,
	"grad_norm": 5.28125,
	"learning_rate": 0.00013474075823786464,
	"loss": 2.5167,
	"step": 12100
	},
	{
	"epoch": 0.34798672495086297,
	"grad_norm": 0.11865234375,
	"learning_rate": 0.00013444549427187906,
	"loss": 3.4208,
	"step": 12150
	},
	{
	"epoch": 0.34941876908646324,
	"grad_norm": 0.1337890625,
	"learning_rate": 0.00013415023030589348,
	"loss": 1.3073,
	"step": 12200
	},
	{
	"epoch": 0.3508508132220635,
	"grad_norm": 82.5,
	"learning_rate": 0.0001338549663399079,
	"loss": 2.3618,
	"step": 12250
	},
	{
	"epoch": 0.35228285735766374,
	"grad_norm": 1.546875,
	"learning_rate": 0.00013355970237392232,
	"loss": 2.0756,
	"step": 12300
	},
	{
	"epoch": 0.353714901493264,
	"grad_norm": 120.0,
	"learning_rate": 0.0001332644384079367,
	"loss": 2.2016,
	"step": 12350
	},
	{
	"epoch": 0.3551469456288643,
	"grad_norm": 5.34375,
	"learning_rate": 0.00013296917444195113,
	"loss": 2.7446,
	"step": 12400
	},
	{
	"epoch": 0.35657898976446456,
	"grad_norm": 0.057861328125,
	"learning_rate": 0.00013267391047596552,
	"loss": 2.3892,
	"step": 12450
	},
	{
	"epoch": 0.3580110339000648,
	"grad_norm": 1.6640625,
	"learning_rate": 0.00013237864650997994,
	"loss": 2.3038,
	"step": 12500
	},
	{
	"epoch": 0.3580110339000648,
	"eval_accuracy": 0.943,
	"eval_loss": 0.2820850610733032,
	"eval_macro_f1": 0.9423954094372721,
	"eval_runtime": 180.0229,
	"eval_samples_per_second": 11.11,
	"eval_steps_per_second": 11.11,
	"step": 12500
	},
	{
	"epoch": 0.35944307803566505,
	"grad_norm": 0.15625,
	"learning_rate": 0.00013208338254399433,
	"loss": 1.6647,
	"step": 12550
	},
	{
	"epoch": 0.36087512217126533,
	"grad_norm": 0.06640625,
	"learning_rate": 0.00013178811857800875,
	"loss": 2.2751,
	"step": 12600
	},
	{
	"epoch": 0.3623071663068656,
	"grad_norm": 0.984375,
	"learning_rate": 0.00013149285461202316,
	"loss": 2.7458,
	"step": 12650
	},
	{
	"epoch": 0.3637392104424658,
	"grad_norm": 420.0,
	"learning_rate": 0.00013119759064603756,
	"loss": 2.2766,
	"step": 12700
	},
	{
	"epoch": 0.3651712545780661,
	"grad_norm": 0.1103515625,
	"learning_rate": 0.00013090232668005198,
	"loss": 1.4627,
	"step": 12750
	},
	{
	"epoch": 0.36660329871366637,
	"grad_norm": 0.25390625,
	"learning_rate": 0.00013060706271406637,
	"loss": 1.9492,
	"step": 12800
	},
	{
	"epoch": 0.3680353428492666,
	"grad_norm": 0.232421875,
	"learning_rate": 0.00013031179874808079,
	"loss": 1.8883,
	"step": 12850
	},
	{
	"epoch": 0.36946738698486686,
	"grad_norm": 0.205078125,
	"learning_rate": 0.00013001653478209518,
	"loss": 2.058,
	"step": 12900
	},
	{
	"epoch": 0.37089943112046714,
	"grad_norm": 0.53515625,
	"learning_rate": 0.0001297212708161096,
	"loss": 2.7257,
	"step": 12950
	},
	{
	"epoch": 0.3723314752560674,
	"grad_norm": 764.0,
	"learning_rate": 0.00012942600685012401,
	"loss": 2.4923,
	"step": 13000
	},
	{
	"epoch": 0.37376351939166763,
	"grad_norm": 298.0,
	"learning_rate": 0.00012913074288413843,
	"loss": 1.8667,
	"step": 13050
	},
	{
	"epoch": 0.3751955635272679,
	"grad_norm": 282.0,
	"learning_rate": 0.00012883547891815285,
	"loss": 2.4477,
	"step": 13100
	},
	{
	"epoch": 0.3766276076628682,
	"grad_norm": 0.02587890625,
	"learning_rate": 0.00012854021495216724,
	"loss": 1.0699,
	"step": 13150
	},
	{
	"epoch": 0.37805965179846845,
	"grad_norm": 160.0,
	"learning_rate": 0.00012824495098618166,
	"loss": 2.8487,
	"step": 13200
	},
	{
	"epoch": 0.3794916959340687,
	"grad_norm": 216.0,
	"learning_rate": 0.00012794968702019605,
	"loss": 1.8886,
	"step": 13250
	},
	{
	"epoch": 0.38092374006966895,
	"grad_norm": 302.0,
	"learning_rate": 0.00012765442305421047,
	"loss": 2.4619,
	"step": 13300
	},
	{
	"epoch": 0.3823557842052692,
	"grad_norm": 172.0,
	"learning_rate": 0.0001273591590882249,
	"loss": 2.8237,
	"step": 13350
	},
	{
	"epoch": 0.38378782834086944,
	"grad_norm": 91.5,
	"learning_rate": 0.00012706389512223928,
	"loss": 2.7431,
	"step": 13400
	},
	{
	"epoch": 0.3852198724764697,
	"grad_norm": 0.275390625,
	"learning_rate": 0.0001267686311562537,
	"loss": 1.9888,
	"step": 13450
	},
	{
	"epoch": 0.38665191661207,
	"grad_norm": 194.0,
	"learning_rate": 0.0001264733671902681,
	"loss": 2.5123,
	"step": 13500
	},
	{
	"epoch": 0.38808396074767026,
	"grad_norm": 396.0,
	"learning_rate": 0.0001261781032242825,
	"loss": 1.9384,
	"step": 13550
	},
	{
	"epoch": 0.3895160048832705,
	"grad_norm": 54.75,
	"learning_rate": 0.0001258828392582969,
	"loss": 1.9031,
	"step": 13600
	},
	{
	"epoch": 0.39094804901887076,
	"grad_norm": 0.828125,
	"learning_rate": 0.00012558757529231132,
	"loss": 2.65,
	"step": 13650
	},
	{
	"epoch": 0.39238009315447103,
	"grad_norm": 36.25,
	"learning_rate": 0.00012529231132632574,
	"loss": 2.2794,
	"step": 13700
	},
	{
	"epoch": 0.3938121372900713,
	"grad_norm": 0.11962890625,
	"learning_rate": 0.00012499704736034016,
	"loss": 2.1189,
	"step": 13750
	},
	{
	"epoch": 0.3938121372900713,
	"eval_accuracy": 0.9465,
	"eval_loss": 0.31273505091667175,
	"eval_macro_f1": 0.9457595736365828,
	"eval_runtime": 172.8312,
	"eval_samples_per_second": 11.572,
	"eval_steps_per_second": 11.572,
	"step": 13750
	},
	{
	"epoch": 0.3952441814256715,
	"grad_norm": 398.0,
	"learning_rate": 0.00012470178339435458,
	"loss": 2.5979,
	"step": 13800
	},
	{
	"epoch": 0.3966762255612718,
	"grad_norm": 266.0,
	"learning_rate": 0.00012440651942836897,
	"loss": 2.8401,
	"step": 13850
	},
	{
	"epoch": 0.3981082696968721,
	"grad_norm": 0.1884765625,
	"learning_rate": 0.0001241112554623834,
	"loss": 1.9365,
	"step": 13900
	},
	{
	"epoch": 0.3995403138324723,
	"grad_norm": 0.055908203125,
	"learning_rate": 0.00012381599149639778,
	"loss": 0.9845,
	"step": 13950
	},
	{
	"epoch": 0.40097235796807257,
	"grad_norm": 130.0,
	"learning_rate": 0.0001235207275304122,
	"loss": 2.9002,
	"step": 14000
	},
	{
	"epoch": 0.40240440210367284,
	"grad_norm": 0.0045166015625,
	"learning_rate": 0.00012322546356442662,
	"loss": 2.1528,
	"step": 14050
	},
	{
	"epoch": 0.4038364462392731,
	"grad_norm": 0.39453125,
	"learning_rate": 0.000122930199598441,
	"loss": 2.4575,
	"step": 14100
	},
	{
	"epoch": 0.40526849037487334,
	"grad_norm": 241.0,
	"learning_rate": 0.00012263493563245543,
	"loss": 2.475,
	"step": 14150
	},
	{
	"epoch": 0.4067005345104736,
	"grad_norm": 37.5,
	"learning_rate": 0.00012233967166646982,
	"loss": 1.6529,
	"step": 14200
	},
	{
	"epoch": 0.4081325786460739,
	"grad_norm": 272.0,
	"learning_rate": 0.00012204440770048424,
	"loss": 2.922,
	"step": 14250
	},
	{
	"epoch": 0.4095646227816741,
	"grad_norm": 3.734375,
	"learning_rate": 0.00012174914373449864,
	"loss": 2.2361,
	"step": 14300
	},
	{
	"epoch": 0.4109966669172744,
	"grad_norm": 338.0,
	"learning_rate": 0.00012145387976851306,
	"loss": 1.5299,
	"step": 14350
	},
	{
	"epoch": 0.41242871105287465,
	"grad_norm": 0.043212890625,
	"learning_rate": 0.00012115861580252748,
	"loss": 2.5728,
	"step": 14400
	},
	{
	"epoch": 0.4138607551884749,
	"grad_norm": 0.15625,
	"learning_rate": 0.00012086335183654187,
	"loss": 2.122,
	"step": 14450
	},
	{
	"epoch": 0.41529279932407515,
	"grad_norm": 0.008056640625,
	"learning_rate": 0.00012056808787055629,
	"loss": 2.4863,
	"step": 14500
	},
	{
	"epoch": 0.4167248434596754,
	"grad_norm": 32.5,
	"learning_rate": 0.00012027282390457068,
	"loss": 3.3401,
	"step": 14550
	},
	{
	"epoch": 0.4181568875952757,
	"grad_norm": 0.2490234375,
	"learning_rate": 0.0001199775599385851,
	"loss": 2.0398,
	"step": 14600
	},
	{
	"epoch": 0.41958893173087597,
	"grad_norm": 0.326171875,
	"learning_rate": 0.00011968229597259951,
	"loss": 2.8364,
	"step": 14650
	},
	{
	"epoch": 0.4210209758664762,
	"grad_norm": 0.15625,
	"learning_rate": 0.00011938703200661391,
	"loss": 1.4864,
	"step": 14700
	},
	{
	"epoch": 0.42245302000207646,
	"grad_norm": 80.0,
	"learning_rate": 0.00011909176804062833,
	"loss": 2.3397,
	"step": 14750
	},
	{
	"epoch": 0.42388506413767674,
	"grad_norm": 101.5,
	"learning_rate": 0.00011879650407464274,
	"loss": 3.3186,
	"step": 14800
	},
	{
	"epoch": 0.42531710827327696,
	"grad_norm": 2.6875,
	"learning_rate": 0.00011850124010865716,
	"loss": 2.7605,
	"step": 14850
	},
	{
	"epoch": 0.42674915240887723,
	"grad_norm": 95.0,
	"learning_rate": 0.00011820597614267155,
	"loss": 1.9215,
	"step": 14900
	},
	{
	"epoch": 0.4281811965444775,
	"grad_norm": 0.65625,
	"learning_rate": 0.00011791071217668597,
	"loss": 2.0689,
	"step": 14950
	},
	{
	"epoch": 0.4296132406800778,
	"grad_norm": 0.66015625,
	"learning_rate": 0.00011761544821070036,
	"loss": 3.5633,
	"step": 15000
	},
	{
	"epoch": 0.4296132406800778,
	"eval_accuracy": 0.942,
	"eval_loss": 0.27190178632736206,
	"eval_macro_f1": 0.9413541591870516,
	"eval_runtime": 181.3524,
	"eval_samples_per_second": 11.028,
	"eval_steps_per_second": 11.028,
	"step": 15000
	},
	{
	"epoch": 0.431045284815678,
	"grad_norm": 42.25,
	"learning_rate": 0.00011732018424471478,
	"loss": 1.8073,
	"step": 15050
	},
	{
	"epoch": 0.4324773289512783,
	"grad_norm": 0.22265625,
	"learning_rate": 0.0001170249202787292,
	"loss": 1.777,
	"step": 15100
	},
	{
	"epoch": 0.43390937308687855,
	"grad_norm": 0.11328125,
	"learning_rate": 0.0001167296563127436,
	"loss": 1.9598,
	"step": 15150
	},
	{
	"epoch": 0.4353414172224788,
	"grad_norm": 0.095703125,
	"learning_rate": 0.00011643439234675802,
	"loss": 2.7789,
	"step": 15200
	},
	{
	"epoch": 0.43677346135807904,
	"grad_norm": 0.8125,
	"learning_rate": 0.00011613912838077241,
	"loss": 2.3985,
	"step": 15250
	},
	{
	"epoch": 0.4382055054936793,
	"grad_norm": 0.22265625,
	"learning_rate": 0.00011584386441478683,
	"loss": 1.6076,
	"step": 15300
	},
	{
	"epoch": 0.4396375496292796,
	"grad_norm": 0.578125,
	"learning_rate": 0.00011554860044880122,
	"loss": 2.9266,
	"step": 15350
	},
	{
	"epoch": 0.4410695937648798,
	"grad_norm": 0.0130615234375,
	"learning_rate": 0.00011525333648281564,
	"loss": 1.388,
	"step": 15400
	},
	{
	"epoch": 0.4425016379004801,
	"grad_norm": 88.5,
	"learning_rate": 0.00011495807251683006,
	"loss": 2.6264,
	"step": 15450
	},
	{
	"epoch": 0.44393368203608036,
	"grad_norm": 0.123046875,
	"learning_rate": 0.00011466280855084446,
	"loss": 1.9447,
	"step": 15500
	},
	{
	"epoch": 0.44536572617168063,
	"grad_norm": 318.0,
	"learning_rate": 0.00011436754458485888,
	"loss": 1.4494,
	"step": 15550
	},
	{
	"epoch": 0.44679777030728085,
	"grad_norm": 0.123046875,
	"learning_rate": 0.00011407228061887327,
	"loss": 2.4483,
	"step": 15600
	},
	{
	"epoch": 0.4482298144428811,
	"grad_norm": 260.0,
	"learning_rate": 0.00011377701665288769,
	"loss": 2.8899,
	"step": 15650
	},
	{
	"epoch": 0.4496618585784814,
	"grad_norm": 0.07666015625,
	"learning_rate": 0.00011348175268690208,
	"loss": 2.0935,
	"step": 15700
	},
	{
	"epoch": 0.4510939027140817,
	"grad_norm": 0.047119140625,
	"learning_rate": 0.0001131864887209165,
	"loss": 3.0298,
	"step": 15750
	},
	{
	"epoch": 0.4525259468496819,
	"grad_norm": 18.25,
	"learning_rate": 0.00011289122475493092,
	"loss": 1.8288,
	"step": 15800
	},
	{
	"epoch": 0.45395799098528217,
	"grad_norm": 11.75,
	"learning_rate": 0.00011259596078894533,
	"loss": 2.9182,
	"step": 15850
	},
	{
	"epoch": 0.45539003512088244,
	"grad_norm": 0.1416015625,
	"learning_rate": 0.00011230069682295975,
	"loss": 1.9045,
	"step": 15900
	},
	{
	"epoch": 0.45682207925648266,
	"grad_norm": 0.1982421875,
	"learning_rate": 0.00011200543285697414,
	"loss": 1.7933,
	"step": 15950
	},
	{
	"epoch": 0.45825412339208293,
	"grad_norm": 201.0,
	"learning_rate": 0.00011171016889098856,
	"loss": 2.4752,
	"step": 16000
	},
	{
	"epoch": 0.4596861675276832,
	"grad_norm": 284.0,
	"learning_rate": 0.00011141490492500295,
	"loss": 1.7394,
	"step": 16050
	},
	{
	"epoch": 0.4611182116632835,
	"grad_norm": 0.1162109375,
	"learning_rate": 0.00011111964095901737,
	"loss": 1.3612,
	"step": 16100
	},
	{
	"epoch": 0.4625502557988837,
	"grad_norm": 0.30859375,
	"learning_rate": 0.00011082437699303178,
	"loss": 2.6066,
	"step": 16150
	},
	{
	"epoch": 0.463982299934484,
	"grad_norm": 23.75,
	"learning_rate": 0.00011052911302704618,
	"loss": 2.6868,
	"step": 16200
	},
	{
	"epoch": 0.46541434407008425,
	"grad_norm": 1.5546875,
	"learning_rate": 0.0001102338490610606,
	"loss": 2.6526,
	"step": 16250
	},
	{
	"epoch": 0.46541434407008425,
	"eval_accuracy": 0.9445,
	"eval_loss": 0.2859993577003479,
	"eval_macro_f1": 0.9439942443541156,
	"eval_runtime": 175.6054,
	"eval_samples_per_second": 11.389,
	"eval_steps_per_second": 11.389,
	"step": 16250
	},
	{
	"epoch": 0.4668463882056845,
	"grad_norm": 0.11181640625,
	"learning_rate": 0.000109938585095075,
	"loss": 2.041,
	"step": 16300
	},
	{
	"epoch": 0.46827843234128474,
	"grad_norm": 8.3125,
	"learning_rate": 0.00010964332112908942,
	"loss": 2.3374,
	"step": 16350
	},
	{
	"epoch": 0.469710476476885,
	"grad_norm": 268.0,
	"learning_rate": 0.00010934805716310381,
	"loss": 3.461,
	"step": 16400
	},
	{
	"epoch": 0.4711425206124853,
	"grad_norm": 270.0,
	"learning_rate": 0.00010905279319711823,
	"loss": 1.5168,
	"step": 16450
	},
	{
	"epoch": 0.4725745647480855,
	"grad_norm": 1.6171875,
	"learning_rate": 0.00010875752923113265,
	"loss": 1.9156,
	"step": 16500
	},
	{
	"epoch": 0.4740066088836858,
	"grad_norm": 3.25,
	"learning_rate": 0.00010846226526514704,
	"loss": 1.9988,
	"step": 16550
	},
	{
	"epoch": 0.47543865301928606,
	"grad_norm": 266.0,
	"learning_rate": 0.00010816700129916146,
	"loss": 1.9911,
	"step": 16600
	},
	{
	"epoch": 0.47687069715488634,
	"grad_norm": 0.45703125,
	"learning_rate": 0.00010787173733317586,
	"loss": 2.2805,
	"step": 16650
	},
	{
	"epoch": 0.47830274129048655,
	"grad_norm": 0.08740234375,
	"learning_rate": 0.00010757647336719028,
	"loss": 2.3786,
	"step": 16700
	},
	{
	"epoch": 0.47973478542608683,
	"grad_norm": 0.0263671875,
	"learning_rate": 0.00010728120940120467,
	"loss": 2.0964,
	"step": 16750
	},
	{
	"epoch": 0.4811668295616871,
	"grad_norm": 288.0,
	"learning_rate": 0.00010698594543521909,
	"loss": 2.5816,
	"step": 16800
	},
	{
	"epoch": 0.4825988736972873,
	"grad_norm": 0.2138671875,
	"learning_rate": 0.00010669068146923348,
	"loss": 1.2136,
	"step": 16850
	},
	{
	"epoch": 0.4840309178328876,
	"grad_norm": 1.1796875,
	"learning_rate": 0.0001063954175032479,
	"loss": 2.2321,
	"step": 16900
	},
	{
	"epoch": 0.48546296196848787,
	"grad_norm": 0.259765625,
	"learning_rate": 0.00010610015353726232,
	"loss": 2.7485,
	"step": 16950
	},
	{
	"epoch": 0.48689500610408815,
	"grad_norm": 75.5,
	"learning_rate": 0.00010580488957127673,
	"loss": 3.0909,
	"step": 17000
	},
	{
	"epoch": 0.48832705023968836,
	"grad_norm": 86.0,
	"learning_rate": 0.00010550962560529115,
	"loss": 2.0178,
	"step": 17050
	},
	{
	"epoch": 0.48975909437528864,
	"grad_norm": 0.98046875,
	"learning_rate": 0.00010521436163930554,
	"loss": 2.0193,
	"step": 17100
	},
	{
	"epoch": 0.4911911385108889,
	"grad_norm": 68.0,
	"learning_rate": 0.00010491909767331996,
	"loss": 2.178,
	"step": 17150
	},
	{
	"epoch": 0.4926231826464892,
	"grad_norm": 0.375,
	"learning_rate": 0.00010462383370733435,
	"loss": 2.4366,
	"step": 17200
	},
	{
	"epoch": 0.4940552267820894,
	"grad_norm": 0.322265625,
	"learning_rate": 0.00010432856974134877,
	"loss": 2.7989,
	"step": 17250
	},
	{
	"epoch": 0.4954872709176897,
	"grad_norm": 0.1513671875,
	"learning_rate": 0.00010403330577536318,
	"loss": 1.8681,
	"step": 17300
	},
	{
	"epoch": 0.49691931505328996,
	"grad_norm": 0.08935546875,
	"learning_rate": 0.00010373804180937759,
	"loss": 1.9697,
	"step": 17350
	},
	{
	"epoch": 0.4983513591888902,
	"grad_norm": 0.1328125,
	"learning_rate": 0.00010344277784339201,
	"loss": 1.7415,
	"step": 17400
	},
	{
	"epoch": 0.49978340332449045,
	"grad_norm": 0.65234375,
	"learning_rate": 0.0001031475138774064,
	"loss": 1.6849,
	"step": 17450
	},
	{
	"epoch": 0.5012154474600907,
	"grad_norm": 86.5,
	"learning_rate": 0.00010285224991142082,
	"loss": 2.1474,
	"step": 17500
	},
	{
	"epoch": 0.5012154474600907,
	"eval_accuracy": 0.947,
	"eval_loss": 0.2907390892505646,
	"eval_macro_f1": 0.9463529866080697,
	"eval_runtime": 172.6878,
	"eval_samples_per_second": 11.582,
	"eval_steps_per_second": 11.582,
	"step": 17500
	},
	{
	"epoch": 0.502647491595691,
	"grad_norm": 472.0,
	"learning_rate": 0.00010255698594543521,
	"loss": 1.9173,
	"step": 17550
	},
	{
	"epoch": 0.5040795357312913,
	"grad_norm": 1.3828125,
	"learning_rate": 0.00010226172197944963,
	"loss": 3.1869,
	"step": 17600
	},
	{
	"epoch": 0.5055115798668915,
	"grad_norm": 145.0,
	"learning_rate": 0.00010196645801346405,
	"loss": 2.5482,
	"step": 17650
	},
	{
	"epoch": 0.5069436240024917,
	"grad_norm": 0.58203125,
	"learning_rate": 0.00010167119404747844,
	"loss": 2.8567,
	"step": 17700
	},
	{
	"epoch": 0.508375668138092,
	"grad_norm": 0.0888671875,
	"learning_rate": 0.00010137593008149286,
	"loss": 1.7268,
	"step": 17750
	},
	{
	"epoch": 0.5098077122736923,
	"grad_norm": 286.0,
	"learning_rate": 0.00010108066611550726,
	"loss": 2.2268,
	"step": 17800
	},
	{
	"epoch": 0.5112397564092925,
	"grad_norm": 169.0,
	"learning_rate": 0.00010078540214952168,
	"loss": 1.8245,
	"step": 17850
	},
	{
	"epoch": 0.5126718005448928,
	"grad_norm": 0.1923828125,
	"learning_rate": 0.00010049013818353607,
	"loss": 2.3801,
	"step": 17900
	},
	{
	"epoch": 0.5141038446804931,
	"grad_norm": 77.0,
	"learning_rate": 0.00010019487421755049,
	"loss": 2.3412,
	"step": 17950
	},
	{
	"epoch": 0.5155358888160934,
	"grad_norm": 328.0,
	"learning_rate": 9.98996102515649e-05,
	"loss": 3.1564,
	"step": 18000
	},
	{
	"epoch": 0.5169679329516935,
	"grad_norm": 0.57421875,
	"learning_rate": 9.96043462855793e-05,
	"loss": 2.0409,
	"step": 18050
	},
	{
	"epoch": 0.5183999770872938,
	"grad_norm": 0.8828125,
	"learning_rate": 9.930908231959372e-05,
	"loss": 1.8093,
	"step": 18100
	},
	{
	"epoch": 0.5198320212228941,
	"grad_norm": 0.263671875,
	"learning_rate": 9.901381835360814e-05,
	"loss": 2.1228,
	"step": 18150
	},
	{
	"epoch": 0.5212640653584943,
	"grad_norm": 13.625,
	"learning_rate": 9.871855438762255e-05,
	"loss": 1.6072,
	"step": 18200
	},
	{
	"epoch": 0.5226961094940946,
	"grad_norm": 176.0,
	"learning_rate": 9.842329042163695e-05,
	"loss": 2.1088,
	"step": 18250
	},
	{
	"epoch": 0.5241281536296949,
	"grad_norm": 0.09228515625,
	"learning_rate": 9.812802645565136e-05,
	"loss": 2.2985,
	"step": 18300
	},
	{
	"epoch": 0.5255601977652952,
	"grad_norm": 5.9375,
	"learning_rate": 9.783276248966576e-05,
	"loss": 2.8687,
	"step": 18350
	},
	{
	"epoch": 0.5269922419008953,
	"grad_norm": 0.1142578125,
	"learning_rate": 9.753749852368017e-05,
	"loss": 1.9855,
	"step": 18400
	},
	{
	"epoch": 0.5284242860364956,
	"grad_norm": 1.03125,
	"learning_rate": 9.724223455769457e-05,
	"loss": 2.5827,
	"step": 18450
	},
	{
	"epoch": 0.5298563301720959,
	"grad_norm": 270.0,
	"learning_rate": 9.694697059170899e-05,
	"loss": 1.9905,
	"step": 18500
	},
	{
	"epoch": 0.5312883743076962,
	"grad_norm": 0.2392578125,
	"learning_rate": 9.665170662572341e-05,
	"loss": 1.9516,
	"step": 18550
	},
	{
	"epoch": 0.5327204184432964,
	"grad_norm": 116.5,
	"learning_rate": 9.635644265973781e-05,
	"loss": 1.7887,
	"step": 18600
	},
	{
	"epoch": 0.5341524625788967,
	"grad_norm": 0.0306396484375,
	"learning_rate": 9.606117869375222e-05,
	"loss": 1.8686,
	"step": 18650
	},
	{
	"epoch": 0.535584506714497,
	"grad_norm": 0.7109375,
	"learning_rate": 9.576591472776662e-05,
	"loss": 1.7828,
	"step": 18700
	},
	{
	"epoch": 0.5370165508500973,
	"grad_norm": 0.92578125,
	"learning_rate": 9.547065076178103e-05,
	"loss": 1.8761,
	"step": 18750
	},
	{
	"epoch": 0.5370165508500973,
	"eval_accuracy": 0.9495,
	"eval_loss": 0.26102420687675476,
	"eval_macro_f1": 0.9488861373782008,
	"eval_runtime": 172.7705,
	"eval_samples_per_second": 11.576,
	"eval_steps_per_second": 11.576,
	"step": 18750
	},
	{
	"epoch": 0.5384485949856974,
	"grad_norm": 0.1416015625,
	"learning_rate": 9.517538679579543e-05,
	"loss": 2.3765,
	"step": 18800
	},
	{
	"epoch": 0.5398806391212977,
	"grad_norm": 258.0,
	"learning_rate": 9.488012282980985e-05,
	"loss": 1.5944,
	"step": 18850
	},
	{
	"epoch": 0.541312683256898,
	"grad_norm": 106.0,
	"learning_rate": 9.458485886382427e-05,
	"loss": 2.4606,
	"step": 18900
	},
	{
	"epoch": 0.5427447273924982,
	"grad_norm": 92.5,
	"learning_rate": 9.428959489783868e-05,
	"loss": 2.6863,
	"step": 18950
	},
	{
	"epoch": 0.5441767715280985,
	"grad_norm": 207.0,
	"learning_rate": 9.399433093185308e-05,
	"loss": 1.9462,
	"step": 19000
	},
	{
	"epoch": 0.5456088156636988,
	"grad_norm": 82.5,
	"learning_rate": 9.369906696586749e-05,
	"loss": 2.8243,
	"step": 19050
	},
	{
	"epoch": 0.5470408597992991,
	"grad_norm": 0.1572265625,
	"learning_rate": 9.340380299988189e-05,
	"loss": 1.8158,
	"step": 19100
	},
	{
	"epoch": 0.5484729039348992,
	"grad_norm": 0.4609375,
	"learning_rate": 9.31085390338963e-05,
	"loss": 2.7108,
	"step": 19150
	},
	{
	"epoch": 0.5499049480704995,
	"grad_norm": 0.62109375,
	"learning_rate": 9.281327506791072e-05,
	"loss": 1.9835,
	"step": 19200
	},
	{
	"epoch": 0.5513369922060998,
	"grad_norm": 0.039794921875,
	"learning_rate": 9.251801110192512e-05,
	"loss": 2.0608,
	"step": 19250
	},
	{
	"epoch": 0.5527690363417,
	"grad_norm": 1.265625,
	"learning_rate": 9.222274713593954e-05,
	"loss": 1.9135,
	"step": 19300
	},
	{
	"epoch": 0.5542010804773003,
	"grad_norm": 0.030517578125,
	"learning_rate": 9.192748316995395e-05,
	"loss": 2.5224,
	"step": 19350
	},
	{
	"epoch": 0.5556331246129006,
	"grad_norm": 332.0,
	"learning_rate": 9.163221920396835e-05,
	"loss": 3.2123,
	"step": 19400
	},
	{
	"epoch": 0.5570651687485009,
	"grad_norm": 0.046142578125,
	"learning_rate": 9.133695523798276e-05,
	"loss": 1.9807,
	"step": 19450
	},
	{
	"epoch": 0.558497212884101,
	"grad_norm": 0.036376953125,
	"learning_rate": 9.104169127199716e-05,
	"loss": 2.8211,
	"step": 19500
	},
	{
	"epoch": 0.5599292570197013,
	"grad_norm": 0.2412109375,
	"learning_rate": 9.074642730601158e-05,
	"loss": 2.7913,
	"step": 19550
	},
	{
	"epoch": 0.5613613011553016,
	"grad_norm": 0.087890625,
	"learning_rate": 9.045116334002599e-05,
	"loss": 1.5528,
	"step": 19600
	},
	{
	"epoch": 0.5627933452909019,
	"grad_norm": 0.21484375,
	"learning_rate": 9.01558993740404e-05,
	"loss": 2.3024,
	"step": 19650
	},
	{
	"epoch": 0.5642253894265021,
	"grad_norm": 0.271484375,
	"learning_rate": 8.986063540805481e-05,
	"loss": 1.305,
	"step": 19700
	},
	{
	"epoch": 0.5656574335621024,
	"grad_norm": 0.373046875,
	"learning_rate": 8.956537144206921e-05,
	"loss": 2.1656,
	"step": 19750
	},
	{
	"epoch": 0.5670894776977027,
	"grad_norm": 84.5,
	"learning_rate": 8.927010747608362e-05,
	"loss": 1.6671,
	"step": 19800
	},
	{
	"epoch": 0.568521521833303,
	"grad_norm": 112.0,
	"learning_rate": 8.897484351009802e-05,
	"loss": 2.4715,
	"step": 19850
	},
	{
	"epoch": 0.5699535659689031,
	"grad_norm": 0.130859375,
	"learning_rate": 8.867957954411244e-05,
	"loss": 1.7577,
	"step": 19900
	},
	{
	"epoch": 0.5713856101045034,
	"grad_norm": 0.1357421875,
	"learning_rate": 8.838431557812685e-05,
	"loss": 1.6778,
	"step": 19950
	},
	{
	"epoch": 0.5728176542401037,
	"grad_norm": 0.07080078125,
	"learning_rate": 8.808905161214125e-05,
	"loss": 1.4789,
	"step": 20000
	},
	{
	"epoch": 0.5728176542401037,
	"eval_accuracy": 0.949,
	"eval_loss": 0.2858292758464813,
	"eval_macro_f1": 0.9484543460104051,
	"eval_runtime": 172.7421,
	"eval_samples_per_second": 11.578,
	"eval_steps_per_second": 11.578,
	"step": 20000
	},
	{
	"epoch": 0.5742496983757039,
	"grad_norm": 0.140625,
	"learning_rate": 8.779378764615567e-05,
	"loss": 1.6797,
	"step": 20050
	},
	{
	"epoch": 0.5756817425113042,
	"grad_norm": 0.115234375,
	"learning_rate": 8.749852368017008e-05,
	"loss": 1.5026,
	"step": 20100
	},
	{
	"epoch": 0.5771137866469045,
	"grad_norm": 0.02880859375,
	"learning_rate": 8.720325971418448e-05,
	"loss": 2.1316,
	"step": 20150
	},
	{
	"epoch": 0.5785458307825048,
	"grad_norm": 0.08544921875,
	"learning_rate": 8.690799574819889e-05,
	"loss": 1.7517,
	"step": 20200
	},
	{
	"epoch": 0.5799778749181049,
	"grad_norm": 82.0,
	"learning_rate": 8.661273178221331e-05,
	"loss": 2.4167,
	"step": 20250
	},
	{
	"epoch": 0.5814099190537052,
	"grad_norm": 0.138671875,
	"learning_rate": 8.631746781622771e-05,
	"loss": 1.8565,
	"step": 20300
	},
	{
	"epoch": 0.5828419631893055,
	"grad_norm": 34.25,
	"learning_rate": 8.602220385024212e-05,
	"loss": 1.9747,
	"step": 20350
	},
	{
	"epoch": 0.5842740073249058,
	"grad_norm": 91.0,
	"learning_rate": 8.572693988425654e-05,
	"loss": 2.3284,
	"step": 20400
	},
	{
	"epoch": 0.585706051460506,
	"grad_norm": 0.80859375,
	"learning_rate": 8.543167591827094e-05,
	"loss": 2.1788,
	"step": 20450
	},
	{
	"epoch": 0.5871380955961063,
	"grad_norm": 446.0,
	"learning_rate": 8.513641195228535e-05,
	"loss": 1.6187,
	"step": 20500
	},
	{
	"epoch": 0.5885701397317066,
	"grad_norm": 43.75,
	"learning_rate": 8.484114798629975e-05,
	"loss": 1.6338,
	"step": 20550
	},
	{
	"epoch": 0.5900021838673067,
	"grad_norm": 0.91015625,
	"learning_rate": 8.454588402031417e-05,
	"loss": 2.424,
	"step": 20600
	},
	{
	"epoch": 0.591434228002907,
	"grad_norm": 0.44921875,
	"learning_rate": 8.425062005432858e-05,
	"loss": 2.3043,
	"step": 20650
	},
	{
	"epoch": 0.5928662721385073,
	"grad_norm": 268.0,
	"learning_rate": 8.395535608834298e-05,
	"loss": 2.5707,
	"step": 20700
	},
	{
	"epoch": 0.5942983162741076,
	"grad_norm": 4.125,
	"learning_rate": 8.366009212235739e-05,
	"loss": 1.9577,
	"step": 20750
	},
	{
	"epoch": 0.5957303604097078,
	"grad_norm": 5.0,
	"learning_rate": 8.33648281563718e-05,
	"loss": 0.7482,
	"step": 20800
	},
	{
	"epoch": 0.5971624045453081,
	"grad_norm": 0.04052734375,
	"learning_rate": 8.306956419038621e-05,
	"loss": 1.5055,
	"step": 20850
	},
	{
	"epoch": 0.5985944486809084,
	"grad_norm": 1.109375,
	"learning_rate": 8.277430022440061e-05,
	"loss": 3.3671,
	"step": 20900
	},
	{
	"epoch": 0.6000264928165085,
	"grad_norm": 0.162109375,
	"learning_rate": 8.247903625841503e-05,
	"loss": 2.0574,
	"step": 20950
	},
	{
	"epoch": 0.6014585369521088,
	"grad_norm": 0.03173828125,
	"learning_rate": 8.218377229242944e-05,
	"loss": 2.1942,
	"step": 21000
	},
	{
	"epoch": 0.6028905810877091,
	"grad_norm": 0.251953125,
	"learning_rate": 8.188850832644384e-05,
	"loss": 1.6319,
	"step": 21050
	},
	{
	"epoch": 0.6043226252233094,
	"grad_norm": 86.5,
	"learning_rate": 8.159324436045825e-05,
	"loss": 2.1558,
	"step": 21100
	},
	{
	"epoch": 0.6057546693589096,
	"grad_norm": 2.984375,
	"learning_rate": 8.129798039447267e-05,
	"loss": 2.2353,
	"step": 21150
	},
	{
	"epoch": 0.6071867134945099,
	"grad_norm": 0.0908203125,
	"learning_rate": 8.100271642848707e-05,
	"loss": 1.4975,
	"step": 21200
	},
	{
	"epoch": 0.6086187576301102,
	"grad_norm": 98.0,
	"learning_rate": 8.070745246250148e-05,
	"loss": 2.5975,
	"step": 21250
	},
	{
	"epoch": 0.6086187576301102,
	"eval_accuracy": 0.948,
	"eval_loss": 0.2741381525993347,
	"eval_macro_f1": 0.9473973559594594,
	"eval_runtime": 172.6111,
	"eval_samples_per_second": 11.587,
	"eval_steps_per_second": 11.587,
	"step": 21250
	},
	{
	"epoch": 0.6100508017657105,
	"grad_norm": 328.0,
	"learning_rate": 8.04121884965159e-05,
	"loss": 2.4534,
	"step": 21300
	},
	{
	"epoch": 0.6114828459013106,
	"grad_norm": 11.125,
	"learning_rate": 8.01169245305303e-05,
	"loss": 2.1319,
	"step": 21350
	},
	{
	"epoch": 0.6129148900369109,
	"grad_norm": 0.08642578125,
	"learning_rate": 7.982166056454471e-05,
	"loss": 2.4199,
	"step": 21400
	},
	{
	"epoch": 0.6143469341725112,
	"grad_norm": 0.18359375,
	"learning_rate": 7.952639659855911e-05,
	"loss": 1.7527,
	"step": 21450
	},
	{
	"epoch": 0.6157789783081115,
	"grad_norm": 0.458984375,
	"learning_rate": 7.923113263257352e-05,
	"loss": 2.4992,
	"step": 21500
	},
	{
	"epoch": 0.6172110224437117,
	"grad_norm": 0.671875,
	"learning_rate": 7.893586866658794e-05,
	"loss": 2.5082,
	"step": 21550
	},
	{
	"epoch": 0.618643066579312,
	"grad_norm": 272.0,
	"learning_rate": 7.864060470060234e-05,
	"loss": 2.2187,
	"step": 21600
	},
	{
	"epoch": 0.6200751107149123,
	"grad_norm": 310.0,
	"learning_rate": 7.834534073461675e-05,
	"loss": 3.006,
	"step": 21650
	},
	{
	"epoch": 0.6215071548505124,
	"grad_norm": 536.0,
	"learning_rate": 7.805007676863117e-05,
	"loss": 2.4535,
	"step": 21700
	},
	{
	"epoch": 0.6229391989861127,
	"grad_norm": 408.0,
	"learning_rate": 7.775481280264557e-05,
	"loss": 2.376,
	"step": 21750
	},
	{
	"epoch": 0.624371243121713,
	"grad_norm": 0.123046875,
	"learning_rate": 7.745954883665998e-05,
	"loss": 1.3044,
	"step": 21800
	},
	{
	"epoch": 0.6258032872573133,
	"grad_norm": 0.70703125,
	"learning_rate": 7.716428487067438e-05,
	"loss": 1.9046,
	"step": 21850
	},
	{
	"epoch": 0.6272353313929135,
	"grad_norm": 0.189453125,
	"learning_rate": 7.68690209046888e-05,
	"loss": 1.8825,
	"step": 21900
	},
	{
	"epoch": 0.6286673755285138,
	"grad_norm": 0.251953125,
	"learning_rate": 7.65737569387032e-05,
	"loss": 2.353,
	"step": 21950
	},
	{
	"epoch": 0.6300994196641141,
	"grad_norm": 0.0301513671875,
	"learning_rate": 7.627849297271761e-05,
	"loss": 1.7222,
	"step": 22000
	},
	{
	"epoch": 0.6315314637997143,
	"grad_norm": 0.126953125,
	"learning_rate": 7.598322900673203e-05,
	"loss": 2.4583,
	"step": 22050
	},
	{
	"epoch": 0.6329635079353145,
	"grad_norm": 1.0234375,
	"learning_rate": 7.568796504074643e-05,
	"loss": 1.9643,
	"step": 22100
	},
	{
	"epoch": 0.6343955520709148,
	"grad_norm": 70.5,
	"learning_rate": 7.539270107476084e-05,
	"loss": 1.6712,
	"step": 22150
	},
	{
	"epoch": 0.6358275962065151,
	"grad_norm": 8.0,
	"learning_rate": 7.509743710877524e-05,
	"loss": 2.1964,
	"step": 22200
	},
	{
	"epoch": 0.6372596403421154,
	"grad_norm": 11.625,
	"learning_rate": 7.480217314278965e-05,
	"loss": 2.0319,
	"step": 22250
	},
	{
	"epoch": 0.6386916844777156,
	"grad_norm": 0.09033203125,
	"learning_rate": 7.450690917680407e-05,
	"loss": 3.1062,
	"step": 22300
	},
	{
	"epoch": 0.6401237286133159,
	"grad_norm": 490.0,
	"learning_rate": 7.421164521081847e-05,
	"loss": 2.028,
	"step": 22350
	},
	{
	"epoch": 0.6415557727489162,
	"grad_norm": 688.0,
	"learning_rate": 7.391638124483289e-05,
	"loss": 1.6743,
	"step": 22400
	},
	{
	"epoch": 0.6429878168845163,
	"grad_norm": 0.2578125,
	"learning_rate": 7.36211172788473e-05,
	"loss": 1.3926,
	"step": 22450
	},
	{
	"epoch": 0.6444198610201166,
	"grad_norm": 278.0,
	"learning_rate": 7.33258533128617e-05,
	"loss": 2.073,
	"step": 22500
	},
	{
	"epoch": 0.6444198610201166,
	"eval_accuracy": 0.9495,
	"eval_loss": 0.2617259919643402,
	"eval_macro_f1": 0.9489699460568645,
	"eval_runtime": 172.6662,
	"eval_samples_per_second": 11.583,
	"eval_steps_per_second": 11.583,
	"step": 22500
	},
	{
	"epoch": 0.6458519051557169,
	"grad_norm": 0.07373046875,
	"learning_rate": 7.303058934687611e-05,
	"loss": 2.099,
	"step": 22550
	},
	{
	"epoch": 0.6472839492913172,
	"grad_norm": 0.5859375,
	"learning_rate": 7.273532538089051e-05,
	"loss": 2.2826,
	"step": 22600
	},
	{
	"epoch": 0.6487159934269174,
	"grad_norm": 79.5,
	"learning_rate": 7.244006141490493e-05,
	"loss": 1.377,
	"step": 22650
	},
	{
	"epoch": 0.6501480375625177,
	"grad_norm": 2.265625,
	"learning_rate": 7.214479744891934e-05,
	"loss": 1.9826,
	"step": 22700
	},
	{
	"epoch": 0.651580081698118,
	"grad_norm": 0.37109375,
	"learning_rate": 7.184953348293376e-05,
	"loss": 2.2446,
	"step": 22750
	},
	{
	"epoch": 0.6530121258337181,
	"grad_norm": 4.25,
	"learning_rate": 7.155426951694816e-05,
	"loss": 2.0254,
	"step": 22800
	},
	{
	"epoch": 0.6544441699693184,
	"grad_norm": 0.03564453125,
	"learning_rate": 7.125900555096257e-05,
	"loss": 2.0871,
	"step": 22850
	},
	{
	"epoch": 0.6558762141049187,
	"grad_norm": 0.390625,
	"learning_rate": 7.096374158497697e-05,
	"loss": 2.9276,
	"step": 22900
	},
	{
	"epoch": 0.657308258240519,
	"grad_norm": 0.384765625,
	"learning_rate": 7.066847761899138e-05,
	"loss": 1.0622,
	"step": 22950
	},
	{
	"epoch": 0.6587403023761192,
	"grad_norm": 4576.0,
	"learning_rate": 7.037321365300578e-05,
	"loss": 3.0808,
	"step": 23000
	},
	{
	"epoch": 0.6601723465117195,
	"grad_norm": 372.0,
	"learning_rate": 7.00779496870202e-05,
	"loss": 1.8306,
	"step": 23050
	},
	{
	"epoch": 0.6616043906473198,
	"grad_norm": 0.208984375,
	"learning_rate": 6.978268572103462e-05,
	"loss": 2.1282,
	"step": 23100
	},
	{
	"epoch": 0.66303643478292,
	"grad_norm": 5.65625,
	"learning_rate": 6.948742175504902e-05,
	"loss": 1.8392,
	"step": 23150
	},
	{
	"epoch": 0.6644684789185202,
	"grad_norm": 0.24609375,
	"learning_rate": 6.919215778906343e-05,
	"loss": 2.594,
	"step": 23200
	},
	{
	"epoch": 0.6659005230541205,
	"grad_norm": 0.123046875,
	"learning_rate": 6.889689382307783e-05,
	"loss": 2.4234,
	"step": 23250
	},
	{
	"epoch": 0.6673325671897208,
	"grad_norm": 268.0,
	"learning_rate": 6.860162985709224e-05,
	"loss": 2.3424,
	"step": 23300
	},
	{
	"epoch": 0.6687646113253211,
	"grad_norm": 0.427734375,
	"learning_rate": 6.830636589110664e-05,
	"loss": 2.3216,
	"step": 23350
	},
	{
	"epoch": 0.6701966554609213,
	"grad_norm": 0.9296875,
	"learning_rate": 6.801110192512106e-05,
	"loss": 2.4566,
	"step": 23400
	},
	{
	"epoch": 0.6716286995965216,
	"grad_norm": 88.5,
	"learning_rate": 6.771583795913548e-05,
	"loss": 1.3767,
	"step": 23450
	},
	{
	"epoch": 0.6730607437321218,
	"grad_norm": 488.0,
	"learning_rate": 6.742057399314989e-05,
	"loss": 2.343,
	"step": 23500
	},
	{
	"epoch": 0.674492787867722,
	"grad_norm": 296.0,
	"learning_rate": 6.712531002716429e-05,
	"loss": 1.4841,
	"step": 23550
	},
	{
	"epoch": 0.6759248320033223,
	"grad_norm": 218.0,
	"learning_rate": 6.68300460611787e-05,
	"loss": 2.4037,
	"step": 23600
	},
	{
	"epoch": 0.6773568761389226,
	"grad_norm": 0.466796875,
	"learning_rate": 6.65347820951931e-05,
	"loss": 1.4982,
	"step": 23650
	},
	{
	"epoch": 0.6787889202745229,
	"grad_norm": 49.25,
	"learning_rate": 6.623951812920751e-05,
	"loss": 2.2085,
	"step": 23700
	},
	{
	"epoch": 0.6802209644101231,
	"grad_norm": 0.30078125,
	"learning_rate": 6.594425416322191e-05,
	"loss": 1.7055,
	"step": 23750
	},
	{
	"epoch": 0.6802209644101231,
	"eval_accuracy": 0.9505,
	"eval_loss": 0.26270824670791626,
	"eval_macro_f1": 0.9498080478089564,
	"eval_runtime": 172.6664,
	"eval_samples_per_second": 11.583,
	"eval_steps_per_second": 11.583,
	"step": 23750
	},
	{
	"epoch": 0.6816530085457234,
	"grad_norm": 95.5,
	"learning_rate": 6.564899019723633e-05,
	"loss": 2.5024,
	"step": 23800
	},
	{
	"epoch": 0.6830850526813237,
	"grad_norm": 0.30078125,
	"learning_rate": 6.535372623125075e-05,
	"loss": 2.2518,
	"step": 23850
	},
	{
	"epoch": 0.6845170968169239,
	"grad_norm": 116.5,
	"learning_rate": 6.505846226526516e-05,
	"loss": 2.0539,
	"step": 23900
	},
	{
	"epoch": 0.6859491409525241,
	"grad_norm": 264.0,
	"learning_rate": 6.476319829927956e-05,
	"loss": 2.5857,
	"step": 23950
	},
	{
	"epoch": 0.6873811850881244,
	"grad_norm": 302.0,
	"learning_rate": 6.446793433329397e-05,
	"loss": 2.1408,
	"step": 24000
	},
	{
	"epoch": 0.6888132292237247,
	"grad_norm": 0.5390625,
	"learning_rate": 6.417267036730837e-05,
	"loss": 1.9618,
	"step": 24050
	},
	{
	"epoch": 0.690245273359325,
	"grad_norm": 164.0,
	"learning_rate": 6.387740640132278e-05,
	"loss": 2.0112,
	"step": 24100
	},
	{
	"epoch": 0.6916773174949252,
	"grad_norm": 14.0625,
	"learning_rate": 6.35821424353372e-05,
	"loss": 2.7256,
	"step": 24150
	},
	{
	"epoch": 0.6931093616305255,
	"grad_norm": 164.0,
	"learning_rate": 6.328687846935161e-05,
	"loss": 0.8362,
	"step": 24200
	},
	{
	"epoch": 0.6945414057661257,
	"grad_norm": 0.271484375,
	"learning_rate": 6.299161450336602e-05,
	"loss": 2.2874,
	"step": 24250
	},
	{
	"epoch": 0.6959734499017259,
	"grad_norm": 110.5,
	"learning_rate": 6.269635053738042e-05,
	"loss": 1.5674,
	"step": 24300
	},
	{
	"epoch": 0.6974054940373262,
	"grad_norm": 0.1630859375,
	"learning_rate": 6.240108657139483e-05,
	"loss": 2.5817,
	"step": 24350
	},
	{
	"epoch": 0.6988375381729265,
	"grad_norm": 0.99609375,
	"learning_rate": 6.210582260540923e-05,
	"loss": 1.2537,
	"step": 24400
	},
	{
	"epoch": 0.7002695823085268,
	"grad_norm": 266.0,
	"learning_rate": 6.181055863942364e-05,
	"loss": 2.4499,
	"step": 24450
	},
	{
	"epoch": 0.701701626444127,
	"grad_norm": 1.59375,
	"learning_rate": 6.151529467343806e-05,
	"loss": 2.8047,
	"step": 24500
	},
	{
	"epoch": 0.7031336705797273,
	"grad_norm": 0.08447265625,
	"learning_rate": 6.122003070745246e-05,
	"loss": 1.6917,
	"step": 24550
	},
	{
	"epoch": 0.7045657147153275,
	"grad_norm": 296.0,
	"learning_rate": 6.0924766741466875e-05,
	"loss": 2.2486,
	"step": 24600
	},
	{
	"epoch": 0.7059977588509277,
	"grad_norm": 183.0,
	"learning_rate": 6.062950277548128e-05,
	"loss": 2.5183,
	"step": 24650
	},
	{
	"epoch": 0.707429802986528,
	"grad_norm": 0.123046875,
	"learning_rate": 6.033423880949569e-05,
	"loss": 2.2984,
	"step": 24700
	},
	{
	"epoch": 0.7088618471221283,
	"grad_norm": 0.37890625,
	"learning_rate": 6.00389748435101e-05,
	"loss": 2.4598,
	"step": 24750
	},
	{
	"epoch": 0.7102938912577286,
	"grad_norm": 6.25,
	"learning_rate": 5.97437108775245e-05,
	"loss": 2.0554,
	"step": 24800
	},
	{
	"epoch": 0.7117259353933288,
	"grad_norm": 1.5234375,
	"learning_rate": 5.9448446911538915e-05,
	"loss": 1.3688,
	"step": 24850
	},
	{
	"epoch": 0.7131579795289291,
	"grad_norm": 83.5,
	"learning_rate": 5.9153182945553334e-05,
	"loss": 2.6434,
	"step": 24900
	},
	{
	"epoch": 0.7145900236645294,
	"grad_norm": 0.8046875,
	"learning_rate": 5.885791897956774e-05,
	"loss": 1.1703,
	"step": 24950
	},
	{
	"epoch": 0.7160220678001296,
	"grad_norm": 0.76953125,
	"learning_rate": 5.8562655013582144e-05,
	"loss": 1.7433,
	"step": 25000
	},
	{
	"epoch": 0.7160220678001296,
	"eval_accuracy": 0.9475,
	"eval_loss": 0.2805185317993164,
	"eval_macro_f1": 0.9469725724830536,
	"eval_runtime": 172.6365,
	"eval_samples_per_second": 11.585,
	"eval_steps_per_second": 11.585,
	"step": 25000
	},
	{
	"epoch": 0.7174541119357298,
	"grad_norm": 268.0,
	"learning_rate": 5.8267391047596556e-05,
	"loss": 2.7963,
	"step": 25050
	},
	{
	"epoch": 0.7188861560713301,
	"grad_norm": 294.0,
	"learning_rate": 5.797212708161096e-05,
	"loss": 2.3253,
	"step": 25100
	},
	{
	"epoch": 0.7203182002069304,
	"grad_norm": 0.11181640625,
	"learning_rate": 5.7676863115625366e-05,
	"loss": 1.0165,
	"step": 25150
	},
	{
	"epoch": 0.7217502443425307,
	"grad_norm": 756.0,
	"learning_rate": 5.738159914963978e-05,
	"loss": 1.4844,
	"step": 25200
	},
	{
	"epoch": 0.7231822884781309,
	"grad_norm": 0.10107421875,
	"learning_rate": 5.70863351836542e-05,
	"loss": 2.7171,
	"step": 25250
	},
	{
	"epoch": 0.7246143326137312,
	"grad_norm": 336.0,
	"learning_rate": 5.67910712176686e-05,
	"loss": 3.1605,
	"step": 25300
	},
	{
	"epoch": 0.7260463767493314,
	"grad_norm": 177.0,
	"learning_rate": 5.649580725168301e-05,
	"loss": 1.9816,
	"step": 25350
	},
	{
	"epoch": 0.7274784208849316,
	"grad_norm": 1.78125,
	"learning_rate": 5.620054328569741e-05,
	"loss": 1.8129,
	"step": 25400
	},
	{
	"epoch": 0.7289104650205319,
	"grad_norm": 0.040771484375,
	"learning_rate": 5.5905279319711824e-05,
	"loss": 1.3484,
	"step": 25450
	},
	{
	"epoch": 0.7303425091561322,
	"grad_norm": 8.375,
	"learning_rate": 5.561001535372623e-05,
	"loss": 2.1354,
	"step": 25500
	},
	{
	"epoch": 0.7317745532917325,
	"grad_norm": 0.0308837890625,
	"learning_rate": 5.5314751387740635e-05,
	"loss": 1.747,
	"step": 25550
	},
	{
	"epoch": 0.7332065974273327,
	"grad_norm": 808.0,
	"learning_rate": 5.5019487421755053e-05,
	"loss": 2.6803,
	"step": 25600
	},
	{
	"epoch": 0.734638641562933,
	"grad_norm": 0.96484375,
	"learning_rate": 5.4724223455769465e-05,
	"loss": 2.2422,
	"step": 25650
	},
	{
	"epoch": 0.7360706856985332,
	"grad_norm": 10.0,
	"learning_rate": 5.442895948978387e-05,
	"loss": 2.0731,
	"step": 25700
	},
	{
	"epoch": 0.7375027298341335,
	"grad_norm": 0.27734375,
	"learning_rate": 5.4133695523798276e-05,
	"loss": 2.9622,
	"step": 25750
	},
	{
	"epoch": 0.7389347739697337,
	"grad_norm": 200.0,
	"learning_rate": 5.383843155781269e-05,
	"loss": 2.179,
	"step": 25800
	},
	{
	"epoch": 0.740366818105334,
	"grad_norm": 118.5,
	"learning_rate": 5.354316759182709e-05,
	"loss": 2.4152,
	"step": 25850
	},
	{
	"epoch": 0.7417988622409343,
	"grad_norm": 0.2470703125,
	"learning_rate": 5.32479036258415e-05,
	"loss": 1.4274,
	"step": 25900
	},
	{
	"epoch": 0.7432309063765346,
	"grad_norm": 6.71875,
	"learning_rate": 5.295263965985592e-05,
	"loss": 2.0263,
	"step": 25950
	},
	{
	"epoch": 0.7446629505121348,
	"grad_norm": 0.28125,
	"learning_rate": 5.265737569387033e-05,
	"loss": 1.8231,
	"step": 26000
	},
	{
	"epoch": 0.746094994647735,
	"grad_norm": 0.8046875,
	"learning_rate": 5.2362111727884734e-05,
	"loss": 1.7974,
	"step": 26050
	},
	{
	"epoch": 0.7475270387833353,
	"grad_norm": 102.5,
	"learning_rate": 5.206684776189914e-05,
	"loss": 2.5667,
	"step": 26100
	},
	{
	"epoch": 0.7489590829189355,
	"grad_norm": 380.0,
	"learning_rate": 5.1771583795913544e-05,
	"loss": 1.8334,
	"step": 26150
	},
	{
	"epoch": 0.7503911270545358,
	"grad_norm": 0.74609375,
	"learning_rate": 5.1476319829927956e-05,
	"loss": 1.2929,
	"step": 26200
	},
	{
	"epoch": 0.7518231711901361,
	"grad_norm": 7.3125,
	"learning_rate": 5.118105586394236e-05,
	"loss": 2.2943,
	"step": 26250
	},
	{
	"epoch": 0.7518231711901361,
	"eval_accuracy": 0.951,
	"eval_loss": 0.2633407413959503,
	"eval_macro_f1": 0.9502699810655684,
	"eval_runtime": 172.7789,
	"eval_samples_per_second": 11.575,
	"eval_steps_per_second": 11.575,
	"step": 26250
	}
	],
	"logging_steps": 50,
	"max_steps": 34916,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1250,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.1179332952064e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}