ModernBERT-MOSGrader / trainer_state.json

Upload 4 files

2686475 verified 12 months ago

56.1 kB

	{
	"best_metric": 0.6869426704202687,
	"best_model_checkpoint": "/userstorage/modernbert-llm-grader/checkpoint-31216",
	"epoch": 4.0,
	"eval_steps": 500,
	"global_step": 31216,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.012813941568426449,
	"grad_norm": 5.321617603302002,
	"learning_rate": 4.987186058431574e-05,
	"loss": 1.4033,
	"step": 100
	},
	{
	"epoch": 0.025627883136852898,
	"grad_norm": 3.621730089187622,
	"learning_rate": 4.974372116863147e-05,
	"loss": 1.3035,
	"step": 200
	},
	{
	"epoch": 0.03844182470527934,
	"grad_norm": 7.95962381362915,
	"learning_rate": 4.961558175294721e-05,
	"loss": 1.2506,
	"step": 300
	},
	{
	"epoch": 0.051255766273705795,
	"grad_norm": 3.631398916244507,
	"learning_rate": 4.9487442337262944e-05,
	"loss": 1.2354,
	"step": 400
	},
	{
	"epoch": 0.06406970784213224,
	"grad_norm": 2.6680333614349365,
	"learning_rate": 4.935930292157868e-05,
	"loss": 1.2397,
	"step": 500
	},
	{
	"epoch": 0.07688364941055868,
	"grad_norm": 6.042360305786133,
	"learning_rate": 4.9231163505894415e-05,
	"loss": 1.1811,
	"step": 600
	},
	{
	"epoch": 0.08969759097898514,
	"grad_norm": 6.7501959800720215,
	"learning_rate": 4.9103024090210154e-05,
	"loss": 1.1947,
	"step": 700
	},
	{
	"epoch": 0.10251153254741159,
	"grad_norm": 3.4089736938476562,
	"learning_rate": 4.8974884674525886e-05,
	"loss": 1.1812,
	"step": 800
	},
	{
	"epoch": 0.11532547411583803,
	"grad_norm": 5.0775604248046875,
	"learning_rate": 4.884674525884162e-05,
	"loss": 1.1752,
	"step": 900
	},
	{
	"epoch": 0.12813941568426448,
	"grad_norm": 4.529630184173584,
	"learning_rate": 4.8718605843157357e-05,
	"loss": 1.1867,
	"step": 1000
	},
	{
	"epoch": 0.14095335725269093,
	"grad_norm": 4.961220741271973,
	"learning_rate": 4.859046642747309e-05,
	"loss": 1.2129,
	"step": 1100
	},
	{
	"epoch": 0.15376729882111737,
	"grad_norm": 4.113813400268555,
	"learning_rate": 4.846232701178883e-05,
	"loss": 1.1293,
	"step": 1200
	},
	{
	"epoch": 0.16658124038954383,
	"grad_norm": 7.25917387008667,
	"learning_rate": 4.8334187596104566e-05,
	"loss": 1.1008,
	"step": 1300
	},
	{
	"epoch": 0.17939518195797027,
	"grad_norm": 5.579372882843018,
	"learning_rate": 4.82060481804203e-05,
	"loss": 1.1327,
	"step": 1400
	},
	{
	"epoch": 0.1922091235263967,
	"grad_norm": 9.794898986816406,
	"learning_rate": 4.807790876473604e-05,
	"loss": 1.1355,
	"step": 1500
	},
	{
	"epoch": 0.20502306509482318,
	"grad_norm": 9.875951766967773,
	"learning_rate": 4.794976934905177e-05,
	"loss": 1.0057,
	"step": 1600
	},
	{
	"epoch": 0.21783700666324962,
	"grad_norm": 7.271333694458008,
	"learning_rate": 4.782162993336751e-05,
	"loss": 1.1101,
	"step": 1700
	},
	{
	"epoch": 0.23065094823167606,
	"grad_norm": 6.730026721954346,
	"learning_rate": 4.769349051768324e-05,
	"loss": 1.0762,
	"step": 1800
	},
	{
	"epoch": 0.2434648898001025,
	"grad_norm": 5.596224784851074,
	"learning_rate": 4.756535110199898e-05,
	"loss": 1.0413,
	"step": 1900
	},
	{
	"epoch": 0.25627883136852897,
	"grad_norm": 4.591865539550781,
	"learning_rate": 4.743721168631472e-05,
	"loss": 1.0593,
	"step": 2000
	},
	{
	"epoch": 0.2690927729369554,
	"grad_norm": 6.357232570648193,
	"learning_rate": 4.730907227063045e-05,
	"loss": 1.0434,
	"step": 2100
	},
	{
	"epoch": 0.28190671450538185,
	"grad_norm": 5.185873508453369,
	"learning_rate": 4.718093285494619e-05,
	"loss": 1.021,
	"step": 2200
	},
	{
	"epoch": 0.2947206560738083,
	"grad_norm": 8.19482135772705,
	"learning_rate": 4.705279343926192e-05,
	"loss": 1.1102,
	"step": 2300
	},
	{
	"epoch": 0.30753459764223473,
	"grad_norm": 6.1499176025390625,
	"learning_rate": 4.692465402357765e-05,
	"loss": 1.0115,
	"step": 2400
	},
	{
	"epoch": 0.3203485392106612,
	"grad_norm": 11.092570304870605,
	"learning_rate": 4.679651460789339e-05,
	"loss": 0.9576,
	"step": 2500
	},
	{
	"epoch": 0.33316248077908767,
	"grad_norm": 5.10243034362793,
	"learning_rate": 4.666837519220912e-05,
	"loss": 1.0674,
	"step": 2600
	},
	{
	"epoch": 0.3459764223475141,
	"grad_norm": 4.633431434631348,
	"learning_rate": 4.654023577652486e-05,
	"loss": 1.0004,
	"step": 2700
	},
	{
	"epoch": 0.35879036391594055,
	"grad_norm": 5.507874488830566,
	"learning_rate": 4.6412096360840594e-05,
	"loss": 1.0439,
	"step": 2800
	},
	{
	"epoch": 0.371604305484367,
	"grad_norm": 5.591798305511475,
	"learning_rate": 4.628395694515633e-05,
	"loss": 1.0509,
	"step": 2900
	},
	{
	"epoch": 0.3844182470527934,
	"grad_norm": 4.341959476470947,
	"learning_rate": 4.6155817529472065e-05,
	"loss": 0.9864,
	"step": 3000
	},
	{
	"epoch": 0.3972321886212199,
	"grad_norm": 3.6542482376098633,
	"learning_rate": 4.6027678113787804e-05,
	"loss": 0.9897,
	"step": 3100
	},
	{
	"epoch": 0.41004613018964636,
	"grad_norm": 6.769758701324463,
	"learning_rate": 4.589953869810354e-05,
	"loss": 1.0528,
	"step": 3200
	},
	{
	"epoch": 0.4228600717580728,
	"grad_norm": 5.762277603149414,
	"learning_rate": 4.5771399282419274e-05,
	"loss": 1.0036,
	"step": 3300
	},
	{
	"epoch": 0.43567401332649924,
	"grad_norm": 7.389179229736328,
	"learning_rate": 4.564325986673501e-05,
	"loss": 1.0304,
	"step": 3400
	},
	{
	"epoch": 0.44848795489492566,
	"grad_norm": 3.9039294719696045,
	"learning_rate": 4.5515120451050745e-05,
	"loss": 0.9962,
	"step": 3500
	},
	{
	"epoch": 0.4613018964633521,
	"grad_norm": 3.0561447143554688,
	"learning_rate": 4.5386981035366484e-05,
	"loss": 0.9777,
	"step": 3600
	},
	{
	"epoch": 0.4741158380317786,
	"grad_norm": 6.340303897857666,
	"learning_rate": 4.5258841619682216e-05,
	"loss": 0.9603,
	"step": 3700
	},
	{
	"epoch": 0.486929779600205,
	"grad_norm": 9.058144569396973,
	"learning_rate": 4.5130702203997955e-05,
	"loss": 0.9658,
	"step": 3800
	},
	{
	"epoch": 0.49974372116863147,
	"grad_norm": 8.219672203063965,
	"learning_rate": 4.500256278831369e-05,
	"loss": 0.9856,
	"step": 3900
	},
	{
	"epoch": 0.5125576627370579,
	"grad_norm": 3.6466543674468994,
	"learning_rate": 4.487442337262942e-05,
	"loss": 0.9734,
	"step": 4000
	},
	{
	"epoch": 0.5253716043054844,
	"grad_norm": 7.289781093597412,
	"learning_rate": 4.474628395694516e-05,
	"loss": 0.9045,
	"step": 4100
	},
	{
	"epoch": 0.5381855458739108,
	"grad_norm": 6.18227481842041,
	"learning_rate": 4.461814454126089e-05,
	"loss": 0.9679,
	"step": 4200
	},
	{
	"epoch": 0.5509994874423373,
	"grad_norm": 3.994476318359375,
	"learning_rate": 4.449000512557663e-05,
	"loss": 0.8958,
	"step": 4300
	},
	{
	"epoch": 0.5638134290107637,
	"grad_norm": 3.913896322250366,
	"learning_rate": 4.436186570989236e-05,
	"loss": 0.9453,
	"step": 4400
	},
	{
	"epoch": 0.5766273705791901,
	"grad_norm": 4.39192008972168,
	"learning_rate": 4.42337262942081e-05,
	"loss": 0.9132,
	"step": 4500
	},
	{
	"epoch": 0.5894413121476166,
	"grad_norm": 5.574671745300293,
	"learning_rate": 4.410558687852384e-05,
	"loss": 0.9069,
	"step": 4600
	},
	{
	"epoch": 0.602255253716043,
	"grad_norm": 4.218778610229492,
	"learning_rate": 4.397744746283957e-05,
	"loss": 0.9631,
	"step": 4700
	},
	{
	"epoch": 0.6150691952844695,
	"grad_norm": 7.804980754852295,
	"learning_rate": 4.384930804715531e-05,
	"loss": 0.9121,
	"step": 4800
	},
	{
	"epoch": 0.627883136852896,
	"grad_norm": 7.064172744750977,
	"learning_rate": 4.372116863147104e-05,
	"loss": 0.9387,
	"step": 4900
	},
	{
	"epoch": 0.6406970784213224,
	"grad_norm": 5.293111324310303,
	"learning_rate": 4.359302921578678e-05,
	"loss": 0.9264,
	"step": 5000
	},
	{
	"epoch": 0.6535110199897488,
	"grad_norm": 7.019448757171631,
	"learning_rate": 4.346488980010251e-05,
	"loss": 0.9452,
	"step": 5100
	},
	{
	"epoch": 0.6663249615581753,
	"grad_norm": 6.714709758758545,
	"learning_rate": 4.333675038441825e-05,
	"loss": 0.8648,
	"step": 5200
	},
	{
	"epoch": 0.6791389031266017,
	"grad_norm": 8.232748031616211,
	"learning_rate": 4.320861096873399e-05,
	"loss": 0.904,
	"step": 5300
	},
	{
	"epoch": 0.6919528446950282,
	"grad_norm": 9.853933334350586,
	"learning_rate": 4.308047155304972e-05,
	"loss": 0.8895,
	"step": 5400
	},
	{
	"epoch": 0.7047667862634547,
	"grad_norm": 6.8710455894470215,
	"learning_rate": 4.2952332137365454e-05,
	"loss": 0.86,
	"step": 5500
	},
	{
	"epoch": 0.7175807278318811,
	"grad_norm": 6.45287561416626,
	"learning_rate": 4.2824192721681186e-05,
	"loss": 0.8718,
	"step": 5600
	},
	{
	"epoch": 0.7303946694003075,
	"grad_norm": 5.772899627685547,
	"learning_rate": 4.2696053305996924e-05,
	"loss": 0.8477,
	"step": 5700
	},
	{
	"epoch": 0.743208610968734,
	"grad_norm": 6.193540573120117,
	"learning_rate": 4.256791389031266e-05,
	"loss": 0.9184,
	"step": 5800
	},
	{
	"epoch": 0.7560225525371604,
	"grad_norm": 2.5397393703460693,
	"learning_rate": 4.2439774474628395e-05,
	"loss": 0.9537,
	"step": 5900
	},
	{
	"epoch": 0.7688364941055869,
	"grad_norm": 8.280569076538086,
	"learning_rate": 4.2311635058944134e-05,
	"loss": 0.8988,
	"step": 6000
	},
	{
	"epoch": 0.7816504356740134,
	"grad_norm": 10.563502311706543,
	"learning_rate": 4.2183495643259866e-05,
	"loss": 0.8518,
	"step": 6100
	},
	{
	"epoch": 0.7944643772424398,
	"grad_norm": 3.090008497238159,
	"learning_rate": 4.2055356227575605e-05,
	"loss": 0.8731,
	"step": 6200
	},
	{
	"epoch": 0.8072783188108662,
	"grad_norm": 4.051167011260986,
	"learning_rate": 4.192721681189134e-05,
	"loss": 0.8713,
	"step": 6300
	},
	{
	"epoch": 0.8200922603792927,
	"grad_norm": 7.207763671875,
	"learning_rate": 4.1799077396207076e-05,
	"loss": 0.8781,
	"step": 6400
	},
	{
	"epoch": 0.8329062019477191,
	"grad_norm": 6.396823883056641,
	"learning_rate": 4.1670937980522815e-05,
	"loss": 0.8231,
	"step": 6500
	},
	{
	"epoch": 0.8457201435161456,
	"grad_norm": 6.260582447052002,
	"learning_rate": 4.1542798564838547e-05,
	"loss": 0.8658,
	"step": 6600
	},
	{
	"epoch": 0.858534085084572,
	"grad_norm": 8.35356616973877,
	"learning_rate": 4.1414659149154285e-05,
	"loss": 0.8637,
	"step": 6700
	},
	{
	"epoch": 0.8713480266529985,
	"grad_norm": 7.236725330352783,
	"learning_rate": 4.128651973347002e-05,
	"loss": 0.8525,
	"step": 6800
	},
	{
	"epoch": 0.8841619682214249,
	"grad_norm": 14.001522064208984,
	"learning_rate": 4.1158380317785756e-05,
	"loss": 0.8628,
	"step": 6900
	},
	{
	"epoch": 0.8969759097898513,
	"grad_norm": 4.257541179656982,
	"learning_rate": 4.103024090210149e-05,
	"loss": 0.8443,
	"step": 7000
	},
	{
	"epoch": 0.9097898513582778,
	"grad_norm": 5.065970420837402,
	"learning_rate": 4.090210148641722e-05,
	"loss": 0.8329,
	"step": 7100
	},
	{
	"epoch": 0.9226037929267042,
	"grad_norm": 6.647068977355957,
	"learning_rate": 4.077396207073296e-05,
	"loss": 0.8585,
	"step": 7200
	},
	{
	"epoch": 0.9354177344951307,
	"grad_norm": 8.440242767333984,
	"learning_rate": 4.064582265504869e-05,
	"loss": 0.8749,
	"step": 7300
	},
	{
	"epoch": 0.9482316760635572,
	"grad_norm": 7.684078216552734,
	"learning_rate": 4.051768323936443e-05,
	"loss": 0.7771,
	"step": 7400
	},
	{
	"epoch": 0.9610456176319836,
	"grad_norm": 6.4709577560424805,
	"learning_rate": 4.038954382368016e-05,
	"loss": 0.8597,
	"step": 7500
	},
	{
	"epoch": 0.97385955920041,
	"grad_norm": 4.3970489501953125,
	"learning_rate": 4.02614044079959e-05,
	"loss": 0.7852,
	"step": 7600
	},
	{
	"epoch": 0.9866735007688365,
	"grad_norm": 9.167794227600098,
	"learning_rate": 4.013326499231164e-05,
	"loss": 0.8563,
	"step": 7700
	},
	{
	"epoch": 0.9994874423372629,
	"grad_norm": 6.251096248626709,
	"learning_rate": 4.000512557662737e-05,
	"loss": 0.8243,
	"step": 7800
	},
	{
	"epoch": 1.0,
	"eval_f1": 0.640692076906927,
	"eval_loss": 0.8794865608215332,
	"eval_runtime": 744.6214,
	"eval_samples_per_second": 10.48,
	"eval_steps_per_second": 2.62,
	"step": 7804
	},
	{
	"epoch": 1.0123013839056894,
	"grad_norm": 5.928829669952393,
	"learning_rate": 3.987698616094311e-05,
	"loss": 0.7046,
	"step": 7900
	},
	{
	"epoch": 1.0251153254741159,
	"grad_norm": 2.885106086730957,
	"learning_rate": 3.974884674525884e-05,
	"loss": 0.7663,
	"step": 8000
	},
	{
	"epoch": 1.0379292670425422,
	"grad_norm": 5.951350212097168,
	"learning_rate": 3.962070732957458e-05,
	"loss": 0.7374,
	"step": 8100
	},
	{
	"epoch": 1.0507432086109687,
	"grad_norm": 2.5160486698150635,
	"learning_rate": 3.949256791389031e-05,
	"loss": 0.7126,
	"step": 8200
	},
	{
	"epoch": 1.0635571501793952,
	"grad_norm": 6.847401142120361,
	"learning_rate": 3.936442849820605e-05,
	"loss": 0.6785,
	"step": 8300
	},
	{
	"epoch": 1.0763710917478215,
	"grad_norm": 4.729136943817139,
	"learning_rate": 3.923628908252179e-05,
	"loss": 0.7085,
	"step": 8400
	},
	{
	"epoch": 1.089185033316248,
	"grad_norm": 5.535890102386475,
	"learning_rate": 3.910814966683752e-05,
	"loss": 0.7548,
	"step": 8500
	},
	{
	"epoch": 1.1019989748846746,
	"grad_norm": 6.188892364501953,
	"learning_rate": 3.8980010251153255e-05,
	"loss": 0.7193,
	"step": 8600
	},
	{
	"epoch": 1.1148129164531009,
	"grad_norm": 5.806282997131348,
	"learning_rate": 3.885187083546899e-05,
	"loss": 0.7143,
	"step": 8700
	},
	{
	"epoch": 1.1276268580215274,
	"grad_norm": 10.726571083068848,
	"learning_rate": 3.8723731419784726e-05,
	"loss": 0.6892,
	"step": 8800
	},
	{
	"epoch": 1.140440799589954,
	"grad_norm": 7.0307512283325195,
	"learning_rate": 3.8595592004100465e-05,
	"loss": 0.7264,
	"step": 8900
	},
	{
	"epoch": 1.1532547411583802,
	"grad_norm": 20.715412139892578,
	"learning_rate": 3.8467452588416197e-05,
	"loss": 0.6987,
	"step": 9000
	},
	{
	"epoch": 1.1660686827268067,
	"grad_norm": 6.620629787445068,
	"learning_rate": 3.8339313172731935e-05,
	"loss": 0.7041,
	"step": 9100
	},
	{
	"epoch": 1.1788826242952333,
	"grad_norm": 5.27125883102417,
	"learning_rate": 3.821117375704767e-05,
	"loss": 0.67,
	"step": 9200
	},
	{
	"epoch": 1.1916965658636596,
	"grad_norm": 6.010765552520752,
	"learning_rate": 3.8083034341363406e-05,
	"loss": 0.6737,
	"step": 9300
	},
	{
	"epoch": 1.204510507432086,
	"grad_norm": 14.393863677978516,
	"learning_rate": 3.795489492567914e-05,
	"loss": 0.7097,
	"step": 9400
	},
	{
	"epoch": 1.2173244490005126,
	"grad_norm": 6.37823486328125,
	"learning_rate": 3.782675550999488e-05,
	"loss": 0.7157,
	"step": 9500
	},
	{
	"epoch": 1.230138390568939,
	"grad_norm": 11.626152992248535,
	"learning_rate": 3.7698616094310616e-05,
	"loss": 0.7066,
	"step": 9600
	},
	{
	"epoch": 1.2429523321373654,
	"grad_norm": 5.520190238952637,
	"learning_rate": 3.757047667862635e-05,
	"loss": 0.7303,
	"step": 9700
	},
	{
	"epoch": 1.255766273705792,
	"grad_norm": 9.865089416503906,
	"learning_rate": 3.744233726294209e-05,
	"loss": 0.7559,
	"step": 9800
	},
	{
	"epoch": 1.2685802152742183,
	"grad_norm": 7.075952529907227,
	"learning_rate": 3.731419784725782e-05,
	"loss": 0.6941,
	"step": 9900
	},
	{
	"epoch": 1.2813941568426448,
	"grad_norm": 3.4892656803131104,
	"learning_rate": 3.718605843157356e-05,
	"loss": 0.7164,
	"step": 10000
	},
	{
	"epoch": 1.2942080984110713,
	"grad_norm": 9.843413352966309,
	"learning_rate": 3.705791901588929e-05,
	"loss": 0.695,
	"step": 10100
	},
	{
	"epoch": 1.3070220399794976,
	"grad_norm": 12.128110885620117,
	"learning_rate": 3.692977960020502e-05,
	"loss": 0.6563,
	"step": 10200
	},
	{
	"epoch": 1.3198359815479241,
	"grad_norm": 11.26876163482666,
	"learning_rate": 3.680164018452076e-05,
	"loss": 0.6803,
	"step": 10300
	},
	{
	"epoch": 1.3326499231163507,
	"grad_norm": 12.95758056640625,
	"learning_rate": 3.667350076883649e-05,
	"loss": 0.6864,
	"step": 10400
	},
	{
	"epoch": 1.345463864684777,
	"grad_norm": 4.91602897644043,
	"learning_rate": 3.654536135315223e-05,
	"loss": 0.7184,
	"step": 10500
	},
	{
	"epoch": 1.3582778062532035,
	"grad_norm": 4.799069881439209,
	"learning_rate": 3.641722193746796e-05,
	"loss": 0.7558,
	"step": 10600
	},
	{
	"epoch": 1.37109174782163,
	"grad_norm": 64.9485855102539,
	"learning_rate": 3.62890825217837e-05,
	"loss": 0.7292,
	"step": 10700
	},
	{
	"epoch": 1.3839056893900563,
	"grad_norm": 6.147428512573242,
	"learning_rate": 3.616094310609944e-05,
	"loss": 0.6623,
	"step": 10800
	},
	{
	"epoch": 1.3967196309584828,
	"grad_norm": 7.638481140136719,
	"learning_rate": 3.603280369041517e-05,
	"loss": 0.6981,
	"step": 10900
	},
	{
	"epoch": 1.4095335725269091,
	"grad_norm": 4.798500061035156,
	"learning_rate": 3.590466427473091e-05,
	"loss": 0.7569,
	"step": 11000
	},
	{
	"epoch": 1.4223475140953357,
	"grad_norm": 4.413691520690918,
	"learning_rate": 3.5776524859046644e-05,
	"loss": 0.6391,
	"step": 11100
	},
	{
	"epoch": 1.4351614556637622,
	"grad_norm": 6.2526421546936035,
	"learning_rate": 3.564838544336238e-05,
	"loss": 0.7045,
	"step": 11200
	},
	{
	"epoch": 1.4479753972321885,
	"grad_norm": 6.3732805252075195,
	"learning_rate": 3.5520246027678114e-05,
	"loss": 0.6916,
	"step": 11300
	},
	{
	"epoch": 1.460789338800615,
	"grad_norm": 25.24698829650879,
	"learning_rate": 3.539210661199385e-05,
	"loss": 0.7652,
	"step": 11400
	},
	{
	"epoch": 1.4736032803690415,
	"grad_norm": 4.716599941253662,
	"learning_rate": 3.5263967196309585e-05,
	"loss": 0.7199,
	"step": 11500
	},
	{
	"epoch": 1.4864172219374678,
	"grad_norm": 13.750917434692383,
	"learning_rate": 3.5135827780625324e-05,
	"loss": 0.7032,
	"step": 11600
	},
	{
	"epoch": 1.4992311635058944,
	"grad_norm": 3.6678273677825928,
	"learning_rate": 3.500768836494106e-05,
	"loss": 0.6821,
	"step": 11700
	},
	{
	"epoch": 1.5120451050743209,
	"grad_norm": 7.891080856323242,
	"learning_rate": 3.487954894925679e-05,
	"loss": 0.7301,
	"step": 11800
	},
	{
	"epoch": 1.5248590466427472,
	"grad_norm": 3.25317645072937,
	"learning_rate": 3.475140953357253e-05,
	"loss": 0.6665,
	"step": 11900
	},
	{
	"epoch": 1.5376729882111737,
	"grad_norm": 12.75395679473877,
	"learning_rate": 3.462327011788826e-05,
	"loss": 0.733,
	"step": 12000
	},
	{
	"epoch": 1.5504869297796002,
	"grad_norm": 10.9820556640625,
	"learning_rate": 3.4495130702204e-05,
	"loss": 0.7064,
	"step": 12100
	},
	{
	"epoch": 1.5633008713480265,
	"grad_norm": 6.558383941650391,
	"learning_rate": 3.4366991286519737e-05,
	"loss": 0.7105,
	"step": 12200
	},
	{
	"epoch": 1.576114812916453,
	"grad_norm": 8.5501070022583,
	"learning_rate": 3.423885187083547e-05,
	"loss": 0.706,
	"step": 12300
	},
	{
	"epoch": 1.5889287544848796,
	"grad_norm": 5.319694995880127,
	"learning_rate": 3.411071245515121e-05,
	"loss": 0.7239,
	"step": 12400
	},
	{
	"epoch": 1.6017426960533059,
	"grad_norm": 5.92519474029541,
	"learning_rate": 3.398257303946694e-05,
	"loss": 0.7043,
	"step": 12500
	},
	{
	"epoch": 1.6145566376217324,
	"grad_norm": 8.853275299072266,
	"learning_rate": 3.385443362378268e-05,
	"loss": 0.6831,
	"step": 12600
	},
	{
	"epoch": 1.627370579190159,
	"grad_norm": 9.30588150024414,
	"learning_rate": 3.372629420809841e-05,
	"loss": 0.6756,
	"step": 12700
	},
	{
	"epoch": 1.6401845207585852,
	"grad_norm": 5.903197288513184,
	"learning_rate": 3.359815479241415e-05,
	"loss": 0.725,
	"step": 12800
	},
	{
	"epoch": 1.6529984623270118,
	"grad_norm": 5.500326156616211,
	"learning_rate": 3.347001537672989e-05,
	"loss": 0.6801,
	"step": 12900
	},
	{
	"epoch": 1.6658124038954383,
	"grad_norm": 7.896096229553223,
	"learning_rate": 3.334187596104562e-05,
	"loss": 0.6975,
	"step": 13000
	},
	{
	"epoch": 1.6786263454638646,
	"grad_norm": 6.674001216888428,
	"learning_rate": 3.321373654536136e-05,
	"loss": 0.6681,
	"step": 13100
	},
	{
	"epoch": 1.691440287032291,
	"grad_norm": 21.74435806274414,
	"learning_rate": 3.308559712967709e-05,
	"loss": 0.7045,
	"step": 13200
	},
	{
	"epoch": 1.7042542286007176,
	"grad_norm": 6.329532146453857,
	"learning_rate": 3.295745771399282e-05,
	"loss": 0.6885,
	"step": 13300
	},
	{
	"epoch": 1.717068170169144,
	"grad_norm": 24.047470092773438,
	"learning_rate": 3.282931829830856e-05,
	"loss": 0.7003,
	"step": 13400
	},
	{
	"epoch": 1.7298821117375704,
	"grad_norm": 7.407759666442871,
	"learning_rate": 3.2701178882624294e-05,
	"loss": 0.6856,
	"step": 13500
	},
	{
	"epoch": 1.742696053305997,
	"grad_norm": 5.755215167999268,
	"learning_rate": 3.257303946694003e-05,
	"loss": 0.7005,
	"step": 13600
	},
	{
	"epoch": 1.7555099948744233,
	"grad_norm": 11.444562911987305,
	"learning_rate": 3.2444900051255764e-05,
	"loss": 0.7136,
	"step": 13700
	},
	{
	"epoch": 1.7683239364428498,
	"grad_norm": 8.267853736877441,
	"learning_rate": 3.23167606355715e-05,
	"loss": 0.7029,
	"step": 13800
	},
	{
	"epoch": 1.7811378780112763,
	"grad_norm": 6.73785924911499,
	"learning_rate": 3.2188621219887235e-05,
	"loss": 0.6572,
	"step": 13900
	},
	{
	"epoch": 1.7939518195797026,
	"grad_norm": 5.369395732879639,
	"learning_rate": 3.2060481804202974e-05,
	"loss": 0.6617,
	"step": 14000
	},
	{
	"epoch": 1.8067657611481291,
	"grad_norm": 2.288243293762207,
	"learning_rate": 3.193234238851871e-05,
	"loss": 0.6688,
	"step": 14100
	},
	{
	"epoch": 1.8195797027165557,
	"grad_norm": 14.942804336547852,
	"learning_rate": 3.1804202972834445e-05,
	"loss": 0.6792,
	"step": 14200
	},
	{
	"epoch": 1.832393644284982,
	"grad_norm": 8.988631248474121,
	"learning_rate": 3.1676063557150184e-05,
	"loss": 0.6518,
	"step": 14300
	},
	{
	"epoch": 1.8452075858534085,
	"grad_norm": 7.9590630531311035,
	"learning_rate": 3.1547924141465916e-05,
	"loss": 0.6503,
	"step": 14400
	},
	{
	"epoch": 1.858021527421835,
	"grad_norm": 9.33973503112793,
	"learning_rate": 3.1419784725781655e-05,
	"loss": 0.6647,
	"step": 14500
	},
	{
	"epoch": 1.8708354689902613,
	"grad_norm": 9.39842700958252,
	"learning_rate": 3.1291645310097387e-05,
	"loss": 0.6515,
	"step": 14600
	},
	{
	"epoch": 1.8836494105586878,
	"grad_norm": 10.142439842224121,
	"learning_rate": 3.1163505894413125e-05,
	"loss": 0.6794,
	"step": 14700
	},
	{
	"epoch": 1.8964633521271144,
	"grad_norm": 11.658042907714844,
	"learning_rate": 3.1035366478728864e-05,
	"loss": 0.6931,
	"step": 14800
	},
	{
	"epoch": 1.9092772936955407,
	"grad_norm": 8.672663688659668,
	"learning_rate": 3.090722706304459e-05,
	"loss": 0.6377,
	"step": 14900
	},
	{
	"epoch": 1.9220912352639672,
	"grad_norm": 6.620725631713867,
	"learning_rate": 3.077908764736033e-05,
	"loss": 0.7044,
	"step": 15000
	},
	{
	"epoch": 1.9349051768323937,
	"grad_norm": 8.3103609085083,
	"learning_rate": 3.065094823167606e-05,
	"loss": 0.641,
	"step": 15100
	},
	{
	"epoch": 1.94771911840082,
	"grad_norm": 8.163315773010254,
	"learning_rate": 3.05228088159918e-05,
	"loss": 0.7094,
	"step": 15200
	},
	{
	"epoch": 1.9605330599692465,
	"grad_norm": 3.6365621089935303,
	"learning_rate": 3.0394669400307534e-05,
	"loss": 0.7022,
	"step": 15300
	},
	{
	"epoch": 1.973347001537673,
	"grad_norm": 4.264801502227783,
	"learning_rate": 3.026652998462327e-05,
	"loss": 0.6833,
	"step": 15400
	},
	{
	"epoch": 1.9861609431060994,
	"grad_norm": 6.547428131103516,
	"learning_rate": 3.0138390568939005e-05,
	"loss": 0.6126,
	"step": 15500
	},
	{
	"epoch": 1.9989748846745259,
	"grad_norm": 6.155936241149902,
	"learning_rate": 3.0010251153254744e-05,
	"loss": 0.6851,
	"step": 15600
	},
	{
	"epoch": 2.0,
	"eval_f1": 0.6772664805551888,
	"eval_loss": 0.781230092048645,
	"eval_runtime": 778.3436,
	"eval_samples_per_second": 10.026,
	"eval_steps_per_second": 2.507,
	"step": 15608
	},
	{
	"epoch": 2.0117888262429524,
	"grad_norm": 8.777030944824219,
	"learning_rate": 2.988211173757048e-05,
	"loss": 0.4707,
	"step": 15700
	},
	{
	"epoch": 2.0246027678113787,
	"grad_norm": 4.798321723937988,
	"learning_rate": 2.9753972321886215e-05,
	"loss": 0.4366,
	"step": 15800
	},
	{
	"epoch": 2.037416709379805,
	"grad_norm": 2.5244762897491455,
	"learning_rate": 2.962583290620195e-05,
	"loss": 0.504,
	"step": 15900
	},
	{
	"epoch": 2.0502306509482318,
	"grad_norm": 15.636524200439453,
	"learning_rate": 2.9497693490517686e-05,
	"loss": 0.4234,
	"step": 16000
	},
	{
	"epoch": 2.063044592516658,
	"grad_norm": 8.811060905456543,
	"learning_rate": 2.936955407483342e-05,
	"loss": 0.3911,
	"step": 16100
	},
	{
	"epoch": 2.0758585340850844,
	"grad_norm": 4.1310930252075195,
	"learning_rate": 2.9241414659149157e-05,
	"loss": 0.4538,
	"step": 16200
	},
	{
	"epoch": 2.088672475653511,
	"grad_norm": 9.516937255859375,
	"learning_rate": 2.9113275243464892e-05,
	"loss": 0.4461,
	"step": 16300
	},
	{
	"epoch": 2.1014864172219374,
	"grad_norm": 4.6523756980896,
	"learning_rate": 2.8985135827780624e-05,
	"loss": 0.4808,
	"step": 16400
	},
	{
	"epoch": 2.1143003587903637,
	"grad_norm": 4.160647392272949,
	"learning_rate": 2.885699641209636e-05,
	"loss": 0.4879,
	"step": 16500
	},
	{
	"epoch": 2.1271143003587905,
	"grad_norm": 11.32701587677002,
	"learning_rate": 2.8728856996412095e-05,
	"loss": 0.4544,
	"step": 16600
	},
	{
	"epoch": 2.1399282419272168,
	"grad_norm": 4.703444004058838,
	"learning_rate": 2.860071758072783e-05,
	"loss": 0.466,
	"step": 16700
	},
	{
	"epoch": 2.152742183495643,
	"grad_norm": 8.985660552978516,
	"learning_rate": 2.847257816504357e-05,
	"loss": 0.4734,
	"step": 16800
	},
	{
	"epoch": 2.16555612506407,
	"grad_norm": 12.306890487670898,
	"learning_rate": 2.8344438749359304e-05,
	"loss": 0.4287,
	"step": 16900
	},
	{
	"epoch": 2.178370066632496,
	"grad_norm": 5.025609016418457,
	"learning_rate": 2.821629933367504e-05,
	"loss": 0.4657,
	"step": 17000
	},
	{
	"epoch": 2.1911840082009224,
	"grad_norm": 31.554025650024414,
	"learning_rate": 2.8088159917990775e-05,
	"loss": 0.4378,
	"step": 17100
	},
	{
	"epoch": 2.203997949769349,
	"grad_norm": 9.015434265136719,
	"learning_rate": 2.796002050230651e-05,
	"loss": 0.4538,
	"step": 17200
	},
	{
	"epoch": 2.2168118913377755,
	"grad_norm": 15.61099624633789,
	"learning_rate": 2.7831881086622246e-05,
	"loss": 0.4134,
	"step": 17300
	},
	{
	"epoch": 2.2296258329062018,
	"grad_norm": 10.191957473754883,
	"learning_rate": 2.770374167093798e-05,
	"loss": 0.5188,
	"step": 17400
	},
	{
	"epoch": 2.2424397744746285,
	"grad_norm": 2.2506730556488037,
	"learning_rate": 2.7575602255253717e-05,
	"loss": 0.4028,
	"step": 17500
	},
	{
	"epoch": 2.255253716043055,
	"grad_norm": 23.088764190673828,
	"learning_rate": 2.7447462839569456e-05,
	"loss": 0.4814,
	"step": 17600
	},
	{
	"epoch": 2.268067657611481,
	"grad_norm": 4.473659515380859,
	"learning_rate": 2.731932342388519e-05,
	"loss": 0.4822,
	"step": 17700
	},
	{
	"epoch": 2.280881599179908,
	"grad_norm": 2.1489970684051514,
	"learning_rate": 2.7191184008200927e-05,
	"loss": 0.4934,
	"step": 17800
	},
	{
	"epoch": 2.293695540748334,
	"grad_norm": 1.4255170822143555,
	"learning_rate": 2.7063044592516662e-05,
	"loss": 0.4314,
	"step": 17900
	},
	{
	"epoch": 2.3065094823167605,
	"grad_norm": 4.612204074859619,
	"learning_rate": 2.693490517683239e-05,
	"loss": 0.4322,
	"step": 18000
	},
	{
	"epoch": 2.319323423885187,
	"grad_norm": 3.1022679805755615,
	"learning_rate": 2.680676576114813e-05,
	"loss": 0.424,
	"step": 18100
	},
	{
	"epoch": 2.3321373654536135,
	"grad_norm": 3.745171070098877,
	"learning_rate": 2.6678626345463865e-05,
	"loss": 0.4269,
	"step": 18200
	},
	{
	"epoch": 2.34495130702204,
	"grad_norm": 4.0442328453063965,
	"learning_rate": 2.65504869297796e-05,
	"loss": 0.4698,
	"step": 18300
	},
	{
	"epoch": 2.3577652485904665,
	"grad_norm": 21.303607940673828,
	"learning_rate": 2.6422347514095336e-05,
	"loss": 0.4909,
	"step": 18400
	},
	{
	"epoch": 2.370579190158893,
	"grad_norm": 9.175422668457031,
	"learning_rate": 2.629420809841107e-05,
	"loss": 0.4598,
	"step": 18500
	},
	{
	"epoch": 2.383393131727319,
	"grad_norm": 5.787283420562744,
	"learning_rate": 2.6166068682726807e-05,
	"loss": 0.4409,
	"step": 18600
	},
	{
	"epoch": 2.396207073295746,
	"grad_norm": 7.338250637054443,
	"learning_rate": 2.6037929267042542e-05,
	"loss": 0.4157,
	"step": 18700
	},
	{
	"epoch": 2.409021014864172,
	"grad_norm": 13.879666328430176,
	"learning_rate": 2.590978985135828e-05,
	"loss": 0.4584,
	"step": 18800
	},
	{
	"epoch": 2.4218349564325985,
	"grad_norm": 9.484577178955078,
	"learning_rate": 2.5781650435674016e-05,
	"loss": 0.4914,
	"step": 18900
	},
	{
	"epoch": 2.4346488980010252,
	"grad_norm": 10.865300178527832,
	"learning_rate": 2.565351101998975e-05,
	"loss": 0.4259,
	"step": 19000
	},
	{
	"epoch": 2.4474628395694515,
	"grad_norm": 16.69988441467285,
	"learning_rate": 2.5525371604305487e-05,
	"loss": 0.4563,
	"step": 19100
	},
	{
	"epoch": 2.460276781137878,
	"grad_norm": 19.711631774902344,
	"learning_rate": 2.5397232188621222e-05,
	"loss": 0.4159,
	"step": 19200
	},
	{
	"epoch": 2.4730907227063046,
	"grad_norm": 13.3755521774292,
	"learning_rate": 2.5269092772936958e-05,
	"loss": 0.537,
	"step": 19300
	},
	{
	"epoch": 2.485904664274731,
	"grad_norm": 6.953076362609863,
	"learning_rate": 2.5140953357252693e-05,
	"loss": 0.4288,
	"step": 19400
	},
	{
	"epoch": 2.498718605843157,
	"grad_norm": 47.91322708129883,
	"learning_rate": 2.5012813941568432e-05,
	"loss": 0.5049,
	"step": 19500
	},
	{
	"epoch": 2.511532547411584,
	"grad_norm": 1.6553832292556763,
	"learning_rate": 2.4884674525884164e-05,
	"loss": 0.4779,
	"step": 19600
	},
	{
	"epoch": 2.5243464889800102,
	"grad_norm": 12.199808120727539,
	"learning_rate": 2.47565351101999e-05,
	"loss": 0.4246,
	"step": 19700
	},
	{
	"epoch": 2.5371604305484365,
	"grad_norm": 11.326825141906738,
	"learning_rate": 2.4628395694515635e-05,
	"loss": 0.4482,
	"step": 19800
	},
	{
	"epoch": 2.5499743721168633,
	"grad_norm": 9.247246742248535,
	"learning_rate": 2.450025627883137e-05,
	"loss": 0.4656,
	"step": 19900
	},
	{
	"epoch": 2.5627883136852896,
	"grad_norm": 1.773540735244751,
	"learning_rate": 2.4372116863147106e-05,
	"loss": 0.4776,
	"step": 20000
	},
	{
	"epoch": 2.575602255253716,
	"grad_norm": 7.454749584197998,
	"learning_rate": 2.424397744746284e-05,
	"loss": 0.4161,
	"step": 20100
	},
	{
	"epoch": 2.5884161968221426,
	"grad_norm": 19.77891731262207,
	"learning_rate": 2.4115838031778577e-05,
	"loss": 0.4609,
	"step": 20200
	},
	{
	"epoch": 2.601230138390569,
	"grad_norm": 12.208200454711914,
	"learning_rate": 2.3987698616094312e-05,
	"loss": 0.453,
	"step": 20300
	},
	{
	"epoch": 2.6140440799589952,
	"grad_norm": 11.438812255859375,
	"learning_rate": 2.3859559200410047e-05,
	"loss": 0.4439,
	"step": 20400
	},
	{
	"epoch": 2.626858021527422,
	"grad_norm": 1.6863147020339966,
	"learning_rate": 2.3731419784725783e-05,
	"loss": 0.3987,
	"step": 20500
	},
	{
	"epoch": 2.6396719630958483,
	"grad_norm": 1.3637946844100952,
	"learning_rate": 2.3603280369041518e-05,
	"loss": 0.4523,
	"step": 20600
	},
	{
	"epoch": 2.6524859046642746,
	"grad_norm": 21.555208206176758,
	"learning_rate": 2.3475140953357254e-05,
	"loss": 0.4624,
	"step": 20700
	},
	{
	"epoch": 2.6652998462327013,
	"grad_norm": 8.768684387207031,
	"learning_rate": 2.334700153767299e-05,
	"loss": 0.4585,
	"step": 20800
	},
	{
	"epoch": 2.6781137878011276,
	"grad_norm": 3.2959704399108887,
	"learning_rate": 2.3218862121988724e-05,
	"loss": 0.4579,
	"step": 20900
	},
	{
	"epoch": 2.690927729369554,
	"grad_norm": 16.97565269470215,
	"learning_rate": 2.309072270630446e-05,
	"loss": 0.4132,
	"step": 21000
	},
	{
	"epoch": 2.7037416709379807,
	"grad_norm": 14.613641738891602,
	"learning_rate": 2.2962583290620195e-05,
	"loss": 0.4297,
	"step": 21100
	},
	{
	"epoch": 2.716555612506407,
	"grad_norm": 28.61090087890625,
	"learning_rate": 2.283444387493593e-05,
	"loss": 0.4479,
	"step": 21200
	},
	{
	"epoch": 2.7293695540748333,
	"grad_norm": 9.84257984161377,
	"learning_rate": 2.2706304459251666e-05,
	"loss": 0.4428,
	"step": 21300
	},
	{
	"epoch": 2.74218349564326,
	"grad_norm": 8.199345588684082,
	"learning_rate": 2.2578165043567405e-05,
	"loss": 0.3999,
	"step": 21400
	},
	{
	"epoch": 2.7549974372116863,
	"grad_norm": 15.411248207092285,
	"learning_rate": 2.2450025627883137e-05,
	"loss": 0.4423,
	"step": 21500
	},
	{
	"epoch": 2.7678113787801126,
	"grad_norm": 7.122200012207031,
	"learning_rate": 2.2321886212198872e-05,
	"loss": 0.4675,
	"step": 21600
	},
	{
	"epoch": 2.7806253203485394,
	"grad_norm": 11.358266830444336,
	"learning_rate": 2.2193746796514608e-05,
	"loss": 0.4885,
	"step": 21700
	},
	{
	"epoch": 2.7934392619169657,
	"grad_norm": 9.456644058227539,
	"learning_rate": 2.2065607380830343e-05,
	"loss": 0.4973,
	"step": 21800
	},
	{
	"epoch": 2.806253203485392,
	"grad_norm": 28.7235164642334,
	"learning_rate": 2.193746796514608e-05,
	"loss": 0.429,
	"step": 21900
	},
	{
	"epoch": 2.8190671450538183,
	"grad_norm": 14.859136581420898,
	"learning_rate": 2.1809328549461817e-05,
	"loss": 0.4867,
	"step": 22000
	},
	{
	"epoch": 2.831881086622245,
	"grad_norm": 3.089897394180298,
	"learning_rate": 2.1681189133777553e-05,
	"loss": 0.4249,
	"step": 22100
	},
	{
	"epoch": 2.8446950281906713,
	"grad_norm": 14.606719970703125,
	"learning_rate": 2.1553049718093288e-05,
	"loss": 0.4429,
	"step": 22200
	},
	{
	"epoch": 2.857508969759098,
	"grad_norm": 7.761451244354248,
	"learning_rate": 2.142491030240902e-05,
	"loss": 0.4639,
	"step": 22300
	},
	{
	"epoch": 2.8703229113275244,
	"grad_norm": 6.9101362228393555,
	"learning_rate": 2.1296770886724756e-05,
	"loss": 0.4606,
	"step": 22400
	},
	{
	"epoch": 2.8831368528959507,
	"grad_norm": 6.754969120025635,
	"learning_rate": 2.116863147104049e-05,
	"loss": 0.4784,
	"step": 22500
	},
	{
	"epoch": 2.895950794464377,
	"grad_norm": 20.884119033813477,
	"learning_rate": 2.104049205535623e-05,
	"loss": 0.4625,
	"step": 22600
	},
	{
	"epoch": 2.9087647360328037,
	"grad_norm": 18.428529739379883,
	"learning_rate": 2.0912352639671965e-05,
	"loss": 0.4121,
	"step": 22700
	},
	{
	"epoch": 2.92157867760123,
	"grad_norm": 9.211915969848633,
	"learning_rate": 2.07842132239877e-05,
	"loss": 0.457,
	"step": 22800
	},
	{
	"epoch": 2.9343926191696568,
	"grad_norm": 5.744906425476074,
	"learning_rate": 2.0656073808303436e-05,
	"loss": 0.4169,
	"step": 22900
	},
	{
	"epoch": 2.947206560738083,
	"grad_norm": 10.679366111755371,
	"learning_rate": 2.052793439261917e-05,
	"loss": 0.4719,
	"step": 23000
	},
	{
	"epoch": 2.9600205023065094,
	"grad_norm": 8.72630500793457,
	"learning_rate": 2.0399794976934904e-05,
	"loss": 0.4743,
	"step": 23100
	},
	{
	"epoch": 2.9728344438749357,
	"grad_norm": 5.53284215927124,
	"learning_rate": 2.0271655561250642e-05,
	"loss": 0.4592,
	"step": 23200
	},
	{
	"epoch": 2.9856483854433624,
	"grad_norm": 10.75283432006836,
	"learning_rate": 2.0143516145566378e-05,
	"loss": 0.3971,
	"step": 23300
	},
	{
	"epoch": 2.9984623270117887,
	"grad_norm": 10.634764671325684,
	"learning_rate": 2.0015376729882113e-05,
	"loss": 0.4295,
	"step": 23400
	},
	{
	"epoch": 3.0,
	"eval_f1": 0.6853715205850849,
	"eval_loss": 1.0191140174865723,
	"eval_runtime": 837.6905,
	"eval_samples_per_second": 9.316,
	"eval_steps_per_second": 2.329,
	"step": 23412
	},
	{
	"epoch": 3.0112762685802155,
	"grad_norm": 3.43902587890625,
	"learning_rate": 1.988723731419785e-05,
	"loss": 0.2448,
	"step": 23500
	},
	{
	"epoch": 3.0240902101486418,
	"grad_norm": 0.5649552941322327,
	"learning_rate": 1.9759097898513584e-05,
	"loss": 0.1908,
	"step": 23600
	},
	{
	"epoch": 3.036904151717068,
	"grad_norm": 1.3035610914230347,
	"learning_rate": 1.963095848282932e-05,
	"loss": 0.275,
	"step": 23700
	},
	{
	"epoch": 3.049718093285495,
	"grad_norm": 27.42232322692871,
	"learning_rate": 1.9502819067145055e-05,
	"loss": 0.2727,
	"step": 23800
	},
	{
	"epoch": 3.062532034853921,
	"grad_norm": 1.675907015800476,
	"learning_rate": 1.937467965146079e-05,
	"loss": 0.2916,
	"step": 23900
	},
	{
	"epoch": 3.0753459764223474,
	"grad_norm": 9.602179527282715,
	"learning_rate": 1.9246540235776526e-05,
	"loss": 0.2645,
	"step": 24000
	},
	{
	"epoch": 3.088159917990774,
	"grad_norm": 16.757831573486328,
	"learning_rate": 1.911840082009226e-05,
	"loss": 0.2476,
	"step": 24100
	},
	{
	"epoch": 3.1009738595592005,
	"grad_norm": 5.842043876647949,
	"learning_rate": 1.8990261404407997e-05,
	"loss": 0.2829,
	"step": 24200
	},
	{
	"epoch": 3.1137878011276268,
	"grad_norm": 0.593449592590332,
	"learning_rate": 1.8862121988723732e-05,
	"loss": 0.289,
	"step": 24300
	},
	{
	"epoch": 3.1266017426960535,
	"grad_norm": 5.712982177734375,
	"learning_rate": 1.8733982573039467e-05,
	"loss": 0.2355,
	"step": 24400
	},
	{
	"epoch": 3.13941568426448,
	"grad_norm": 0.3152589201927185,
	"learning_rate": 1.8605843157355203e-05,
	"loss": 0.2491,
	"step": 24500
	},
	{
	"epoch": 3.152229625832906,
	"grad_norm": 19.951833724975586,
	"learning_rate": 1.8477703741670938e-05,
	"loss": 0.271,
	"step": 24600
	},
	{
	"epoch": 3.165043567401333,
	"grad_norm": 5.257028579711914,
	"learning_rate": 1.8349564325986674e-05,
	"loss": 0.277,
	"step": 24700
	},
	{
	"epoch": 3.177857508969759,
	"grad_norm": 3.6717381477355957,
	"learning_rate": 1.822142491030241e-05,
	"loss": 0.2736,
	"step": 24800
	},
	{
	"epoch": 3.1906714505381855,
	"grad_norm": 38.49631881713867,
	"learning_rate": 1.8093285494618144e-05,
	"loss": 0.2789,
	"step": 24900
	},
	{
	"epoch": 3.2034853921066118,
	"grad_norm": 5.944704055786133,
	"learning_rate": 1.796514607893388e-05,
	"loss": 0.3111,
	"step": 25000
	},
	{
	"epoch": 3.2162993336750385,
	"grad_norm": 3.278078079223633,
	"learning_rate": 1.7837006663249615e-05,
	"loss": 0.287,
	"step": 25100
	},
	{
	"epoch": 3.229113275243465,
	"grad_norm": 13.320869445800781,
	"learning_rate": 1.7708867247565354e-05,
	"loss": 0.2708,
	"step": 25200
	},
	{
	"epoch": 3.2419272168118916,
	"grad_norm": 9.01321029663086,
	"learning_rate": 1.758072783188109e-05,
	"loss": 0.2891,
	"step": 25300
	},
	{
	"epoch": 3.254741158380318,
	"grad_norm": 14.35201644897461,
	"learning_rate": 1.745258841619682e-05,
	"loss": 0.1523,
	"step": 25400
	},
	{
	"epoch": 3.267555099948744,
	"grad_norm": 5.268370628356934,
	"learning_rate": 1.7324449000512557e-05,
	"loss": 0.3608,
	"step": 25500
	},
	{
	"epoch": 3.2803690415171705,
	"grad_norm": 3.338168144226074,
	"learning_rate": 1.7196309584828292e-05,
	"loss": 0.2829,
	"step": 25600
	},
	{
	"epoch": 3.293182983085597,
	"grad_norm": 12.441572189331055,
	"learning_rate": 1.7068170169144028e-05,
	"loss": 0.2563,
	"step": 25700
	},
	{
	"epoch": 3.3059969246540235,
	"grad_norm": 2.870978832244873,
	"learning_rate": 1.6940030753459767e-05,
	"loss": 0.2957,
	"step": 25800
	},
	{
	"epoch": 3.3188108662224503,
	"grad_norm": 10.626642227172852,
	"learning_rate": 1.6811891337775502e-05,
	"loss": 0.3493,
	"step": 25900
	},
	{
	"epoch": 3.3316248077908766,
	"grad_norm": 1.1796225309371948,
	"learning_rate": 1.6683751922091237e-05,
	"loss": 0.293,
	"step": 26000
	},
	{
	"epoch": 3.344438749359303,
	"grad_norm": 46.64753341674805,
	"learning_rate": 1.6555612506406973e-05,
	"loss": 0.2739,
	"step": 26100
	},
	{
	"epoch": 3.357252690927729,
	"grad_norm": 17.778207778930664,
	"learning_rate": 1.6427473090722705e-05,
	"loss": 0.2897,
	"step": 26200
	},
	{
	"epoch": 3.370066632496156,
	"grad_norm": 1.6698403358459473,
	"learning_rate": 1.629933367503844e-05,
	"loss": 0.2661,
	"step": 26300
	},
	{
	"epoch": 3.382880574064582,
	"grad_norm": 0.18206116557121277,
	"learning_rate": 1.617119425935418e-05,
	"loss": 0.2847,
	"step": 26400
	},
	{
	"epoch": 3.395694515633009,
	"grad_norm": 6.839690208435059,
	"learning_rate": 1.6043054843669915e-05,
	"loss": 0.3044,
	"step": 26500
	},
	{
	"epoch": 3.4085084572014352,
	"grad_norm": 0.6313930749893188,
	"learning_rate": 1.591491542798565e-05,
	"loss": 0.2623,
	"step": 26600
	},
	{
	"epoch": 3.4213223987698616,
	"grad_norm": 70.23905181884766,
	"learning_rate": 1.5786776012301385e-05,
	"loss": 0.2573,
	"step": 26700
	},
	{
	"epoch": 3.434136340338288,
	"grad_norm": 16.72913360595703,
	"learning_rate": 1.565863659661712e-05,
	"loss": 0.2626,
	"step": 26800
	},
	{
	"epoch": 3.4469502819067146,
	"grad_norm": 43.662845611572266,
	"learning_rate": 1.5530497180932856e-05,
	"loss": 0.2679,
	"step": 26900
	},
	{
	"epoch": 3.459764223475141,
	"grad_norm": 20.96466064453125,
	"learning_rate": 1.540235776524859e-05,
	"loss": 0.3082,
	"step": 27000
	},
	{
	"epoch": 3.4725781650435676,
	"grad_norm": 45.02407455444336,
	"learning_rate": 1.5274218349564327e-05,
	"loss": 0.2492,
	"step": 27100
	},
	{
	"epoch": 3.485392106611994,
	"grad_norm": 14.404077529907227,
	"learning_rate": 1.5146078933880062e-05,
	"loss": 0.2704,
	"step": 27200
	},
	{
	"epoch": 3.4982060481804202,
	"grad_norm": 19.40283966064453,
	"learning_rate": 1.5017939518195798e-05,
	"loss": 0.3089,
	"step": 27300
	},
	{
	"epoch": 3.5110199897488465,
	"grad_norm": 13.016902923583984,
	"learning_rate": 1.4889800102511533e-05,
	"loss": 0.2953,
	"step": 27400
	},
	{
	"epoch": 3.5238339313172733,
	"grad_norm": 6.934922695159912,
	"learning_rate": 1.4761660686827269e-05,
	"loss": 0.2132,
	"step": 27500
	},
	{
	"epoch": 3.5366478728856996,
	"grad_norm": 49.58895492553711,
	"learning_rate": 1.4633521271143006e-05,
	"loss": 0.271,
	"step": 27600
	},
	{
	"epoch": 3.5494618144541263,
	"grad_norm": 4.814508438110352,
	"learning_rate": 1.4505381855458741e-05,
	"loss": 0.3195,
	"step": 27700
	},
	{
	"epoch": 3.5622757560225526,
	"grad_norm": 28.65342903137207,
	"learning_rate": 1.4377242439774475e-05,
	"loss": 0.2869,
	"step": 27800
	},
	{
	"epoch": 3.575089697590979,
	"grad_norm": 5.931487083435059,
	"learning_rate": 1.424910302409021e-05,
	"loss": 0.2982,
	"step": 27900
	},
	{
	"epoch": 3.5879036391594052,
	"grad_norm": 0.22432470321655273,
	"learning_rate": 1.4120963608405946e-05,
	"loss": 0.3167,
	"step": 28000
	},
	{
	"epoch": 3.600717580727832,
	"grad_norm": 27.89299964904785,
	"learning_rate": 1.3992824192721681e-05,
	"loss": 0.2831,
	"step": 28100
	},
	{
	"epoch": 3.6135315222962583,
	"grad_norm": 6.232203006744385,
	"learning_rate": 1.3864684777037418e-05,
	"loss": 0.2328,
	"step": 28200
	},
	{
	"epoch": 3.626345463864685,
	"grad_norm": 0.3798358738422394,
	"learning_rate": 1.3736545361353154e-05,
	"loss": 0.2565,
	"step": 28300
	},
	{
	"epoch": 3.6391594054331113,
	"grad_norm": 2.3177566528320312,
	"learning_rate": 1.3608405945668889e-05,
	"loss": 0.2822,
	"step": 28400
	},
	{
	"epoch": 3.6519733470015376,
	"grad_norm": 0.9287611246109009,
	"learning_rate": 1.3480266529984623e-05,
	"loss": 0.2206,
	"step": 28500
	},
	{
	"epoch": 3.664787288569964,
	"grad_norm": 19.89398765563965,
	"learning_rate": 1.3352127114300358e-05,
	"loss": 0.2934,
	"step": 28600
	},
	{
	"epoch": 3.6776012301383907,
	"grad_norm": 14.735712051391602,
	"learning_rate": 1.3223987698616094e-05,
	"loss": 0.2667,
	"step": 28700
	},
	{
	"epoch": 3.690415171706817,
	"grad_norm": 2.782954454421997,
	"learning_rate": 1.309584828293183e-05,
	"loss": 0.2565,
	"step": 28800
	},
	{
	"epoch": 3.7032291132752437,
	"grad_norm": 20.082395553588867,
	"learning_rate": 1.2967708867247566e-05,
	"loss": 0.3069,
	"step": 28900
	},
	{
	"epoch": 3.71604305484367,
	"grad_norm": 1.8632967472076416,
	"learning_rate": 1.2839569451563302e-05,
	"loss": 0.2484,
	"step": 29000
	},
	{
	"epoch": 3.7288569964120963,
	"grad_norm": 6.2880330085754395,
	"learning_rate": 1.2711430035879037e-05,
	"loss": 0.2769,
	"step": 29100
	},
	{
	"epoch": 3.7416709379805226,
	"grad_norm": 18.328922271728516,
	"learning_rate": 1.2583290620194774e-05,
	"loss": 0.284,
	"step": 29200
	},
	{
	"epoch": 3.7544848795489494,
	"grad_norm": 0.2658964991569519,
	"learning_rate": 1.2455151204510508e-05,
	"loss": 0.2725,
	"step": 29300
	},
	{
	"epoch": 3.7672988211173757,
	"grad_norm": 7.819123268127441,
	"learning_rate": 1.2327011788826243e-05,
	"loss": 0.2513,
	"step": 29400
	},
	{
	"epoch": 3.7801127626858024,
	"grad_norm": 4.6279144287109375,
	"learning_rate": 1.2198872373141979e-05,
	"loss": 0.2573,
	"step": 29500
	},
	{
	"epoch": 3.7929267042542287,
	"grad_norm": 24.996662139892578,
	"learning_rate": 1.2070732957457714e-05,
	"loss": 0.2621,
	"step": 29600
	},
	{
	"epoch": 3.805740645822655,
	"grad_norm": 20.87746810913086,
	"learning_rate": 1.194259354177345e-05,
	"loss": 0.2499,
	"step": 29700
	},
	{
	"epoch": 3.8185545873910813,
	"grad_norm": 1.5061414241790771,
	"learning_rate": 1.1814454126089187e-05,
	"loss": 0.265,
	"step": 29800
	},
	{
	"epoch": 3.831368528959508,
	"grad_norm": 2.7230064868927,
	"learning_rate": 1.168631471040492e-05,
	"loss": 0.2469,
	"step": 29900
	},
	{
	"epoch": 3.8441824705279344,
	"grad_norm": 0.6768075823783875,
	"learning_rate": 1.1558175294720656e-05,
	"loss": 0.2686,
	"step": 30000
	},
	{
	"epoch": 3.8569964120963607,
	"grad_norm": 0.08343211561441422,
	"learning_rate": 1.1430035879036393e-05,
	"loss": 0.2565,
	"step": 30100
	},
	{
	"epoch": 3.8698103536647874,
	"grad_norm": 25.58348274230957,
	"learning_rate": 1.1301896463352128e-05,
	"loss": 0.2967,
	"step": 30200
	},
	{
	"epoch": 3.8826242952332137,
	"grad_norm": 1.0459709167480469,
	"learning_rate": 1.1173757047667862e-05,
	"loss": 0.3028,
	"step": 30300
	},
	{
	"epoch": 3.89543823680164,
	"grad_norm": 0.33878639340400696,
	"learning_rate": 1.1045617631983599e-05,
	"loss": 0.2243,
	"step": 30400
	},
	{
	"epoch": 3.9082521783700668,
	"grad_norm": 2.021047592163086,
	"learning_rate": 1.0917478216299335e-05,
	"loss": 0.3656,
	"step": 30500
	},
	{
	"epoch": 3.921066119938493,
	"grad_norm": 1.6855653524398804,
	"learning_rate": 1.078933880061507e-05,
	"loss": 0.2323,
	"step": 30600
	},
	{
	"epoch": 3.9338800615069194,
	"grad_norm": 21.66104507446289,
	"learning_rate": 1.0661199384930805e-05,
	"loss": 0.2205,
	"step": 30700
	},
	{
	"epoch": 3.946694003075346,
	"grad_norm": 2.4428458213806152,
	"learning_rate": 1.053305996924654e-05,
	"loss": 0.2436,
	"step": 30800
	},
	{
	"epoch": 3.9595079446437724,
	"grad_norm": 39.37623596191406,
	"learning_rate": 1.0404920553562276e-05,
	"loss": 0.2831,
	"step": 30900
	},
	{
	"epoch": 3.9723218862121987,
	"grad_norm": 44.4313850402832,
	"learning_rate": 1.0276781137878012e-05,
	"loss": 0.2522,
	"step": 31000
	},
	{
	"epoch": 3.9851358277806255,
	"grad_norm": 2.6004929542541504,
	"learning_rate": 1.0148641722193747e-05,
	"loss": 0.3209,
	"step": 31100
	},
	{
	"epoch": 3.9979497693490518,
	"grad_norm": 2.536029815673828,
	"learning_rate": 1.0020502306509482e-05,
	"loss": 0.2807,
	"step": 31200
	},
	{
	"epoch": 4.0,
	"eval_f1": 0.6869426704202687,
	"eval_loss": 2.03011155128479,
	"eval_runtime": 825.2142,
	"eval_samples_per_second": 9.457,
	"eval_steps_per_second": 2.364,
	"step": 31216
	}
	],
	"logging_steps": 100,
	"max_steps": 39020,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.105948110057636e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}