user

Upload

28d574b 9 days ago

22.7 kB

	{
	"best_global_step": 60006,
	"best_metric": 0.7708992224677207,
	"best_model_checkpoint": "./nvidia_domain_model_multilingual-e5-small/checkpoint-60006",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 60006,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.024997500249975,
	"grad_norm": 7.94265604019165,
	"learning_rate": 4.9584208245842084e-05,
	"loss": 2.602,
	"step": 500
	},
	{
	"epoch": 0.04999500049995,
	"grad_norm": 5.469175815582275,
	"learning_rate": 4.9167583241675834e-05,
	"loss": 1.8965,
	"step": 1000
	},
	{
	"epoch": 0.074992500749925,
	"grad_norm": 7.713351726531982,
	"learning_rate": 4.875095823750958e-05,
	"loss": 1.604,
	"step": 1500
	},
	{
	"epoch": 0.0999900009999,
	"grad_norm": 11.510587692260742,
	"learning_rate": 4.833433323334334e-05,
	"loss": 1.3957,
	"step": 2000
	},
	{
	"epoch": 0.12498750124987501,
	"grad_norm": 12.626413345336914,
	"learning_rate": 4.791770822917708e-05,
	"loss": 1.322,
	"step": 2500
	},
	{
	"epoch": 0.14998500149985,
	"grad_norm": 7.150252342224121,
	"learning_rate": 4.750108322501083e-05,
	"loss": 1.2218,
	"step": 3000
	},
	{
	"epoch": 0.17498250174982502,
	"grad_norm": 16.782085418701172,
	"learning_rate": 4.708445822084459e-05,
	"loss": 1.195,
	"step": 3500
	},
	{
	"epoch": 0.1999800019998,
	"grad_norm": 13.529509544372559,
	"learning_rate": 4.666783321667834e-05,
	"loss": 1.1313,
	"step": 4000
	},
	{
	"epoch": 0.22497750224977503,
	"grad_norm": 19.662353515625,
	"learning_rate": 4.625120821251208e-05,
	"loss": 1.0902,
	"step": 4500
	},
	{
	"epoch": 0.24997500249975002,
	"grad_norm": 11.194819450378418,
	"learning_rate": 4.5834583208345836e-05,
	"loss": 1.0637,
	"step": 5000
	},
	{
	"epoch": 0.274972502749725,
	"grad_norm": 13.16511058807373,
	"learning_rate": 4.5417958204179585e-05,
	"loss": 1.0626,
	"step": 5500
	},
	{
	"epoch": 0.2999700029997,
	"grad_norm": 9.290426254272461,
	"learning_rate": 4.5001333200013335e-05,
	"loss": 1.0054,
	"step": 6000
	},
	{
	"epoch": 0.32496750324967505,
	"grad_norm": 17.698017120361328,
	"learning_rate": 4.4584708195847084e-05,
	"loss": 1.0253,
	"step": 6500
	},
	{
	"epoch": 0.34996500349965004,
	"grad_norm": 15.605792999267578,
	"learning_rate": 4.4168083191680834e-05,
	"loss": 1.0127,
	"step": 7000
	},
	{
	"epoch": 0.37496250374962503,
	"grad_norm": 33.41305923461914,
	"learning_rate": 4.375145818751458e-05,
	"loss": 0.9714,
	"step": 7500
	},
	{
	"epoch": 0.3999600039996,
	"grad_norm": 18.213973999023438,
	"learning_rate": 4.333483318334833e-05,
	"loss": 0.9589,
	"step": 8000
	},
	{
	"epoch": 0.42495750424957507,
	"grad_norm": 11.406991958618164,
	"learning_rate": 4.291820817918208e-05,
	"loss": 0.9808,
	"step": 8500
	},
	{
	"epoch": 0.44995500449955006,
	"grad_norm": 15.420747756958008,
	"learning_rate": 4.250158317501584e-05,
	"loss": 0.9392,
	"step": 9000
	},
	{
	"epoch": 0.47495250474952505,
	"grad_norm": 19.129817962646484,
	"learning_rate": 4.208495817084958e-05,
	"loss": 0.9304,
	"step": 9500
	},
	{
	"epoch": 0.49995000499950004,
	"grad_norm": 9.371217727661133,
	"learning_rate": 4.166833316668333e-05,
	"loss": 0.9369,
	"step": 10000
	},
	{
	"epoch": 0.5249475052494751,
	"grad_norm": 11.86233901977539,
	"learning_rate": 4.1251708162517086e-05,
	"loss": 0.9181,
	"step": 10500
	},
	{
	"epoch": 0.54994500549945,
	"grad_norm": 16.078561782836914,
	"learning_rate": 4.0835083158350836e-05,
	"loss": 0.8996,
	"step": 11000
	},
	{
	"epoch": 0.5749425057494251,
	"grad_norm": 8.514225006103516,
	"learning_rate": 4.0418458154184585e-05,
	"loss": 0.9111,
	"step": 11500
	},
	{
	"epoch": 0.5999400059994,
	"grad_norm": 7.778424263000488,
	"learning_rate": 4.000183315001833e-05,
	"loss": 0.9033,
	"step": 12000
	},
	{
	"epoch": 0.624937506249375,
	"grad_norm": 10.383719444274902,
	"learning_rate": 3.9585208145852084e-05,
	"loss": 0.917,
	"step": 12500
	},
	{
	"epoch": 0.6499350064993501,
	"grad_norm": 12.048624992370605,
	"learning_rate": 3.9168583141685834e-05,
	"loss": 0.8872,
	"step": 13000
	},
	{
	"epoch": 0.674932506749325,
	"grad_norm": 14.255531311035156,
	"learning_rate": 3.875195813751958e-05,
	"loss": 0.8604,
	"step": 13500
	},
	{
	"epoch": 0.6999300069993001,
	"grad_norm": 15.18703556060791,
	"learning_rate": 3.833533313335333e-05,
	"loss": 0.8628,
	"step": 14000
	},
	{
	"epoch": 0.7249275072492751,
	"grad_norm": 12.154521942138672,
	"learning_rate": 3.791870812918708e-05,
	"loss": 0.8929,
	"step": 14500
	},
	{
	"epoch": 0.7499250074992501,
	"grad_norm": 14.692411422729492,
	"learning_rate": 3.750208312502083e-05,
	"loss": 0.8585,
	"step": 15000
	},
	{
	"epoch": 0.7749225077492251,
	"grad_norm": 8.900308609008789,
	"learning_rate": 3.708545812085458e-05,
	"loss": 0.9014,
	"step": 15500
	},
	{
	"epoch": 0.7999200079992,
	"grad_norm": 18.15697479248047,
	"learning_rate": 3.666883311668834e-05,
	"loss": 0.8581,
	"step": 16000
	},
	{
	"epoch": 0.8249175082491751,
	"grad_norm": 14.366026878356934,
	"learning_rate": 3.6252208112522086e-05,
	"loss": 0.8622,
	"step": 16500
	},
	{
	"epoch": 0.8499150084991501,
	"grad_norm": 14.673120498657227,
	"learning_rate": 3.583558310835583e-05,
	"loss": 0.873,
	"step": 17000
	},
	{
	"epoch": 0.8749125087491251,
	"grad_norm": 9.87514877319336,
	"learning_rate": 3.541895810418958e-05,
	"loss": 0.8446,
	"step": 17500
	},
	{
	"epoch": 0.8999100089991001,
	"grad_norm": 20.0493221282959,
	"learning_rate": 3.5002333100023335e-05,
	"loss": 0.819,
	"step": 18000
	},
	{
	"epoch": 0.924907509249075,
	"grad_norm": 18.50018882751465,
	"learning_rate": 3.4585708095857084e-05,
	"loss": 0.8458,
	"step": 18500
	},
	{
	"epoch": 0.9499050094990501,
	"grad_norm": 16.332889556884766,
	"learning_rate": 3.4169083091690833e-05,
	"loss": 0.8458,
	"step": 19000
	},
	{
	"epoch": 0.9749025097490251,
	"grad_norm": 11.074434280395508,
	"learning_rate": 3.375245808752458e-05,
	"loss": 0.8497,
	"step": 19500
	},
	{
	"epoch": 0.9999000099990001,
	"grad_norm": 8.59486198425293,
	"learning_rate": 3.333583308335833e-05,
	"loss": 0.7989,
	"step": 20000
	},
	{
	"epoch": 1.0,
	"eval_f1": 0.7451762918283228,
	"eval_loss": 0.8514304757118225,
	"eval_runtime": 10.7214,
	"eval_samples_per_second": 1865.614,
	"eval_steps_per_second": 233.272,
	"step": 20002
	},
	{
	"epoch": 1.024897510248975,
	"grad_norm": 11.283440589904785,
	"learning_rate": 3.291920807919208e-05,
	"loss": 0.6034,
	"step": 20500
	},
	{
	"epoch": 1.0498950104989502,
	"grad_norm": 14.751864433288574,
	"learning_rate": 3.250258307502583e-05,
	"loss": 0.6148,
	"step": 21000
	},
	{
	"epoch": 1.0748925107489251,
	"grad_norm": 20.8693790435791,
	"learning_rate": 3.208595807085959e-05,
	"loss": 0.614,
	"step": 21500
	},
	{
	"epoch": 1.0998900109989,
	"grad_norm": 15.057612419128418,
	"learning_rate": 3.166933306669333e-05,
	"loss": 0.5895,
	"step": 22000
	},
	{
	"epoch": 1.1248875112488752,
	"grad_norm": 10.95419979095459,
	"learning_rate": 3.125270806252708e-05,
	"loss": 0.6483,
	"step": 22500
	},
	{
	"epoch": 1.1498850114988501,
	"grad_norm": 17.469892501831055,
	"learning_rate": 3.083608305836083e-05,
	"loss": 0.6331,
	"step": 23000
	},
	{
	"epoch": 1.174882511748825,
	"grad_norm": 20.316282272338867,
	"learning_rate": 3.041945805419458e-05,
	"loss": 0.5885,
	"step": 23500
	},
	{
	"epoch": 1.1998800119988,
	"grad_norm": 5.562185764312744,
	"learning_rate": 3.0002833050028334e-05,
	"loss": 0.6082,
	"step": 24000
	},
	{
	"epoch": 1.2248775122487752,
	"grad_norm": 17.523334503173828,
	"learning_rate": 2.958620804586208e-05,
	"loss": 0.6312,
	"step": 24500
	},
	{
	"epoch": 1.24987501249875,
	"grad_norm": 20.40757179260254,
	"learning_rate": 2.916958304169583e-05,
	"loss": 0.6033,
	"step": 25000
	},
	{
	"epoch": 1.274872512748725,
	"grad_norm": 18.183963775634766,
	"learning_rate": 2.8752958037529583e-05,
	"loss": 0.6006,
	"step": 25500
	},
	{
	"epoch": 1.2998700129987002,
	"grad_norm": 4.399472236633301,
	"learning_rate": 2.8336333033363332e-05,
	"loss": 0.6283,
	"step": 26000
	},
	{
	"epoch": 1.3248675132486751,
	"grad_norm": 17.38117027282715,
	"learning_rate": 2.7919708029197085e-05,
	"loss": 0.6319,
	"step": 26500
	},
	{
	"epoch": 1.34986501349865,
	"grad_norm": 9.839600563049316,
	"learning_rate": 2.7503083025030828e-05,
	"loss": 0.5913,
	"step": 27000
	},
	{
	"epoch": 1.3748625137486252,
	"grad_norm": 3.2011570930480957,
	"learning_rate": 2.708645802086458e-05,
	"loss": 0.6037,
	"step": 27500
	},
	{
	"epoch": 1.3998600139986002,
	"grad_norm": 9.335294723510742,
	"learning_rate": 2.666983301669833e-05,
	"loss": 0.6025,
	"step": 28000
	},
	{
	"epoch": 1.424857514248575,
	"grad_norm": 26.70831298828125,
	"learning_rate": 2.6253208012532083e-05,
	"loss": 0.6067,
	"step": 28500
	},
	{
	"epoch": 1.4498550144985503,
	"grad_norm": 16.662883758544922,
	"learning_rate": 2.5836583008365832e-05,
	"loss": 0.6075,
	"step": 29000
	},
	{
	"epoch": 1.4748525147485252,
	"grad_norm": 18.168540954589844,
	"learning_rate": 2.5419958004199578e-05,
	"loss": 0.6035,
	"step": 29500
	},
	{
	"epoch": 1.4998500149985001,
	"grad_norm": 49.09202575683594,
	"learning_rate": 2.500333300003333e-05,
	"loss": 0.5826,
	"step": 30000
	},
	{
	"epoch": 1.5248475152484753,
	"grad_norm": 18.314056396484375,
	"learning_rate": 2.458670799586708e-05,
	"loss": 0.5905,
	"step": 30500
	},
	{
	"epoch": 1.54984501549845,
	"grad_norm": 4.7171406745910645,
	"learning_rate": 2.4170082991700833e-05,
	"loss": 0.563,
	"step": 31000
	},
	{
	"epoch": 1.5748425157484252,
	"grad_norm": 17.988279342651367,
	"learning_rate": 2.375345798753458e-05,
	"loss": 0.5795,
	"step": 31500
	},
	{
	"epoch": 1.5998400159984003,
	"grad_norm": 15.996960639953613,
	"learning_rate": 2.3336832983368332e-05,
	"loss": 0.603,
	"step": 32000
	},
	{
	"epoch": 1.624837516248375,
	"grad_norm": 15.832610130310059,
	"learning_rate": 2.2920207979202078e-05,
	"loss": 0.5805,
	"step": 32500
	},
	{
	"epoch": 1.6498350164983502,
	"grad_norm": 33.191444396972656,
	"learning_rate": 2.250358297503583e-05,
	"loss": 0.6108,
	"step": 33000
	},
	{
	"epoch": 1.6748325167483251,
	"grad_norm": 8.741061210632324,
	"learning_rate": 2.208695797086958e-05,
	"loss": 0.6077,
	"step": 33500
	},
	{
	"epoch": 1.6998300169983,
	"grad_norm": 14.29039192199707,
	"learning_rate": 2.167033296670333e-05,
	"loss": 0.5751,
	"step": 34000
	},
	{
	"epoch": 1.7248275172482752,
	"grad_norm": 21.69901466369629,
	"learning_rate": 2.1253707962537083e-05,
	"loss": 0.5833,
	"step": 34500
	},
	{
	"epoch": 1.7498250174982501,
	"grad_norm": 32.595794677734375,
	"learning_rate": 2.083708295837083e-05,
	"loss": 0.5895,
	"step": 35000
	},
	{
	"epoch": 1.774822517748225,
	"grad_norm": 42.687721252441406,
	"learning_rate": 2.042045795420458e-05,
	"loss": 0.5541,
	"step": 35500
	},
	{
	"epoch": 1.7998200179982002,
	"grad_norm": 16.474918365478516,
	"learning_rate": 2.000383295003833e-05,
	"loss": 0.5423,
	"step": 36000
	},
	{
	"epoch": 1.8248175182481752,
	"grad_norm": 13.296688079833984,
	"learning_rate": 1.958720794587208e-05,
	"loss": 0.5566,
	"step": 36500
	},
	{
	"epoch": 1.84981501849815,
	"grad_norm": 18.645790100097656,
	"learning_rate": 1.917058294170583e-05,
	"loss": 0.5493,
	"step": 37000
	},
	{
	"epoch": 1.8748125187481253,
	"grad_norm": 12.576258659362793,
	"learning_rate": 1.875395793753958e-05,
	"loss": 0.5602,
	"step": 37500
	},
	{
	"epoch": 1.8998100189981002,
	"grad_norm": 21.95449447631836,
	"learning_rate": 1.833733293337333e-05,
	"loss": 0.5878,
	"step": 38000
	},
	{
	"epoch": 1.9248075192480751,
	"grad_norm": 9.17590618133545,
	"learning_rate": 1.792070792920708e-05,
	"loss": 0.5681,
	"step": 38500
	},
	{
	"epoch": 1.9498050194980503,
	"grad_norm": 12.517435073852539,
	"learning_rate": 1.750408292504083e-05,
	"loss": 0.5464,
	"step": 39000
	},
	{
	"epoch": 1.9748025197480252,
	"grad_norm": 15.346318244934082,
	"learning_rate": 1.708745792087458e-05,
	"loss": 0.5917,
	"step": 39500
	},
	{
	"epoch": 1.9998000199980002,
	"grad_norm": 29.321331024169922,
	"learning_rate": 1.667083291670833e-05,
	"loss": 0.5443,
	"step": 40000
	},
	{
	"epoch": 2.0,
	"eval_f1": 0.7651638193675152,
	"eval_loss": 0.8535689115524292,
	"eval_runtime": 10.748,
	"eval_samples_per_second": 1860.991,
	"eval_steps_per_second": 232.694,
	"step": 40004
	},
	{
	"epoch": 2.0247975202479753,
	"grad_norm": 24.93914794921875,
	"learning_rate": 1.625420791254208e-05,
	"loss": 0.3501,
	"step": 40500
	},
	{
	"epoch": 2.04979502049795,
	"grad_norm": 50.30072784423828,
	"learning_rate": 1.5837582908375832e-05,
	"loss": 0.3785,
	"step": 41000
	},
	{
	"epoch": 2.074792520747925,
	"grad_norm": 24.169206619262695,
	"learning_rate": 1.5420957904209578e-05,
	"loss": 0.4034,
	"step": 41500
	},
	{
	"epoch": 2.0997900209979004,
	"grad_norm": 43.043338775634766,
	"learning_rate": 1.500433290004333e-05,
	"loss": 0.385,
	"step": 42000
	},
	{
	"epoch": 2.124787521247875,
	"grad_norm": 1.601791262626648,
	"learning_rate": 1.4587707895877079e-05,
	"loss": 0.3758,
	"step": 42500
	},
	{
	"epoch": 2.1497850214978502,
	"grad_norm": 1.0921714305877686,
	"learning_rate": 1.417108289171083e-05,
	"loss": 0.3713,
	"step": 43000
	},
	{
	"epoch": 2.1747825217478254,
	"grad_norm": 23.122596740722656,
	"learning_rate": 1.375445788754458e-05,
	"loss": 0.413,
	"step": 43500
	},
	{
	"epoch": 2.1997800219978,
	"grad_norm": 7.090549468994141,
	"learning_rate": 1.3337832883378329e-05,
	"loss": 0.3787,
	"step": 44000
	},
	{
	"epoch": 2.2247775222477753,
	"grad_norm": 17.668933868408203,
	"learning_rate": 1.292120787921208e-05,
	"loss": 0.3805,
	"step": 44500
	},
	{
	"epoch": 2.2497750224977504,
	"grad_norm": 15.878674507141113,
	"learning_rate": 1.2504582875045829e-05,
	"loss": 0.3757,
	"step": 45000
	},
	{
	"epoch": 2.274772522747725,
	"grad_norm": 39.11751937866211,
	"learning_rate": 1.2087957870879578e-05,
	"loss": 0.3887,
	"step": 45500
	},
	{
	"epoch": 2.2997700229977003,
	"grad_norm": 4.333780288696289,
	"learning_rate": 1.167133286671333e-05,
	"loss": 0.3789,
	"step": 46000
	},
	{
	"epoch": 2.324767523247675,
	"grad_norm": 21.4094295501709,
	"learning_rate": 1.1254707862547079e-05,
	"loss": 0.3742,
	"step": 46500
	},
	{
	"epoch": 2.34976502349765,
	"grad_norm": 14.586631774902344,
	"learning_rate": 1.083808285838083e-05,
	"loss": 0.3805,
	"step": 47000
	},
	{
	"epoch": 2.3747625237476253,
	"grad_norm": 1.1548786163330078,
	"learning_rate": 1.042145785421458e-05,
	"loss": 0.3936,
	"step": 47500
	},
	{
	"epoch": 2.3997600239976,
	"grad_norm": 0.03682245686650276,
	"learning_rate": 1.0004832850048329e-05,
	"loss": 0.38,
	"step": 48000
	},
	{
	"epoch": 2.424757524247575,
	"grad_norm": 35.44232940673828,
	"learning_rate": 9.588207845882078e-06,
	"loss": 0.3941,
	"step": 48500
	},
	{
	"epoch": 2.4497550244975503,
	"grad_norm": 8.77474594116211,
	"learning_rate": 9.171582841715828e-06,
	"loss": 0.4054,
	"step": 49000
	},
	{
	"epoch": 2.474752524747525,
	"grad_norm": 13.013947486877441,
	"learning_rate": 8.754957837549579e-06,
	"loss": 0.3659,
	"step": 49500
	},
	{
	"epoch": 2.4997500249975,
	"grad_norm": 14.281270980834961,
	"learning_rate": 8.338332833383328e-06,
	"loss": 0.3917,
	"step": 50000
	},
	{
	"epoch": 2.5247475252474754,
	"grad_norm": 24.0106258392334,
	"learning_rate": 7.92170782921708e-06,
	"loss": 0.3876,
	"step": 50500
	},
	{
	"epoch": 2.54974502549745,
	"grad_norm": 20.56169319152832,
	"learning_rate": 7.505082825050828e-06,
	"loss": 0.3628,
	"step": 51000
	},
	{
	"epoch": 2.5747425257474252,
	"grad_norm": 0.7545715570449829,
	"learning_rate": 7.088457820884578e-06,
	"loss": 0.3918,
	"step": 51500
	},
	{
	"epoch": 2.5997400259974004,
	"grad_norm": 17.21295928955078,
	"learning_rate": 6.6718328167183295e-06,
	"loss": 0.359,
	"step": 52000
	},
	{
	"epoch": 2.624737526247375,
	"grad_norm": 9.85009479522705,
	"learning_rate": 6.255207812552079e-06,
	"loss": 0.3634,
	"step": 52500
	},
	{
	"epoch": 2.6497350264973503,
	"grad_norm": 21.24859046936035,
	"learning_rate": 5.838582808385828e-06,
	"loss": 0.3737,
	"step": 53000
	},
	{
	"epoch": 2.6747325267473254,
	"grad_norm": 13.614805221557617,
	"learning_rate": 5.421957804219578e-06,
	"loss": 0.4022,
	"step": 53500
	},
	{
	"epoch": 2.6997300269973,
	"grad_norm": 5.028663158416748,
	"learning_rate": 5.005332800053329e-06,
	"loss": 0.3562,
	"step": 54000
	},
	{
	"epoch": 2.7247275272472753,
	"grad_norm": 22.341398239135742,
	"learning_rate": 4.588707795887078e-06,
	"loss": 0.349,
	"step": 54500
	},
	{
	"epoch": 2.7497250274972505,
	"grad_norm": 9.66286849975586,
	"learning_rate": 4.172082791720828e-06,
	"loss": 0.3573,
	"step": 55000
	},
	{
	"epoch": 2.774722527747225,
	"grad_norm": 4.927464962005615,
	"learning_rate": 3.755457787554578e-06,
	"loss": 0.335,
	"step": 55500
	},
	{
	"epoch": 2.7997200279972003,
	"grad_norm": 4.33281135559082,
	"learning_rate": 3.338832783388328e-06,
	"loss": 0.3679,
	"step": 56000
	},
	{
	"epoch": 2.8247175282471755,
	"grad_norm": 0.29482612013816833,
	"learning_rate": 2.9222077792220777e-06,
	"loss": 0.3266,
	"step": 56500
	},
	{
	"epoch": 2.84971502849715,
	"grad_norm": 21.363672256469727,
	"learning_rate": 2.505582775055828e-06,
	"loss": 0.3453,
	"step": 57000
	},
	{
	"epoch": 2.8747125287471254,
	"grad_norm": 2.6021454334259033,
	"learning_rate": 2.088957770889578e-06,
	"loss": 0.3682,
	"step": 57500
	},
	{
	"epoch": 2.8997100289971005,
	"grad_norm": 4.7911577224731445,
	"learning_rate": 1.6723327667233275e-06,
	"loss": 0.3417,
	"step": 58000
	},
	{
	"epoch": 2.924707529247075,
	"grad_norm": 0.21428282558918,
	"learning_rate": 1.2557077625570776e-06,
	"loss": 0.3192,
	"step": 58500
	},
	{
	"epoch": 2.9497050294970504,
	"grad_norm": 1.2091667652130127,
	"learning_rate": 8.390827583908276e-07,
	"loss": 0.3375,
	"step": 59000
	},
	{
	"epoch": 2.9747025297470255,
	"grad_norm": 24.199045181274414,
	"learning_rate": 4.2245775422457754e-07,
	"loss": 0.3669,
	"step": 59500
	},
	{
	"epoch": 2.9997000299970003,
	"grad_norm": 5.163976669311523,
	"learning_rate": 5.832750058327501e-09,
	"loss": 0.332,
	"step": 60000
	},
	{
	"epoch": 3.0,
	"eval_f1": 0.7708992224677207,
	"eval_loss": 0.9973717331886292,
	"eval_runtime": 11.045,
	"eval_samples_per_second": 1810.963,
	"eval_steps_per_second": 226.438,
	"step": 60006
	},
	{
	"epoch": 3.0,
	"step": 60006,
	"total_flos": 7908628105405440.0,
	"train_loss": 0.6686365460569141,
	"train_runtime": 1639.5865,
	"train_samples_per_second": 292.775,
	"train_steps_per_second": 36.598
	}
	],
	"logging_steps": 500,
	"max_steps": 60006,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7908628105405440.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}