codet5-k8s-lora-final / checkpoint-9213 /trainer_state.json

Upload folder using huggingface_hub

d5d745c verified about 1 month ago

36.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 9213,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0162813415825464,
	"grad_norm": 1.3799059391021729,
	"learning_rate": 4.974492564854011e-05,
	"loss": 4.366279296875,
	"step": 50
	},
	{
	"epoch": 0.0325626831650928,
	"grad_norm": NaN,
	"learning_rate": 4.9473569955497666e-05,
	"loss": 3.2682159423828123,
	"step": 100
	},
	{
	"epoch": 0.04884402474763921,
	"grad_norm": 1.1759626865386963,
	"learning_rate": 4.9207641376316076e-05,
	"loss": 2.121284637451172,
	"step": 150
	},
	{
	"epoch": 0.0651253663301856,
	"grad_norm": 1.299229383468628,
	"learning_rate": 4.8936285683273635e-05,
	"loss": 1.8733770751953125,
	"step": 200
	},
	{
	"epoch": 0.08140670791273201,
	"grad_norm": 1.3079231977462769,
	"learning_rate": 4.8664929990231194e-05,
	"loss": 1.8073320007324218,
	"step": 250
	},
	{
	"epoch": 0.09768804949527841,
	"grad_norm": 1.5056711435317993,
	"learning_rate": 4.839357429718876e-05,
	"loss": 1.7036862182617187,
	"step": 300
	},
	{
	"epoch": 0.11396939107782482,
	"grad_norm": 1.5221471786499023,
	"learning_rate": 4.812221860414632e-05,
	"loss": 1.6605093383789062,
	"step": 350
	},
	{
	"epoch": 0.1302507326603712,
	"grad_norm": 1.4612085819244385,
	"learning_rate": 4.785086291110388e-05,
	"loss": 1.582379608154297,
	"step": 400
	},
	{
	"epoch": 0.14653207424291761,
	"grad_norm": 1.3166944980621338,
	"learning_rate": 4.7579507218061436e-05,
	"loss": 1.5711520385742188,
	"step": 450
	},
	{
	"epoch": 0.16281341582546402,
	"grad_norm": 1.8040547370910645,
	"learning_rate": 4.7308151525018995e-05,
	"loss": 1.436278076171875,
	"step": 500
	},
	{
	"epoch": 0.17909475740801042,
	"grad_norm": 1.7718613147735596,
	"learning_rate": 4.7036795831976553e-05,
	"loss": 1.4956285095214843,
	"step": 550
	},
	{
	"epoch": 0.19537609899055683,
	"grad_norm": 2.499027967453003,
	"learning_rate": 4.676544013893412e-05,
	"loss": 1.3423948669433594,
	"step": 600
	},
	{
	"epoch": 0.21165744057310323,
	"grad_norm": 1.7684857845306396,
	"learning_rate": 4.649408444589168e-05,
	"loss": 1.358212432861328,
	"step": 650
	},
	{
	"epoch": 0.22793878215564964,
	"grad_norm": 1.8858190774917603,
	"learning_rate": 4.622815586671009e-05,
	"loss": 1.3155609130859376,
	"step": 700
	},
	{
	"epoch": 0.24422012373819602,
	"grad_norm": 1.708154559135437,
	"learning_rate": 4.5956800173667646e-05,
	"loss": 1.204995346069336,
	"step": 750
	},
	{
	"epoch": 0.2605014653207424,
	"grad_norm": 2.377797842025757,
	"learning_rate": 4.5685444480625205e-05,
	"loss": 1.2155376434326173,
	"step": 800
	},
	{
	"epoch": 0.2767828069032888,
	"grad_norm": 2.3532145023345947,
	"learning_rate": 4.5414088787582764e-05,
	"loss": 1.2571015930175782,
	"step": 850
	},
	{
	"epoch": 0.29306414848583523,
	"grad_norm": 2.745908498764038,
	"learning_rate": 4.514273309454032e-05,
	"loss": 1.1259475708007813,
	"step": 900
	},
	{
	"epoch": 0.30934549006838163,
	"grad_norm": 4.180660247802734,
	"learning_rate": 4.487137740149789e-05,
	"loss": 1.1778811645507812,
	"step": 950
	},
	{
	"epoch": 0.32562683165092804,
	"grad_norm": 2.554922103881836,
	"learning_rate": 4.460002170845545e-05,
	"loss": 1.144913787841797,
	"step": 1000
	},
	{
	"epoch": 0.34190817323347444,
	"grad_norm": 2.6831798553466797,
	"learning_rate": 4.4328666015413006e-05,
	"loss": 1.1192340850830078,
	"step": 1050
	},
	{
	"epoch": 0.35818951481602085,
	"grad_norm": 2.5000758171081543,
	"learning_rate": 4.4057310322370565e-05,
	"loss": 1.0886085510253907,
	"step": 1100
	},
	{
	"epoch": 0.37447085639856725,
	"grad_norm": 2.5406346321105957,
	"learning_rate": 4.3785954629328124e-05,
	"loss": 1.0647865295410157,
	"step": 1150
	},
	{
	"epoch": 0.39075219798111366,
	"grad_norm": 2.5966973304748535,
	"learning_rate": 4.351459893628568e-05,
	"loss": 1.0138130187988281,
	"step": 1200
	},
	{
	"epoch": 0.40703353956366006,
	"grad_norm": 2.9423012733459473,
	"learning_rate": 4.324324324324325e-05,
	"loss": 0.971071548461914,
	"step": 1250
	},
	{
	"epoch": 0.42331488114620647,
	"grad_norm": 2.9763288497924805,
	"learning_rate": 4.297188755020081e-05,
	"loss": 0.9740264129638672,
	"step": 1300
	},
	{
	"epoch": 0.4395962227287529,
	"grad_norm": 2.0831127166748047,
	"learning_rate": 4.270595897101922e-05,
	"loss": 1.0225084686279298,
	"step": 1350
	},
	{
	"epoch": 0.4558775643112993,
	"grad_norm": 3.093662977218628,
	"learning_rate": 4.2434603277976776e-05,
	"loss": 0.9085057830810547,
	"step": 1400
	},
	{
	"epoch": 0.4721589058938456,
	"grad_norm": 3.1048061847686768,
	"learning_rate": 4.2163247584934335e-05,
	"loss": 0.9657279968261718,
	"step": 1450
	},
	{
	"epoch": 0.48844024747639203,
	"grad_norm": 89.80404663085938,
	"learning_rate": 4.189189189189189e-05,
	"loss": 0.9195979309082031,
	"step": 1500
	},
	{
	"epoch": 0.5047215890589385,
	"grad_norm": 2.7518820762634277,
	"learning_rate": 4.162053619884945e-05,
	"loss": 0.8844217681884765,
	"step": 1550
	},
	{
	"epoch": 0.5210029306414848,
	"grad_norm": 2.216895818710327,
	"learning_rate": 4.134918050580701e-05,
	"loss": 0.9437327575683594,
	"step": 1600
	},
	{
	"epoch": 0.5372842722240313,
	"grad_norm": 2.756894826889038,
	"learning_rate": 4.1077824812764577e-05,
	"loss": 0.9072888946533203,
	"step": 1650
	},
	{
	"epoch": 0.5535656138065776,
	"grad_norm": 2.630861759185791,
	"learning_rate": 4.0806469119722135e-05,
	"loss": 0.9133613586425782,
	"step": 1700
	},
	{
	"epoch": 0.5698469553891241,
	"grad_norm": 2.3018958568573,
	"learning_rate": 4.0535113426679694e-05,
	"loss": 0.9179753875732422,
	"step": 1750
	},
	{
	"epoch": 0.5861282969716705,
	"grad_norm": 2.2267212867736816,
	"learning_rate": 4.026375773363725e-05,
	"loss": 0.8736819458007813,
	"step": 1800
	},
	{
	"epoch": 0.6024096385542169,
	"grad_norm": 3.817021369934082,
	"learning_rate": 3.999240204059481e-05,
	"loss": 0.8818047332763672,
	"step": 1850
	},
	{
	"epoch": 0.6186909801367633,
	"grad_norm": 2.8244123458862305,
	"learning_rate": 3.972104634755237e-05,
	"loss": 0.8710990142822266,
	"step": 1900
	},
	{
	"epoch": 0.6349723217193096,
	"grad_norm": 2.787409782409668,
	"learning_rate": 3.9449690654509936e-05,
	"loss": 0.791876220703125,
	"step": 1950
	},
	{
	"epoch": 0.6512536633018561,
	"grad_norm": 2.5339832305908203,
	"learning_rate": 3.9178334961467495e-05,
	"loss": 0.8330724334716797,
	"step": 2000
	},
	{
	"epoch": 0.6675350048844024,
	"grad_norm": 2.2571518421173096,
	"learning_rate": 3.8906979268425054e-05,
	"loss": 0.8065113067626953,
	"step": 2050
	},
	{
	"epoch": 0.6838163464669489,
	"grad_norm": 3.3255224227905273,
	"learning_rate": 3.863562357538261e-05,
	"loss": 0.7839543151855469,
	"step": 2100
	},
	{
	"epoch": 0.7000976880494952,
	"grad_norm": 2.493654727935791,
	"learning_rate": 3.836426788234017e-05,
	"loss": 0.7902137756347656,
	"step": 2150
	},
	{
	"epoch": 0.7163790296320417,
	"grad_norm": 2.943366527557373,
	"learning_rate": 3.809291218929774e-05,
	"loss": 0.9532376861572266,
	"step": 2200
	},
	{
	"epoch": 0.732660371214588,
	"grad_norm": 2.404705762863159,
	"learning_rate": 3.7821556496255296e-05,
	"loss": 0.8227187347412109,
	"step": 2250
	},
	{
	"epoch": 0.7489417127971345,
	"grad_norm": 8.06905460357666,
	"learning_rate": 3.7550200803212855e-05,
	"loss": 0.7640556335449219,
	"step": 2300
	},
	{
	"epoch": 0.7652230543796809,
	"grad_norm": 3.540977954864502,
	"learning_rate": 3.7278845110170414e-05,
	"loss": 0.8362091064453125,
	"step": 2350
	},
	{
	"epoch": 0.7815043959622273,
	"grad_norm": 2.233323574066162,
	"learning_rate": 3.700748941712797e-05,
	"loss": 0.6893608093261718,
	"step": 2400
	},
	{
	"epoch": 0.7977857375447737,
	"grad_norm": 2.947315216064453,
	"learning_rate": 3.673613372408553e-05,
	"loss": 0.7564961242675782,
	"step": 2450
	},
	{
	"epoch": 0.8140670791273201,
	"grad_norm": 2.9839603900909424,
	"learning_rate": 3.64647780310431e-05,
	"loss": 0.7726463317871094,
	"step": 2500
	},
	{
	"epoch": 0.8303484207098665,
	"grad_norm": 2.638998508453369,
	"learning_rate": 3.6193422338000656e-05,
	"loss": 0.7850227355957031,
	"step": 2550
	},
	{
	"epoch": 0.8466297622924129,
	"grad_norm": 2.203768730163574,
	"learning_rate": 3.5922066644958215e-05,
	"loss": 0.7540821838378906,
	"step": 2600
	},
	{
	"epoch": 0.8629111038749593,
	"grad_norm": 2.7057082653045654,
	"learning_rate": 3.565071095191577e-05,
	"loss": 0.6677760314941407,
	"step": 2650
	},
	{
	"epoch": 0.8791924454575057,
	"grad_norm": 3.2892088890075684,
	"learning_rate": 3.537935525887333e-05,
	"loss": 0.74295654296875,
	"step": 2700
	},
	{
	"epoch": 0.8954737870400521,
	"grad_norm": 2.8778061866760254,
	"learning_rate": 3.510799956583089e-05,
	"loss": 0.7150550842285156,
	"step": 2750
	},
	{
	"epoch": 0.9117551286225986,
	"grad_norm": 1.9023234844207764,
	"learning_rate": 3.483664387278846e-05,
	"loss": 0.7367278289794922,
	"step": 2800
	},
	{
	"epoch": 0.9280364702051449,
	"grad_norm": 3.3899879455566406,
	"learning_rate": 3.4565288179746015e-05,
	"loss": 0.7095525360107422,
	"step": 2850
	},
	{
	"epoch": 0.9443178117876913,
	"grad_norm": 3.202036142349243,
	"learning_rate": 3.4293932486703574e-05,
	"loss": 0.7237194061279297,
	"step": 2900
	},
	{
	"epoch": 0.9605991533702377,
	"grad_norm": 2.44712233543396,
	"learning_rate": 3.402257679366113e-05,
	"loss": 0.710773696899414,
	"step": 2950
	},
	{
	"epoch": 0.9768804949527841,
	"grad_norm": 3.5873775482177734,
	"learning_rate": 3.375122110061869e-05,
	"loss": 0.6593586730957032,
	"step": 3000
	},
	{
	"epoch": 0.9931618365353305,
	"grad_norm": 2.8714234828948975,
	"learning_rate": 3.347986540757626e-05,
	"loss": 0.7627605438232422,
	"step": 3050
	},
	{
	"epoch": 1.0,
	"eval_bertscore_f1": 0.9653369394064688,
	"eval_bleu": 0.6270834635129311,
	"eval_loss": 0.48991522192955017,
	"eval_meteor": 0.7251021230424122,
	"eval_rouge1": 0.8465042416762141,
	"eval_rouge2": 0.738163460778114,
	"eval_runtime": 68.0737,
	"eval_samples_per_second": 18.979,
	"eval_steps_per_second": 2.38,
	"step": 3071
	},
	{
	"epoch": 1.009443178117877,
	"grad_norm": 3.2640202045440674,
	"learning_rate": 3.3208509714533816e-05,
	"loss": 0.5927775573730468,
	"step": 3100
	},
	{
	"epoch": 1.0257245197004232,
	"grad_norm": 3.130765914916992,
	"learning_rate": 3.2937154021491375e-05,
	"loss": 0.5853068161010743,
	"step": 3150
	},
	{
	"epoch": 1.0420058612829697,
	"grad_norm": 3.2238473892211914,
	"learning_rate": 3.2665798328448934e-05,
	"loss": 0.6931375885009765,
	"step": 3200
	},
	{
	"epoch": 1.0582872028655161,
	"grad_norm": 4.1798176765441895,
	"learning_rate": 3.239444263540649e-05,
	"loss": 0.6535150146484375,
	"step": 3250
	},
	{
	"epoch": 1.0745685444480626,
	"grad_norm": 3.4835116863250732,
	"learning_rate": 3.212308694236405e-05,
	"loss": 0.6570293426513671,
	"step": 3300
	},
	{
	"epoch": 1.0908498860306088,
	"grad_norm": 3.2468245029449463,
	"learning_rate": 3.185173124932162e-05,
	"loss": 0.6235344696044922,
	"step": 3350
	},
	{
	"epoch": 1.1071312276131553,
	"grad_norm": 2.503023862838745,
	"learning_rate": 3.1580375556279176e-05,
	"loss": 0.6021703720092774,
	"step": 3400
	},
	{
	"epoch": 1.1234125691957018,
	"grad_norm": 3.5487520694732666,
	"learning_rate": 3.1309019863236735e-05,
	"loss": 0.6459141540527343,
	"step": 3450
	},
	{
	"epoch": 1.1396939107782482,
	"grad_norm": 2.8496859073638916,
	"learning_rate": 3.1037664170194294e-05,
	"loss": 0.5954633712768554,
	"step": 3500
	},
	{
	"epoch": 1.1559752523607945,
	"grad_norm": 2.746445894241333,
	"learning_rate": 3.076630847715185e-05,
	"loss": 0.5743134689331054,
	"step": 3550
	},
	{
	"epoch": 1.172256593943341,
	"grad_norm": 3.843780517578125,
	"learning_rate": 3.0494952784109408e-05,
	"loss": 0.7025726318359375,
	"step": 3600
	},
	{
	"epoch": 1.1885379355258874,
	"grad_norm": 2.3990111351013184,
	"learning_rate": 3.0223597091066974e-05,
	"loss": 0.6482646942138672,
	"step": 3650
	},
	{
	"epoch": 1.2048192771084336,
	"grad_norm": 3.495655059814453,
	"learning_rate": 2.9952241398024532e-05,
	"loss": 0.6225572967529297,
	"step": 3700
	},
	{
	"epoch": 1.22110061869098,
	"grad_norm": 3.0918631553649902,
	"learning_rate": 2.968088570498209e-05,
	"loss": 0.6018490982055664,
	"step": 3750
	},
	{
	"epoch": 1.2373819602735265,
	"grad_norm": 3.54016375541687,
	"learning_rate": 2.940953001193965e-05,
	"loss": 0.6204871749877929,
	"step": 3800
	},
	{
	"epoch": 1.253663301856073,
	"grad_norm": 3.330631971359253,
	"learning_rate": 2.913817431889721e-05,
	"loss": 0.5625830459594726,
	"step": 3850
	},
	{
	"epoch": 1.2699446434386195,
	"grad_norm": 3.4091968536376953,
	"learning_rate": 2.8866818625854774e-05,
	"loss": 0.6275486755371094,
	"step": 3900
	},
	{
	"epoch": 1.2862259850211657,
	"grad_norm": 3.535207748413086,
	"learning_rate": 2.8595462932812333e-05,
	"loss": 0.6113796997070312,
	"step": 3950
	},
	{
	"epoch": 1.3025073266037122,
	"grad_norm": 2.739208459854126,
	"learning_rate": 2.8324107239769892e-05,
	"loss": 0.6166405487060547,
	"step": 4000
	},
	{
	"epoch": 1.3187886681862586,
	"grad_norm": 2.3887178897857666,
	"learning_rate": 2.805275154672745e-05,
	"loss": 0.6348526000976562,
	"step": 4050
	},
	{
	"epoch": 1.3350700097688049,
	"grad_norm": 3.2300209999084473,
	"learning_rate": 2.778139585368501e-05,
	"loss": 0.6592056274414062,
	"step": 4100
	},
	{
	"epoch": 1.3513513513513513,
	"grad_norm": 2.4417901039123535,
	"learning_rate": 2.751004016064257e-05,
	"loss": 0.5736191177368164,
	"step": 4150
	},
	{
	"epoch": 1.3676326929338978,
	"grad_norm": 4.1886467933654785,
	"learning_rate": 2.7238684467600134e-05,
	"loss": 0.5781734466552735,
	"step": 4200
	},
	{
	"epoch": 1.3839140345164442,
	"grad_norm": 2.7025551795959473,
	"learning_rate": 2.6967328774557693e-05,
	"loss": 0.5421427917480469,
	"step": 4250
	},
	{
	"epoch": 1.4001953760989905,
	"grad_norm": 3.4467735290527344,
	"learning_rate": 2.6695973081515252e-05,
	"loss": 0.6328504180908203,
	"step": 4300
	},
	{
	"epoch": 1.416476717681537,
	"grad_norm": 2.252255916595459,
	"learning_rate": 2.642461738847281e-05,
	"loss": 0.565279884338379,
	"step": 4350
	},
	{
	"epoch": 1.4327580592640834,
	"grad_norm": 2.3594324588775635,
	"learning_rate": 2.615326169543037e-05,
	"loss": 0.585950927734375,
	"step": 4400
	},
	{
	"epoch": 1.4490394008466296,
	"grad_norm": 3.1787843704223633,
	"learning_rate": 2.5881906002387928e-05,
	"loss": 0.6461568450927735,
	"step": 4450
	},
	{
	"epoch": 1.465320742429176,
	"grad_norm": 9.052631378173828,
	"learning_rate": 2.5610550309345494e-05,
	"loss": 0.5787173461914062,
	"step": 4500
	},
	{
	"epoch": 1.4816020840117226,
	"grad_norm": 3.1000287532806396,
	"learning_rate": 2.5339194616303053e-05,
	"loss": 0.5753350830078126,
	"step": 4550
	},
	{
	"epoch": 1.497883425594269,
	"grad_norm": 2.160932779312134,
	"learning_rate": 2.506783892326061e-05,
	"loss": 0.6055181503295899,
	"step": 4600
	},
	{
	"epoch": 1.5141647671768155,
	"grad_norm": 5.498105525970459,
	"learning_rate": 2.479648323021817e-05,
	"loss": 0.5424030303955079,
	"step": 4650
	},
	{
	"epoch": 1.530446108759362,
	"grad_norm": 2.4782474040985107,
	"learning_rate": 2.4525127537175733e-05,
	"loss": 0.6082788848876953,
	"step": 4700
	},
	{
	"epoch": 1.5467274503419082,
	"grad_norm": 2.7400150299072266,
	"learning_rate": 2.425377184413329e-05,
	"loss": 0.5984983444213867,
	"step": 4750
	},
	{
	"epoch": 1.5630087919244544,
	"grad_norm": 3.0426690578460693,
	"learning_rate": 2.398241615109085e-05,
	"loss": 0.6066116333007813,
	"step": 4800
	},
	{
	"epoch": 1.5792901335070009,
	"grad_norm": 3.5095133781433105,
	"learning_rate": 2.3711060458048412e-05,
	"loss": 0.605382080078125,
	"step": 4850
	},
	{
	"epoch": 1.5955714750895473,
	"grad_norm": 3.64323091506958,
	"learning_rate": 2.343970476500597e-05,
	"loss": 0.5372691726684571,
	"step": 4900
	},
	{
	"epoch": 1.6118528166720938,
	"grad_norm": 6.410864353179932,
	"learning_rate": 2.316834907196353e-05,
	"loss": 0.4930916976928711,
	"step": 4950
	},
	{
	"epoch": 1.6281341582546403,
	"grad_norm": 2.9752631187438965,
	"learning_rate": 2.2896993378921092e-05,
	"loss": 0.49088024139404296,
	"step": 5000
	},
	{
	"epoch": 1.6444154998371867,
	"grad_norm": 2.8982131481170654,
	"learning_rate": 2.262563768587865e-05,
	"loss": 0.5840103912353516,
	"step": 5050
	},
	{
	"epoch": 1.660696841419733,
	"grad_norm": 3.7222821712493896,
	"learning_rate": 2.235428199283621e-05,
	"loss": 0.5301944732666015,
	"step": 5100
	},
	{
	"epoch": 1.6769781830022794,
	"grad_norm": 3.526601791381836,
	"learning_rate": 2.2082926299793772e-05,
	"loss": 0.4781329345703125,
	"step": 5150
	},
	{
	"epoch": 1.6932595245848256,
	"grad_norm": 3.4005913734436035,
	"learning_rate": 2.181157060675133e-05,
	"loss": 0.5219943237304687,
	"step": 5200
	},
	{
	"epoch": 1.709540866167372,
	"grad_norm": 3.9888486862182617,
	"learning_rate": 2.154021491370889e-05,
	"loss": 0.5756942367553711,
	"step": 5250
	},
	{
	"epoch": 1.7258222077499186,
	"grad_norm": 3.6952855587005615,
	"learning_rate": 2.1268859220666452e-05,
	"loss": 0.5279730606079102,
	"step": 5300
	},
	{
	"epoch": 1.742103549332465,
	"grad_norm": 3.1715617179870605,
	"learning_rate": 2.099750352762401e-05,
	"loss": 0.5441674423217774,
	"step": 5350
	},
	{
	"epoch": 1.7583848909150115,
	"grad_norm": 3.5982584953308105,
	"learning_rate": 2.0726147834581573e-05,
	"loss": 0.46869205474853515,
	"step": 5400
	},
	{
	"epoch": 1.774666232497558,
	"grad_norm": 3.594470977783203,
	"learning_rate": 2.0454792141539132e-05,
	"loss": 0.5004570388793945,
	"step": 5450
	},
	{
	"epoch": 1.7909475740801042,
	"grad_norm": 3.198012351989746,
	"learning_rate": 2.018343644849669e-05,
	"loss": 0.49389095306396485,
	"step": 5500
	},
	{
	"epoch": 1.8072289156626506,
	"grad_norm": 2.3895151615142822,
	"learning_rate": 1.9912080755454253e-05,
	"loss": 0.5188541793823243,
	"step": 5550
	},
	{
	"epoch": 1.8235102572451969,
	"grad_norm": 2.874993085861206,
	"learning_rate": 1.964072506241181e-05,
	"loss": 0.4755914306640625,
	"step": 5600
	},
	{
	"epoch": 1.8397915988277433,
	"grad_norm": 4.330140590667725,
	"learning_rate": 1.936936936936937e-05,
	"loss": 0.49986125946044924,
	"step": 5650
	},
	{
	"epoch": 1.8560729404102898,
	"grad_norm": 3.2301809787750244,
	"learning_rate": 1.9098013676326933e-05,
	"loss": 0.5472452163696289,
	"step": 5700
	},
	{
	"epoch": 1.8723542819928363,
	"grad_norm": 2.056736946105957,
	"learning_rate": 1.883208509714534e-05,
	"loss": 0.5061603164672852,
	"step": 5750
	},
	{
	"epoch": 1.8886356235753827,
	"grad_norm": 4.6902031898498535,
	"learning_rate": 1.85607294041029e-05,
	"loss": 0.4669316101074219,
	"step": 5800
	},
	{
	"epoch": 1.904916965157929,
	"grad_norm": 3.790092945098877,
	"learning_rate": 1.828937371106046e-05,
	"loss": 0.561137809753418,
	"step": 5850
	},
	{
	"epoch": 1.9211983067404754,
	"grad_norm": 4.152039527893066,
	"learning_rate": 1.801801801801802e-05,
	"loss": 0.4813918304443359,
	"step": 5900
	},
	{
	"epoch": 1.9374796483230217,
	"grad_norm": 3.3476598262786865,
	"learning_rate": 1.774666232497558e-05,
	"loss": 0.5630344390869141,
	"step": 5950
	},
	{
	"epoch": 1.9537609899055681,
	"grad_norm": 4.2672810554504395,
	"learning_rate": 1.747530663193314e-05,
	"loss": 0.48508411407470703,
	"step": 6000
	},
	{
	"epoch": 1.9700423314881146,
	"grad_norm": 4.236985206604004,
	"learning_rate": 1.72039509388907e-05,
	"loss": 0.5445558929443359,
	"step": 6050
	},
	{
	"epoch": 1.986323673070661,
	"grad_norm": 2.686180591583252,
	"learning_rate": 1.693259524584826e-05,
	"loss": 0.5194969558715821,
	"step": 6100
	},
	{
	"epoch": 2.0,
	"eval_bertscore_f1": 0.9755530517905858,
	"eval_bleu": 0.7363057302997511,
	"eval_loss": 0.3618590235710144,
	"eval_meteor": 0.813260581053782,
	"eval_rouge1": 0.8844645577727277,
	"eval_rouge2": 0.8050353100012327,
	"eval_runtime": 70.0732,
	"eval_samples_per_second": 18.438,
	"eval_steps_per_second": 2.312,
	"step": 6142
	},
	{
	"epoch": 2.0026050146532075,
	"grad_norm": 2.022204637527466,
	"learning_rate": 1.666123955280582e-05,
	"loss": 0.48952743530273435,
	"step": 6150
	},
	{
	"epoch": 2.018886356235754,
	"grad_norm": 4.96242094039917,
	"learning_rate": 1.638988385976338e-05,
	"loss": 0.5839331436157227,
	"step": 6200
	},
	{
	"epoch": 2.0351676978183004,
	"grad_norm": 3.4074771404266357,
	"learning_rate": 1.611852816672094e-05,
	"loss": 0.5070013427734374,
	"step": 6250
	},
	{
	"epoch": 2.0514490394008464,
	"grad_norm": 3.10239577293396,
	"learning_rate": 1.58471724736785e-05,
	"loss": 0.4913197708129883,
	"step": 6300
	},
	{
	"epoch": 2.067730380983393,
	"grad_norm": 3.764558792114258,
	"learning_rate": 1.557581678063606e-05,
	"loss": 0.4683738327026367,
	"step": 6350
	},
	{
	"epoch": 2.0840117225659394,
	"grad_norm": 4.150667667388916,
	"learning_rate": 1.5304461087593617e-05,
	"loss": 0.4650471878051758,
	"step": 6400
	},
	{
	"epoch": 2.100293064148486,
	"grad_norm": 3.9944324493408203,
	"learning_rate": 1.5033105394551178e-05,
	"loss": 0.5024824905395507,
	"step": 6450
	},
	{
	"epoch": 2.1165744057310323,
	"grad_norm": 2.410952568054199,
	"learning_rate": 1.476174970150874e-05,
	"loss": 0.5205254745483399,
	"step": 6500
	},
	{
	"epoch": 2.1328557473135787,
	"grad_norm": 4.4830098152160645,
	"learning_rate": 1.4490394008466299e-05,
	"loss": 0.5458049011230469,
	"step": 6550
	},
	{
	"epoch": 2.149137088896125,
	"grad_norm": 3.420327663421631,
	"learning_rate": 1.4219038315423858e-05,
	"loss": 0.544830436706543,
	"step": 6600
	},
	{
	"epoch": 2.165418430478671,
	"grad_norm": 4.262825012207031,
	"learning_rate": 1.394768262238142e-05,
	"loss": 0.4901109313964844,
	"step": 6650
	},
	{
	"epoch": 2.1816997720612177,
	"grad_norm": 2.969730854034424,
	"learning_rate": 1.3676326929338979e-05,
	"loss": 0.48183216094970704,
	"step": 6700
	},
	{
	"epoch": 2.197981113643764,
	"grad_norm": 2.7617075443267822,
	"learning_rate": 1.3404971236296538e-05,
	"loss": 0.5208282470703125,
	"step": 6750
	},
	{
	"epoch": 2.2142624552263106,
	"grad_norm": 2.8121178150177,
	"learning_rate": 1.31336155432541e-05,
	"loss": 0.47464847564697266,
	"step": 6800
	},
	{
	"epoch": 2.230543796808857,
	"grad_norm": 2.1643424034118652,
	"learning_rate": 1.2862259850211659e-05,
	"loss": 0.5135415267944335,
	"step": 6850
	},
	{
	"epoch": 2.2468251383914035,
	"grad_norm": 3.0597665309906006,
	"learning_rate": 1.2590904157169217e-05,
	"loss": 0.48383502960205077,
	"step": 6900
	},
	{
	"epoch": 2.26310647997395,
	"grad_norm": 3.4192488193511963,
	"learning_rate": 1.2319548464126778e-05,
	"loss": 0.5295528411865235,
	"step": 6950
	},
	{
	"epoch": 2.2793878215564964,
	"grad_norm": 3.485333204269409,
	"learning_rate": 1.2048192771084338e-05,
	"loss": 0.5490006637573243,
	"step": 7000
	},
	{
	"epoch": 2.295669163139043,
	"grad_norm": 3.5061099529266357,
	"learning_rate": 1.1776837078041899e-05,
	"loss": 0.444782600402832,
	"step": 7050
	},
	{
	"epoch": 2.311950504721589,
	"grad_norm": 4.059643745422363,
	"learning_rate": 1.1505481384999458e-05,
	"loss": 0.4735762786865234,
	"step": 7100
	},
	{
	"epoch": 2.3282318463041354,
	"grad_norm": 3.1162891387939453,
	"learning_rate": 1.1234125691957018e-05,
	"loss": 0.5211288452148437,
	"step": 7150
	},
	{
	"epoch": 2.344513187886682,
	"grad_norm": 1.198476791381836,
	"learning_rate": 1.0962769998914577e-05,
	"loss": 0.5121672439575196,
	"step": 7200
	},
	{
	"epoch": 2.3607945294692283,
	"grad_norm": 3.9411354064941406,
	"learning_rate": 1.0691414305872138e-05,
	"loss": 0.5504902267456054,
	"step": 7250
	},
	{
	"epoch": 2.3770758710517748,
	"grad_norm": 3.590696334838867,
	"learning_rate": 1.0420058612829696e-05,
	"loss": 0.4592051315307617,
	"step": 7300
	},
	{
	"epoch": 2.393357212634321,
	"grad_norm": 2.1098175048828125,
	"learning_rate": 1.0148702919787257e-05,
	"loss": 0.4932923126220703,
	"step": 7350
	},
	{
	"epoch": 2.4096385542168672,
	"grad_norm": 4.837367057800293,
	"learning_rate": 9.877347226744818e-06,
	"loss": 0.45726318359375,
	"step": 7400
	},
	{
	"epoch": 2.4259198957994137,
	"grad_norm": 2.808544874191284,
	"learning_rate": 9.605991533702376e-06,
	"loss": 0.4931900787353516,
	"step": 7450
	},
	{
	"epoch": 2.44220123738196,
	"grad_norm": 2.6487984657287598,
	"learning_rate": 9.334635840659937e-06,
	"loss": 0.4715615844726562,
	"step": 7500
	},
	{
	"epoch": 2.4584825789645066,
	"grad_norm": 4.251109600067139,
	"learning_rate": 9.063280147617497e-06,
	"loss": 0.5373792266845703,
	"step": 7550
	},
	{
	"epoch": 2.474763920547053,
	"grad_norm": 3.84010648727417,
	"learning_rate": 8.791924454575056e-06,
	"loss": 0.44632495880126954,
	"step": 7600
	},
	{
	"epoch": 2.4910452621295995,
	"grad_norm": 1.9418392181396484,
	"learning_rate": 8.520568761532617e-06,
	"loss": 0.48151702880859376,
	"step": 7650
	},
	{
	"epoch": 2.507326603712146,
	"grad_norm": 4.140622138977051,
	"learning_rate": 8.249213068490177e-06,
	"loss": 0.4063055419921875,
	"step": 7700
	},
	{
	"epoch": 2.5236079452946925,
	"grad_norm": 3.0216522216796875,
	"learning_rate": 7.977857375447738e-06,
	"loss": 0.4796050262451172,
	"step": 7750
	},
	{
	"epoch": 2.539889286877239,
	"grad_norm": 4.727103233337402,
	"learning_rate": 7.706501682405297e-06,
	"loss": 0.46068046569824217,
	"step": 7800
	},
	{
	"epoch": 2.556170628459785,
	"grad_norm": 4.281773567199707,
	"learning_rate": 7.435145989362857e-06,
	"loss": 0.44071575164794924,
	"step": 7850
	},
	{
	"epoch": 2.5724519700423314,
	"grad_norm": 3.134763479232788,
	"learning_rate": 7.163790296320418e-06,
	"loss": 0.4763399887084961,
	"step": 7900
	},
	{
	"epoch": 2.588733311624878,
	"grad_norm": 3.584044933319092,
	"learning_rate": 6.8924346032779764e-06,
	"loss": 0.4629644012451172,
	"step": 7950
	},
	{
	"epoch": 2.6050146532074243,
	"grad_norm": 2.601400852203369,
	"learning_rate": 6.621078910235537e-06,
	"loss": 0.4727302551269531,
	"step": 8000
	},
	{
	"epoch": 2.6212959947899708,
	"grad_norm": 3.5354995727539062,
	"learning_rate": 6.3497232171930975e-06,
	"loss": 0.42160026550292967,
	"step": 8050
	},
	{
	"epoch": 2.6375773363725172,
	"grad_norm": 2.9206888675689697,
	"learning_rate": 6.078367524150657e-06,
	"loss": 0.4754294204711914,
	"step": 8100
	},
	{
	"epoch": 2.6538586779550632,
	"grad_norm": 2.4927732944488525,
	"learning_rate": 5.807011831108217e-06,
	"loss": 0.5114262390136719,
	"step": 8150
	},
	{
	"epoch": 2.6701400195376097,
	"grad_norm": 4.378971099853516,
	"learning_rate": 5.535656138065777e-06,
	"loss": 0.5084254837036133,
	"step": 8200
	},
	{
	"epoch": 2.686421361120156,
	"grad_norm": 2.4034016132354736,
	"learning_rate": 5.264300445023337e-06,
	"loss": 0.527303466796875,
	"step": 8250
	},
	{
	"epoch": 2.7027027027027026,
	"grad_norm": 3.7141177654266357,
	"learning_rate": 4.9929447519808975e-06,
	"loss": 0.4662747573852539,
	"step": 8300
	},
	{
	"epoch": 2.718984044285249,
	"grad_norm": 3.871277332305908,
	"learning_rate": 4.721589058938457e-06,
	"loss": 0.5126468276977539,
	"step": 8350
	},
	{
	"epoch": 2.7352653858677956,
	"grad_norm": 2.500791072845459,
	"learning_rate": 4.450233365896017e-06,
	"loss": 0.47957534790039064,
	"step": 8400
	},
	{
	"epoch": 2.751546727450342,
	"grad_norm": 5.441941738128662,
	"learning_rate": 4.1788776728535765e-06,
	"loss": 0.38029510498046876,
	"step": 8450
	},
	{
	"epoch": 2.7678280690328885,
	"grad_norm": 3.3940446376800537,
	"learning_rate": 3.907521979811136e-06,
	"loss": 0.4626531219482422,
	"step": 8500
	},
	{
	"epoch": 2.784109410615435,
	"grad_norm": 4.125059127807617,
	"learning_rate": 3.6361662867686967e-06,
	"loss": 0.4890303039550781,
	"step": 8550
	},
	{
	"epoch": 2.800390752197981,
	"grad_norm": 2.758863687515259,
	"learning_rate": 3.3648105937262564e-06,
	"loss": 0.4689041519165039,
	"step": 8600
	},
	{
	"epoch": 2.8166720937805274,
	"grad_norm": 4.864498138427734,
	"learning_rate": 3.0934549006838165e-06,
	"loss": 0.46032047271728516,
	"step": 8650
	},
	{
	"epoch": 2.832953435363074,
	"grad_norm": 3.3108010292053223,
	"learning_rate": 2.8220992076413766e-06,
	"loss": 0.43362377166748045,
	"step": 8700
	},
	{
	"epoch": 2.8492347769456203,
	"grad_norm": 2.3421084880828857,
	"learning_rate": 2.5507435145989362e-06,
	"loss": 0.44478134155273436,
	"step": 8750
	},
	{
	"epoch": 2.865516118528167,
	"grad_norm": 3.283203601837158,
	"learning_rate": 2.2793878215564963e-06,
	"loss": 0.5047480392456055,
	"step": 8800
	},
	{
	"epoch": 2.8817974601107132,
	"grad_norm": 2.0124731063842773,
	"learning_rate": 2.0080321285140564e-06,
	"loss": 0.4658950424194336,
	"step": 8850
	},
	{
	"epoch": 2.8980788016932593,
	"grad_norm": 3.839552879333496,
	"learning_rate": 1.7366764354716163e-06,
	"loss": 0.45034191131591794,
	"step": 8900
	},
	{
	"epoch": 2.9143601432758057,
	"grad_norm": 4.701524257659912,
	"learning_rate": 1.4653207424291762e-06,
	"loss": 0.47517498016357423,
	"step": 8950
	},
	{
	"epoch": 2.930641484858352,
	"grad_norm": 6.58011531829834,
	"learning_rate": 1.1939650493867363e-06,
	"loss": 0.44451316833496096,
	"step": 9000
	},
	{
	"epoch": 2.9469228264408986,
	"grad_norm": 2.9627132415771484,
	"learning_rate": 9.226093563442963e-07,
	"loss": 0.41320926666259766,
	"step": 9050
	},
	{
	"epoch": 2.963204168023445,
	"grad_norm": 3.003753185272217,
	"learning_rate": 6.51253663301856e-07,
	"loss": 0.3974274444580078,
	"step": 9100
	},
	{
	"epoch": 2.9794855096059916,
	"grad_norm": 2.0012876987457275,
	"learning_rate": 3.7989797025941607e-07,
	"loss": 0.42885406494140627,
	"step": 9150
	},
	{
	"epoch": 2.995766851188538,
	"grad_norm": 3.7651121616363525,
	"learning_rate": 1.0854227721697602e-07,
	"loss": 0.4800850296020508,
	"step": 9200
	},
	{
	"epoch": 3.0,
	"eval_bertscore_f1": 0.9785511039727982,
	"eval_bleu": 0.7645620244248046,
	"eval_loss": 0.3346184194087982,
	"eval_meteor": 0.8355226256477348,
	"eval_rouge1": 0.8968326891869934,
	"eval_rouge2": 0.8250429516845066,
	"eval_runtime": 68.0941,
	"eval_samples_per_second": 18.974,
	"eval_steps_per_second": 2.379,
	"step": 9213
	}
	],
	"logging_steps": 50,
	"max_steps": 9213,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.263887217557504e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}