codet5_qlora / checkpoint-14145 /trainer_state.json

Upload folder using huggingface_hub

70116e4 verified 6 months ago

51.8 kB

	{
	"best_global_step": 14145,
	"best_metric": 0.9660587414250811,
	"best_model_checkpoint": "/kaggle/working/codet5-k8s-qlora/checkpoint-14145",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 14145,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.017674089784376106,
	"grad_norm": 2.658311605453491,
	"learning_rate": 4.983032873806999e-05,
	"loss": 4.0893,
	"step": 50
	},
	{
	"epoch": 0.03534817956875221,
	"grad_norm": 6.100900173187256,
	"learning_rate": 4.9657122658183106e-05,
	"loss": 3.214,
	"step": 100
	},
	{
	"epoch": 0.053022269353128315,
	"grad_norm": 2.4247324466705322,
	"learning_rate": 4.948391657829622e-05,
	"loss": 2.2694,
	"step": 150
	},
	{
	"epoch": 0.07069635913750442,
	"grad_norm": 2.4390416145324707,
	"learning_rate": 4.930717568045246e-05,
	"loss": 1.9621,
	"step": 200
	},
	{
	"epoch": 0.08837044892188052,
	"grad_norm": 3.003971576690674,
	"learning_rate": 4.91304347826087e-05,
	"loss": 1.8377,
	"step": 250
	},
	{
	"epoch": 0.10604453870625663,
	"grad_norm": 2.6893651485443115,
	"learning_rate": 4.895369388476494e-05,
	"loss": 1.7639,
	"step": 300
	},
	{
	"epoch": 0.12371862849063273,
	"grad_norm": 2.8361988067626953,
	"learning_rate": 4.8776952986921177e-05,
	"loss": 1.6632,
	"step": 350
	},
	{
	"epoch": 0.14139271827500885,
	"grad_norm": 2.17179012298584,
	"learning_rate": 4.8600212089077416e-05,
	"loss": 1.5525,
	"step": 400
	},
	{
	"epoch": 0.15906680805938495,
	"grad_norm": 4.485565185546875,
	"learning_rate": 4.842700600919053e-05,
	"loss": 1.4975,
	"step": 450
	},
	{
	"epoch": 0.17674089784376104,
	"grad_norm": 3.197230577468872,
	"learning_rate": 4.825026511134676e-05,
	"loss": 1.4888,
	"step": 500
	},
	{
	"epoch": 0.19441498762813716,
	"grad_norm": 2.8129756450653076,
	"learning_rate": 4.807352421350301e-05,
	"loss": 1.32,
	"step": 550
	},
	{
	"epoch": 0.21208907741251326,
	"grad_norm": 2.888892650604248,
	"learning_rate": 4.789678331565924e-05,
	"loss": 1.4137,
	"step": 600
	},
	{
	"epoch": 0.22976316719688936,
	"grad_norm": 3.6058623790740967,
	"learning_rate": 4.7720042417815487e-05,
	"loss": 1.3793,
	"step": 650
	},
	{
	"epoch": 0.24743725698126545,
	"grad_norm": 3.077688217163086,
	"learning_rate": 4.7543301519971726e-05,
	"loss": 1.2157,
	"step": 700
	},
	{
	"epoch": 0.2651113467656416,
	"grad_norm": 4.21675443649292,
	"learning_rate": 4.7366560622127965e-05,
	"loss": 1.3435,
	"step": 750
	},
	{
	"epoch": 0.2827854365500177,
	"grad_norm": 3.459958076477051,
	"learning_rate": 4.7189819724284204e-05,
	"loss": 1.2747,
	"step": 800
	},
	{
	"epoch": 0.30045952633439377,
	"grad_norm": 3.2092440128326416,
	"learning_rate": 4.701307882644044e-05,
	"loss": 1.1624,
	"step": 850
	},
	{
	"epoch": 0.3181336161187699,
	"grad_norm": 3.1231963634490967,
	"learning_rate": 4.683633792859668e-05,
	"loss": 1.1956,
	"step": 900
	},
	{
	"epoch": 0.335807705903146,
	"grad_norm": 3.332000970840454,
	"learning_rate": 4.6659597030752915e-05,
	"loss": 1.118,
	"step": 950
	},
	{
	"epoch": 0.3534817956875221,
	"grad_norm": 2.992741823196411,
	"learning_rate": 4.648285613290916e-05,
	"loss": 1.1513,
	"step": 1000
	},
	{
	"epoch": 0.3711558854718982,
	"grad_norm": 2.8758022785186768,
	"learning_rate": 4.630611523506539e-05,
	"loss": 1.0998,
	"step": 1050
	},
	{
	"epoch": 0.38882997525627433,
	"grad_norm": 3.870368480682373,
	"learning_rate": 4.612937433722164e-05,
	"loss": 1.0723,
	"step": 1100
	},
	{
	"epoch": 0.4065040650406504,
	"grad_norm": 4.177937030792236,
	"learning_rate": 4.595263343937787e-05,
	"loss": 1.0612,
	"step": 1150
	},
	{
	"epoch": 0.4241781548250265,
	"grad_norm": 2.760124921798706,
	"learning_rate": 4.577589254153412e-05,
	"loss": 1.0086,
	"step": 1200
	},
	{
	"epoch": 0.4418522446094026,
	"grad_norm": 3.0196070671081543,
	"learning_rate": 4.559915164369035e-05,
	"loss": 1.06,
	"step": 1250
	},
	{
	"epoch": 0.4595263343937787,
	"grad_norm": 2.649152994155884,
	"learning_rate": 4.542241074584659e-05,
	"loss": 0.9997,
	"step": 1300
	},
	{
	"epoch": 0.47720042417815484,
	"grad_norm": 3.8896467685699463,
	"learning_rate": 4.524566984800283e-05,
	"loss": 1.0067,
	"step": 1350
	},
	{
	"epoch": 0.4948745139625309,
	"grad_norm": 3.186890125274658,
	"learning_rate": 4.506892895015907e-05,
	"loss": 0.9501,
	"step": 1400
	},
	{
	"epoch": 0.512548603746907,
	"grad_norm": 3.991669178009033,
	"learning_rate": 4.489218805231531e-05,
	"loss": 1.0347,
	"step": 1450
	},
	{
	"epoch": 0.5302226935312832,
	"grad_norm": 11.242384910583496,
	"learning_rate": 4.4715447154471546e-05,
	"loss": 0.9635,
	"step": 1500
	},
	{
	"epoch": 0.5478967833156593,
	"grad_norm": 2.5245680809020996,
	"learning_rate": 4.4538706256627785e-05,
	"loss": 0.9248,
	"step": 1550
	},
	{
	"epoch": 0.5655708731000354,
	"grad_norm": 4.0713114738464355,
	"learning_rate": 4.4361965358784024e-05,
	"loss": 0.906,
	"step": 1600
	},
	{
	"epoch": 0.5832449628844114,
	"grad_norm": 3.434156656265259,
	"learning_rate": 4.4185224460940264e-05,
	"loss": 0.9438,
	"step": 1650
	},
	{
	"epoch": 0.6009190526687875,
	"grad_norm": 3.6341230869293213,
	"learning_rate": 4.40084835630965e-05,
	"loss": 0.8156,
	"step": 1700
	},
	{
	"epoch": 0.6185931424531637,
	"grad_norm": 4.359820365905762,
	"learning_rate": 4.383174266525274e-05,
	"loss": 0.9052,
	"step": 1750
	},
	{
	"epoch": 0.6362672322375398,
	"grad_norm": 3.804647445678711,
	"learning_rate": 4.365500176740898e-05,
	"loss": 0.8758,
	"step": 1800
	},
	{
	"epoch": 0.6539413220219159,
	"grad_norm": 21.193464279174805,
	"learning_rate": 4.347826086956522e-05,
	"loss": 0.8776,
	"step": 1850
	},
	{
	"epoch": 0.671615411806292,
	"grad_norm": 3.002357244491577,
	"learning_rate": 4.330151997172146e-05,
	"loss": 0.8658,
	"step": 1900
	},
	{
	"epoch": 0.689289501590668,
	"grad_norm": 4.116176605224609,
	"learning_rate": 4.31247790738777e-05,
	"loss": 0.8419,
	"step": 1950
	},
	{
	"epoch": 0.7069635913750442,
	"grad_norm": 6.561131954193115,
	"learning_rate": 4.294803817603394e-05,
	"loss": 0.8204,
	"step": 2000
	},
	{
	"epoch": 0.7246376811594203,
	"grad_norm": 3.203460931777954,
	"learning_rate": 4.277129727819018e-05,
	"loss": 0.7557,
	"step": 2050
	},
	{
	"epoch": 0.7423117709437964,
	"grad_norm": 4.0467705726623535,
	"learning_rate": 4.259455638034641e-05,
	"loss": 0.8053,
	"step": 2100
	},
	{
	"epoch": 0.7599858607281725,
	"grad_norm": 3.575634002685547,
	"learning_rate": 4.242135030045953e-05,
	"loss": 0.8128,
	"step": 2150
	},
	{
	"epoch": 0.7776599505125487,
	"grad_norm": 5.7353363037109375,
	"learning_rate": 4.224460940261576e-05,
	"loss": 0.8339,
	"step": 2200
	},
	{
	"epoch": 0.7953340402969247,
	"grad_norm": 4.916664123535156,
	"learning_rate": 4.206786850477201e-05,
	"loss": 0.7758,
	"step": 2250
	},
	{
	"epoch": 0.8130081300813008,
	"grad_norm": 4.233948230743408,
	"learning_rate": 4.189112760692824e-05,
	"loss": 0.7485,
	"step": 2300
	},
	{
	"epoch": 0.8306822198656769,
	"grad_norm": 3.754826545715332,
	"learning_rate": 4.171438670908449e-05,
	"loss": 0.6988,
	"step": 2350
	},
	{
	"epoch": 0.848356309650053,
	"grad_norm": 3.185098171234131,
	"learning_rate": 4.153764581124072e-05,
	"loss": 0.7067,
	"step": 2400
	},
	{
	"epoch": 0.8660303994344292,
	"grad_norm": 3.515683650970459,
	"learning_rate": 4.1360904913396966e-05,
	"loss": 0.7559,
	"step": 2450
	},
	{
	"epoch": 0.8837044892188052,
	"grad_norm": 4.783038139343262,
	"learning_rate": 4.11841640155532e-05,
	"loss": 0.7444,
	"step": 2500
	},
	{
	"epoch": 0.9013785790031813,
	"grad_norm": 3.4242937564849854,
	"learning_rate": 4.1007423117709444e-05,
	"loss": 0.7676,
	"step": 2550
	},
	{
	"epoch": 0.9190526687875574,
	"grad_norm": 3.3563663959503174,
	"learning_rate": 4.0830682219865676e-05,
	"loss": 0.7416,
	"step": 2600
	},
	{
	"epoch": 0.9367267585719335,
	"grad_norm": 21.883926391601562,
	"learning_rate": 4.0653941322021916e-05,
	"loss": 0.6892,
	"step": 2650
	},
	{
	"epoch": 0.9544008483563097,
	"grad_norm": 3.8259048461914062,
	"learning_rate": 4.0477200424178155e-05,
	"loss": 0.7489,
	"step": 2700
	},
	{
	"epoch": 0.9720749381406858,
	"grad_norm": 3.026655912399292,
	"learning_rate": 4.0300459526334394e-05,
	"loss": 0.6679,
	"step": 2750
	},
	{
	"epoch": 0.9897490279250618,
	"grad_norm": 7.62285041809082,
	"learning_rate": 4.012371862849063e-05,
	"loss": 0.7393,
	"step": 2800
	},
	{
	"epoch": 1.0,
	"eval_bertscore_f1": 0.9551081777928342,
	"eval_bleu": 0.47406093922979725,
	"eval_loss": 0.5141507983207703,
	"eval_meteor": 0.6443492142009581,
	"eval_rouge1": 0.7935683439864762,
	"eval_rouge2": 0.6796198647957756,
	"eval_runtime": 1335.9702,
	"eval_samples_per_second": 4.838,
	"eval_steps_per_second": 0.605,
	"step": 2829
	},
	{
	"epoch": 1.007423117709438,
	"grad_norm": 3.7401936054229736,
	"learning_rate": 3.994697773064687e-05,
	"loss": 0.7272,
	"step": 2850
	},
	{
	"epoch": 1.025097207493814,
	"grad_norm": 4.575202941894531,
	"learning_rate": 3.977023683280312e-05,
	"loss": 0.6891,
	"step": 2900
	},
	{
	"epoch": 1.0427712972781902,
	"grad_norm": 2.909268379211426,
	"learning_rate": 3.959349593495935e-05,
	"loss": 0.6751,
	"step": 2950
	},
	{
	"epoch": 1.0604453870625663,
	"grad_norm": 5.258713722229004,
	"learning_rate": 3.941675503711559e-05,
	"loss": 0.7308,
	"step": 3000
	},
	{
	"epoch": 1.0781194768469424,
	"grad_norm": 4.8982462882995605,
	"learning_rate": 3.924001413927183e-05,
	"loss": 0.5938,
	"step": 3050
	},
	{
	"epoch": 1.0957935666313185,
	"grad_norm": 3.7401649951934814,
	"learning_rate": 3.906327324142807e-05,
	"loss": 0.7358,
	"step": 3100
	},
	{
	"epoch": 1.1134676564156947,
	"grad_norm": 2.2274134159088135,
	"learning_rate": 3.888653234358431e-05,
	"loss": 0.6251,
	"step": 3150
	},
	{
	"epoch": 1.1311417462000706,
	"grad_norm": 4.285720348358154,
	"learning_rate": 3.870979144574055e-05,
	"loss": 0.6773,
	"step": 3200
	},
	{
	"epoch": 1.148815835984447,
	"grad_norm": 3.1202948093414307,
	"learning_rate": 3.8533050547896786e-05,
	"loss": 0.6485,
	"step": 3250
	},
	{
	"epoch": 1.1664899257688228,
	"grad_norm": 2.96162486076355,
	"learning_rate": 3.8356309650053025e-05,
	"loss": 0.6733,
	"step": 3300
	},
	{
	"epoch": 1.184164015553199,
	"grad_norm": 6.456724166870117,
	"learning_rate": 3.817956875220926e-05,
	"loss": 0.6142,
	"step": 3350
	},
	{
	"epoch": 1.201838105337575,
	"grad_norm": 5.0712690353393555,
	"learning_rate": 3.8002827854365503e-05,
	"loss": 0.6952,
	"step": 3400
	},
	{
	"epoch": 1.2195121951219512,
	"grad_norm": 5.074472904205322,
	"learning_rate": 3.7826086956521736e-05,
	"loss": 0.6147,
	"step": 3450
	},
	{
	"epoch": 1.2371862849063273,
	"grad_norm": 4.572699546813965,
	"learning_rate": 3.764934605867798e-05,
	"loss": 0.6172,
	"step": 3500
	},
	{
	"epoch": 1.2548603746907034,
	"grad_norm": 3.24722957611084,
	"learning_rate": 3.747260516083422e-05,
	"loss": 0.6657,
	"step": 3550
	},
	{
	"epoch": 1.2725344644750796,
	"grad_norm": 3.6657183170318604,
	"learning_rate": 3.729586426299046e-05,
	"loss": 0.6999,
	"step": 3600
	},
	{
	"epoch": 1.2902085542594557,
	"grad_norm": 3.2770209312438965,
	"learning_rate": 3.71191233651467e-05,
	"loss": 0.6882,
	"step": 3650
	},
	{
	"epoch": 1.3078826440438318,
	"grad_norm": 4.611114501953125,
	"learning_rate": 3.694238246730294e-05,
	"loss": 0.6767,
	"step": 3700
	},
	{
	"epoch": 1.3255567338282077,
	"grad_norm": 3.4801883697509766,
	"learning_rate": 3.676564156945918e-05,
	"loss": 0.6503,
	"step": 3750
	},
	{
	"epoch": 1.343230823612584,
	"grad_norm": 4.582475185394287,
	"learning_rate": 3.658890067161541e-05,
	"loss": 0.5833,
	"step": 3800
	},
	{
	"epoch": 1.36090491339696,
	"grad_norm": 3.0982961654663086,
	"learning_rate": 3.6412159773771656e-05,
	"loss": 0.6271,
	"step": 3850
	},
	{
	"epoch": 1.378579003181336,
	"grad_norm": 3.592360734939575,
	"learning_rate": 3.623541887592789e-05,
	"loss": 0.6688,
	"step": 3900
	},
	{
	"epoch": 1.3962530929657122,
	"grad_norm": 4.296905994415283,
	"learning_rate": 3.6058677978084134e-05,
	"loss": 0.5931,
	"step": 3950
	},
	{
	"epoch": 1.4139271827500883,
	"grad_norm": 3.616574764251709,
	"learning_rate": 3.588193708024037e-05,
	"loss": 0.6297,
	"step": 4000
	},
	{
	"epoch": 1.4316012725344645,
	"grad_norm": 3.1819770336151123,
	"learning_rate": 3.570519618239661e-05,
	"loss": 0.5801,
	"step": 4050
	},
	{
	"epoch": 1.4492753623188406,
	"grad_norm": 3.5812184810638428,
	"learning_rate": 3.5528455284552845e-05,
	"loss": 0.5826,
	"step": 4100
	},
	{
	"epoch": 1.4669494521032167,
	"grad_norm": 2.889911651611328,
	"learning_rate": 3.5351714386709084e-05,
	"loss": 0.5396,
	"step": 4150
	},
	{
	"epoch": 1.4846235418875928,
	"grad_norm": 3.532849073410034,
	"learning_rate": 3.5174973488865324e-05,
	"loss": 0.5218,
	"step": 4200
	},
	{
	"epoch": 1.502297631671969,
	"grad_norm": 2.939161777496338,
	"learning_rate": 3.499823259102156e-05,
	"loss": 0.5701,
	"step": 4250
	},
	{
	"epoch": 1.5199717214563448,
	"grad_norm": 3.500262975692749,
	"learning_rate": 3.48214916931778e-05,
	"loss": 0.5117,
	"step": 4300
	},
	{
	"epoch": 1.5376458112407212,
	"grad_norm": 3.612431526184082,
	"learning_rate": 3.464475079533404e-05,
	"loss": 0.5067,
	"step": 4350
	},
	{
	"epoch": 1.555319901025097,
	"grad_norm": 3.3735318183898926,
	"learning_rate": 3.446800989749028e-05,
	"loss": 0.5403,
	"step": 4400
	},
	{
	"epoch": 1.5729939908094734,
	"grad_norm": 28.255231857299805,
	"learning_rate": 3.429126899964652e-05,
	"loss": 0.5442,
	"step": 4450
	},
	{
	"epoch": 1.5906680805938493,
	"grad_norm": 4.424487113952637,
	"learning_rate": 3.411452810180276e-05,
	"loss": 0.5769,
	"step": 4500
	},
	{
	"epoch": 1.6083421703782255,
	"grad_norm": 4.6517109870910645,
	"learning_rate": 3.3937787203959e-05,
	"loss": 0.5291,
	"step": 4550
	},
	{
	"epoch": 1.6260162601626016,
	"grad_norm": 4.276078701019287,
	"learning_rate": 3.376104630611524e-05,
	"loss": 0.6207,
	"step": 4600
	},
	{
	"epoch": 1.6436903499469777,
	"grad_norm": 3.1325790882110596,
	"learning_rate": 3.3584305408271476e-05,
	"loss": 0.5807,
	"step": 4650
	},
	{
	"epoch": 1.6613644397313538,
	"grad_norm": 3.2780227661132812,
	"learning_rate": 3.3407564510427716e-05,
	"loss": 0.5487,
	"step": 4700
	},
	{
	"epoch": 1.67903852951573,
	"grad_norm": 3.9542007446289062,
	"learning_rate": 3.3230823612583955e-05,
	"loss": 0.6385,
	"step": 4750
	},
	{
	"epoch": 1.696712619300106,
	"grad_norm": 4.091352462768555,
	"learning_rate": 3.3054082714740194e-05,
	"loss": 0.5845,
	"step": 4800
	},
	{
	"epoch": 1.714386709084482,
	"grad_norm": 2.3576905727386475,
	"learning_rate": 3.2877341816896426e-05,
	"loss": 0.4949,
	"step": 4850
	},
	{
	"epoch": 1.7320607988688583,
	"grad_norm": 3.200242519378662,
	"learning_rate": 3.270060091905267e-05,
	"loss": 0.5922,
	"step": 4900
	},
	{
	"epoch": 1.7497348886532342,
	"grad_norm": 3.1346006393432617,
	"learning_rate": 3.2523860021208905e-05,
	"loss": 0.5259,
	"step": 4950
	},
	{
	"epoch": 1.7674089784376106,
	"grad_norm": 3.4066524505615234,
	"learning_rate": 3.234711912336515e-05,
	"loss": 0.562,
	"step": 5000
	},
	{
	"epoch": 1.7850830682219865,
	"grad_norm": 5.18930196762085,
	"learning_rate": 3.217037822552138e-05,
	"loss": 0.5825,
	"step": 5050
	},
	{
	"epoch": 1.8027571580063628,
	"grad_norm": 4.159862995147705,
	"learning_rate": 3.199363732767763e-05,
	"loss": 0.5616,
	"step": 5100
	},
	{
	"epoch": 1.8204312477907387,
	"grad_norm": 4.439573287963867,
	"learning_rate": 3.181689642983386e-05,
	"loss": 0.5334,
	"step": 5150
	},
	{
	"epoch": 1.8381053375751149,
	"grad_norm": 6.196533203125,
	"learning_rate": 3.164015553199011e-05,
	"loss": 0.5887,
	"step": 5200
	},
	{
	"epoch": 1.855779427359491,
	"grad_norm": 3.715372323989868,
	"learning_rate": 3.146341463414634e-05,
	"loss": 0.5379,
	"step": 5250
	},
	{
	"epoch": 1.873453517143867,
	"grad_norm": 4.34264612197876,
	"learning_rate": 3.128667373630258e-05,
	"loss": 0.4827,
	"step": 5300
	},
	{
	"epoch": 1.8911276069282432,
	"grad_norm": 2.337557315826416,
	"learning_rate": 3.1109932838458825e-05,
	"loss": 0.4685,
	"step": 5350
	},
	{
	"epoch": 1.9088016967126193,
	"grad_norm": 3.325277805328369,
	"learning_rate": 3.093319194061506e-05,
	"loss": 0.4983,
	"step": 5400
	},
	{
	"epoch": 1.9264757864969955,
	"grad_norm": 2.976592540740967,
	"learning_rate": 3.0756451042771303e-05,
	"loss": 0.5814,
	"step": 5450
	},
	{
	"epoch": 1.9441498762813714,
	"grad_norm": 9.608305931091309,
	"learning_rate": 3.0579710144927536e-05,
	"loss": 0.5062,
	"step": 5500
	},
	{
	"epoch": 1.9618239660657477,
	"grad_norm": 3.443791151046753,
	"learning_rate": 3.040296924708378e-05,
	"loss": 0.5092,
	"step": 5550
	},
	{
	"epoch": 1.9794980558501236,
	"grad_norm": 3.4817845821380615,
	"learning_rate": 3.0226228349240014e-05,
	"loss": 0.5584,
	"step": 5600
	},
	{
	"epoch": 1.9971721456345,
	"grad_norm": 3.2107975482940674,
	"learning_rate": 3.0049487451396253e-05,
	"loss": 0.506,
	"step": 5650
	},
	{
	"epoch": 2.0,
	"eval_bertscore_f1": 0.9621683897930059,
	"eval_bleu": 0.5494076455991572,
	"eval_loss": 0.37199869751930237,
	"eval_meteor": 0.7077566730507359,
	"eval_rouge1": 0.8237541199852757,
	"eval_rouge2": 0.7474098813874757,
	"eval_runtime": 1281.6235,
	"eval_samples_per_second": 5.044,
	"eval_steps_per_second": 0.63,
	"step": 5658
	},
	{
	"epoch": 2.014846235418876,
	"grad_norm": 3.7251229286193848,
	"learning_rate": 2.9872746553552493e-05,
	"loss": 0.4928,
	"step": 5700
	},
	{
	"epoch": 2.032520325203252,
	"grad_norm": 3.801664113998413,
	"learning_rate": 2.9696005655708732e-05,
	"loss": 0.5748,
	"step": 5750
	},
	{
	"epoch": 2.050194414987628,
	"grad_norm": 5.817806243896484,
	"learning_rate": 2.9519264757864974e-05,
	"loss": 0.4844,
	"step": 5800
	},
	{
	"epoch": 2.0678685047720045,
	"grad_norm": 3.028961658477783,
	"learning_rate": 2.934252386002121e-05,
	"loss": 0.4626,
	"step": 5850
	},
	{
	"epoch": 2.0855425945563804,
	"grad_norm": 3.974060297012329,
	"learning_rate": 2.9165782962177453e-05,
	"loss": 0.5274,
	"step": 5900
	},
	{
	"epoch": 2.1032166843407563,
	"grad_norm": 2.532444953918457,
	"learning_rate": 2.898904206433369e-05,
	"loss": 0.4887,
	"step": 5950
	},
	{
	"epoch": 2.1208907741251326,
	"grad_norm": 2.0569326877593994,
	"learning_rate": 2.8812301166489924e-05,
	"loss": 0.4353,
	"step": 6000
	},
	{
	"epoch": 2.1385648639095085,
	"grad_norm": 3.0496156215667725,
	"learning_rate": 2.8635560268646167e-05,
	"loss": 0.4347,
	"step": 6050
	},
	{
	"epoch": 2.156238953693885,
	"grad_norm": 2.635395050048828,
	"learning_rate": 2.8458819370802403e-05,
	"loss": 0.5406,
	"step": 6100
	},
	{
	"epoch": 2.1739130434782608,
	"grad_norm": 4.091008186340332,
	"learning_rate": 2.8282078472958645e-05,
	"loss": 0.4885,
	"step": 6150
	},
	{
	"epoch": 2.191587133262637,
	"grad_norm": 3.228792905807495,
	"learning_rate": 2.810533757511488e-05,
	"loss": 0.5072,
	"step": 6200
	},
	{
	"epoch": 2.209261223047013,
	"grad_norm": 2.479149341583252,
	"learning_rate": 2.7928596677271124e-05,
	"loss": 0.5475,
	"step": 6250
	},
	{
	"epoch": 2.2269353128313893,
	"grad_norm": 4.617306709289551,
	"learning_rate": 2.775185577942736e-05,
	"loss": 0.5468,
	"step": 6300
	},
	{
	"epoch": 2.2446094026157652,
	"grad_norm": 4.416631698608398,
	"learning_rate": 2.7575114881583602e-05,
	"loss": 0.5125,
	"step": 6350
	},
	{
	"epoch": 2.262283492400141,
	"grad_norm": 3.7900924682617188,
	"learning_rate": 2.7398373983739838e-05,
	"loss": 0.5824,
	"step": 6400
	},
	{
	"epoch": 2.2799575821845175,
	"grad_norm": 3.695364236831665,
	"learning_rate": 2.7221633085896077e-05,
	"loss": 0.4806,
	"step": 6450
	},
	{
	"epoch": 2.297631671968894,
	"grad_norm": 2.609520196914673,
	"learning_rate": 2.7044892188052316e-05,
	"loss": 0.4537,
	"step": 6500
	},
	{
	"epoch": 2.3153057617532697,
	"grad_norm": 4.006641864776611,
	"learning_rate": 2.6868151290208555e-05,
	"loss": 0.5172,
	"step": 6550
	},
	{
	"epoch": 2.3329798515376456,
	"grad_norm": 3.581960439682007,
	"learning_rate": 2.6691410392364795e-05,
	"loss": 0.5089,
	"step": 6600
	},
	{
	"epoch": 2.350653941322022,
	"grad_norm": 2.6414718627929688,
	"learning_rate": 2.6514669494521034e-05,
	"loss": 0.4936,
	"step": 6650
	},
	{
	"epoch": 2.368328031106398,
	"grad_norm": 3.3889434337615967,
	"learning_rate": 2.6337928596677276e-05,
	"loss": 0.535,
	"step": 6700
	},
	{
	"epoch": 2.3860021208907742,
	"grad_norm": 4.371047496795654,
	"learning_rate": 2.6161187698833512e-05,
	"loss": 0.4651,
	"step": 6750
	},
	{
	"epoch": 2.40367621067515,
	"grad_norm": 4.057021617889404,
	"learning_rate": 2.5984446800989748e-05,
	"loss": 0.4369,
	"step": 6800
	},
	{
	"epoch": 2.4213503004595265,
	"grad_norm": 4.6812615394592285,
	"learning_rate": 2.580770590314599e-05,
	"loss": 0.5067,
	"step": 6850
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 6.067279815673828,
	"learning_rate": 2.5630965005302226e-05,
	"loss": 0.4901,
	"step": 6900
	},
	{
	"epoch": 2.4566984800282787,
	"grad_norm": 3.8635661602020264,
	"learning_rate": 2.545422410745847e-05,
	"loss": 0.415,
	"step": 6950
	},
	{
	"epoch": 2.4743725698126546,
	"grad_norm": 1.7011466026306152,
	"learning_rate": 2.5277483209614705e-05,
	"loss": 0.4893,
	"step": 7000
	},
	{
	"epoch": 2.4920466595970305,
	"grad_norm": 3.8497934341430664,
	"learning_rate": 2.5100742311770947e-05,
	"loss": 0.4504,
	"step": 7050
	},
	{
	"epoch": 2.509720749381407,
	"grad_norm": 3.670374631881714,
	"learning_rate": 2.4924001413927183e-05,
	"loss": 0.4883,
	"step": 7100
	},
	{
	"epoch": 2.5273948391657832,
	"grad_norm": 3.130357503890991,
	"learning_rate": 2.4747260516083422e-05,
	"loss": 0.5031,
	"step": 7150
	},
	{
	"epoch": 2.545068928950159,
	"grad_norm": 3.647500514984131,
	"learning_rate": 2.457051961823966e-05,
	"loss": 0.4368,
	"step": 7200
	},
	{
	"epoch": 2.562743018734535,
	"grad_norm": 3.6657369136810303,
	"learning_rate": 2.43937787203959e-05,
	"loss": 0.4686,
	"step": 7250
	},
	{
	"epoch": 2.5804171085189114,
	"grad_norm": 5.371551036834717,
	"learning_rate": 2.421703782255214e-05,
	"loss": 0.4433,
	"step": 7300
	},
	{
	"epoch": 2.5980911983032873,
	"grad_norm": 3.593418598175049,
	"learning_rate": 2.404029692470838e-05,
	"loss": 0.4901,
	"step": 7350
	},
	{
	"epoch": 2.6157652880876636,
	"grad_norm": 3.1181206703186035,
	"learning_rate": 2.3863556026864618e-05,
	"loss": 0.4834,
	"step": 7400
	},
	{
	"epoch": 2.6334393778720395,
	"grad_norm": 4.218138217926025,
	"learning_rate": 2.3686815129020857e-05,
	"loss": 0.5013,
	"step": 7450
	},
	{
	"epoch": 2.6511134676564154,
	"grad_norm": 3.5063066482543945,
	"learning_rate": 2.3510074231177097e-05,
	"loss": 0.4705,
	"step": 7500
	},
	{
	"epoch": 2.6687875574407918,
	"grad_norm": 2.8965365886688232,
	"learning_rate": 2.3333333333333336e-05,
	"loss": 0.464,
	"step": 7550
	},
	{
	"epoch": 2.686461647225168,
	"grad_norm": 2.336358070373535,
	"learning_rate": 2.3156592435489575e-05,
	"loss": 0.4591,
	"step": 7600
	},
	{
	"epoch": 2.704135737009544,
	"grad_norm": 3.5483410358428955,
	"learning_rate": 2.2979851537645814e-05,
	"loss": 0.4419,
	"step": 7650
	},
	{
	"epoch": 2.72180982679392,
	"grad_norm": 4.550882816314697,
	"learning_rate": 2.280311063980205e-05,
	"loss": 0.4181,
	"step": 7700
	},
	{
	"epoch": 2.7394839165782963,
	"grad_norm": 4.471234321594238,
	"learning_rate": 2.262636974195829e-05,
	"loss": 0.4558,
	"step": 7750
	},
	{
	"epoch": 2.757158006362672,
	"grad_norm": 3.0595200061798096,
	"learning_rate": 2.244962884411453e-05,
	"loss": 0.4188,
	"step": 7800
	},
	{
	"epoch": 2.7748320961470485,
	"grad_norm": 7.5111403465271,
	"learning_rate": 2.2272887946270768e-05,
	"loss": 0.4834,
	"step": 7850
	},
	{
	"epoch": 2.7925061859314244,
	"grad_norm": 2.2414655685424805,
	"learning_rate": 2.2096147048427007e-05,
	"loss": 0.442,
	"step": 7900
	},
	{
	"epoch": 2.8101802757158008,
	"grad_norm": 4.036431789398193,
	"learning_rate": 2.1919406150583246e-05,
	"loss": 0.4254,
	"step": 7950
	},
	{
	"epoch": 2.8278543655001767,
	"grad_norm": 3.3172266483306885,
	"learning_rate": 2.1742665252739485e-05,
	"loss": 0.4852,
	"step": 8000
	},
	{
	"epoch": 2.845528455284553,
	"grad_norm": 4.143049240112305,
	"learning_rate": 2.1565924354895724e-05,
	"loss": 0.4858,
	"step": 8050
	},
	{
	"epoch": 2.863202545068929,
	"grad_norm": 5.017402172088623,
	"learning_rate": 2.138918345705196e-05,
	"loss": 0.3824,
	"step": 8100
	},
	{
	"epoch": 2.880876634853305,
	"grad_norm": 2.974952459335327,
	"learning_rate": 2.1212442559208203e-05,
	"loss": 0.4777,
	"step": 8150
	},
	{
	"epoch": 2.898550724637681,
	"grad_norm": 7.074586868286133,
	"learning_rate": 2.1035701661364442e-05,
	"loss": 0.4465,
	"step": 8200
	},
	{
	"epoch": 2.9162248144220575,
	"grad_norm": 3.585792064666748,
	"learning_rate": 2.085896076352068e-05,
	"loss": 0.4307,
	"step": 8250
	},
	{
	"epoch": 2.9338989042064334,
	"grad_norm": 1.6561566591262817,
	"learning_rate": 2.068221986567692e-05,
	"loss": 0.3917,
	"step": 8300
	},
	{
	"epoch": 2.9515729939908093,
	"grad_norm": 4.920962810516357,
	"learning_rate": 2.050547896783316e-05,
	"loss": 0.4334,
	"step": 8350
	},
	{
	"epoch": 2.9692470837751856,
	"grad_norm": 2.6819636821746826,
	"learning_rate": 2.03287380699894e-05,
	"loss": 0.4679,
	"step": 8400
	},
	{
	"epoch": 2.9869211735595615,
	"grad_norm": 3.442260265350342,
	"learning_rate": 2.0151997172145634e-05,
	"loss": 0.4466,
	"step": 8450
	},
	{
	"epoch": 3.0,
	"eval_bertscore_f1": 0.9646675708510055,
	"eval_bleu": 0.5742982540038749,
	"eval_loss": 0.3243306279182434,
	"eval_meteor": 0.7281699575301964,
	"eval_rouge1": 0.8328916554556949,
	"eval_rouge2": 0.7666932565109175,
	"eval_runtime": 1288.8847,
	"eval_samples_per_second": 5.015,
	"eval_steps_per_second": 0.627,
	"step": 8487
	},
	{
	"epoch": 3.004595263343938,
	"grad_norm": 3.7356512546539307,
	"learning_rate": 1.9975256274301874e-05,
	"loss": 0.394,
	"step": 8500
	},
	{
	"epoch": 3.022269353128314,
	"grad_norm": 3.7725515365600586,
	"learning_rate": 1.9798515376458113e-05,
	"loss": 0.4484,
	"step": 8550
	},
	{
	"epoch": 3.03994344291269,
	"grad_norm": 2.475839138031006,
	"learning_rate": 1.9621774478614352e-05,
	"loss": 0.4463,
	"step": 8600
	},
	{
	"epoch": 3.057617532697066,
	"grad_norm": 2.853266716003418,
	"learning_rate": 1.944503358077059e-05,
	"loss": 0.4398,
	"step": 8650
	},
	{
	"epoch": 3.0752916224814424,
	"grad_norm": 2.7079474925994873,
	"learning_rate": 1.926829268292683e-05,
	"loss": 0.4021,
	"step": 8700
	},
	{
	"epoch": 3.0929657122658183,
	"grad_norm": 5.04539680480957,
	"learning_rate": 1.909155178508307e-05,
	"loss": 0.3996,
	"step": 8750
	},
	{
	"epoch": 3.110639802050194,
	"grad_norm": 4.626221656799316,
	"learning_rate": 1.8918345705196184e-05,
	"loss": 0.4948,
	"step": 8800
	},
	{
	"epoch": 3.1283138918345705,
	"grad_norm": 4.644408226013184,
	"learning_rate": 1.8741604807352423e-05,
	"loss": 0.4156,
	"step": 8850
	},
	{
	"epoch": 3.1459879816189464,
	"grad_norm": 4.299105167388916,
	"learning_rate": 1.8564863909508662e-05,
	"loss": 0.3977,
	"step": 8900
	},
	{
	"epoch": 3.163662071403323,
	"grad_norm": 4.650149345397949,
	"learning_rate": 1.83881230116649e-05,
	"loss": 0.4229,
	"step": 8950
	},
	{
	"epoch": 3.1813361611876987,
	"grad_norm": 2.89013409614563,
	"learning_rate": 1.821138211382114e-05,
	"loss": 0.4506,
	"step": 9000
	},
	{
	"epoch": 3.199010250972075,
	"grad_norm": 2.281370162963867,
	"learning_rate": 1.8034641215977376e-05,
	"loss": 0.4288,
	"step": 9050
	},
	{
	"epoch": 3.216684340756451,
	"grad_norm": 4.948707103729248,
	"learning_rate": 1.7857900318133615e-05,
	"loss": 0.4633,
	"step": 9100
	},
	{
	"epoch": 3.2343584305408273,
	"grad_norm": 3.5856571197509766,
	"learning_rate": 1.7681159420289855e-05,
	"loss": 0.3965,
	"step": 9150
	},
	{
	"epoch": 3.252032520325203,
	"grad_norm": 3.416271686553955,
	"learning_rate": 1.7504418522446094e-05,
	"loss": 0.4904,
	"step": 9200
	},
	{
	"epoch": 3.2697066101095795,
	"grad_norm": 3.599717617034912,
	"learning_rate": 1.7327677624602333e-05,
	"loss": 0.4648,
	"step": 9250
	},
	{
	"epoch": 3.2873806998939554,
	"grad_norm": 2.8439853191375732,
	"learning_rate": 1.7150936726758572e-05,
	"loss": 0.3734,
	"step": 9300
	},
	{
	"epoch": 3.3050547896783318,
	"grad_norm": 4.0927863121032715,
	"learning_rate": 1.697419582891481e-05,
	"loss": 0.3913,
	"step": 9350
	},
	{
	"epoch": 3.3227288794627077,
	"grad_norm": 4.16766881942749,
	"learning_rate": 1.679745493107105e-05,
	"loss": 0.4303,
	"step": 9400
	},
	{
	"epoch": 3.3404029692470836,
	"grad_norm": 3.417738199234009,
	"learning_rate": 1.662071403322729e-05,
	"loss": 0.4068,
	"step": 9450
	},
	{
	"epoch": 3.35807705903146,
	"grad_norm": 4.66575813293457,
	"learning_rate": 1.644397313538353e-05,
	"loss": 0.5116,
	"step": 9500
	},
	{
	"epoch": 3.375751148815836,
	"grad_norm": 6.112340927124023,
	"learning_rate": 1.6267232237539768e-05,
	"loss": 0.4244,
	"step": 9550
	},
	{
	"epoch": 3.393425238600212,
	"grad_norm": 3.322610378265381,
	"learning_rate": 1.6090491339696007e-05,
	"loss": 0.4252,
	"step": 9600
	},
	{
	"epoch": 3.411099328384588,
	"grad_norm": 4.941850185394287,
	"learning_rate": 1.5913750441852247e-05,
	"loss": 0.402,
	"step": 9650
	},
	{
	"epoch": 3.4287734181689644,
	"grad_norm": 2.177600860595703,
	"learning_rate": 1.5737009544008486e-05,
	"loss": 0.3437,
	"step": 9700
	},
	{
	"epoch": 3.4464475079533403,
	"grad_norm": 2.1570093631744385,
	"learning_rate": 1.5560268646164725e-05,
	"loss": 0.4871,
	"step": 9750
	},
	{
	"epoch": 3.4641215977377167,
	"grad_norm": 7.6717305183410645,
	"learning_rate": 1.538352774832096e-05,
	"loss": 0.4224,
	"step": 9800
	},
	{
	"epoch": 3.4817956875220926,
	"grad_norm": 3.082805871963501,
	"learning_rate": 1.52067868504772e-05,
	"loss": 0.4474,
	"step": 9850
	},
	{
	"epoch": 3.499469777306469,
	"grad_norm": 2.8141167163848877,
	"learning_rate": 1.5033580770590316e-05,
	"loss": 0.4476,
	"step": 9900
	},
	{
	"epoch": 3.517143867090845,
	"grad_norm": 3.179436206817627,
	"learning_rate": 1.4856839872746553e-05,
	"loss": 0.3936,
	"step": 9950
	},
	{
	"epoch": 3.534817956875221,
	"grad_norm": 3.908020257949829,
	"learning_rate": 1.4680098974902792e-05,
	"loss": 0.4164,
	"step": 10000
	},
	{
	"epoch": 3.552492046659597,
	"grad_norm": 4.998553276062012,
	"learning_rate": 1.4503358077059032e-05,
	"loss": 0.4534,
	"step": 10050
	},
	{
	"epoch": 3.570166136443973,
	"grad_norm": 4.064126014709473,
	"learning_rate": 1.432661717921527e-05,
	"loss": 0.458,
	"step": 10100
	},
	{
	"epoch": 3.5878402262283493,
	"grad_norm": 2.2527036666870117,
	"learning_rate": 1.414987628137151e-05,
	"loss": 0.4285,
	"step": 10150
	},
	{
	"epoch": 3.605514316012725,
	"grad_norm": 3.3799755573272705,
	"learning_rate": 1.397313538352775e-05,
	"loss": 0.5488,
	"step": 10200
	},
	{
	"epoch": 3.6231884057971016,
	"grad_norm": 3.4317479133605957,
	"learning_rate": 1.3796394485683988e-05,
	"loss": 0.4326,
	"step": 10250
	},
	{
	"epoch": 3.6408624955814775,
	"grad_norm": 2.245337724685669,
	"learning_rate": 1.3619653587840228e-05,
	"loss": 0.4279,
	"step": 10300
	},
	{
	"epoch": 3.658536585365854,
	"grad_norm": 2.9092109203338623,
	"learning_rate": 1.3442912689996465e-05,
	"loss": 0.4116,
	"step": 10350
	},
	{
	"epoch": 3.6762106751502297,
	"grad_norm": 2.79837965965271,
	"learning_rate": 1.3266171792152704e-05,
	"loss": 0.4506,
	"step": 10400
	},
	{
	"epoch": 3.693884764934606,
	"grad_norm": 1.416994333267212,
	"learning_rate": 1.3089430894308943e-05,
	"loss": 0.3532,
	"step": 10450
	},
	{
	"epoch": 3.711558854718982,
	"grad_norm": 4.927233695983887,
	"learning_rate": 1.2912689996465183e-05,
	"loss": 0.4302,
	"step": 10500
	},
	{
	"epoch": 3.729232944503358,
	"grad_norm": 2.069500684738159,
	"learning_rate": 1.2735949098621422e-05,
	"loss": 0.4608,
	"step": 10550
	},
	{
	"epoch": 3.746907034287734,
	"grad_norm": 3.3507018089294434,
	"learning_rate": 1.2559208200777661e-05,
	"loss": 0.4024,
	"step": 10600
	},
	{
	"epoch": 3.7645811240721105,
	"grad_norm": 2.64599871635437,
	"learning_rate": 1.2382467302933899e-05,
	"loss": 0.3817,
	"step": 10650
	},
	{
	"epoch": 3.7822552138564864,
	"grad_norm": 2.3984270095825195,
	"learning_rate": 1.2205726405090138e-05,
	"loss": 0.4399,
	"step": 10700
	},
	{
	"epoch": 3.7999293036408623,
	"grad_norm": 5.132211685180664,
	"learning_rate": 1.2028985507246379e-05,
	"loss": 0.4537,
	"step": 10750
	},
	{
	"epoch": 3.8176033934252387,
	"grad_norm": 3.9488821029663086,
	"learning_rate": 1.1852244609402616e-05,
	"loss": 0.4433,
	"step": 10800
	},
	{
	"epoch": 3.8352774832096146,
	"grad_norm": 4.978783130645752,
	"learning_rate": 1.1675503711558855e-05,
	"loss": 0.3722,
	"step": 10850
	},
	{
	"epoch": 3.852951572993991,
	"grad_norm": 2.1942172050476074,
	"learning_rate": 1.1498762813715094e-05,
	"loss": 0.3641,
	"step": 10900
	},
	{
	"epoch": 3.870625662778367,
	"grad_norm": 1.962399959564209,
	"learning_rate": 1.1322021915871334e-05,
	"loss": 0.3966,
	"step": 10950
	},
	{
	"epoch": 3.888299752562743,
	"grad_norm": 2.3611438274383545,
	"learning_rate": 1.1145281018027571e-05,
	"loss": 0.3872,
	"step": 11000
	},
	{
	"epoch": 3.905973842347119,
	"grad_norm": 2.8562467098236084,
	"learning_rate": 1.096854012018381e-05,
	"loss": 0.3823,
	"step": 11050
	},
	{
	"epoch": 3.9236479321314954,
	"grad_norm": 3.315880060195923,
	"learning_rate": 1.079179922234005e-05,
	"loss": 0.4215,
	"step": 11100
	},
	{
	"epoch": 3.9413220219158713,
	"grad_norm": 4.15437650680542,
	"learning_rate": 1.0615058324496289e-05,
	"loss": 0.4126,
	"step": 11150
	},
	{
	"epoch": 3.9589961117002472,
	"grad_norm": 3.9605205059051514,
	"learning_rate": 1.0438317426652528e-05,
	"loss": 0.3773,
	"step": 11200
	},
	{
	"epoch": 3.9766702014846236,
	"grad_norm": 3.106764793395996,
	"learning_rate": 1.0261576528808767e-05,
	"loss": 0.4297,
	"step": 11250
	},
	{
	"epoch": 3.9943442912689995,
	"grad_norm": 3.4298675060272217,
	"learning_rate": 1.0084835630965006e-05,
	"loss": 0.4305,
	"step": 11300
	},
	{
	"epoch": 4.0,
	"eval_bertscore_f1": 0.9656413255425373,
	"eval_bleu": 0.5848426882684508,
	"eval_loss": 0.3005247414112091,
	"eval_meteor": 0.73697495147188,
	"eval_rouge1": 0.8370075787215339,
	"eval_rouge2": 0.7752220988783712,
	"eval_runtime": 1268.4642,
	"eval_samples_per_second": 5.096,
	"eval_steps_per_second": 0.637,
	"step": 11316
	},
	{
	"epoch": 4.012018381053376,
	"grad_norm": 4.263380527496338,
	"learning_rate": 9.908094733121245e-06,
	"loss": 0.4285,
	"step": 11350
	},
	{
	"epoch": 4.029692470837752,
	"grad_norm": 14.104089736938477,
	"learning_rate": 9.731353835277483e-06,
	"loss": 0.3837,
	"step": 11400
	},
	{
	"epoch": 4.047366560622128,
	"grad_norm": 2.5981857776641846,
	"learning_rate": 9.554612937433722e-06,
	"loss": 0.3773,
	"step": 11450
	},
	{
	"epoch": 4.065040650406504,
	"grad_norm": 4.44357967376709,
	"learning_rate": 9.377872039589961e-06,
	"loss": 0.4325,
	"step": 11500
	},
	{
	"epoch": 4.08271474019088,
	"grad_norm": 3.7187113761901855,
	"learning_rate": 9.2011311417462e-06,
	"loss": 0.427,
	"step": 11550
	},
	{
	"epoch": 4.100388829975256,
	"grad_norm": 2.364908218383789,
	"learning_rate": 9.02439024390244e-06,
	"loss": 0.3617,
	"step": 11600
	},
	{
	"epoch": 4.118062919759632,
	"grad_norm": 2.663651704788208,
	"learning_rate": 8.847649346058679e-06,
	"loss": 0.4174,
	"step": 11650
	},
	{
	"epoch": 4.135737009544009,
	"grad_norm": 3.6699295043945312,
	"learning_rate": 8.670908448214918e-06,
	"loss": 0.4183,
	"step": 11700
	},
	{
	"epoch": 4.153411099328385,
	"grad_norm": 4.236429214477539,
	"learning_rate": 8.494167550371156e-06,
	"loss": 0.4074,
	"step": 11750
	},
	{
	"epoch": 4.171085189112761,
	"grad_norm": 4.3517632484436035,
	"learning_rate": 8.317426652527395e-06,
	"loss": 0.3905,
	"step": 11800
	},
	{
	"epoch": 4.188759278897137,
	"grad_norm": 2.440966844558716,
	"learning_rate": 8.140685754683634e-06,
	"loss": 0.408,
	"step": 11850
	},
	{
	"epoch": 4.2064333686815125,
	"grad_norm": 3.0445733070373535,
	"learning_rate": 7.963944856839873e-06,
	"loss": 0.3646,
	"step": 11900
	},
	{
	"epoch": 4.224107458465889,
	"grad_norm": 3.174678325653076,
	"learning_rate": 7.787203958996112e-06,
	"loss": 0.4027,
	"step": 11950
	},
	{
	"epoch": 4.241781548250265,
	"grad_norm": 4.445051193237305,
	"learning_rate": 7.610463061152351e-06,
	"loss": 0.4111,
	"step": 12000
	},
	{
	"epoch": 4.259455638034641,
	"grad_norm": 3.7955079078674316,
	"learning_rate": 7.43372216330859e-06,
	"loss": 0.3815,
	"step": 12050
	},
	{
	"epoch": 4.277129727819017,
	"grad_norm": 3.0276503562927246,
	"learning_rate": 7.256981265464829e-06,
	"loss": 0.3765,
	"step": 12100
	},
	{
	"epoch": 4.294803817603394,
	"grad_norm": 1.8871873617172241,
	"learning_rate": 7.080240367621067e-06,
	"loss": 0.3771,
	"step": 12150
	},
	{
	"epoch": 4.31247790738777,
	"grad_norm": 9.927197456359863,
	"learning_rate": 6.903499469777307e-06,
	"loss": 0.4112,
	"step": 12200
	},
	{
	"epoch": 4.330151997172146,
	"grad_norm": 4.721640586853027,
	"learning_rate": 6.726758571933546e-06,
	"loss": 0.4451,
	"step": 12250
	},
	{
	"epoch": 4.3478260869565215,
	"grad_norm": 2.7340986728668213,
	"learning_rate": 6.550017674089785e-06,
	"loss": 0.4254,
	"step": 12300
	},
	{
	"epoch": 4.365500176740898,
	"grad_norm": 3.780824661254883,
	"learning_rate": 6.373276776246023e-06,
	"loss": 0.4557,
	"step": 12350
	},
	{
	"epoch": 4.383174266525274,
	"grad_norm": 3.429931640625,
	"learning_rate": 6.1965358784022625e-06,
	"loss": 0.3858,
	"step": 12400
	},
	{
	"epoch": 4.40084835630965,
	"grad_norm": 3.944438934326172,
	"learning_rate": 6.019794980558501e-06,
	"loss": 0.3569,
	"step": 12450
	},
	{
	"epoch": 4.418522446094026,
	"grad_norm": 2.19978666305542,
	"learning_rate": 5.843054082714741e-06,
	"loss": 0.4232,
	"step": 12500
	},
	{
	"epoch": 4.436196535878402,
	"grad_norm": 1.6702100038528442,
	"learning_rate": 5.666313184870979e-06,
	"loss": 0.4216,
	"step": 12550
	},
	{
	"epoch": 4.453870625662779,
	"grad_norm": 5.39310884475708,
	"learning_rate": 5.4895722870272184e-06,
	"loss": 0.393,
	"step": 12600
	},
	{
	"epoch": 4.471544715447155,
	"grad_norm": 2.8727235794067383,
	"learning_rate": 5.312831389183457e-06,
	"loss": 0.4104,
	"step": 12650
	},
	{
	"epoch": 4.4892188052315305,
	"grad_norm": 1.9998319149017334,
	"learning_rate": 5.136090491339696e-06,
	"loss": 0.4592,
	"step": 12700
	},
	{
	"epoch": 4.506892895015906,
	"grad_norm": 3.140760660171509,
	"learning_rate": 4.959349593495935e-06,
	"loss": 0.3582,
	"step": 12750
	},
	{
	"epoch": 4.524566984800282,
	"grad_norm": 4.489378929138184,
	"learning_rate": 4.782608695652174e-06,
	"loss": 0.3891,
	"step": 12800
	},
	{
	"epoch": 4.542241074584659,
	"grad_norm": 3.2630345821380615,
	"learning_rate": 4.605867797808413e-06,
	"loss": 0.3703,
	"step": 12850
	},
	{
	"epoch": 4.559915164369035,
	"grad_norm": 2.898639440536499,
	"learning_rate": 4.429126899964652e-06,
	"loss": 0.4201,
	"step": 12900
	},
	{
	"epoch": 4.577589254153411,
	"grad_norm": 3.266235589981079,
	"learning_rate": 4.252386002120891e-06,
	"loss": 0.4142,
	"step": 12950
	},
	{
	"epoch": 4.595263343937788,
	"grad_norm": 3.594919204711914,
	"learning_rate": 4.07564510427713e-06,
	"loss": 0.4224,
	"step": 13000
	},
	{
	"epoch": 4.612937433722164,
	"grad_norm": 4.3656439781188965,
	"learning_rate": 3.898904206433369e-06,
	"loss": 0.4155,
	"step": 13050
	},
	{
	"epoch": 4.6306115235065395,
	"grad_norm": 3.863250494003296,
	"learning_rate": 3.722163308589608e-06,
	"loss": 0.3933,
	"step": 13100
	},
	{
	"epoch": 4.648285613290915,
	"grad_norm": 3.6120657920837402,
	"learning_rate": 3.5454224107458466e-06,
	"loss": 0.4009,
	"step": 13150
	},
	{
	"epoch": 4.665959703075291,
	"grad_norm": 3.4946892261505127,
	"learning_rate": 3.368681512902086e-06,
	"loss": 0.4538,
	"step": 13200
	},
	{
	"epoch": 4.683633792859668,
	"grad_norm": 3.0893940925598145,
	"learning_rate": 3.1919406150583245e-06,
	"loss": 0.3429,
	"step": 13250
	},
	{
	"epoch": 4.701307882644044,
	"grad_norm": 3.190537929534912,
	"learning_rate": 3.0151997172145637e-06,
	"loss": 0.489,
	"step": 13300
	},
	{
	"epoch": 4.71898197242842,
	"grad_norm": 5.128622531890869,
	"learning_rate": 2.8384588193708025e-06,
	"loss": 0.3926,
	"step": 13350
	},
	{
	"epoch": 4.736656062212796,
	"grad_norm": 3.6680729389190674,
	"learning_rate": 2.6617179215270417e-06,
	"loss": 0.3859,
	"step": 13400
	},
	{
	"epoch": 4.754330151997172,
	"grad_norm": 2.93373703956604,
	"learning_rate": 2.4849770236832804e-06,
	"loss": 0.3637,
	"step": 13450
	},
	{
	"epoch": 4.7720042417815485,
	"grad_norm": 3.649087429046631,
	"learning_rate": 2.3082361258395196e-06,
	"loss": 0.4155,
	"step": 13500
	},
	{
	"epoch": 4.789678331565924,
	"grad_norm": 1.2933834791183472,
	"learning_rate": 2.1314952279957584e-06,
	"loss": 0.3868,
	"step": 13550
	},
	{
	"epoch": 4.8073524213503,
	"grad_norm": 2.177612781524658,
	"learning_rate": 1.9547543301519976e-06,
	"loss": 0.4799,
	"step": 13600
	},
	{
	"epoch": 4.825026511134676,
	"grad_norm": 3.7405126094818115,
	"learning_rate": 1.7780134323082363e-06,
	"loss": 0.455,
	"step": 13650
	},
	{
	"epoch": 4.842700600919053,
	"grad_norm": 6.44041633605957,
	"learning_rate": 1.6048073524213503e-06,
	"loss": 0.3766,
	"step": 13700
	},
	{
	"epoch": 4.860374690703429,
	"grad_norm": 2.510866165161133,
	"learning_rate": 1.4280664545775892e-06,
	"loss": 0.3779,
	"step": 13750
	},
	{
	"epoch": 4.878048780487805,
	"grad_norm": 4.789300441741943,
	"learning_rate": 1.2513255567338282e-06,
	"loss": 0.3892,
	"step": 13800
	},
	{
	"epoch": 4.895722870272181,
	"grad_norm": 2.6004765033721924,
	"learning_rate": 1.0745846588900672e-06,
	"loss": 0.3897,
	"step": 13850
	},
	{
	"epoch": 4.9133969600565575,
	"grad_norm": 4.115776062011719,
	"learning_rate": 8.978437610463062e-07,
	"loss": 0.3896,
	"step": 13900
	},
	{
	"epoch": 4.931071049840933,
	"grad_norm": 9.11878776550293,
	"learning_rate": 7.211028632025451e-07,
	"loss": 0.3918,
	"step": 13950
	},
	{
	"epoch": 4.948745139625309,
	"grad_norm": 3.8003361225128174,
	"learning_rate": 5.44361965358784e-07,
	"loss": 0.476,
	"step": 14000
	},
	{
	"epoch": 4.966419229409685,
	"grad_norm": 2.117197275161743,
	"learning_rate": 3.67621067515023e-07,
	"loss": 0.373,
	"step": 14050
	},
	{
	"epoch": 4.984093319194061,
	"grad_norm": 1.8130935430526733,
	"learning_rate": 1.9088016967126194e-07,
	"loss": 0.4102,
	"step": 14100
	},
	{
	"epoch": 5.0,
	"eval_bertscore_f1": 0.9660587414250811,
	"eval_bleu": 0.5882761107143478,
	"eval_loss": 0.29442909359931946,
	"eval_meteor": 0.7392640094761435,
	"eval_rouge1": 0.8386605714105622,
	"eval_rouge2": 0.7781271007162897,
	"eval_runtime": 1266.3046,
	"eval_samples_per_second": 5.105,
	"eval_steps_per_second": 0.638,
	"step": 14145
	}
	],
	"logging_steps": 50,
	"max_steps": 14145,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.730048539557888e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}