T5Model100 / trainer_state.json

Upload trainer_state.json

7a328eb about 2 years ago

48.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 99.4,
	"global_step": 9940,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.0,
	"learning_rate": 0.00029699999999999996,
	"loss": 2.3572,
	"step": 100
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.0208146572113037,
	"eval_rouge1": 0.38044177163260395,
	"eval_rouge2": 0.22166452709217227,
	"eval_rougeL": 0.32812293401962783,
	"eval_rougeLsum": 0.3362999547235502,
	"eval_runtime": 101.9509,
	"eval_samples_per_second": 2.619,
	"eval_steps_per_second": 0.657,
	"step": 100
	},
	{
	"epoch": 2.0,
	"learning_rate": 0.000294,
	"loss": 1.8221,
	"step": 200
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.9186301231384277,
	"eval_rouge1": 0.37852474610193687,
	"eval_rouge2": 0.22935359793844923,
	"eval_rougeL": 0.33206971678305885,
	"eval_rougeLsum": 0.34036536115022115,
	"eval_runtime": 88.4707,
	"eval_samples_per_second": 3.018,
	"eval_steps_per_second": 0.757,
	"step": 200
	},
	{
	"epoch": 3.0,
	"learning_rate": 0.00029099999999999997,
	"loss": 1.499,
	"step": 300
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.8877462148666382,
	"eval_rouge1": 0.38418268500674113,
	"eval_rouge2": 0.23776340434064813,
	"eval_rougeL": 0.3334841887210931,
	"eval_rougeLsum": 0.3427682236088454,
	"eval_runtime": 84.7141,
	"eval_samples_per_second": 3.152,
	"eval_steps_per_second": 0.791,
	"step": 300
	},
	{
	"epoch": 4.0,
	"learning_rate": 0.00028799999999999995,
	"loss": 1.2417,
	"step": 400
	},
	{
	"epoch": 4.0,
	"eval_loss": 1.9007868766784668,
	"eval_rouge1": 0.38459815678190157,
	"eval_rouge2": 0.2389841562885784,
	"eval_rougeL": 0.3358997192110219,
	"eval_rougeLsum": 0.3459186341182623,
	"eval_runtime": 87.1466,
	"eval_samples_per_second": 3.064,
	"eval_steps_per_second": 0.769,
	"step": 400
	},
	{
	"epoch": 5.0,
	"learning_rate": 0.000285,
	"loss": 1.0291,
	"step": 500
	},
	{
	"epoch": 5.0,
	"eval_loss": 1.9464083909988403,
	"eval_rouge1": 0.3771057538216719,
	"eval_rouge2": 0.23598990815679244,
	"eval_rougeL": 0.33157674303979967,
	"eval_rougeLsum": 0.341814656302837,
	"eval_runtime": 84.8724,
	"eval_samples_per_second": 3.146,
	"eval_steps_per_second": 0.789,
	"step": 500
	},
	{
	"epoch": 6.0,
	"learning_rate": 0.00028199999999999997,
	"loss": 0.8654,
	"step": 600
	},
	{
	"epoch": 6.0,
	"eval_loss": 2.028379201889038,
	"eval_rouge1": 0.3765336053931574,
	"eval_rouge2": 0.2346491097022591,
	"eval_rougeL": 0.33228774930217964,
	"eval_rougeLsum": 0.3417265321962749,
	"eval_runtime": 81.6724,
	"eval_samples_per_second": 3.269,
	"eval_steps_per_second": 0.82,
	"step": 600
	},
	{
	"epoch": 7.0,
	"learning_rate": 0.000279,
	"loss": 0.7288,
	"step": 700
	},
	{
	"epoch": 7.0,
	"eval_loss": 2.0554444789886475,
	"eval_rouge1": 0.3800786333023515,
	"eval_rouge2": 0.2409070123236104,
	"eval_rougeL": 0.33682162100303614,
	"eval_rougeLsum": 0.34734833881743354,
	"eval_runtime": 73.6883,
	"eval_samples_per_second": 3.623,
	"eval_steps_per_second": 0.909,
	"step": 700
	},
	{
	"epoch": 8.0,
	"learning_rate": 0.000276,
	"loss": 0.6131,
	"step": 800
	},
	{
	"epoch": 8.0,
	"eval_loss": 2.166259288787842,
	"eval_rouge1": 0.38689909609996354,
	"eval_rouge2": 0.24839504760949166,
	"eval_rougeL": 0.3423017815734907,
	"eval_rougeLsum": 0.35145300780053884,
	"eval_runtime": 84.303,
	"eval_samples_per_second": 3.167,
	"eval_steps_per_second": 0.795,
	"step": 800
	},
	{
	"epoch": 9.0,
	"learning_rate": 0.00027299999999999997,
	"loss": 0.5199,
	"step": 900
	},
	{
	"epoch": 9.0,
	"eval_loss": 2.285539388656616,
	"eval_rouge1": 0.3789430717182254,
	"eval_rouge2": 0.24104702341168543,
	"eval_rougeL": 0.33609196315407464,
	"eval_rougeLsum": 0.34419861929575424,
	"eval_runtime": 87.3936,
	"eval_samples_per_second": 3.055,
	"eval_steps_per_second": 0.767,
	"step": 900
	},
	{
	"epoch": 10.0,
	"learning_rate": 0.00027,
	"loss": 0.4377,
	"step": 1000
	},
	{
	"epoch": 10.0,
	"eval_loss": 2.3414063453674316,
	"eval_rouge1": 0.3804299105262684,
	"eval_rouge2": 0.24134979578604437,
	"eval_rougeL": 0.33465308007661587,
	"eval_rougeLsum": 0.34441539625221235,
	"eval_runtime": 74.2399,
	"eval_samples_per_second": 3.596,
	"eval_steps_per_second": 0.902,
	"step": 1000
	},
	{
	"epoch": 11.0,
	"learning_rate": 0.000267,
	"loss": 0.3774,
	"step": 1100
	},
	{
	"epoch": 11.0,
	"eval_loss": 2.5906524658203125,
	"eval_rouge1": 0.37488053520037123,
	"eval_rouge2": 0.2325364461265239,
	"eval_rougeL": 0.3284555547843171,
	"eval_rougeLsum": 0.33842206829201854,
	"eval_runtime": 87.4814,
	"eval_samples_per_second": 3.052,
	"eval_steps_per_second": 0.766,
	"step": 1100
	},
	{
	"epoch": 12.0,
	"learning_rate": 0.00026399999999999997,
	"loss": 0.3245,
	"step": 1200
	},
	{
	"epoch": 12.0,
	"eval_loss": 2.575906276702881,
	"eval_rouge1": 0.3809104895798368,
	"eval_rouge2": 0.2430694084434509,
	"eval_rougeL": 0.339586891707485,
	"eval_rougeLsum": 0.3479448496850858,
	"eval_runtime": 86.2075,
	"eval_samples_per_second": 3.097,
	"eval_steps_per_second": 0.777,
	"step": 1200
	},
	{
	"epoch": 13.0,
	"learning_rate": 0.000261,
	"loss": 0.2838,
	"step": 1300
	},
	{
	"epoch": 13.0,
	"eval_loss": 2.713919162750244,
	"eval_rouge1": 0.3817118270434364,
	"eval_rouge2": 0.24584042005918305,
	"eval_rougeL": 0.3378501156668257,
	"eval_rougeLsum": 0.34886771837118585,
	"eval_runtime": 88.4266,
	"eval_samples_per_second": 3.019,
	"eval_steps_per_second": 0.758,
	"step": 1300
	},
	{
	"epoch": 14.0,
	"learning_rate": 0.000258,
	"loss": 0.2468,
	"step": 1400
	},
	{
	"epoch": 14.0,
	"eval_loss": 2.8145313262939453,
	"eval_rouge1": 0.379472522792231,
	"eval_rouge2": 0.24368264109880694,
	"eval_rougeL": 0.3402990243711923,
	"eval_rougeLsum": 0.34789779861372483,
	"eval_runtime": 87.9487,
	"eval_samples_per_second": 3.036,
	"eval_steps_per_second": 0.762,
	"step": 1400
	},
	{
	"epoch": 15.0,
	"learning_rate": 0.00025499999999999996,
	"loss": 0.2176,
	"step": 1500
	},
	{
	"epoch": 15.0,
	"eval_loss": 2.9211342334747314,
	"eval_rouge1": 0.38563833059926744,
	"eval_rouge2": 0.25107254535227563,
	"eval_rougeL": 0.3454046659035601,
	"eval_rougeLsum": 0.3550077794346308,
	"eval_runtime": 87.7555,
	"eval_samples_per_second": 3.043,
	"eval_steps_per_second": 0.763,
	"step": 1500
	},
	{
	"epoch": 16.0,
	"learning_rate": 0.00025199999999999995,
	"loss": 0.1971,
	"step": 1600
	},
	{
	"epoch": 16.0,
	"eval_loss": 3.035965919494629,
	"eval_rouge1": 0.3748339777411154,
	"eval_rouge2": 0.24127754538743285,
	"eval_rougeL": 0.33399204978041663,
	"eval_rougeLsum": 0.3436267443506058,
	"eval_runtime": 88.2167,
	"eval_samples_per_second": 3.027,
	"eval_steps_per_second": 0.759,
	"step": 1600
	},
	{
	"epoch": 17.0,
	"learning_rate": 0.000249,
	"loss": 0.1762,
	"step": 1700
	},
	{
	"epoch": 17.0,
	"eval_loss": 3.1633944511413574,
	"eval_rouge1": 0.3756943708883763,
	"eval_rouge2": 0.2398374976205459,
	"eval_rougeL": 0.3344204501634195,
	"eval_rougeLsum": 0.34415067068109806,
	"eval_runtime": 88.3785,
	"eval_samples_per_second": 3.021,
	"eval_steps_per_second": 0.758,
	"step": 1700
	},
	{
	"epoch": 18.0,
	"learning_rate": 0.00024599999999999996,
	"loss": 0.1586,
	"step": 1800
	},
	{
	"epoch": 18.0,
	"eval_loss": 3.361802339553833,
	"eval_rouge1": 0.3771231957637745,
	"eval_rouge2": 0.24367019161252174,
	"eval_rougeL": 0.33712070645495773,
	"eval_rougeLsum": 0.3467573160545896,
	"eval_runtime": 88.6648,
	"eval_samples_per_second": 3.011,
	"eval_steps_per_second": 0.756,
	"step": 1800
	},
	{
	"epoch": 19.0,
	"learning_rate": 0.000243,
	"loss": 0.1431,
	"step": 1900
	},
	{
	"epoch": 19.0,
	"eval_loss": 3.339010000228882,
	"eval_rouge1": 0.38323576739072185,
	"eval_rouge2": 0.24826737117741765,
	"eval_rougeL": 0.3410750002762108,
	"eval_rougeLsum": 0.3503168292106818,
	"eval_runtime": 88.2341,
	"eval_samples_per_second": 3.026,
	"eval_steps_per_second": 0.759,
	"step": 1900
	},
	{
	"epoch": 20.0,
	"learning_rate": 0.00023999999999999998,
	"loss": 0.1369,
	"step": 2000
	},
	{
	"epoch": 20.0,
	"eval_loss": 3.3738720417022705,
	"eval_rouge1": 0.3803519989007255,
	"eval_rouge2": 0.24324683470771802,
	"eval_rougeL": 0.3413320322258584,
	"eval_rougeLsum": 0.3497926224765554,
	"eval_runtime": 87.7456,
	"eval_samples_per_second": 3.043,
	"eval_steps_per_second": 0.764,
	"step": 2000
	},
	{
	"epoch": 21.0,
	"learning_rate": 0.000237,
	"loss": 0.1191,
	"step": 2100
	},
	{
	"epoch": 21.0,
	"eval_loss": 3.4585511684417725,
	"eval_rouge1": 0.3856774466701469,
	"eval_rouge2": 0.24573309119665773,
	"eval_rougeL": 0.340491594204651,
	"eval_rougeLsum": 0.35036530615920203,
	"eval_runtime": 84.6104,
	"eval_samples_per_second": 3.156,
	"eval_steps_per_second": 0.792,
	"step": 2100
	},
	{
	"epoch": 22.0,
	"learning_rate": 0.000234,
	"loss": 0.1123,
	"step": 2200
	},
	{
	"epoch": 22.0,
	"eval_loss": 3.4547746181488037,
	"eval_rouge1": 0.379890674444173,
	"eval_rouge2": 0.23951241543587243,
	"eval_rougeL": 0.3381674920029052,
	"eval_rougeLsum": 0.34605025320246763,
	"eval_runtime": 86.4576,
	"eval_samples_per_second": 3.088,
	"eval_steps_per_second": 0.775,
	"step": 2200
	},
	{
	"epoch": 23.0,
	"learning_rate": 0.00023099999999999998,
	"loss": 0.1006,
	"step": 2300
	},
	{
	"epoch": 23.0,
	"eval_loss": 3.563164234161377,
	"eval_rouge1": 0.383309277836589,
	"eval_rouge2": 0.24671832804779853,
	"eval_rougeL": 0.3418864003163312,
	"eval_rougeLsum": 0.3510389909721277,
	"eval_runtime": 86.7629,
	"eval_samples_per_second": 3.077,
	"eval_steps_per_second": 0.772,
	"step": 2300
	},
	{
	"epoch": 24.0,
	"learning_rate": 0.00022799999999999999,
	"loss": 0.0946,
	"step": 2400
	},
	{
	"epoch": 24.0,
	"eval_loss": 3.452104091644287,
	"eval_rouge1": 0.38778417244680397,
	"eval_rouge2": 0.24864493001126428,
	"eval_rougeL": 0.34531411329508677,
	"eval_rougeLsum": 0.3544382672740283,
	"eval_runtime": 81.1305,
	"eval_samples_per_second": 3.291,
	"eval_steps_per_second": 0.826,
	"step": 2400
	},
	{
	"epoch": 25.0,
	"learning_rate": 0.000225,
	"loss": 0.0852,
	"step": 2500
	},
	{
	"epoch": 25.0,
	"eval_loss": 3.722707509994507,
	"eval_rouge1": 0.38544627790159214,
	"eval_rouge2": 0.24835200716378503,
	"eval_rougeL": 0.34171087371739595,
	"eval_rougeLsum": 0.35119063257011257,
	"eval_runtime": 88.2083,
	"eval_samples_per_second": 3.027,
	"eval_steps_per_second": 0.76,
	"step": 2500
	},
	{
	"epoch": 26.0,
	"learning_rate": 0.00022199999999999998,
	"loss": 0.0819,
	"step": 2600
	},
	{
	"epoch": 26.0,
	"eval_loss": 3.700070858001709,
	"eval_rouge1": 0.3821803340000923,
	"eval_rouge2": 0.24725796483857881,
	"eval_rougeL": 0.34338516151002396,
	"eval_rougeLsum": 0.35257138073899147,
	"eval_runtime": 83.8321,
	"eval_samples_per_second": 3.185,
	"eval_steps_per_second": 0.799,
	"step": 2600
	},
	{
	"epoch": 27.0,
	"learning_rate": 0.00021899999999999998,
	"loss": 0.076,
	"step": 2700
	},
	{
	"epoch": 27.0,
	"eval_loss": 3.705507278442383,
	"eval_rouge1": 0.38289988903470296,
	"eval_rouge2": 0.2435924255504497,
	"eval_rougeL": 0.34095899111986594,
	"eval_rougeLsum": 0.35027734448953907,
	"eval_runtime": 84.7019,
	"eval_samples_per_second": 3.152,
	"eval_steps_per_second": 0.791,
	"step": 2700
	},
	{
	"epoch": 28.0,
	"learning_rate": 0.00021599999999999996,
	"loss": 0.0737,
	"step": 2800
	},
	{
	"epoch": 28.0,
	"eval_loss": 3.8778345584869385,
	"eval_rouge1": 0.3863238066090623,
	"eval_rouge2": 0.24626416138837423,
	"eval_rougeL": 0.33940239308122,
	"eval_rougeLsum": 0.35008151797367537,
	"eval_runtime": 88.4609,
	"eval_samples_per_second": 3.018,
	"eval_steps_per_second": 0.757,
	"step": 2800
	},
	{
	"epoch": 29.0,
	"learning_rate": 0.00021299999999999997,
	"loss": 0.071,
	"step": 2900
	},
	{
	"epoch": 29.0,
	"eval_loss": 3.7274887561798096,
	"eval_rouge1": 0.38452724844736197,
	"eval_rouge2": 0.24655003737302858,
	"eval_rougeL": 0.34600558721773045,
	"eval_rougeLsum": 0.3548096862359722,
	"eval_runtime": 87.9179,
	"eval_samples_per_second": 3.037,
	"eval_steps_per_second": 0.762,
	"step": 2900
	},
	{
	"epoch": 30.0,
	"learning_rate": 0.00020999999999999998,
	"loss": 0.0651,
	"step": 3000
	},
	{
	"epoch": 30.0,
	"eval_loss": 3.9305973052978516,
	"eval_rouge1": 0.38263859087914487,
	"eval_rouge2": 0.24388219812962653,
	"eval_rougeL": 0.33932726653150014,
	"eval_rougeLsum": 0.350347980074978,
	"eval_runtime": 86.4392,
	"eval_samples_per_second": 3.089,
	"eval_steps_per_second": 0.775,
	"step": 3000
	},
	{
	"epoch": 31.0,
	"learning_rate": 0.00020699999999999996,
	"loss": 0.059,
	"step": 3100
	},
	{
	"epoch": 31.0,
	"eval_loss": 3.8749561309814453,
	"eval_rouge1": 0.3838656202146266,
	"eval_rouge2": 0.24797544855564618,
	"eval_rougeL": 0.3455085604915118,
	"eval_rougeLsum": 0.35485772003639693,
	"eval_runtime": 80.6768,
	"eval_samples_per_second": 3.31,
	"eval_steps_per_second": 0.83,
	"step": 3100
	},
	{
	"epoch": 32.0,
	"learning_rate": 0.000204,
	"loss": 0.0575,
	"step": 3200
	},
	{
	"epoch": 32.0,
	"eval_loss": 4.035264492034912,
	"eval_rouge1": 0.3836411899648502,
	"eval_rouge2": 0.25059245453298623,
	"eval_rougeL": 0.3411469702531179,
	"eval_rougeLsum": 0.3521664869788945,
	"eval_runtime": 88.2658,
	"eval_samples_per_second": 3.025,
	"eval_steps_per_second": 0.759,
	"step": 3200
	},
	{
	"epoch": 33.0,
	"learning_rate": 0.000201,
	"loss": 0.0497,
	"step": 3300
	},
	{
	"epoch": 33.0,
	"eval_loss": 4.112032890319824,
	"eval_rouge1": 0.38502854106397544,
	"eval_rouge2": 0.24923225337454086,
	"eval_rougeL": 0.341407070704573,
	"eval_rougeLsum": 0.35156091483395113,
	"eval_runtime": 84.7807,
	"eval_samples_per_second": 3.149,
	"eval_steps_per_second": 0.79,
	"step": 3300
	},
	{
	"epoch": 34.0,
	"learning_rate": 0.000198,
	"loss": 0.0501,
	"step": 3400
	},
	{
	"epoch": 34.0,
	"eval_loss": 3.95038104057312,
	"eval_rouge1": 0.38531511762507886,
	"eval_rouge2": 0.25053367172713387,
	"eval_rougeL": 0.341979636574758,
	"eval_rougeLsum": 0.3530873088985891,
	"eval_runtime": 85.2338,
	"eval_samples_per_second": 3.133,
	"eval_steps_per_second": 0.786,
	"step": 3400
	},
	{
	"epoch": 35.0,
	"learning_rate": 0.000195,
	"loss": 0.047,
	"step": 3500
	},
	{
	"epoch": 35.0,
	"eval_loss": 4.134089469909668,
	"eval_rouge1": 0.38128230648241745,
	"eval_rouge2": 0.2492424888975831,
	"eval_rougeL": 0.34103290544972104,
	"eval_rougeLsum": 0.3516319313437394,
	"eval_runtime": 88.3744,
	"eval_samples_per_second": 3.021,
	"eval_steps_per_second": 0.758,
	"step": 3500
	},
	{
	"epoch": 36.0,
	"learning_rate": 0.00019199999999999998,
	"loss": 0.0453,
	"step": 3600
	},
	{
	"epoch": 36.0,
	"eval_loss": 4.057723045349121,
	"eval_rouge1": 0.3846704975418777,
	"eval_rouge2": 0.2541194854411035,
	"eval_rougeL": 0.3458972635607298,
	"eval_rougeLsum": 0.3547659584174555,
	"eval_runtime": 85.1914,
	"eval_samples_per_second": 3.134,
	"eval_steps_per_second": 0.786,
	"step": 3600
	},
	{
	"epoch": 37.0,
	"learning_rate": 0.00018899999999999999,
	"loss": 0.0462,
	"step": 3700
	},
	{
	"epoch": 37.0,
	"eval_loss": 4.16575288772583,
	"eval_rouge1": 0.38354434412263094,
	"eval_rouge2": 0.2510921708756821,
	"eval_rougeL": 0.34240824035427875,
	"eval_rougeLsum": 0.35173537331908256,
	"eval_runtime": 87.6215,
	"eval_samples_per_second": 3.047,
	"eval_steps_per_second": 0.765,
	"step": 3700
	},
	{
	"epoch": 38.0,
	"learning_rate": 0.000186,
	"loss": 0.0424,
	"step": 3800
	},
	{
	"epoch": 38.0,
	"eval_loss": 4.315454483032227,
	"eval_rouge1": 0.38423210902707555,
	"eval_rouge2": 0.24894255969353363,
	"eval_rougeL": 0.342343883008779,
	"eval_rougeLsum": 0.3524699587337098,
	"eval_runtime": 87.9865,
	"eval_samples_per_second": 3.035,
	"eval_steps_per_second": 0.761,
	"step": 3800
	},
	{
	"epoch": 39.0,
	"learning_rate": 0.00018299999999999998,
	"loss": 0.0412,
	"step": 3900
	},
	{
	"epoch": 39.0,
	"eval_loss": 4.139455318450928,
	"eval_rouge1": 0.3888396904741606,
	"eval_rouge2": 0.25152424393630335,
	"eval_rougeL": 0.3452689238846711,
	"eval_rougeLsum": 0.3565387881051132,
	"eval_runtime": 88.7657,
	"eval_samples_per_second": 3.008,
	"eval_steps_per_second": 0.755,
	"step": 3900
	},
	{
	"epoch": 40.0,
	"learning_rate": 0.00017999999999999998,
	"loss": 0.0405,
	"step": 4000
	},
	{
	"epoch": 40.0,
	"eval_loss": 4.292513847351074,
	"eval_rouge1": 0.3849173670043722,
	"eval_rouge2": 0.2516518779916327,
	"eval_rougeL": 0.34160286102286824,
	"eval_rougeLsum": 0.35354307416998204,
	"eval_runtime": 87.0473,
	"eval_samples_per_second": 3.067,
	"eval_steps_per_second": 0.77,
	"step": 4000
	},
	{
	"epoch": 41.0,
	"learning_rate": 0.00017699999999999997,
	"loss": 0.0337,
	"step": 4100
	},
	{
	"epoch": 41.0,
	"eval_loss": 4.333091735839844,
	"eval_rouge1": 0.38820912557719256,
	"eval_rouge2": 0.2534094086585099,
	"eval_rougeL": 0.3455980647738194,
	"eval_rougeLsum": 0.3547951760533251,
	"eval_runtime": 88.6931,
	"eval_samples_per_second": 3.01,
	"eval_steps_per_second": 0.755,
	"step": 4100
	},
	{
	"epoch": 42.0,
	"learning_rate": 0.00017399999999999997,
	"loss": 0.034,
	"step": 4200
	},
	{
	"epoch": 42.0,
	"eval_loss": 4.243014335632324,
	"eval_rouge1": 0.3856953885948385,
	"eval_rouge2": 0.2513949176068939,
	"eval_rougeL": 0.34297989861385025,
	"eval_rougeLsum": 0.352859061364724,
	"eval_runtime": 88.2977,
	"eval_samples_per_second": 3.024,
	"eval_steps_per_second": 0.759,
	"step": 4200
	},
	{
	"epoch": 43.0,
	"learning_rate": 0.00017099999999999998,
	"loss": 0.0352,
	"step": 4300
	},
	{
	"epoch": 43.0,
	"eval_loss": 4.183932304382324,
	"eval_rouge1": 0.3806969958693784,
	"eval_rouge2": 0.2473825570846937,
	"eval_rougeL": 0.33932671729837177,
	"eval_rougeLsum": 0.34894151771308557,
	"eval_runtime": 80.31,
	"eval_samples_per_second": 3.325,
	"eval_steps_per_second": 0.834,
	"step": 4300
	},
	{
	"epoch": 44.0,
	"learning_rate": 0.000168,
	"loss": 0.0324,
	"step": 4400
	},
	{
	"epoch": 44.0,
	"eval_loss": 4.373414039611816,
	"eval_rouge1": 0.3786215226813438,
	"eval_rouge2": 0.2465198631844377,
	"eval_rougeL": 0.33922712749886663,
	"eval_rougeLsum": 0.34917815226425697,
	"eval_runtime": 77.6446,
	"eval_samples_per_second": 3.439,
	"eval_steps_per_second": 0.863,
	"step": 4400
	},
	{
	"epoch": 45.0,
	"learning_rate": 0.000165,
	"loss": 0.0286,
	"step": 4500
	},
	{
	"epoch": 45.0,
	"eval_loss": 4.281849384307861,
	"eval_rouge1": 0.38349120769596134,
	"eval_rouge2": 0.2492446761527376,
	"eval_rougeL": 0.34069084890798684,
	"eval_rougeLsum": 0.35114847864272203,
	"eval_runtime": 88.42,
	"eval_samples_per_second": 3.02,
	"eval_steps_per_second": 0.758,
	"step": 4500
	},
	{
	"epoch": 46.0,
	"learning_rate": 0.000162,
	"loss": 0.0282,
	"step": 4600
	},
	{
	"epoch": 46.0,
	"eval_loss": 4.2815632820129395,
	"eval_rouge1": 0.3826976100476265,
	"eval_rouge2": 0.2509544107400279,
	"eval_rougeL": 0.34278980646197255,
	"eval_rougeLsum": 0.3538927647811483,
	"eval_runtime": 85.7947,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 0.781,
	"step": 4600
	},
	{
	"epoch": 47.0,
	"learning_rate": 0.000159,
	"loss": 0.028,
	"step": 4700
	},
	{
	"epoch": 47.0,
	"eval_loss": 4.38587760925293,
	"eval_rouge1": 0.3849127298046784,
	"eval_rouge2": 0.24789381337766286,
	"eval_rougeL": 0.34234361939069524,
	"eval_rougeLsum": 0.35325038564459454,
	"eval_runtime": 76.1287,
	"eval_samples_per_second": 3.507,
	"eval_steps_per_second": 0.88,
	"step": 4700
	},
	{
	"epoch": 48.0,
	"learning_rate": 0.000156,
	"loss": 0.0273,
	"step": 4800
	},
	{
	"epoch": 48.0,
	"eval_loss": 4.371572017669678,
	"eval_rouge1": 0.38145021792566747,
	"eval_rouge2": 0.2455942994201823,
	"eval_rougeL": 0.33902654428346374,
	"eval_rougeLsum": 0.3506993238959008,
	"eval_runtime": 85.6829,
	"eval_samples_per_second": 3.116,
	"eval_steps_per_second": 0.782,
	"step": 4800
	},
	{
	"epoch": 49.0,
	"learning_rate": 0.00015299999999999998,
	"loss": 0.0242,
	"step": 4900
	},
	{
	"epoch": 49.0,
	"eval_loss": 4.31757116317749,
	"eval_rouge1": 0.3823041816880143,
	"eval_rouge2": 0.2482259591949097,
	"eval_rougeL": 0.3423574705681002,
	"eval_rougeLsum": 0.3529132375278098,
	"eval_runtime": 85.4774,
	"eval_samples_per_second": 3.124,
	"eval_steps_per_second": 0.784,
	"step": 4900
	},
	{
	"epoch": 50.0,
	"learning_rate": 0.00015,
	"loss": 0.0245,
	"step": 5000
	},
	{
	"epoch": 50.0,
	"eval_loss": 4.483373641967773,
	"eval_rouge1": 0.38129727161097815,
	"eval_rouge2": 0.24693927554416154,
	"eval_rougeL": 0.3404625026445964,
	"eval_rougeLsum": 0.3512449096988902,
	"eval_runtime": 86.2171,
	"eval_samples_per_second": 3.097,
	"eval_steps_per_second": 0.777,
	"step": 5000
	},
	{
	"epoch": 51.0,
	"learning_rate": 0.000147,
	"loss": 0.0233,
	"step": 5100
	},
	{
	"epoch": 51.0,
	"eval_loss": 4.312454700469971,
	"eval_rouge1": 0.3858793124229507,
	"eval_rouge2": 0.2506880394304446,
	"eval_rougeL": 0.3432986381645482,
	"eval_rougeLsum": 0.35437517778600014,
	"eval_runtime": 85.0765,
	"eval_samples_per_second": 3.138,
	"eval_steps_per_second": 0.788,
	"step": 5100
	},
	{
	"epoch": 52.0,
	"learning_rate": 0.00014399999999999998,
	"loss": 0.0226,
	"step": 5200
	},
	{
	"epoch": 52.0,
	"eval_loss": 4.3415327072143555,
	"eval_rouge1": 0.3857470971280717,
	"eval_rouge2": 0.24913722198218521,
	"eval_rougeL": 0.3436699140258663,
	"eval_rougeLsum": 0.3530913028701871,
	"eval_runtime": 88.4089,
	"eval_samples_per_second": 3.02,
	"eval_steps_per_second": 0.758,
	"step": 5200
	},
	{
	"epoch": 53.0,
	"learning_rate": 0.00014099999999999998,
	"loss": 0.0229,
	"step": 5300
	},
	{
	"epoch": 53.0,
	"eval_loss": 4.483485698699951,
	"eval_rouge1": 0.38253789740936506,
	"eval_rouge2": 0.2479324630750173,
	"eval_rougeL": 0.34339596051490895,
	"eval_rougeLsum": 0.3517531826655991,
	"eval_runtime": 88.363,
	"eval_samples_per_second": 3.022,
	"eval_steps_per_second": 0.758,
	"step": 5300
	},
	{
	"epoch": 54.0,
	"learning_rate": 0.000138,
	"loss": 0.0205,
	"step": 5400
	},
	{
	"epoch": 54.0,
	"eval_loss": 4.5731024742126465,
	"eval_rouge1": 0.3844011329346221,
	"eval_rouge2": 0.24959249662582936,
	"eval_rougeL": 0.3437539050438877,
	"eval_rougeLsum": 0.3524112747853908,
	"eval_runtime": 87.6537,
	"eval_samples_per_second": 3.046,
	"eval_steps_per_second": 0.764,
	"step": 5400
	},
	{
	"epoch": 55.0,
	"learning_rate": 0.000135,
	"loss": 0.0194,
	"step": 5500
	},
	{
	"epoch": 55.0,
	"eval_loss": 4.562352657318115,
	"eval_rouge1": 0.37834930186879323,
	"eval_rouge2": 0.24392421472693115,
	"eval_rougeL": 0.33801495271361487,
	"eval_rougeLsum": 0.34801929824525824,
	"eval_runtime": 74.8854,
	"eval_samples_per_second": 3.565,
	"eval_steps_per_second": 0.895,
	"step": 5500
	},
	{
	"epoch": 56.0,
	"learning_rate": 0.00013199999999999998,
	"loss": 0.0195,
	"step": 5600
	},
	{
	"epoch": 56.0,
	"eval_loss": 4.631711483001709,
	"eval_rouge1": 0.38562125740872527,
	"eval_rouge2": 0.25396377473858134,
	"eval_rougeL": 0.34647449965497257,
	"eval_rougeLsum": 0.3559086726171456,
	"eval_runtime": 80.6509,
	"eval_samples_per_second": 3.311,
	"eval_steps_per_second": 0.831,
	"step": 5600
	},
	{
	"epoch": 57.0,
	"learning_rate": 0.000129,
	"loss": 0.0187,
	"step": 5700
	},
	{
	"epoch": 57.0,
	"eval_loss": 4.58750581741333,
	"eval_rouge1": 0.3810792743714226,
	"eval_rouge2": 0.24677881916117747,
	"eval_rougeL": 0.3413798314429182,
	"eval_rougeLsum": 0.3512899517237632,
	"eval_runtime": 87.4748,
	"eval_samples_per_second": 3.052,
	"eval_steps_per_second": 0.766,
	"step": 5700
	},
	{
	"epoch": 58.0,
	"learning_rate": 0.00012599999999999997,
	"loss": 0.0184,
	"step": 5800
	},
	{
	"epoch": 58.0,
	"eval_loss": 4.566098213195801,
	"eval_rouge1": 0.3816478906137458,
	"eval_rouge2": 0.24638333085125486,
	"eval_rougeL": 0.34077211167545884,
	"eval_rougeLsum": 0.3515136659487619,
	"eval_runtime": 88.8228,
	"eval_samples_per_second": 3.006,
	"eval_steps_per_second": 0.754,
	"step": 5800
	},
	{
	"epoch": 59.0,
	"learning_rate": 0.00012299999999999998,
	"loss": 0.0181,
	"step": 5900
	},
	{
	"epoch": 59.0,
	"eval_loss": 4.4710798263549805,
	"eval_rouge1": 0.38077163264424585,
	"eval_rouge2": 0.24804038660323457,
	"eval_rougeL": 0.3439666979964766,
	"eval_rougeLsum": 0.3531348236604766,
	"eval_runtime": 85.4002,
	"eval_samples_per_second": 3.126,
	"eval_steps_per_second": 0.785,
	"step": 5900
	},
	{
	"epoch": 60.0,
	"learning_rate": 0.00011999999999999999,
	"loss": 0.0191,
	"step": 6000
	},
	{
	"epoch": 60.0,
	"eval_loss": 4.539062023162842,
	"eval_rouge1": 0.38696808219881823,
	"eval_rouge2": 0.25247148225241317,
	"eval_rougeL": 0.34520470532094527,
	"eval_rougeLsum": 0.3549651652722977,
	"eval_runtime": 85.8906,
	"eval_samples_per_second": 3.109,
	"eval_steps_per_second": 0.78,
	"step": 6000
	},
	{
	"epoch": 61.0,
	"learning_rate": 0.000117,
	"loss": 0.0159,
	"step": 6100
	},
	{
	"epoch": 61.0,
	"eval_loss": 4.586240768432617,
	"eval_rouge1": 0.3859647235684582,
	"eval_rouge2": 0.25007880823210193,
	"eval_rougeL": 0.3429738967595123,
	"eval_rougeLsum": 0.3537661741374731,
	"eval_runtime": 85.7948,
	"eval_samples_per_second": 3.112,
	"eval_steps_per_second": 0.781,
	"step": 6100
	},
	{
	"epoch": 62.0,
	"learning_rate": 0.00011399999999999999,
	"loss": 0.015,
	"step": 6200
	},
	{
	"epoch": 62.0,
	"eval_loss": 4.743378639221191,
	"eval_rouge1": 0.3846367169172429,
	"eval_rouge2": 0.24839404159206457,
	"eval_rougeL": 0.34243506876400887,
	"eval_rougeLsum": 0.3538437492007503,
	"eval_runtime": 85.518,
	"eval_samples_per_second": 3.122,
	"eval_steps_per_second": 0.783,
	"step": 6200
	},
	{
	"epoch": 63.0,
	"learning_rate": 0.00011099999999999999,
	"loss": 0.0149,
	"step": 6300
	},
	{
	"epoch": 63.0,
	"eval_loss": 4.629330635070801,
	"eval_rouge1": 0.38030212626045157,
	"eval_rouge2": 0.24751450469686587,
	"eval_rougeL": 0.33809073704758,
	"eval_rougeLsum": 0.3483896449835656,
	"eval_runtime": 80.0249,
	"eval_samples_per_second": 3.336,
	"eval_steps_per_second": 0.837,
	"step": 6300
	},
	{
	"epoch": 64.0,
	"learning_rate": 0.00010799999999999998,
	"loss": 0.0126,
	"step": 6400
	},
	{
	"epoch": 64.0,
	"eval_loss": 4.710384368896484,
	"eval_rouge1": 0.3842642647245845,
	"eval_rouge2": 0.2512060270485085,
	"eval_rougeL": 0.34379327783470054,
	"eval_rougeLsum": 0.3545941692511255,
	"eval_runtime": 85.176,
	"eval_samples_per_second": 3.135,
	"eval_steps_per_second": 0.787,
	"step": 6400
	},
	{
	"epoch": 65.0,
	"learning_rate": 0.00010499999999999999,
	"loss": 0.0138,
	"step": 6500
	},
	{
	"epoch": 65.0,
	"eval_loss": 4.689241886138916,
	"eval_rouge1": 0.38298024943411063,
	"eval_rouge2": 0.25101113690854776,
	"eval_rougeL": 0.3456091975587352,
	"eval_rougeLsum": 0.3550951514101951,
	"eval_runtime": 88.4731,
	"eval_samples_per_second": 3.018,
	"eval_steps_per_second": 0.757,
	"step": 6500
	},
	{
	"epoch": 66.0,
	"learning_rate": 0.000102,
	"loss": 0.0145,
	"step": 6600
	},
	{
	"epoch": 66.0,
	"eval_loss": 4.557338237762451,
	"eval_rouge1": 0.380241659345879,
	"eval_rouge2": 0.24617583106160457,
	"eval_rougeL": 0.3415380685661965,
	"eval_rougeLsum": 0.3528959521802908,
	"eval_runtime": 88.0004,
	"eval_samples_per_second": 3.034,
	"eval_steps_per_second": 0.761,
	"step": 6600
	},
	{
	"epoch": 67.0,
	"learning_rate": 9.9e-05,
	"loss": 0.014,
	"step": 6700
	},
	{
	"epoch": 67.0,
	"eval_loss": 4.767906188964844,
	"eval_rouge1": 0.38450247499658086,
	"eval_rouge2": 0.24867049264532454,
	"eval_rougeL": 0.3433152946814418,
	"eval_rougeLsum": 0.35393881134127675,
	"eval_runtime": 86.9796,
	"eval_samples_per_second": 3.07,
	"eval_steps_per_second": 0.77,
	"step": 6700
	},
	{
	"epoch": 68.0,
	"learning_rate": 9.599999999999999e-05,
	"loss": 0.0115,
	"step": 6800
	},
	{
	"epoch": 68.0,
	"eval_loss": 4.784436225891113,
	"eval_rouge1": 0.38354762861806485,
	"eval_rouge2": 0.24990989075753453,
	"eval_rougeL": 0.342385020020958,
	"eval_rougeLsum": 0.35342424612693624,
	"eval_runtime": 84.5851,
	"eval_samples_per_second": 3.157,
	"eval_steps_per_second": 0.792,
	"step": 6800
	},
	{
	"epoch": 69.0,
	"learning_rate": 9.3e-05,
	"loss": 0.012,
	"step": 6900
	},
	{
	"epoch": 69.0,
	"eval_loss": 4.792604923248291,
	"eval_rouge1": 0.3781881725835631,
	"eval_rouge2": 0.24531643415669946,
	"eval_rougeL": 0.3374030505076982,
	"eval_rougeLsum": 0.34856794790036694,
	"eval_runtime": 83.9778,
	"eval_samples_per_second": 3.179,
	"eval_steps_per_second": 0.798,
	"step": 6900
	},
	{
	"epoch": 70.0,
	"learning_rate": 8.999999999999999e-05,
	"loss": 0.0112,
	"step": 7000
	},
	{
	"epoch": 70.0,
	"eval_loss": 4.755610942840576,
	"eval_rouge1": 0.3817160833408457,
	"eval_rouge2": 0.24591914048878963,
	"eval_rougeL": 0.3399489131887798,
	"eval_rougeLsum": 0.34979297011876465,
	"eval_runtime": 84.4798,
	"eval_samples_per_second": 3.161,
	"eval_steps_per_second": 0.793,
	"step": 7000
	},
	{
	"epoch": 71.0,
	"learning_rate": 8.699999999999999e-05,
	"loss": 0.0119,
	"step": 7100
	},
	{
	"epoch": 71.0,
	"eval_loss": 4.798295974731445,
	"eval_rouge1": 0.3851093231346726,
	"eval_rouge2": 0.2537220090344301,
	"eval_rougeL": 0.345936300548305,
	"eval_rougeLsum": 0.35628312786353933,
	"eval_runtime": 85.2857,
	"eval_samples_per_second": 3.131,
	"eval_steps_per_second": 0.786,
	"step": 7100
	},
	{
	"epoch": 72.0,
	"learning_rate": 8.4e-05,
	"loss": 0.0114,
	"step": 7200
	},
	{
	"epoch": 72.0,
	"eval_loss": 4.856568813323975,
	"eval_rouge1": 0.38245157631697796,
	"eval_rouge2": 0.2494936430554049,
	"eval_rougeL": 0.34129479377535843,
	"eval_rougeLsum": 0.35318946273145274,
	"eval_runtime": 86.7372,
	"eval_samples_per_second": 3.078,
	"eval_steps_per_second": 0.772,
	"step": 7200
	},
	{
	"epoch": 73.0,
	"learning_rate": 8.1e-05,
	"loss": 0.0098,
	"step": 7300
	},
	{
	"epoch": 73.0,
	"eval_loss": 4.907617092132568,
	"eval_rouge1": 0.38646161684013636,
	"eval_rouge2": 0.24944761609509186,
	"eval_rougeL": 0.3455163948277883,
	"eval_rougeLsum": 0.35471516616705556,
	"eval_runtime": 85.0789,
	"eval_samples_per_second": 3.138,
	"eval_steps_per_second": 0.788,
	"step": 7300
	},
	{
	"epoch": 74.0,
	"learning_rate": 7.8e-05,
	"loss": 0.0108,
	"step": 7400
	},
	{
	"epoch": 74.0,
	"eval_loss": 4.841740608215332,
	"eval_rouge1": 0.38215421507562997,
	"eval_rouge2": 0.244320679535119,
	"eval_rougeL": 0.33902569869492843,
	"eval_rougeLsum": 0.34863305654053733,
	"eval_runtime": 83.1089,
	"eval_samples_per_second": 3.213,
	"eval_steps_per_second": 0.806,
	"step": 7400
	},
	{
	"epoch": 75.0,
	"learning_rate": 7.5e-05,
	"loss": 0.0098,
	"step": 7500
	},
	{
	"epoch": 75.0,
	"eval_loss": 4.904059886932373,
	"eval_rouge1": 0.3843792931439769,
	"eval_rouge2": 0.25004411752753497,
	"eval_rougeL": 0.3433196711815563,
	"eval_rougeLsum": 0.3532736703238627,
	"eval_runtime": 76.8263,
	"eval_samples_per_second": 3.475,
	"eval_steps_per_second": 0.872,
	"step": 7500
	},
	{
	"epoch": 76.0,
	"learning_rate": 7.199999999999999e-05,
	"loss": 0.0107,
	"step": 7600
	},
	{
	"epoch": 76.0,
	"eval_loss": 4.855184555053711,
	"eval_rouge1": 0.3829128308316423,
	"eval_rouge2": 0.2462514914494317,
	"eval_rougeL": 0.34099347275539427,
	"eval_rougeLsum": 0.35125207376644263,
	"eval_runtime": 88.1794,
	"eval_samples_per_second": 3.028,
	"eval_steps_per_second": 0.76,
	"step": 7600
	},
	{
	"epoch": 77.0,
	"learning_rate": 6.9e-05,
	"loss": 0.0087,
	"step": 7700
	},
	{
	"epoch": 77.0,
	"eval_loss": 4.914191246032715,
	"eval_rouge1": 0.3858568840845371,
	"eval_rouge2": 0.2502511174813851,
	"eval_rougeL": 0.3440629332400241,
	"eval_rougeLsum": 0.3544972438925257,
	"eval_runtime": 76.5236,
	"eval_samples_per_second": 3.489,
	"eval_steps_per_second": 0.876,
	"step": 7700
	},
	{
	"epoch": 78.0,
	"learning_rate": 6.599999999999999e-05,
	"loss": 0.0083,
	"step": 7800
	},
	{
	"epoch": 78.0,
	"eval_loss": 4.938214302062988,
	"eval_rouge1": 0.38030330309287785,
	"eval_rouge2": 0.24533353097305155,
	"eval_rougeL": 0.33927399233566136,
	"eval_rougeLsum": 0.34936840630758315,
	"eval_runtime": 86.2001,
	"eval_samples_per_second": 3.097,
	"eval_steps_per_second": 0.777,
	"step": 7800
	},
	{
	"epoch": 79.0,
	"learning_rate": 6.299999999999999e-05,
	"loss": 0.0092,
	"step": 7900
	},
	{
	"epoch": 79.0,
	"eval_loss": 4.884538173675537,
	"eval_rouge1": 0.38434467710443954,
	"eval_rouge2": 0.2497101085906894,
	"eval_rougeL": 0.3426642731168459,
	"eval_rougeLsum": 0.35354404579979554,
	"eval_runtime": 83.0616,
	"eval_samples_per_second": 3.214,
	"eval_steps_per_second": 0.807,
	"step": 7900
	},
	{
	"epoch": 80.0,
	"learning_rate": 5.9999999999999995e-05,
	"loss": 0.0072,
	"step": 8000
	},
	{
	"epoch": 80.0,
	"eval_loss": 4.894115924835205,
	"eval_rouge1": 0.38544645384117493,
	"eval_rouge2": 0.2508322384005437,
	"eval_rougeL": 0.3447843356379286,
	"eval_rougeLsum": 0.3554394657131237,
	"eval_runtime": 83.5657,
	"eval_samples_per_second": 3.195,
	"eval_steps_per_second": 0.802,
	"step": 8000
	},
	{
	"epoch": 81.0,
	"learning_rate": 5.6999999999999996e-05,
	"loss": 0.0077,
	"step": 8100
	},
	{
	"epoch": 81.0,
	"eval_loss": 4.973346710205078,
	"eval_rouge1": 0.387446314618786,
	"eval_rouge2": 0.2529628384702761,
	"eval_rougeL": 0.3469758611038962,
	"eval_rougeLsum": 0.3572774036661956,
	"eval_runtime": 87.8578,
	"eval_samples_per_second": 3.039,
	"eval_steps_per_second": 0.763,
	"step": 8100
	},
	{
	"epoch": 82.0,
	"learning_rate": 5.399999999999999e-05,
	"loss": 0.008,
	"step": 8200
	},
	{
	"epoch": 82.0,
	"eval_loss": 4.913274765014648,
	"eval_rouge1": 0.3829560613774901,
	"eval_rouge2": 0.25172789870975754,
	"eval_rougeL": 0.34496794149173104,
	"eval_rougeLsum": 0.35508158648356575,
	"eval_runtime": 85.6734,
	"eval_samples_per_second": 3.116,
	"eval_steps_per_second": 0.782,
	"step": 8200
	},
	{
	"epoch": 83.0,
	"learning_rate": 5.1e-05,
	"loss": 0.0075,
	"step": 8300
	},
	{
	"epoch": 83.0,
	"eval_loss": 4.925784587860107,
	"eval_rouge1": 0.385854429603814,
	"eval_rouge2": 0.2531988664068715,
	"eval_rougeL": 0.346050946742826,
	"eval_rougeLsum": 0.35696920925711373,
	"eval_runtime": 75.2297,
	"eval_samples_per_second": 3.549,
	"eval_steps_per_second": 0.891,
	"step": 8300
	},
	{
	"epoch": 84.0,
	"learning_rate": 4.7999999999999994e-05,
	"loss": 0.0076,
	"step": 8400
	},
	{
	"epoch": 84.0,
	"eval_loss": 4.87917423248291,
	"eval_rouge1": 0.38643959051361326,
	"eval_rouge2": 0.24825036815478088,
	"eval_rougeL": 0.34543928091296466,
	"eval_rougeLsum": 0.3560830652803086,
	"eval_runtime": 82.6422,
	"eval_samples_per_second": 3.231,
	"eval_steps_per_second": 0.811,
	"step": 8400
	},
	{
	"epoch": 85.0,
	"learning_rate": 4.4999999999999996e-05,
	"loss": 0.0073,
	"step": 8500
	},
	{
	"epoch": 85.0,
	"eval_loss": 4.9377264976501465,
	"eval_rouge1": 0.38212230866847685,
	"eval_rouge2": 0.24573634944784611,
	"eval_rougeL": 0.34138760450808503,
	"eval_rougeLsum": 0.3523812948696121,
	"eval_runtime": 85.716,
	"eval_samples_per_second": 3.115,
	"eval_steps_per_second": 0.782,
	"step": 8500
	},
	{
	"epoch": 86.0,
	"learning_rate": 4.2e-05,
	"loss": 0.0062,
	"step": 8600
	},
	{
	"epoch": 86.0,
	"eval_loss": 5.010465621948242,
	"eval_rouge1": 0.38248533103068416,
	"eval_rouge2": 0.24842178766177614,
	"eval_rougeL": 0.3425108161941025,
	"eval_rougeLsum": 0.35344680511965376,
	"eval_runtime": 85.9789,
	"eval_samples_per_second": 3.105,
	"eval_steps_per_second": 0.779,
	"step": 8600
	},
	{
	"epoch": 87.0,
	"learning_rate": 3.9e-05,
	"loss": 0.0067,
	"step": 8700
	},
	{
	"epoch": 87.0,
	"eval_loss": 5.000132083892822,
	"eval_rouge1": 0.3844108716094221,
	"eval_rouge2": 0.25183492085762804,
	"eval_rougeL": 0.34541276301829477,
	"eval_rougeLsum": 0.35582368167109873,
	"eval_runtime": 85.4159,
	"eval_samples_per_second": 3.126,
	"eval_steps_per_second": 0.784,
	"step": 8700
	},
	{
	"epoch": 88.0,
	"learning_rate": 3.5999999999999994e-05,
	"loss": 0.0064,
	"step": 8800
	},
	{
	"epoch": 88.0,
	"eval_loss": 4.985653877258301,
	"eval_rouge1": 0.3842791176433939,
	"eval_rouge2": 0.24890479606772847,
	"eval_rougeL": 0.34373666785104745,
	"eval_rougeLsum": 0.35402492917866446,
	"eval_runtime": 88.491,
	"eval_samples_per_second": 3.017,
	"eval_steps_per_second": 0.757,
	"step": 8800
	},
	{
	"epoch": 89.0,
	"learning_rate": 3.2999999999999996e-05,
	"loss": 0.0064,
	"step": 8900
	},
	{
	"epoch": 89.0,
	"eval_loss": 5.027814865112305,
	"eval_rouge1": 0.38374734558183804,
	"eval_rouge2": 0.24654112382289783,
	"eval_rougeL": 0.3418827464509472,
	"eval_rougeLsum": 0.35332526206489273,
	"eval_runtime": 88.8366,
	"eval_samples_per_second": 3.006,
	"eval_steps_per_second": 0.754,
	"step": 8900
	},
	{
	"epoch": 90.0,
	"learning_rate": 2.9999999999999997e-05,
	"loss": 0.0061,
	"step": 9000
	},
	{
	"epoch": 90.0,
	"eval_loss": 5.058474063873291,
	"eval_rouge1": 0.3820717972330683,
	"eval_rouge2": 0.2461904812224382,
	"eval_rougeL": 0.340562678348688,
	"eval_rougeLsum": 0.35149040221377614,
	"eval_runtime": 87.2966,
	"eval_samples_per_second": 3.059,
	"eval_steps_per_second": 0.767,
	"step": 9000
	},
	{
	"epoch": 91.0,
	"learning_rate": 2.6999999999999996e-05,
	"loss": 0.007,
	"step": 9100
	},
	{
	"epoch": 91.0,
	"eval_loss": 5.010220050811768,
	"eval_rouge1": 0.3844908418040261,
	"eval_rouge2": 0.25006688388196396,
	"eval_rougeL": 0.3429817235545874,
	"eval_rougeLsum": 0.35434878150140914,
	"eval_runtime": 79.8527,
	"eval_samples_per_second": 3.344,
	"eval_steps_per_second": 0.839,
	"step": 9100
	},
	{
	"epoch": 92.0,
	"learning_rate": 2.3999999999999997e-05,
	"loss": 0.0059,
	"step": 9200
	},
	{
	"epoch": 92.0,
	"eval_loss": 5.030458450317383,
	"eval_rouge1": 0.38284739488530695,
	"eval_rouge2": 0.2494251591428921,
	"eval_rougeL": 0.34146682998770905,
	"eval_rougeLsum": 0.3524988183011109,
	"eval_runtime": 86.6859,
	"eval_samples_per_second": 3.08,
	"eval_steps_per_second": 0.773,
	"step": 9200
	},
	{
	"epoch": 93.0,
	"learning_rate": 2.1e-05,
	"loss": 0.0066,
	"step": 9300
	},
	{
	"epoch": 93.0,
	"eval_loss": 4.984446048736572,
	"eval_rouge1": 0.38152251971542894,
	"eval_rouge2": 0.24878451374892646,
	"eval_rougeL": 0.3406473614314545,
	"eval_rougeLsum": 0.3513187114756059,
	"eval_runtime": 88.5244,
	"eval_samples_per_second": 3.016,
	"eval_steps_per_second": 0.757,
	"step": 9300
	},
	{
	"epoch": 94.0,
	"learning_rate": 1.7999999999999997e-05,
	"loss": 0.0058,
	"step": 9400
	},
	{
	"epoch": 94.0,
	"eval_loss": 4.990396022796631,
	"eval_rouge1": 0.3825136945109377,
	"eval_rouge2": 0.24843252471104438,
	"eval_rougeL": 0.3422545305896276,
	"eval_rougeLsum": 0.352581643511201,
	"eval_runtime": 85.262,
	"eval_samples_per_second": 3.132,
	"eval_steps_per_second": 0.786,
	"step": 9400
	},
	{
	"epoch": 95.0,
	"learning_rate": 1.4999999999999999e-05,
	"loss": 0.006,
	"step": 9500
	},
	{
	"epoch": 95.0,
	"eval_loss": 4.97911262512207,
	"eval_rouge1": 0.38343787306408117,
	"eval_rouge2": 0.24997418070032396,
	"eval_rougeL": 0.3422221622019714,
	"eval_rougeLsum": 0.35352360810152816,
	"eval_runtime": 81.5407,
	"eval_samples_per_second": 3.274,
	"eval_steps_per_second": 0.822,
	"step": 9500
	},
	{
	"epoch": 96.0,
	"learning_rate": 1.1999999999999999e-05,
	"loss": 0.0049,
	"step": 9600
	},
	{
	"epoch": 96.0,
	"eval_loss": 5.016595363616943,
	"eval_rouge1": 0.3837960479091025,
	"eval_rouge2": 0.24885786511102678,
	"eval_rougeL": 0.3424026645718613,
	"eval_rougeLsum": 0.35330084315799287,
	"eval_runtime": 88.6796,
	"eval_samples_per_second": 3.011,
	"eval_steps_per_second": 0.756,
	"step": 9600
	},
	{
	"epoch": 97.0,
	"learning_rate": 8.999999999999999e-06,
	"loss": 0.0054,
	"step": 9700
	},
	{
	"epoch": 97.0,
	"eval_loss": 5.0309343338012695,
	"eval_rouge1": 0.383180407064846,
	"eval_rouge2": 0.2500666839747965,
	"eval_rougeL": 0.3424454114218375,
	"eval_rougeLsum": 0.3533197372424365,
	"eval_runtime": 87.6124,
	"eval_samples_per_second": 3.048,
	"eval_steps_per_second": 0.765,
	"step": 9700
	},
	{
	"epoch": 98.0,
	"learning_rate": 5.999999999999999e-06,
	"loss": 0.0058,
	"step": 9800
	},
	{
	"epoch": 98.0,
	"eval_loss": 5.044477462768555,
	"eval_rouge1": 0.3841857746723203,
	"eval_rouge2": 0.2492668969413123,
	"eval_rougeL": 0.34243325874354047,
	"eval_rougeLsum": 0.3533788089951856,
	"eval_runtime": 88.7303,
	"eval_samples_per_second": 3.009,
	"eval_steps_per_second": 0.755,
	"step": 9800
	},
	{
	"epoch": 99.0,
	"learning_rate": 2.9999999999999997e-06,
	"loss": 0.0059,
	"step": 9900
	},
	{
	"epoch": 99.0,
	"eval_loss": 5.052584171295166,
	"eval_rouge1": 0.38395960024638665,
	"eval_rouge2": 0.2489015750324879,
	"eval_rougeL": 0.3410612103718015,
	"eval_rougeLsum": 0.3524355955865259,
	"eval_runtime": 84.3598,
	"eval_samples_per_second": 3.165,
	"eval_steps_per_second": 0.794,
	"step": 9900
	}
	],
	"max_steps": 10000,
	"num_train_epochs": 100,
	"total_flos": 3683373994819584.0,
	"trial_name": null,
	"trial_params": null
	}