Upload folder using huggingface_hub

8a04c02 verified about 1 month ago

46.4 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 8.596543209876543,
	"eval_steps": 256,
	"global_step": 17408,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.12641975308641976,
	"grad_norm": 0.49028417468070984,
	"learning_rate": 0.000498046875,
	"loss": 1.2244819402694702,
	"step": 256
	},
	{
	"epoch": 0.12641975308641976,
	"eval_bleu": 0.023714342494794382,
	"eval_loss": 1.1823350772625063,
	"eval_mse_loss": 1.1823350772625063,
	"step": 256
	},
	{
	"epoch": 0.12641975308641976,
	"eval_bleu": 0.023714342494794382,
	"eval_loss": 1.1823350772625063,
	"eval_mse_loss": 1.1823350772625063,
	"eval_runtime": 7.3875,
	"eval_samples_per_second": 354.383,
	"eval_steps_per_second": 5.55,
	"step": 256
	},
	{
	"epoch": 0.2528395061728395,
	"grad_norm": 0.578209638595581,
	"learning_rate": 0.000998046875,
	"loss": 1.1352403163909912,
	"step": 512
	},
	{
	"epoch": 0.2528395061728395,
	"eval_bleu": 0.022467213421973074,
	"eval_loss": 1.0758944168323423,
	"eval_mse_loss": 1.0758944168323423,
	"step": 512
	},
	{
	"epoch": 0.2528395061728395,
	"eval_bleu": 0.022467213421973074,
	"eval_loss": 1.0758944168323423,
	"eval_mse_loss": 1.0758944168323423,
	"eval_runtime": 7.512,
	"eval_samples_per_second": 348.51,
	"eval_steps_per_second": 5.458,
	"step": 512
	},
	{
	"epoch": 0.37925925925925924,
	"grad_norm": 1.1504969596862793,
	"learning_rate": 0.0009995882304697813,
	"loss": 1.0155020952224731,
	"step": 768
	},
	{
	"epoch": 0.37925925925925924,
	"eval_bleu": 0.03303487719486685,
	"eval_loss": 0.9521724465416699,
	"eval_mse_loss": 0.9521724465416699,
	"step": 768
	},
	{
	"epoch": 0.37925925925925924,
	"eval_bleu": 0.03303487719486685,
	"eval_loss": 0.9521724465416699,
	"eval_mse_loss": 0.9521724465416699,
	"eval_runtime": 7.3269,
	"eval_samples_per_second": 357.313,
	"eval_steps_per_second": 5.596,
	"step": 768
	},
	{
	"epoch": 0.505679012345679,
	"grad_norm": 0.9992234706878662,
	"learning_rate": 0.0009983471408586747,
	"loss": 0.9070967435836792,
	"step": 1024
	},
	{
	"epoch": 0.505679012345679,
	"eval_bleu": 0.05283670615976002,
	"eval_loss": 0.8704100134896069,
	"eval_mse_loss": 0.8704100134896069,
	"step": 1024
	},
	{
	"epoch": 0.505679012345679,
	"eval_bleu": 0.05283670615976002,
	"eval_loss": 0.8704100134896069,
	"eval_mse_loss": 0.8704100134896069,
	"eval_runtime": 7.9933,
	"eval_samples_per_second": 327.523,
	"eval_steps_per_second": 5.129,
	"step": 1024
	},
	{
	"epoch": 0.6320987654320988,
	"grad_norm": 0.931308925151825,
	"learning_rate": 0.000996278785066807,
	"loss": 0.8445582389831543,
	"step": 1280
	},
	{
	"epoch": 0.6320987654320988,
	"eval_bleu": 0.062080457666779255,
	"eval_loss": 0.8229870461836094,
	"eval_mse_loss": 0.8229870461836094,
	"step": 1280
	},
	{
	"epoch": 0.6320987654320988,
	"eval_bleu": 0.062080457666779255,
	"eval_loss": 0.8229870461836094,
	"eval_mse_loss": 0.8229870461836094,
	"eval_runtime": 8.2397,
	"eval_samples_per_second": 317.731,
	"eval_steps_per_second": 4.976,
	"step": 1280
	},
	{
	"epoch": 0.7585185185185185,
	"grad_norm": 1.1758294105529785,
	"learning_rate": 0.0009933865966059944,
	"loss": 0.7974789142608643,
	"step": 1536
	},
	{
	"epoch": 0.7585185185185185,
	"eval_bleu": 0.08761458974204005,
	"eval_loss": 0.7755879759788513,
	"eval_mse_loss": 0.7755879759788513,
	"step": 1536
	},
	{
	"epoch": 0.7585185185185185,
	"eval_bleu": 0.08761458974204005,
	"eval_loss": 0.7755879759788513,
	"eval_mse_loss": 0.7755879759788513,
	"eval_runtime": 7.2349,
	"eval_samples_per_second": 361.856,
	"eval_steps_per_second": 5.667,
	"step": 1536
	},
	{
	"epoch": 0.8849382716049383,
	"grad_norm": 1.6121838092803955,
	"learning_rate": 0.0009896753765666925,
	"loss": 0.7649396657943726,
	"step": 1792
	},
	{
	"epoch": 0.8849382716049383,
	"eval_bleu": 0.09849079764244906,
	"eval_loss": 0.7508636625801645,
	"eval_mse_loss": 0.7508636625801645,
	"step": 1792
	},
	{
	"epoch": 0.8849382716049383,
	"eval_bleu": 0.09849079764244906,
	"eval_loss": 0.7508636625801645,
	"eval_mse_loss": 0.7508636625801645,
	"eval_runtime": 7.7694,
	"eval_samples_per_second": 336.963,
	"eval_steps_per_second": 5.277,
	"step": 1792
	},
	{
	"epoch": 1.011358024691358,
	"grad_norm": 1.966202974319458,
	"learning_rate": 0.0009851512856480936,
	"loss": 0.7395287156105042,
	"step": 2048
	},
	{
	"epoch": 1.011358024691358,
	"eval_bleu": 0.11072005270411464,
	"eval_loss": 0.7292228166649981,
	"eval_mse_loss": 0.7292228166649981,
	"step": 2048
	},
	{
	"epoch": 1.011358024691358,
	"eval_bleu": 0.11072005270411464,
	"eval_loss": 0.7292228166649981,
	"eval_mse_loss": 0.7292228166649981,
	"eval_runtime": 7.9736,
	"eval_samples_per_second": 328.334,
	"eval_steps_per_second": 5.142,
	"step": 2048
	},
	{
	"epoch": 1.1377777777777778,
	"grad_norm": 1.720017433166504,
	"learning_rate": 0.0009798218339312412,
	"loss": 0.7159179449081421,
	"step": 2304
	},
	{
	"epoch": 1.1377777777777778,
	"eval_bleu": 0.11064736251702126,
	"eval_loss": 0.7017144793417396,
	"eval_mse_loss": 0.7017144793417396,
	"step": 2304
	},
	{
	"epoch": 1.1377777777777778,
	"eval_bleu": 0.11064736251702126,
	"eval_loss": 0.7017144793417396,
	"eval_mse_loss": 0.7017144793417396,
	"eval_runtime": 7.2741,
	"eval_samples_per_second": 359.908,
	"eval_steps_per_second": 5.636,
	"step": 2304
	},
	{
	"epoch": 1.2641975308641975,
	"grad_norm": 1.0777727365493774,
	"learning_rate": 0.0009736958684121462,
	"loss": 0.6964433789253235,
	"step": 2560
	},
	{
	"epoch": 1.2641975308641975,
	"eval_bleu": 0.1276517391343738,
	"eval_loss": 0.6854300062830855,
	"eval_mse_loss": 0.6854300062830855,
	"step": 2560
	},
	{
	"epoch": 1.2641975308641975,
	"eval_bleu": 0.1276517391343738,
	"eval_loss": 0.6854300062830855,
	"eval_mse_loss": 0.6854300062830855,
	"eval_runtime": 7.5038,
	"eval_samples_per_second": 348.888,
	"eval_steps_per_second": 5.464,
	"step": 2560
	},
	{
	"epoch": 1.3906172839506172,
	"grad_norm": 2.31036639213562,
	"learning_rate": 0.0009667835583155982,
	"loss": 0.6787664890289307,
	"step": 2816
	},
	{
	"epoch": 1.3906172839506172,
	"eval_bleu": 0.14606448546092324,
	"eval_loss": 0.6666799565640892,
	"eval_mse_loss": 0.6666799565640892,
	"step": 2816
	},
	{
	"epoch": 1.3906172839506172,
	"eval_bleu": 0.14606448546092324,
	"eval_loss": 0.6666799565640892,
	"eval_mse_loss": 0.6666799565640892,
	"eval_runtime": 8.1414,
	"eval_samples_per_second": 321.565,
	"eval_steps_per_second": 5.036,
	"step": 2816
	},
	{
	"epoch": 1.5170370370370372,
	"grad_norm": 1.8440918922424316,
	"learning_rate": 0.0009590963782140483,
	"loss": 0.6634169220924377,
	"step": 3072
	},
	{
	"epoch": 1.5170370370370372,
	"eval_bleu": 0.14900832500200872,
	"eval_loss": 0.6537455029603911,
	"eval_mse_loss": 0.6537455029603911,
	"step": 3072
	},
	{
	"epoch": 1.5170370370370372,
	"eval_bleu": 0.14900832500200872,
	"eval_loss": 0.6537455029603911,
	"eval_mse_loss": 0.6537455029603911,
	"eval_runtime": 8.5409,
	"eval_samples_per_second": 306.525,
	"eval_steps_per_second": 4.8,
	"step": 3072
	},
	{
	"epoch": 1.643456790123457,
	"grad_norm": 2.082489013671875,
	"learning_rate": 0.0009506470889795917,
	"loss": 0.6479848027229309,
	"step": 3328
	},
	{
	"epoch": 1.643456790123457,
	"eval_bleu": 0.15870707580244742,
	"eval_loss": 0.6412253728727015,
	"eval_mse_loss": 0.6412253728727015,
	"step": 3328
	},
	{
	"epoch": 1.643456790123457,
	"eval_bleu": 0.15870707580244742,
	"eval_loss": 0.6412253728727015,
	"eval_mse_loss": 0.6412253728727015,
	"eval_runtime": 7.43,
	"eval_samples_per_second": 352.355,
	"eval_steps_per_second": 5.518,
	"step": 3328
	},
	{
	"epoch": 1.7698765432098766,
	"grad_norm": 2.5578348636627197,
	"learning_rate": 0.0009414497166006652,
	"loss": 0.6374112963676453,
	"step": 3584
	},
	{
	"epoch": 1.7698765432098766,
	"eval_bleu": 0.16517790474378305,
	"eval_loss": 0.6340285481476202,
	"eval_mse_loss": 0.6340285481476202,
	"step": 3584
	},
	{
	"epoch": 1.7698765432098766,
	"eval_bleu": 0.16517790474378305,
	"eval_loss": 0.6340285481476202,
	"eval_mse_loss": 0.6340285481476202,
	"eval_runtime": 7.8092,
	"eval_samples_per_second": 335.246,
	"eval_steps_per_second": 5.25,
	"step": 3584
	},
	{
	"epoch": 1.8962962962962964,
	"grad_norm": 1.9383974075317383,
	"learning_rate": 0.0009315195288986269,
	"loss": 0.623887836933136,
	"step": 3840
	},
	{
	"epoch": 1.8962962962962964,
	"eval_bleu": 0.17847564897785617,
	"eval_loss": 0.6204298661976326,
	"eval_mse_loss": 0.6204298661976326,
	"step": 3840
	},
	{
	"epoch": 1.8962962962962964,
	"eval_bleu": 0.17847564897785617,
	"eval_loss": 0.6204298661976326,
	"eval_mse_loss": 0.6204298661976326,
	"eval_runtime": 7.8808,
	"eval_samples_per_second": 332.2,
	"eval_steps_per_second": 5.203,
	"step": 3840
	},
	{
	"epoch": 2.022716049382716,
	"grad_norm": 2.074370861053467,
	"learning_rate": 0.0009208730101828687,
	"loss": 0.612588107585907,
	"step": 4096
	},
	{
	"epoch": 2.022716049382716,
	"eval_bleu": 0.20019494813992078,
	"eval_loss": 0.6014744639396667,
	"eval_mse_loss": 0.6014744639396667,
	"step": 4096
	},
	{
	"epoch": 2.022716049382716,
	"eval_bleu": 0.20019494813992078,
	"eval_loss": 0.6014744639396667,
	"eval_mse_loss": 0.6014744639396667,
	"eval_runtime": 8.3023,
	"eval_samples_per_second": 315.333,
	"eval_steps_per_second": 4.938,
	"step": 4096
	},
	{
	"epoch": 2.149135802469136,
	"grad_norm": 2.1671674251556396,
	"learning_rate": 0.0009095278338865343,
	"loss": 0.5997830629348755,
	"step": 4352
	},
	{
	"epoch": 2.149135802469136,
	"eval_bleu": 0.1987893921535938,
	"eval_loss": 0.5986893453249117,
	"eval_mse_loss": 0.5986893453249117,
	"step": 4352
	},
	{
	"epoch": 2.149135802469136,
	"eval_bleu": 0.1987893921535938,
	"eval_loss": 0.5986893453249117,
	"eval_mse_loss": 0.5986893453249117,
	"eval_runtime": 7.4027,
	"eval_samples_per_second": 353.653,
	"eval_steps_per_second": 5.538,
	"step": 4352
	},
	{
	"epoch": 2.2755555555555556,
	"grad_norm": 3.125169038772583,
	"learning_rate": 0.0008975028332282684,
	"loss": 0.5991740822792053,
	"step": 4608
	},
	{
	"epoch": 2.2755555555555556,
	"eval_bleu": 0.20658330468877353,
	"eval_loss": 0.6155260525098661,
	"eval_mse_loss": 0.6155260525098661,
	"step": 4608
	},
	{
	"epoch": 2.2755555555555556,
	"eval_bleu": 0.20658330468877353,
	"eval_loss": 0.6155260525098661,
	"eval_mse_loss": 0.6155260525098661,
	"eval_runtime": 7.4818,
	"eval_samples_per_second": 349.915,
	"eval_steps_per_second": 5.48,
	"step": 4608
	},
	{
	"epoch": 2.4019753086419753,
	"grad_norm": 4.6324992179870605,
	"learning_rate": 0.0008848179699486985,
	"loss": 0.6436169147491455,
	"step": 4864
	},
	{
	"epoch": 2.4019753086419753,
	"eval_bleu": 0.19786110402686427,
	"eval_loss": 0.6434223041301821,
	"eval_mse_loss": 0.6434223041301821,
	"step": 4864
	},
	{
	"epoch": 2.4019753086419753,
	"eval_bleu": 0.19786110402686427,
	"eval_loss": 0.6434223041301821,
	"eval_mse_loss": 0.6434223041301821,
	"eval_runtime": 8.06,
	"eval_samples_per_second": 324.813,
	"eval_steps_per_second": 5.087,
	"step": 4864
	},
	{
	"epoch": 2.528395061728395,
	"grad_norm": 4.647606372833252,
	"learning_rate": 0.0008714943011735476,
	"loss": 0.6646981239318848,
	"step": 5120
	},
	{
	"epoch": 2.528395061728395,
	"eval_bleu": 0.17652369495305426,
	"eval_loss": 0.6581660363732315,
	"eval_mse_loss": 0.6581660363732315,
	"step": 5120
	},
	{
	"epoch": 2.528395061728395,
	"eval_bleu": 0.17652369495305426,
	"eval_loss": 0.6581660363732315,
	"eval_mse_loss": 0.6581660363732315,
	"eval_runtime": 8.4642,
	"eval_samples_per_second": 309.304,
	"eval_steps_per_second": 4.844,
	"step": 5120
	},
	{
	"epoch": 2.6548148148148147,
	"grad_norm": 4.655036926269531,
	"learning_rate": 0.000857553944458386,
	"loss": 0.670133650302887,
	"step": 5376
	},
	{
	"epoch": 2.6548148148148147,
	"eval_bleu": 0.16665801459747773,
	"eval_loss": 0.6649525950594646,
	"eval_mse_loss": 0.6649525950594646,
	"step": 5376
	},
	{
	"epoch": 2.6548148148148147,
	"eval_bleu": 0.16665801459747773,
	"eval_loss": 0.6649525950594646,
	"eval_mse_loss": 0.6649525950594646,
	"eval_runtime": 7.3082,
	"eval_samples_per_second": 358.23,
	"eval_steps_per_second": 5.61,
	"step": 5376
	},
	{
	"epoch": 2.7812345679012345,
	"grad_norm": 6.748809814453125,
	"learning_rate": 0.000843020041073049,
	"loss": 0.6625139117240906,
	"step": 5632
	},
	{
	"epoch": 2.7812345679012345,
	"eval_bleu": 0.173997037607852,
	"eval_loss": 0.6807852968937014,
	"eval_mse_loss": 0.6807852968937014,
	"step": 5632
	},
	{
	"epoch": 2.7812345679012345,
	"eval_bleu": 0.173997037607852,
	"eval_loss": 0.6807852968937014,
	"eval_mse_loss": 0.6807852968937014,
	"eval_runtime": 7.5532,
	"eval_samples_per_second": 346.607,
	"eval_steps_per_second": 5.428,
	"step": 5632
	},
	{
	"epoch": 2.907654320987654,
	"grad_norm": 4.406154632568359,
	"learning_rate": 0.0008279167175866678,
	"loss": 0.6519719958305359,
	"step": 5888
	},
	{
	"epoch": 2.907654320987654,
	"eval_bleu": 0.19570266564584513,
	"eval_loss": 0.6394063074414323,
	"eval_mse_loss": 0.6394063074414323,
	"step": 5888
	},
	{
	"epoch": 2.907654320987654,
	"eval_bleu": 0.19570266564584513,
	"eval_loss": 0.6394063074414323,
	"eval_mse_loss": 0.6394063074414323,
	"eval_runtime": 7.9229,
	"eval_samples_per_second": 330.434,
	"eval_steps_per_second": 5.175,
	"step": 5888
	},
	{
	"epoch": 3.034074074074074,
	"grad_norm": 4.702131271362305,
	"learning_rate": 0.0008122690458170833,
	"loss": 0.6394258737564087,
	"step": 6144
	},
	{
	"epoch": 3.034074074074074,
	"eval_bleu": 0.18025210346558498,
	"eval_loss": 0.6386287488588472,
	"eval_mse_loss": 0.6386287488588472,
	"step": 6144
	},
	{
	"epoch": 3.034074074074074,
	"eval_bleu": 0.18025210346558498,
	"eval_loss": 0.6386287488588472,
	"eval_mse_loss": 0.6386287488588472,
	"eval_runtime": 8.212,
	"eval_samples_per_second": 318.804,
	"eval_steps_per_second": 4.993,
	"step": 6144
	},
	{
	"epoch": 3.1604938271604937,
	"grad_norm": 3.3306374549865723,
	"learning_rate": 0.0007961030012111305,
	"loss": 0.6313198208808899,
	"step": 6400
	},
	{
	"epoch": 3.1604938271604937,
	"eval_bleu": 0.19600803362588348,
	"eval_loss": 0.6227354814366597,
	"eval_mse_loss": 0.6227354814366597,
	"step": 6400
	},
	{
	"epoch": 3.1604938271604937,
	"eval_bleu": 0.19600803362588348,
	"eval_loss": 0.6227354814366597,
	"eval_mse_loss": 0.6227354814366597,
	"eval_runtime": 7.9462,
	"eval_samples_per_second": 329.467,
	"eval_steps_per_second": 5.16,
	"step": 6400
	},
	{
	"epoch": 3.286913580246914,
	"grad_norm": 4.519600868225098,
	"learning_rate": 0.0007794454197248784,
	"loss": 0.6270281672477722,
	"step": 6656
	},
	{
	"epoch": 3.286913580246914,
	"eval_bleu": 0.21406015637359221,
	"eval_loss": 0.6298785456796971,
	"eval_mse_loss": 0.6298785456796971,
	"step": 6656
	},
	{
	"epoch": 3.286913580246914,
	"eval_bleu": 0.21406015637359221,
	"eval_loss": 0.6298785456796971,
	"eval_mse_loss": 0.6298785456796971,
	"eval_runtime": 7.1729,
	"eval_samples_per_second": 364.985,
	"eval_steps_per_second": 5.716,
	"step": 6656
	},
	{
	"epoch": 3.413333333333333,
	"grad_norm": 4.557300090789795,
	"learning_rate": 0.0007623239532754083,
	"loss": 0.6133501529693604,
	"step": 6912
	},
	{
	"epoch": 3.413333333333333,
	"eval_bleu": 0.21008851882230098,
	"eval_loss": 0.6231076019566234,
	"eval_mse_loss": 0.6231076019566234,
	"step": 6912
	},
	{
	"epoch": 3.413333333333333,
	"eval_bleu": 0.21008851882230098,
	"eval_loss": 0.6231076019566234,
	"eval_mse_loss": 0.6231076019566234,
	"eval_runtime": 7.9356,
	"eval_samples_per_second": 329.904,
	"eval_steps_per_second": 5.167,
	"step": 6912
	},
	{
	"epoch": 3.5397530864197533,
	"grad_norm": 4.322099208831787,
	"learning_rate": 0.0007447670238380815,
	"loss": 0.6112697720527649,
	"step": 7168
	},
	{
	"epoch": 3.5397530864197533,
	"eval_bleu": 0.2060799623946906,
	"eval_loss": 0.6111486045325675,
	"eval_mse_loss": 0.6111486045325675,
	"step": 7168
	},
	{
	"epoch": 3.5397530864197533,
	"eval_bleu": 0.2060799623946906,
	"eval_loss": 0.6111486045325675,
	"eval_mse_loss": 0.6111486045325675,
	"eval_runtime": 8.1866,
	"eval_samples_per_second": 319.793,
	"eval_steps_per_second": 5.008,
	"step": 7168
	},
	{
	"epoch": 3.6661728395061726,
	"grad_norm": 4.115531921386719,
	"learning_rate": 0.0007268037762654929,
	"loss": 0.6039376854896545,
	"step": 7424
	},
	{
	"epoch": 3.6661728395061726,
	"eval_bleu": 0.21503632161601938,
	"eval_loss": 0.6128283637325939,
	"eval_mse_loss": 0.6128283637325939,
	"step": 7424
	},
	{
	"epoch": 3.6661728395061726,
	"eval_bleu": 0.21503632161601938,
	"eval_loss": 0.6128283637325939,
	"eval_mse_loss": 0.6128283637325939,
	"eval_runtime": 8.2856,
	"eval_samples_per_second": 315.97,
	"eval_steps_per_second": 4.948,
	"step": 7424
	},
	{
	"epoch": 3.7925925925925927,
	"grad_norm": 4.654777526855469,
	"learning_rate": 0.0007084640299064357,
	"loss": 0.5996431708335876,
	"step": 7680
	},
	{
	"epoch": 3.7925925925925927,
	"eval_bleu": 0.22869408936536856,
	"eval_loss": 0.5915597095722105,
	"eval_mse_loss": 0.5915597095722105,
	"step": 7680
	},
	{
	"epoch": 3.7925925925925927,
	"eval_bleu": 0.22869408936536856,
	"eval_loss": 0.5915597095722105,
	"eval_mse_loss": 0.5915597095722105,
	"eval_runtime": 8.2255,
	"eval_samples_per_second": 318.278,
	"eval_steps_per_second": 4.984,
	"step": 7680
	},
	{
	"epoch": 3.9190123456790125,
	"grad_norm": 3.9882354736328125,
	"learning_rate": 0.0006897782291051889,
	"loss": 0.5931000709533691,
	"step": 7936
	},
	{
	"epoch": 3.9190123456790125,
	"eval_bleu": 0.2349496066220062,
	"eval_loss": 0.5926558040991062,
	"eval_mse_loss": 0.5926558040991062,
	"step": 7936
	},
	{
	"epoch": 3.9190123456790125,
	"eval_bleu": 0.2349496066220062,
	"eval_loss": 0.5926558040991062,
	"eval_mse_loss": 0.5926558040991062,
	"eval_runtime": 8.1758,
	"eval_samples_per_second": 320.212,
	"eval_steps_per_second": 5.015,
	"step": 7936
	},
	{
	"epoch": 4.045432098765432,
	"grad_norm": 4.266123294830322,
	"learning_rate": 0.000670777392663298,
	"loss": 0.5860158205032349,
	"step": 8192
	},
	{
	"epoch": 4.045432098765432,
	"eval_bleu": 0.25634671575676854,
	"eval_loss": 0.5731269004868298,
	"eval_mse_loss": 0.5731269004868298,
	"step": 8192
	},
	{
	"epoch": 4.045432098765432,
	"eval_bleu": 0.25634671575676854,
	"eval_loss": 0.5731269004868298,
	"eval_mse_loss": 0.5731269004868298,
	"eval_runtime": 7.4662,
	"eval_samples_per_second": 350.648,
	"eval_steps_per_second": 5.491,
	"step": 8192
	},
	{
	"epoch": 4.1718518518518515,
	"grad_norm": 5.411952018737793,
	"learning_rate": 0.0006514930623477486,
	"loss": 0.5818273425102234,
	"step": 8448
	},
	{
	"epoch": 4.1718518518518515,
	"eval_bleu": 0.2520441554433453,
	"eval_loss": 0.5782059794519006,
	"eval_mse_loss": 0.5782059794519006,
	"step": 8448
	},
	{
	"epoch": 4.1718518518518515,
	"eval_bleu": 0.2520441554433453,
	"eval_loss": 0.5782059794519006,
	"eval_mse_loss": 0.5782059794519006,
	"eval_runtime": 7.4057,
	"eval_samples_per_second": 353.512,
	"eval_steps_per_second": 5.536,
	"step": 8448
	},
	{
	"epoch": 4.298271604938272,
	"grad_norm": 3.5435891151428223,
	"learning_rate": 0.0006319572505310022,
	"loss": 0.5773241519927979,
	"step": 8704
	},
	{
	"epoch": 4.298271604938272,
	"eval_bleu": 0.2534190472706376,
	"eval_loss": 0.5589999033183586,
	"eval_mse_loss": 0.5589999033183586,
	"step": 8704
	},
	{
	"epoch": 4.298271604938272,
	"eval_bleu": 0.2534190472706376,
	"eval_loss": 0.5589999033183586,
	"eval_mse_loss": 0.5589999033183586,
	"eval_runtime": 7.7623,
	"eval_samples_per_second": 337.273,
	"eval_steps_per_second": 5.282,
	"step": 8704
	},
	{
	"epoch": 4.424691358024692,
	"grad_norm": 3.660297155380249,
	"learning_rate": 0.000612202387049823,
	"loss": 0.5752817988395691,
	"step": 8960
	},
	{
	"epoch": 4.424691358024692,
	"eval_bleu": 0.25405581690850026,
	"eval_loss": 0.5717670982930718,
	"eval_mse_loss": 0.5717670982930718,
	"step": 8960
	},
	{
	"epoch": 4.424691358024692,
	"eval_bleu": 0.25405581690850026,
	"eval_loss": 0.5717670982930718,
	"eval_mse_loss": 0.5717670982930718,
	"eval_runtime": 8.0671,
	"eval_samples_per_second": 324.527,
	"eval_steps_per_second": 5.082,
	"step": 8960
	},
	{
	"epoch": 4.551111111111111,
	"grad_norm": 4.61627197265625,
	"learning_rate": 0.0005922612653711009,
	"loss": 0.5677421689033508,
	"step": 9216
	},
	{
	"epoch": 4.551111111111111,
	"eval_bleu": 0.2616680879763428,
	"eval_loss": 0.5714971786592065,
	"eval_mse_loss": 0.5714971786592065,
	"step": 9216
	},
	{
	"epoch": 4.551111111111111,
	"eval_bleu": 0.2616680879763428,
	"eval_loss": 0.5714971786592065,
	"eval_mse_loss": 0.5714971786592065,
	"eval_runtime": 8.2747,
	"eval_samples_per_second": 316.384,
	"eval_steps_per_second": 4.955,
	"step": 9216
	},
	{
	"epoch": 4.67753086419753,
	"grad_norm": 4.289632797241211,
	"learning_rate": 0.0005721669881540442,
	"loss": 0.5655048489570618,
	"step": 9472
	},
	{
	"epoch": 4.67753086419753,
	"eval_bleu": 0.27326453853008387,
	"eval_loss": 0.5655288245619797,
	"eval_mse_loss": 0.5655288245619797,
	"step": 9472
	},
	{
	"epoch": 4.67753086419753,
	"eval_bleu": 0.27326453853008387,
	"eval_loss": 0.5655288245619797,
	"eval_mse_loss": 0.5655288245619797,
	"eval_runtime": 8.1079,
	"eval_samples_per_second": 322.895,
	"eval_steps_per_second": 5.057,
	"step": 9472
	},
	{
	"epoch": 4.803950617283951,
	"grad_norm": 4.95919132232666,
	"learning_rate": 0.0005519529122991056,
	"loss": 0.5713540315628052,
	"step": 9728
	},
	{
	"epoch": 4.803950617283951,
	"eval_bleu": 0.2627683773991363,
	"eval_loss": 0.5628622283295888,
	"eval_mse_loss": 0.5628622283295888,
	"step": 9728
	},
	{
	"epoch": 4.803950617283951,
	"eval_bleu": 0.2627683773991363,
	"eval_loss": 0.5628622283295888,
	"eval_mse_loss": 0.5628622283295888,
	"eval_runtime": 7.9584,
	"eval_samples_per_second": 328.962,
	"eval_steps_per_second": 5.152,
	"step": 9728
	},
	{
	"epoch": 4.930370370370371,
	"grad_norm": 6.370813369750977,
	"learning_rate": 0.0005316525935748631,
	"loss": 0.5834425687789917,
	"step": 9984
	},
	{
	"epoch": 4.930370370370371,
	"eval_bleu": 0.26641828019601,
	"eval_loss": 0.5816229349229394,
	"eval_mse_loss": 0.5816229349229394,
	"step": 9984
	},
	{
	"epoch": 4.930370370370371,
	"eval_bleu": 0.26641828019601,
	"eval_loss": 0.5816229349229394,
	"eval_mse_loss": 0.5816229349229394,
	"eval_runtime": 7.1012,
	"eval_samples_per_second": 368.672,
	"eval_steps_per_second": 5.774,
	"step": 9984
	},
	{
	"epoch": 5.05679012345679,
	"grad_norm": 6.872233867645264,
	"learning_rate": 0.0005112997309147753,
	"loss": 0.5829513669013977,
	"step": 10240
	},
	{
	"epoch": 5.05679012345679,
	"eval_bleu": 0.2556546592309415,
	"eval_loss": 0.5965675159198481,
	"eval_mse_loss": 0.5965675159198481,
	"step": 10240
	},
	{
	"epoch": 5.05679012345679,
	"eval_bleu": 0.2556546592309415,
	"eval_loss": 0.5965675159198481,
	"eval_mse_loss": 0.5965675159198481,
	"eval_runtime": 7.6184,
	"eval_samples_per_second": 343.643,
	"eval_steps_per_second": 5.382,
	"step": 10240
	},
	{
	"epoch": 5.18320987654321,
	"grad_norm": 6.554806232452393,
	"learning_rate": 0.0004909281104762817,
	"loss": 0.5979596376419067,
	"step": 10496
	},
	{
	"epoch": 5.18320987654321,
	"eval_bleu": 0.24496216459175849,
	"eval_loss": 0.5925210903330547,
	"eval_mse_loss": 0.5925210903330547,
	"step": 10496
	},
	{
	"epoch": 5.18320987654321,
	"eval_bleu": 0.24496216459175849,
	"eval_loss": 0.5925210903330547,
	"eval_mse_loss": 0.5925210903330547,
	"eval_runtime": 8.1186,
	"eval_samples_per_second": 322.468,
	"eval_steps_per_second": 5.05,
	"step": 10496
	},
	{
	"epoch": 5.3096296296296295,
	"grad_norm": 8.099956512451172,
	"learning_rate": 0.0004705715495551068,
	"loss": 0.5981637835502625,
	"step": 10752
	},
	{
	"epoch": 5.3096296296296295,
	"eval_bleu": 0.24892557597714382,
	"eval_loss": 0.6025734194895116,
	"eval_mse_loss": 0.6025734194895116,
	"step": 10752
	},
	{
	"epoch": 5.3096296296296295,
	"eval_bleu": 0.24892557597714382,
	"eval_loss": 0.6025734194895116,
	"eval_mse_loss": 0.6025734194895116,
	"eval_runtime": 8.3839,
	"eval_samples_per_second": 312.265,
	"eval_steps_per_second": 4.89,
	"step": 10752
	},
	{
	"epoch": 5.43604938271605,
	"grad_norm": 6.063875675201416,
	"learning_rate": 0.00045026384044787715,
	"loss": 0.600553572177887,
	"step": 11008
	},
	{
	"epoch": 5.43604938271605,
	"eval_bleu": 0.2584749312819124,
	"eval_loss": 0.5978762725504433,
	"eval_mse_loss": 0.5978762725504433,
	"step": 11008
	},
	{
	"epoch": 5.43604938271605,
	"eval_bleu": 0.2584749312819124,
	"eval_loss": 0.5978762725504433,
	"eval_mse_loss": 0.5978762725504433,
	"eval_runtime": 8.4473,
	"eval_samples_per_second": 309.921,
	"eval_steps_per_second": 4.854,
	"step": 11008
	},
	{
	"epoch": 5.562469135802469,
	"grad_norm": 6.819189071655273,
	"learning_rate": 0.0004300386943562342,
	"loss": 0.6050165891647339,
	"step": 11264
	},
	{
	"epoch": 5.562469135802469,
	"eval_bleu": 0.23936172268263006,
	"eval_loss": 0.6197842156014791,
	"eval_mse_loss": 0.6197842156014791,
	"step": 11264
	},
	{
	"epoch": 5.562469135802469,
	"eval_bleu": 0.23936172268263006,
	"eval_loss": 0.6197842156014791,
	"eval_mse_loss": 0.6197842156014791,
	"eval_runtime": 7.275,
	"eval_samples_per_second": 359.864,
	"eval_steps_per_second": 5.636,
	"step": 11264
	},
	{
	"epoch": 5.688888888888889,
	"grad_norm": 8.074504852294922,
	"learning_rate": 0.0004099296854255696,
	"loss": 0.6032764315605164,
	"step": 11520
	},
	{
	"epoch": 5.688888888888889,
	"eval_bleu": 0.2563038856939558,
	"eval_loss": 0.5922774854229718,
	"eval_mse_loss": 0.5922774854229718,
	"step": 11520
	},
	{
	"epoch": 5.688888888888889,
	"eval_bleu": 0.2563038856939558,
	"eval_loss": 0.5922774854229718,
	"eval_mse_loss": 0.5922774854229718,
	"eval_runtime": 7.7562,
	"eval_samples_per_second": 337.535,
	"eval_steps_per_second": 5.286,
	"step": 11520
	},
	{
	"epoch": 5.815308641975308,
	"grad_norm": 7.949519157409668,
	"learning_rate": 0.00038997019501127406,
	"loss": 0.5983560681343079,
	"step": 11776
	},
	{
	"epoch": 5.815308641975308,
	"eval_bleu": 0.25476493381302434,
	"eval_loss": 0.6024370585999838,
	"eval_mse_loss": 0.6024370585999838,
	"step": 11776
	},
	{
	"epoch": 5.815308641975308,
	"eval_bleu": 0.25476493381302434,
	"eval_loss": 0.6024370585999838,
	"eval_mse_loss": 0.6024370585999838,
	"eval_runtime": 7.9866,
	"eval_samples_per_second": 327.799,
	"eval_steps_per_second": 5.134,
	"step": 11776
	},
	{
	"epoch": 5.941728395061729,
	"grad_norm": 7.21051025390625,
	"learning_rate": 0.00037019335626502263,
	"loss": 0.5926205515861511,
	"step": 12032
	},
	{
	"epoch": 5.941728395061729,
	"eval_bleu": 0.2579463063130564,
	"eval_loss": 0.5958762241572868,
	"eval_mse_loss": 0.5958762241572868,
	"step": 12032
	},
	{
	"epoch": 5.941728395061729,
	"eval_bleu": 0.2579463063130564,
	"eval_loss": 0.5958762241572868,
	"eval_mse_loss": 0.5958762241572868,
	"eval_runtime": 8.1465,
	"eval_samples_per_second": 321.364,
	"eval_steps_per_second": 5.033,
	"step": 12032
	},
	{
	"epoch": 6.068148148148148,
	"grad_norm": 6.125677108764648,
	"learning_rate": 0.0003506319991330833,
	"loss": 0.5896713137626648,
	"step": 12288
	},
	{
	"epoch": 6.068148148148148,
	"eval_bleu": 0.2633499094850468,
	"eval_loss": 0.5901360758920995,
	"eval_mse_loss": 0.5901360758920995,
	"step": 12288
	},
	{
	"epoch": 6.068148148148148,
	"eval_bleu": 0.2633499094850468,
	"eval_loss": 0.5901360758920995,
	"eval_mse_loss": 0.5901360758920995,
	"eval_runtime": 7.4076,
	"eval_samples_per_second": 353.421,
	"eval_steps_per_second": 5.535,
	"step": 12288
	},
	{
	"epoch": 6.194567901234568,
	"grad_norm": 8.257464408874512,
	"learning_rate": 0.00033131859585795183,
	"loss": 0.5833750367164612,
	"step": 12544
	},
	{
	"epoch": 6.194567901234568,
	"eval_bleu": 0.2632131293368136,
	"eval_loss": 0.5901335754045626,
	"eval_mse_loss": 0.5901335754045626,
	"step": 12544
	},
	{
	"epoch": 6.194567901234568,
	"eval_bleu": 0.2632131293368136,
	"eval_loss": 0.5901335754045626,
	"eval_mse_loss": 0.5901335754045626,
	"eval_runtime": 7.4243,
	"eval_samples_per_second": 352.625,
	"eval_steps_per_second": 5.522,
	"step": 12544
	},
	{
	"epoch": 6.320987654320987,
	"grad_norm": 4.863134384155273,
	"learning_rate": 0.0003122852070737825,
	"loss": 0.581442654132843,
	"step": 12800
	},
	{
	"epoch": 6.320987654320987,
	"eval_bleu": 0.26764936587915455,
	"eval_loss": 0.5768222677998427,
	"eval_mse_loss": 0.5768222677998427,
	"step": 12800
	},
	{
	"epoch": 6.320987654320987,
	"eval_bleu": 0.26764936587915455,
	"eval_loss": 0.5768222677998427,
	"eval_mse_loss": 0.5768222677998427,
	"eval_runtime": 7.9069,
	"eval_samples_per_second": 331.105,
	"eval_steps_per_second": 5.185,
	"step": 12800
	},
	{
	"epoch": 6.4474074074074075,
	"grad_norm": 8.697264671325684,
	"learning_rate": 0.00029356342858509677,
	"loss": 0.5772220492362976,
	"step": 13056
	},
	{
	"epoch": 6.4474074074074075,
	"eval_bleu": 0.27568777700132663,
	"eval_loss": 0.584543146738192,
	"eval_mse_loss": 0.584543146738192,
	"step": 13056
	},
	{
	"epoch": 6.4474074074074075,
	"eval_bleu": 0.27568777700132663,
	"eval_loss": 0.584543146738192,
	"eval_mse_loss": 0.584543146738192,
	"eval_runtime": 8.0062,
	"eval_samples_per_second": 326.995,
	"eval_steps_per_second": 5.121,
	"step": 13056
	},
	{
	"epoch": 6.573827160493828,
	"grad_norm": 6.309488773345947,
	"learning_rate": 0.0002751843389171185,
	"loss": 0.5722501277923584,
	"step": 13312
	},
	{
	"epoch": 6.573827160493828,
	"eval_bleu": 0.27306378384191476,
	"eval_loss": 0.5755636982801484,
	"eval_mse_loss": 0.5755636982801484,
	"step": 13312
	},
	{
	"epoch": 6.573827160493828,
	"eval_bleu": 0.27306378384191476,
	"eval_loss": 0.5755636982801484,
	"eval_mse_loss": 0.5755636982801484,
	"eval_runtime": 8.591,
	"eval_samples_per_second": 304.738,
	"eval_steps_per_second": 4.772,
	"step": 13312
	},
	{
	"epoch": 6.700246913580247,
	"grad_norm": 5.390190601348877,
	"learning_rate": 0.0002571784477248029,
	"loss": 0.5714833736419678,
	"step": 13568
	},
	{
	"epoch": 6.700246913580247,
	"eval_bleu": 0.2848300030499236,
	"eval_loss": 0.570485861563101,
	"eval_mse_loss": 0.570485861563101,
	"step": 13568
	},
	{
	"epoch": 6.700246913580247,
	"eval_bleu": 0.2848300030499236,
	"eval_loss": 0.570485861563101,
	"eval_mse_loss": 0.570485861563101,
	"eval_runtime": 7.2761,
	"eval_samples_per_second": 359.808,
	"eval_steps_per_second": 5.635,
	"step": 13568
	},
	{
	"epoch": 6.826666666666666,
	"grad_norm": 7.215004920959473,
	"learning_rate": 0.0002395756451462014,
	"loss": 0.5674658417701721,
	"step": 13824
	},
	{
	"epoch": 6.826666666666666,
	"eval_bleu": 0.2756130503152812,
	"eval_loss": 0.5792907963438731,
	"eval_mse_loss": 0.5792907963438731,
	"step": 13824
	},
	{
	"epoch": 6.826666666666666,
	"eval_bleu": 0.2756130503152812,
	"eval_loss": 0.5792907963438731,
	"eval_mse_loss": 0.5792907963438731,
	"eval_runtime": 7.3879,
	"eval_samples_per_second": 354.362,
	"eval_steps_per_second": 5.55,
	"step": 13824
	},
	{
	"epoch": 6.953086419753086,
	"grad_norm": 6.6079816818237305,
	"learning_rate": 0.00022240515218423758,
	"loss": 0.5638896226882935,
	"step": 14080
	},
	{
	"epoch": 6.953086419753086,
	"eval_bleu": 0.2958995495334816,
	"eval_loss": 0.5594088427904176,
	"eval_mse_loss": 0.5594088427904176,
	"step": 14080
	},
	{
	"epoch": 6.953086419753086,
	"eval_bleu": 0.2958995495334816,
	"eval_loss": 0.5594088427904176,
	"eval_mse_loss": 0.5594088427904176,
	"eval_runtime": 7.9094,
	"eval_samples_per_second": 330.998,
	"eval_steps_per_second": 5.184,
	"step": 14080
	},
	{
	"epoch": 7.079506172839507,
	"grad_norm": 6.562555313110352,
	"learning_rate": 0.00020569547219925934,
	"loss": 0.5631716251373291,
	"step": 14336
	},
	{
	"epoch": 7.079506172839507,
	"eval_bleu": 0.2905136606672008,
	"eval_loss": 0.5631622737500726,
	"eval_mse_loss": 0.5631622737500726,
	"step": 14336
	},
	{
	"epoch": 7.079506172839507,
	"eval_bleu": 0.2905136606672008,
	"eval_loss": 0.5631622737500726,
	"eval_mse_loss": 0.5631622737500726,
	"eval_runtime": 8.3002,
	"eval_samples_per_second": 315.415,
	"eval_steps_per_second": 4.94,
	"step": 14336
	},
	{
	"epoch": 7.205925925925926,
	"grad_norm": 5.195821285247803,
	"learning_rate": 0.00018947434359289434,
	"loss": 0.5603777170181274,
	"step": 14592
	},
	{
	"epoch": 7.205925925925926,
	"eval_bleu": 0.29437709495493225,
	"eval_loss": 0.5465006559360318,
	"eval_mse_loss": 0.5465006559360318,
	"step": 14592
	},
	{
	"epoch": 7.205925925925926,
	"eval_bleu": 0.29437709495493225,
	"eval_loss": 0.5465006559360318,
	"eval_mse_loss": 0.5465006559360318,
	"eval_runtime": 7.1426,
	"eval_samples_per_second": 366.535,
	"eval_steps_per_second": 5.74,
	"step": 14592
	},
	{
	"epoch": 7.332345679012346,
	"grad_norm": 8.156927108764648,
	"learning_rate": 0.0001737686937617491,
	"loss": 0.5557982325553894,
	"step": 14848
	},
	{
	"epoch": 7.332345679012346,
	"eval_bleu": 0.29449963629268144,
	"eval_loss": 0.557792792959911,
	"eval_mse_loss": 0.557792792959911,
	"step": 14848
	},
	{
	"epoch": 7.332345679012346,
	"eval_bleu": 0.29449963629268144,
	"eval_loss": 0.557792792959911,
	"eval_mse_loss": 0.557792792959911,
	"eval_runtime": 7.7275,
	"eval_samples_per_second": 338.789,
	"eval_steps_per_second": 5.306,
	"step": 14848
	},
	{
	"epoch": 7.458765432098765,
	"grad_norm": 5.172349452972412,
	"learning_rate": 0.00015860459439739582,
	"loss": 0.5558417439460754,
	"step": 15104
	},
	{
	"epoch": 7.458765432098765,
	"eval_bleu": 0.31102631980865114,
	"eval_loss": 0.5469118814642836,
	"eval_mse_loss": 0.5469118814642836,
	"step": 15104
	},
	{
	"epoch": 7.458765432098765,
	"eval_bleu": 0.31102631980865114,
	"eval_loss": 0.5469118814642836,
	"eval_mse_loss": 0.5469118814642836,
	"eval_runtime": 7.9676,
	"eval_samples_per_second": 328.58,
	"eval_steps_per_second": 5.146,
	"step": 15104
	},
	{
	"epoch": 7.5851851851851855,
	"grad_norm": 5.335220813751221,
	"learning_rate": 0.0001440072182068436,
	"loss": 0.5527888536453247,
	"step": 15360
	},
	{
	"epoch": 7.5851851851851855,
	"eval_bleu": 0.3040853321881768,
	"eval_loss": 0.5505978399660529,
	"eval_mse_loss": 0.5505978399660529,
	"step": 15360
	},
	{
	"epoch": 7.5851851851851855,
	"eval_bleu": 0.3040853321881768,
	"eval_loss": 0.5505978399660529,
	"eval_mse_loss": 0.5505978399660529,
	"eval_runtime": 8.0279,
	"eval_samples_per_second": 326.113,
	"eval_steps_per_second": 5.107,
	"step": 15360
	},
	{
	"epoch": 7.711604938271605,
	"grad_norm": 3.120297908782959,
	"learning_rate": 0.00013000079712534475,
	"loss": 0.5498585104942322,
	"step": 15616
	},
	{
	"epoch": 7.711604938271605,
	"eval_bleu": 0.30098409224195205,
	"eval_loss": 0.54582195819878,
	"eval_mse_loss": 0.54582195819878,
	"step": 15616
	},
	{
	"epoch": 7.711604938271605,
	"eval_bleu": 0.30098409224195205,
	"eval_loss": 0.54582195819878,
	"eval_mse_loss": 0.54582195819878,
	"eval_runtime": 8.0703,
	"eval_samples_per_second": 324.401,
	"eval_steps_per_second": 5.08,
	"step": 15616
	},
	{
	"epoch": 7.838024691358025,
	"grad_norm": 4.802690029144287,
	"learning_rate": 0.00011660858209089819,
	"loss": 0.5511511564254761,
	"step": 15872
	},
	{
	"epoch": 7.838024691358025,
	"eval_bleu": 0.3068134406523234,
	"eval_loss": 0.5499871998298459,
	"eval_mse_loss": 0.5499871998298459,
	"step": 15872
	},
	{
	"epoch": 7.838024691358025,
	"eval_bleu": 0.3068134406523234,
	"eval_loss": 0.5499871998298459,
	"eval_mse_loss": 0.5499871998298459,
	"eval_runtime": 7.2713,
	"eval_samples_per_second": 360.046,
	"eval_steps_per_second": 5.639,
	"step": 15872
	},
	{
	"epoch": 7.964444444444444,
	"grad_norm": 3.471189260482788,
	"learning_rate": 0.00010385280444723056,
	"loss": 0.5520000457763672,
	"step": 16128
	},
	{
	"epoch": 7.964444444444444,
	"eval_bleu": 0.3052295052303889,
	"eval_loss": 0.5441080797009352,
	"eval_mse_loss": 0.5441080797009352,
	"step": 16128
	},
	{
	"epoch": 7.964444444444444,
	"eval_bleu": 0.3052295052303889,
	"eval_loss": 0.5441080797009352,
	"eval_mse_loss": 0.5441080797009352,
	"eval_runtime": 7.7809,
	"eval_samples_per_second": 336.463,
	"eval_steps_per_second": 5.269,
	"step": 16128
	},
	{
	"epoch": 8.090864197530864,
	"grad_norm": 5.1973466873168945,
	"learning_rate": 9.175463903932168e-05,
	"loss": 0.5478553771972656,
	"step": 16384
	},
	{
	"epoch": 8.090864197530864,
	"eval_bleu": 0.2907079883758542,
	"eval_loss": 0.5581492403658425,
	"eval_mse_loss": 0.5581492403658425,
	"step": 16384
	},
	{
	"epoch": 8.090864197530864,
	"eval_bleu": 0.2907079883758542,
	"eval_loss": 0.5581492403658425,
	"eval_mse_loss": 0.5581492403658425,
	"eval_runtime": 8.0444,
	"eval_samples_per_second": 325.444,
	"eval_steps_per_second": 5.097,
	"step": 16384
	},
	{
	"epoch": 8.217283950617285,
	"grad_norm": 3.1891634464263916,
	"learning_rate": 8.033416906274093e-05,
	"loss": 0.5465660095214844,
	"step": 16640
	},
	{
	"epoch": 8.217283950617285,
	"eval_bleu": 0.3151093389207819,
	"eval_loss": 0.5382588927338763,
	"eval_mse_loss": 0.5382588927338763,
	"step": 16640
	},
	{
	"epoch": 8.217283950617285,
	"eval_bleu": 0.3151093389207819,
	"eval_loss": 0.5382588927338763,
	"eval_mse_loss": 0.5382588927338763,
	"eval_runtime": 8.1703,
	"eval_samples_per_second": 320.43,
	"eval_steps_per_second": 5.018,
	"step": 16640
	},
	{
	"epoch": 8.343703703703703,
	"grad_norm": 3.5024101734161377,
	"learning_rate": 6.961035272514177e-05,
	"loss": 0.5455322265625,
	"step": 16896
	},
	{
	"epoch": 8.343703703703703,
	"eval_bleu": 0.31440992086262937,
	"eval_loss": 0.5380844590140552,
	"eval_mse_loss": 0.5380844590140552,
	"step": 16896
	},
	{
	"epoch": 8.343703703703703,
	"eval_bleu": 0.31440992086262937,
	"eval_loss": 0.5380844590140552,
	"eval_mse_loss": 0.5380844590140552,
	"eval_runtime": 7.1273,
	"eval_samples_per_second": 367.32,
	"eval_steps_per_second": 5.753,
	"step": 16896
	},
	{
	"epoch": 8.470123456790123,
	"grad_norm": 3.242410659790039,
	"learning_rate": 5.960099177526024e-05,
	"loss": 0.5413248538970947,
	"step": 17152
	},
	{
	"epoch": 8.470123456790123,
	"eval_bleu": 0.3030533280572146,
	"eval_loss": 0.5433335965726434,
	"eval_mse_loss": 0.5433335965726434,
	"step": 17152
	},
	{
	"epoch": 8.470123456790123,
	"eval_bleu": 0.3030533280572146,
	"eval_loss": 0.5433335965726434,
	"eval_mse_loss": 0.5433335965726434,
	"eval_runtime": 8.049,
	"eval_samples_per_second": 325.26,
	"eval_steps_per_second": 5.094,
	"step": 17152
	},
	{
	"epoch": 8.596543209876543,
	"grad_norm": 3.3194503784179688,
	"learning_rate": 5.032270195165667e-05,
	"loss": 0.5402602553367615,
	"step": 17408
	},
	{
	"epoch": 8.596543209876543,
	"eval_bleu": 0.3284021854773732,
	"eval_loss": 0.5290337989969951,
	"eval_mse_loss": 0.5290337989969951,
	"step": 17408
	},
	{
	"epoch": 8.596543209876543,
	"eval_bleu": 0.3284021854773732,
	"eval_loss": 0.5290337989969951,
	"eval_mse_loss": 0.5290337989969951,
	"eval_runtime": 7.8967,
	"eval_samples_per_second": 331.532,
	"eval_steps_per_second": 5.192,
	"step": 17408
	}
	],
	"logging_steps": 256,
	"max_steps": 20250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 256,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}