Upload folder using huggingface_hub

8d1be2a verified about 1 month ago

46.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 1024,
	"global_step": 23204,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011032818324821687,
	"grad_norm": 0.3007344603538513,
	"learning_rate": 0.000498046875,
	"loss": 1.9607043266296387,
	"step": 256
	},
	{
	"epoch": 0.022065636649643373,
	"grad_norm": 0.38754719495773315,
	"learning_rate": 0.000998046875,
	"loss": 1.8510947227478027,
	"step": 512
	},
	{
	"epoch": 0.03309845497446506,
	"grad_norm": 0.41651925444602966,
	"learning_rate": 0.000999688448778502,
	"loss": 1.7883503437042236,
	"step": 768
	},
	{
	"epoch": 0.04413127329928675,
	"grad_norm": 0.4576423764228821,
	"learning_rate": 0.0009987492950653055,
	"loss": 1.7437095642089844,
	"step": 1024
	},
	{
	"epoch": 0.04413127329928675,
	"eval_bleu": 0.7290582309773348,
	"eval_cos_loss": 0.6748774711257105,
	"eval_dec_loss": 0.0016125108924325007,
	"eval_loss": 1.7118930867485909,
	"eval_mse2_loss": 0.23725909220257294,
	"eval_mse_loss": 1.7118930867485909,
	"eval_rec_loss": 0.05790480172861296,
	"eval_var_loss": 0.029386979561529435,
	"flow/cos_sim": 0.32512253071707703,
	"flow/improvement_ratio": 0.773648498536173,
	"flow/mag_ratio_mean": 0.3315794987083752,
	"flow/mag_ratio_std": 0.19750540018844198,
	"step": 1024
	},
	{
	"epoch": 0.04413127329928675,
	"eval_bleu": 0.7290582309773348,
	"eval_cos_loss": 0.6748774711257105,
	"eval_dec_loss": 0.0016125108924325007,
	"eval_loss": 1.7118930867485909,
	"eval_mse2_loss": 0.23725909220257294,
	"eval_mse_loss": 1.7118930867485909,
	"eval_rec_loss": 0.05790480172861296,
	"eval_runtime": 103.0234,
	"eval_samples_per_second": 291.196,
	"eval_steps_per_second": 4.552,
	"eval_var_loss": 0.029386979561529435,
	"flow/cos_sim": 0.32512253071707703,
	"flow/improvement_ratio": 0.773648498536173,
	"flow/mag_ratio_mean": 0.3315794987083752,
	"flow/mag_ratio_std": 0.19750540018844198,
	"step": 1024
	},
	{
	"epoch": 0.05516409162410843,
	"grad_norm": 0.46116578578948975,
	"learning_rate": 0.0009971837136430763,
	"loss": 1.6916401386260986,
	"step": 1280
	},
	{
	"epoch": 0.06619690994893011,
	"grad_norm": 0.4674736559391022,
	"learning_rate": 0.0009949936708776692,
	"loss": 1.6614705324172974,
	"step": 1536
	},
	{
	"epoch": 0.07722972827375181,
	"grad_norm": 0.4964284598827362,
	"learning_rate": 0.0009921819174566252,
	"loss": 1.6426620483398438,
	"step": 1792
	},
	{
	"epoch": 0.0882625465985735,
	"grad_norm": 0.5635536313056946,
	"learning_rate": 0.000988751984934317,
	"loss": 1.6190364360809326,
	"step": 2048
	},
	{
	"epoch": 0.0882625465985735,
	"eval_bleu": 0.7361472993029746,
	"eval_cos_loss": 0.6193856069528217,
	"eval_dec_loss": 0.0013400374704601193,
	"eval_loss": 1.6149477191062878,
	"eval_mse2_loss": 0.2126978265959571,
	"eval_mse_loss": 1.6149477191062878,
	"eval_rec_loss": 0.055882355892288085,
	"eval_var_loss": 0.02890209875492526,
	"flow/cos_sim": 0.3806143929836338,
	"flow/improvement_ratio": 0.8031272210800318,
	"flow/mag_ratio_mean": 0.38922329186630655,
	"flow/mag_ratio_std": 0.2309291490168968,
	"step": 2048
	},
	{
	"epoch": 0.0882625465985735,
	"eval_bleu": 0.7361472993029746,
	"eval_cos_loss": 0.6193856069528217,
	"eval_dec_loss": 0.0013400374704601193,
	"eval_loss": 1.6149477191062878,
	"eval_mse2_loss": 0.2126978265959571,
	"eval_mse_loss": 1.6149477191062878,
	"eval_rec_loss": 0.055882355892288085,
	"eval_runtime": 102.671,
	"eval_samples_per_second": 292.196,
	"eval_steps_per_second": 4.568,
	"eval_var_loss": 0.02890209875492526,
	"flow/cos_sim": 0.3806143929836338,
	"flow/improvement_ratio": 0.8031272210800318,
	"flow/mag_ratio_mean": 0.38922329186630655,
	"flow/mag_ratio_std": 0.2309291490168968,
	"step": 2048
	},
	{
	"epoch": 0.09929536492339518,
	"grad_norm": 0.5123931169509888,
	"learning_rate": 0.0009847081812963268,
	"loss": 1.6022895574569702,
	"step": 2304
	},
	{
	"epoch": 0.11032818324821686,
	"grad_norm": 0.5382006764411926,
	"learning_rate": 0.0009800555855486275,
	"loss": 1.5898725986480713,
	"step": 2560
	},
	{
	"epoch": 0.12136100157303854,
	"grad_norm": 0.5514854192733765,
	"learning_rate": 0.0009748000413383664,
	"loss": 1.5826457738876343,
	"step": 2816
	},
	{
	"epoch": 0.13239381989786023,
	"grad_norm": 0.5678655505180359,
	"learning_rate": 0.0009689481496142604,
	"loss": 1.5685003995895386,
	"step": 3072
	},
	{
	"epoch": 0.13239381989786023,
	"eval_bleu": 0.7259279887313845,
	"eval_cos_loss": 0.5904010080579501,
	"eval_dec_loss": 0.001531593777309569,
	"eval_loss": 1.5695596038659752,
	"eval_mse2_loss": 0.20936787379448857,
	"eval_mse_loss": 1.5695596038659752,
	"eval_rec_loss": 0.060287337766082555,
	"eval_var_loss": 0.02963222060868862,
	"flow/cos_sim": 0.409598992768127,
	"flow/improvement_ratio": 0.8170475746268657,
	"flow/mag_ratio_mean": 0.4326363442294887,
	"flow/mag_ratio_std": 0.22964929263474845,
	"step": 3072
	},
	{
	"epoch": 0.13239381989786023,
	"eval_bleu": 0.7259279887313845,
	"eval_cos_loss": 0.5904010080579501,
	"eval_dec_loss": 0.001531593777309569,
	"eval_loss": 1.5695596038659752,
	"eval_mse2_loss": 0.20936787379448857,
	"eval_mse_loss": 1.5695596038659752,
	"eval_rec_loss": 0.060287337766082555,
	"eval_runtime": 103.2177,
	"eval_samples_per_second": 290.648,
	"eval_steps_per_second": 4.544,
	"eval_var_loss": 0.02963222060868862,
	"flow/cos_sim": 0.409598992768127,
	"flow/improvement_ratio": 0.8170475746268657,
	"flow/mag_ratio_mean": 0.4326363442294887,
	"flow/mag_ratio_std": 0.22964929263474845,
	"step": 3072
	},
	{
	"epoch": 0.14342663822268192,
	"grad_norm": 0.5561569333076477,
	"learning_rate": 0.0009625072603358231,
	"loss": 1.5565699338912964,
	"step": 3328
	},
	{
	"epoch": 0.15445945654750362,
	"grad_norm": 0.5337810516357422,
	"learning_rate": 0.0009554854632418371,
	"loss": 1.556112289428711,
	"step": 3584
	},
	{
	"epoch": 0.1654922748723253,
	"grad_norm": 0.6065189242362976,
	"learning_rate": 0.000947891577689663,
	"loss": 1.5425442457199097,
	"step": 3840
	},
	{
	"epoch": 0.176525093197147,
	"grad_norm": 0.6436013579368591,
	"learning_rate": 0.0009397351415781539,
	"loss": 1.5381078720092773,
	"step": 4096
	},
	{
	"epoch": 0.176525093197147,
	"eval_bleu": 0.7609616675139879,
	"eval_cos_loss": 0.5725635654255271,
	"eval_dec_loss": 0.0013841146930163827,
	"eval_loss": 1.5326353372541317,
	"eval_mse2_loss": 0.20037362373459822,
	"eval_mse_loss": 1.5326353372541317,
	"eval_rec_loss": 0.05205997703934529,
	"eval_var_loss": 0.029761007865831288,
	"flow/cos_sim": 0.42743643495573924,
	"flow/improvement_ratio": 0.8228500355789656,
	"flow/mag_ratio_mean": 0.44373360606653095,
	"flow/mag_ratio_std": 0.2451275099060937,
	"step": 4096
	},
	{
	"epoch": 0.176525093197147,
	"eval_bleu": 0.7609616675139879,
	"eval_cos_loss": 0.5725635654255271,
	"eval_dec_loss": 0.0013841146930163827,
	"eval_loss": 1.5326353372541317,
	"eval_mse2_loss": 0.20037362373459822,
	"eval_mse_loss": 1.5326353372541317,
	"eval_rec_loss": 0.05205997703934529,
	"eval_runtime": 103.0729,
	"eval_samples_per_second": 291.056,
	"eval_steps_per_second": 4.55,
	"eval_var_loss": 0.029761007865831288,
	"flow/cos_sim": 0.42743643495573924,
	"flow/improvement_ratio": 0.8228500355789656,
	"flow/mag_ratio_mean": 0.44373360606653095,
	"flow/mag_ratio_std": 0.2451275099060937,
	"step": 4096
	},
	{
	"epoch": 0.18755791152196866,
	"grad_norm": 0.5533596873283386,
	"learning_rate": 0.000931026399368079,
	"loss": 1.5355464220046997,
	"step": 4352
	},
	{
	"epoch": 0.19859072984679035,
	"grad_norm": 0.6129039525985718,
	"learning_rate": 0.0009217762892151117,
	"loss": 1.526825189590454,
	"step": 4608
	},
	{
	"epoch": 0.20962354817161205,
	"grad_norm": 0.6128653287887573,
	"learning_rate": 0.0009119964292315354,
	"loss": 1.5186046361923218,
	"step": 4864
	},
	{
	"epoch": 0.22065636649643372,
	"grad_norm": 0.6013854146003723,
	"learning_rate": 0.0009016991028939279,
	"loss": 1.5184156894683838,
	"step": 5120
	},
	{
	"epoch": 0.22065636649643372,
	"eval_bleu": 0.7313483153096204,
	"eval_cos_loss": 0.565770648880554,
	"eval_dec_loss": 0.0013971831941510986,
	"eval_loss": 1.5208095035064957,
	"eval_mse2_loss": 0.19698964767872906,
	"eval_mse_loss": 1.5208095035064957,
	"eval_rec_loss": 0.058415787606271724,
	"eval_var_loss": 0.029480641187508223,
	"flow/cos_sim": 0.4342293481328594,
	"flow/improvement_ratio": 0.8310012437387316,
	"flow/mag_ratio_mean": 0.4485036200170578,
	"flow/mag_ratio_std": 0.24114183547781476,
	"step": 5120
	},
	{
	"epoch": 0.22065636649643372,
	"eval_bleu": 0.7313483153096204,
	"eval_cos_loss": 0.565770648880554,
	"eval_dec_loss": 0.0013971831941510986,
	"eval_loss": 1.5208095035064957,
	"eval_mse2_loss": 0.19698964767872906,
	"eval_mse_loss": 1.5208095035064957,
	"eval_rec_loss": 0.058415787606271724,
	"eval_runtime": 104.1181,
	"eval_samples_per_second": 288.134,
	"eval_steps_per_second": 4.505,
	"eval_var_loss": 0.029480641187508223,
	"flow/cos_sim": 0.4342293481328594,
	"flow/improvement_ratio": 0.8310012437387316,
	"flow/mag_ratio_mean": 0.4485036200170578,
	"flow/mag_ratio_std": 0.24114183547781476,
	"step": 5120
	},
	{
	"epoch": 0.23168918482125542,
	"grad_norm": 0.5818307995796204,
	"learning_rate": 0.0008908972436151494,
	"loss": 1.5146307945251465,
	"step": 5376
	},
	{
	"epoch": 0.2427220031460771,
	"grad_norm": 0.5968588590621948,
	"learning_rate": 0.0008796044185000127,
	"loss": 1.5090495347976685,
	"step": 5632
	},
	{
	"epoch": 0.2537548214708988,
	"grad_norm": 0.645140528678894,
	"learning_rate": 0.0008678348113050368,
	"loss": 1.5024750232696533,
	"step": 5888
	},
	{
	"epoch": 0.26478763979572045,
	"grad_norm": 0.6232675313949585,
	"learning_rate": 0.0008556032046236897,
	"loss": 1.499906301498413,
	"step": 6144
	},
	{
	"epoch": 0.26478763979572045,
	"eval_bleu": 0.7912708006589123,
	"eval_cos_loss": 0.5567008724598996,
	"eval_dec_loss": 0.0014503563844457592,
	"eval_loss": 1.5032868258226146,
	"eval_mse2_loss": 0.19748503063469808,
	"eval_mse_loss": 1.5032868258226146,
	"eval_rec_loss": 0.05662109937145512,
	"eval_var_loss": 0.029432428198487265,
	"flow/cos_sim": 0.44329912652339,
	"flow/improvement_ratio": 0.8293576759061834,
	"flow/mag_ratio_mean": 0.4766448940803756,
	"flow/mag_ratio_std": 0.2504093461771255,
	"step": 6144
	},
	{
	"epoch": 0.26478763979572045,
	"eval_bleu": 0.7912708006589123,
	"eval_cos_loss": 0.5567008724598996,
	"eval_dec_loss": 0.0014503563844457592,
	"eval_loss": 1.5032868258226146,
	"eval_mse2_loss": 0.19748503063469808,
	"eval_mse_loss": 1.5032868258226146,
	"eval_rec_loss": 0.05662109937145512,
	"eval_runtime": 102.8737,
	"eval_samples_per_second": 291.62,
	"eval_steps_per_second": 4.559,
	"eval_var_loss": 0.029432428198487265,
	"flow/cos_sim": 0.44329912652339,
	"flow/improvement_ratio": 0.8293576759061834,
	"flow/mag_ratio_mean": 0.4766448940803756,
	"flow/mag_ratio_std": 0.2504093461771255,
	"step": 6144
	},
	{
	"epoch": 0.2758204581205422,
	"grad_norm": 0.6002918481826782,
	"learning_rate": 0.000842924961319492,
	"loss": 1.5013189315795898,
	"step": 6400
	},
	{
	"epoch": 0.28685327644536385,
	"grad_norm": 0.6131093502044678,
	"learning_rate": 0.0008298160052303045,
	"loss": 1.491563320159912,
	"step": 6656
	},
	{
	"epoch": 0.2978860947701855,
	"grad_norm": 0.6153339743614197,
	"learning_rate": 0.0008162928011680314,
	"loss": 1.4890822172164917,
	"step": 6912
	},
	{
	"epoch": 0.30891891309500724,
	"grad_norm": 0.5415698885917664,
	"learning_rate": 0.000802372334238864,
	"loss": 1.4869613647460938,
	"step": 7168
	},
	{
	"epoch": 0.30891891309500724,
	"eval_bleu": 0.6991471025766374,
	"eval_cos_loss": 0.5479137339571646,
	"eval_dec_loss": 0.0014181479605397324,
	"eval_loss": 1.4831991663365476,
	"eval_mse2_loss": 0.19134751513505033,
	"eval_mse_loss": 1.4831991663365476,
	"eval_rec_loss": 0.059703294130197086,
	"eval_var_loss": 0.029254676190330023,
	"flow/cos_sim": 0.45208626534384705,
	"flow/improvement_ratio": 0.8373922797154262,
	"flow/mag_ratio_mean": 0.46522473710686413,
	"flow/mag_ratio_std": 0.24233753331053232,
	"step": 7168
	},
	{
	"epoch": 0.30891891309500724,
	"eval_bleu": 0.6991471025766374,
	"eval_cos_loss": 0.5479137339571646,
	"eval_dec_loss": 0.0014181479605397324,
	"eval_loss": 1.4831991663365476,
	"eval_mse2_loss": 0.19134751513505033,
	"eval_mse_loss": 1.4831991663365476,
	"eval_rec_loss": 0.059703294130197086,
	"eval_runtime": 102.4636,
	"eval_samples_per_second": 292.787,
	"eval_steps_per_second": 4.577,
	"eval_var_loss": 0.029254676190330023,
	"flow/cos_sim": 0.45208626534384705,
	"flow/improvement_ratio": 0.8373922797154262,
	"flow/mag_ratio_mean": 0.46522473710686413,
	"flow/mag_ratio_std": 0.24233753331053232,
	"step": 7168
	},
	{
	"epoch": 0.3199517314198289,
	"grad_norm": 0.6683939695358276,
	"learning_rate": 0.0007880720885100349,
	"loss": 1.476445198059082,
	"step": 7424
	},
	{
	"epoch": 0.3309845497446506,
	"grad_norm": 0.5962712168693542,
	"learning_rate": 0.0007734100250498788,
	"loss": 1.4769901037216187,
	"step": 7680
	},
	{
	"epoch": 0.3420173680694723,
	"grad_norm": 0.5617682933807373,
	"learning_rate": 0.000758404559368781,
	"loss": 1.4828119277954102,
	"step": 7936
	},
	{
	"epoch": 0.353050186394294,
	"grad_norm": 0.7243582606315613,
	"learning_rate": 0.0007430745382893488,
	"loss": 1.4768471717834473,
	"step": 8192
	},
	{
	"epoch": 0.353050186394294,
	"eval_bleu": 0.8304965060986523,
	"eval_cos_loss": 0.540344935744556,
	"eval_dec_loss": 0.001444703027248449,
	"eval_loss": 1.4680257085035604,
	"eval_mse2_loss": 0.1896642409979916,
	"eval_mse_loss": 1.4680257085035604,
	"eval_rec_loss": 0.056618061303885886,
	"eval_var_loss": 0.02941279357144319,
	"flow/cos_sim": 0.45965506501797676,
	"flow/improvement_ratio": 0.8406627575980067,
	"flow/mag_ratio_mean": 0.478700284002178,
	"flow/mag_ratio_std": 0.25183968741629426,
	"step": 8192
	},
	{
	"epoch": 0.353050186394294,
	"eval_bleu": 0.8304965060986523,
	"eval_cos_loss": 0.540344935744556,
	"eval_dec_loss": 0.001444703027248449,
	"eval_loss": 1.4680257085035604,
	"eval_mse2_loss": 0.1896642409979916,
	"eval_mse_loss": 1.4680257085035604,
	"eval_rec_loss": 0.056618061303885886,
	"eval_runtime": 102.5949,
	"eval_samples_per_second": 292.412,
	"eval_steps_per_second": 4.571,
	"eval_var_loss": 0.02941279357144319,
	"flow/cos_sim": 0.45965506501797676,
	"flow/improvement_ratio": 0.8406627575980067,
	"flow/mag_ratio_mean": 0.478700284002178,
	"flow/mag_ratio_std": 0.25183968741629426,
	"step": 8192
	},
	{
	"epoch": 0.36408300471911564,
	"grad_norm": 0.6018216013908386,
	"learning_rate": 0.0007274392162748551,
	"loss": 1.4694677591323853,
	"step": 8448
	},
	{
	"epoch": 0.3751158230439373,
	"grad_norm": 0.5599421262741089,
	"learning_rate": 0.000711518231245687,
	"loss": 1.4721711874008179,
	"step": 8704
	},
	{
	"epoch": 0.38614864136875904,
	"grad_norm": 0.6241788864135742,
	"learning_rate": 0.0006953315799141723,
	"loss": 1.459176778793335,
	"step": 8960
	},
	{
	"epoch": 0.3971814596935807,
	"grad_norm": 0.6998386383056641,
	"learning_rate": 0.0006788995926687669,
	"loss": 1.4632288217544556,
	"step": 9216
	},
	{
	"epoch": 0.3971814596935807,
	"eval_bleu": 0.7369729060948697,
	"eval_cos_loss": 0.5354188728942546,
	"eval_dec_loss": 0.0013972995771112035,
	"eval_loss": 1.456240051336634,
	"eval_mse2_loss": 0.18758021689045912,
	"eval_mse_loss": 1.456240051336634,
	"eval_rec_loss": 0.05933690067730161,
	"eval_var_loss": 0.029272472025203045,
	"flow/cos_sim": 0.4645811278047338,
	"flow/improvement_ratio": 0.841912091286706,
	"flow/mag_ratio_mean": 0.4744996659791292,
	"flow/mag_ratio_std": 0.25510632248321324,
	"step": 9216
	},
	{
	"epoch": 0.3971814596935807,
	"eval_bleu": 0.7369729060948697,
	"eval_cos_loss": 0.5354188728942546,
	"eval_dec_loss": 0.0013972995771112035,
	"eval_loss": 1.456240051336634,
	"eval_mse2_loss": 0.18758021689045912,
	"eval_mse_loss": 1.456240051336634,
	"eval_rec_loss": 0.05933690067730161,
	"eval_runtime": 102.7869,
	"eval_samples_per_second": 291.866,
	"eval_steps_per_second": 4.563,
	"eval_var_loss": 0.029272472025203045,
	"flow/cos_sim": 0.4645811278047338,
	"flow/improvement_ratio": 0.841912091286706,
	"flow/mag_ratio_mean": 0.4744996659791292,
	"flow/mag_ratio_std": 0.25510632248321324,
	"step": 9216
	},
	{
	"epoch": 0.4082142780184024,
	"grad_norm": 0.5962811708450317,
	"learning_rate": 0.0006622429080391422,
	"loss": 1.4640510082244873,
	"step": 9472
	},
	{
	"epoch": 0.4192470963432241,
	"grad_norm": 0.588157594203949,
	"learning_rate": 0.0006453824467742515,
	"loss": 1.4573228359222412,
	"step": 9728
	},
	{
	"epoch": 0.43027991466804577,
	"grad_norm": 0.5932533740997314,
	"learning_rate": 0.0006283393855659275,
	"loss": 1.45904541015625,
	"step": 9984
	},
	{
	"epoch": 0.44131273299286744,
	"grad_norm": 0.6125295162200928,
	"learning_rate": 0.0006111351304510173,
	"loss": 1.455463171005249,
	"step": 10240
	},
	{
	"epoch": 0.44131273299286744,
	"eval_bleu": 0.782062866367082,
	"eval_cos_loss": 0.5326331170128861,
	"eval_dec_loss": 0.0014520329028074289,
	"eval_loss": 1.453022389777942,
	"eval_mse2_loss": 0.18840382176675777,
	"eval_mse_loss": 1.453022389777942,
	"eval_rec_loss": 0.05694365586195864,
	"eval_var_loss": 0.030047652452612227,
	"flow/cos_sim": 0.4673668822881255,
	"flow/improvement_ratio": 0.8451325959488273,
	"flow/mag_ratio_mean": 0.4745017219581075,
	"flow/mag_ratio_std": 0.2538460113092272,
	"step": 10240
	},
	{
	"epoch": 0.44131273299286744,
	"eval_bleu": 0.782062866367082,
	"eval_cos_loss": 0.5326331170128861,
	"eval_dec_loss": 0.0014520329028074289,
	"eval_loss": 1.453022389777942,
	"eval_mse2_loss": 0.18840382176675777,
	"eval_mse_loss": 1.453022389777942,
	"eval_rec_loss": 0.05694365586195864,
	"eval_runtime": 102.6396,
	"eval_samples_per_second": 292.285,
	"eval_steps_per_second": 4.569,
	"eval_var_loss": 0.030047652452612227,
	"flow/cos_sim": 0.4673668822881255,
	"flow/improvement_ratio": 0.8451325959488273,
	"flow/mag_ratio_mean": 0.4745017219581075,
	"flow/mag_ratio_std": 0.2538460113092272,
	"step": 10240
	},
	{
	"epoch": 0.45234555131768917,
	"grad_norm": 0.6636393666267395,
	"learning_rate": 0.0005937912899254605,
	"loss": 1.449182152748108,
	"step": 10496
	},
	{
	"epoch": 0.46337836964251083,
	"grad_norm": 0.5821182727813721,
	"learning_rate": 0.0005763296478040787,
	"loss": 1.4548357725143433,
	"step": 10752
	},
	{
	"epoch": 0.4744111879673325,
	"grad_norm": 0.6481524109840393,
	"learning_rate": 0.0005587721358601663,
	"loss": 1.4508562088012695,
	"step": 11008
	},
	{
	"epoch": 0.4854440062921542,
	"grad_norm": 0.653151273727417,
	"learning_rate": 0.0005411408062792448,
	"loss": 1.4442917108535767,
	"step": 11264
	},
	{
	"epoch": 0.4854440062921542,
	"eval_bleu": 0.7210051310934674,
	"eval_cos_loss": 0.5317811018495417,
	"eval_dec_loss": 0.001381080663882877,
	"eval_loss": 1.4509358108679116,
	"eval_mse2_loss": 0.18439998461811274,
	"eval_mse_loss": 1.4509358108679116,
	"eval_rec_loss": 0.06008440565301983,
	"eval_var_loss": 0.02928201055952481,
	"flow/cos_sim": 0.46821889872235783,
	"flow/improvement_ratio": 0.8448605187920365,
	"flow/mag_ratio_mean": 0.4716693379604486,
	"flow/mag_ratio_std": 0.25824843223161026,
	"step": 11264
	},
	{
	"epoch": 0.4854440062921542,
	"eval_bleu": 0.7210051310934674,
	"eval_cos_loss": 0.5317811018495417,
	"eval_dec_loss": 0.001381080663882877,
	"eval_loss": 1.4509358108679116,
	"eval_mse2_loss": 0.18439998461811274,
	"eval_mse_loss": 1.4509358108679116,
	"eval_rec_loss": 0.06008440565301983,
	"eval_runtime": 102.2168,
	"eval_samples_per_second": 293.494,
	"eval_steps_per_second": 4.588,
	"eval_var_loss": 0.02928201055952481,
	"flow/cos_sim": 0.46821889872235783,
	"flow/improvement_ratio": 0.8448605187920365,
	"flow/mag_ratio_mean": 0.4716693379604486,
	"flow/mag_ratio_std": 0.25824843223161026,
	"step": 11264
	},
	{
	"epoch": 0.4964768246169759,
	"grad_norm": 0.6343415379524231,
	"learning_rate": 0.0005234578039615789,
	"loss": 1.439915418624878,
	"step": 11520
	},
	{
	"epoch": 0.5075096429417976,
	"grad_norm": 0.7004493474960327,
	"learning_rate": 0.0005057453387082458,
	"loss": 1.4451959133148193,
	"step": 11776
	},
	{
	"epoch": 0.5185424612666193,
	"grad_norm": 0.7312789559364319,
	"learning_rate": 0.0004880256573256866,
	"loss": 1.4458304643630981,
	"step": 12032
	},
	{
	"epoch": 0.5295752795914409,
	"grad_norm": 0.6173807382583618,
	"learning_rate": 0.0004703210156837805,
	"loss": 1.4372222423553467,
	"step": 12288
	},
	{
	"epoch": 0.5295752795914409,
	"eval_bleu": 0.7895861883551821,
	"eval_cos_loss": 0.5291873634751163,
	"eval_dec_loss": 0.0014323489154225587,
	"eval_loss": 1.4454485322875001,
	"eval_mse2_loss": 0.18589616244408622,
	"eval_mse_loss": 1.4454485322875001,
	"eval_rec_loss": 0.05557121256036736,
	"eval_var_loss": 0.02942733407052341,
	"flow/cos_sim": 0.4708126370967832,
	"flow/improvement_ratio": 0.8446106520542966,
	"flow/mag_ratio_mean": 0.4888702236385996,
	"flow/mag_ratio_std": 0.2535232830403456,
	"step": 12288
	},
	{
	"epoch": 0.5295752795914409,
	"eval_bleu": 0.7895861883551821,
	"eval_cos_loss": 0.5291873634751163,
	"eval_dec_loss": 0.0014323489154225587,
	"eval_loss": 1.4454485322875001,
	"eval_mse2_loss": 0.18589616244408622,
	"eval_mse_loss": 1.4454485322875001,
	"eval_rec_loss": 0.05557121256036736,
	"eval_runtime": 103.43,
	"eval_samples_per_second": 290.051,
	"eval_steps_per_second": 4.534,
	"eval_var_loss": 0.02942733407052341,
	"flow/cos_sim": 0.4708126370967832,
	"flow/improvement_ratio": 0.8446106520542966,
	"flow/mag_ratio_mean": 0.4888702236385996,
	"flow/mag_ratio_std": 0.2535232830403456,
	"step": 12288
	},
	{
	"epoch": 0.5406080979162626,
	"grad_norm": 0.6357247233390808,
	"learning_rate": 0.0004526536507625343,
	"loss": 1.4381682872772217,
	"step": 12544
	},
	{
	"epoch": 0.5516409162410844,
	"grad_norm": 0.6554076671600342,
	"learning_rate": 0.00043504575272249973,
	"loss": 1.433600664138794,
	"step": 12800
	},
	{
	"epoch": 0.562673734565906,
	"grad_norm": 0.6298866271972656,
	"learning_rate": 0.0004175194370339921,
	"loss": 1.4380649328231812,
	"step": 13056
	},
	{
	"epoch": 0.5737065528907277,
	"grad_norm": 0.6736286282539368,
	"learning_rate": 0.0004000967167001243,
	"loss": 1.4344258308410645,
	"step": 13312
	},
	{
	"epoch": 0.5737065528907277,
	"eval_bleu": 0.754198615923969,
	"eval_cos_loss": 0.5237328007912585,
	"eval_dec_loss": 0.0013661543356946239,
	"eval_loss": 1.4330016496593256,
	"eval_mse2_loss": 0.18149238913806517,
	"eval_mse_loss": 1.4330016496593256,
	"eval_rec_loss": 0.05589268211104564,
	"eval_var_loss": 0.029215975571225194,
	"flow/cos_sim": 0.47626719946291907,
	"flow/improvement_ratio": 0.8467817164179104,
	"flow/mag_ratio_mean": 0.48472079412261054,
	"flow/mag_ratio_std": 0.25520913404569445,
	"step": 13312
	},
	{
	"epoch": 0.5737065528907277,
	"eval_bleu": 0.754198615923969,
	"eval_cos_loss": 0.5237328007912585,
	"eval_dec_loss": 0.0013661543356946239,
	"eval_loss": 1.4330016496593256,
	"eval_mse2_loss": 0.18149238913806517,
	"eval_mse_loss": 1.4330016496593256,
	"eval_rec_loss": 0.05589268211104564,
	"eval_runtime": 104.5844,
	"eval_samples_per_second": 286.85,
	"eval_steps_per_second": 4.484,
	"eval_var_loss": 0.029215975571225194,
	"flow/cos_sim": 0.47626719946291907,
	"flow/improvement_ratio": 0.8467817164179104,
	"flow/mag_ratio_mean": 0.48472079412261054,
	"flow/mag_ratio_std": 0.25520913404569445,
	"step": 13312
	},
	{
	"epoch": 0.5847393712155494,
	"grad_norm": 0.6239475011825562,
	"learning_rate": 0.00038279947460853446,
	"loss": 1.4331660270690918,
	"step": 13568
	},
	{
	"epoch": 0.595772189540371,
	"grad_norm": 0.6627410054206848,
	"learning_rate": 0.00036564943604654345,
	"loss": 1.4354665279388428,
	"step": 13824
	},
	{
	"epoch": 0.6068050078651928,
	"grad_norm": 0.6042789816856384,
	"learning_rate": 0.00034866814141425254,
	"loss": 1.4358711242675781,
	"step": 14080
	},
	{
	"epoch": 0.6178378261900145,
	"grad_norm": 0.6111028790473938,
	"learning_rate": 0.0003318769191698637,
	"loss": 1.4299204349517822,
	"step": 14336
	},
	{
	"epoch": 0.6178378261900145,
	"eval_bleu": 0.7007889817819709,
	"eval_cos_loss": 0.5228769168543663,
	"eval_dec_loss": 0.001358627397164917,
	"eval_loss": 1.4326896403135776,
	"eval_mse2_loss": 0.18112752599312043,
	"eval_mse_loss": 1.4326896403135776,
	"eval_rec_loss": 0.05488209239939954,
	"eval_var_loss": 0.02930486012401103,
	"flow/cos_sim": 0.4771230810486686,
	"flow/improvement_ratio": 0.8480699183081767,
	"flow/mag_ratio_mean": 0.48936520539112943,
	"flow/mag_ratio_std": 0.2627385834386862,
	"step": 14336
	},
	{
	"epoch": 0.6178378261900145,
	"eval_bleu": 0.7007889817819709,
	"eval_cos_loss": 0.5228769168543663,
	"eval_dec_loss": 0.001358627397164917,
	"eval_loss": 1.4326896403135776,
	"eval_mse2_loss": 0.18112752599312043,
	"eval_mse_loss": 1.4326896403135776,
	"eval_rec_loss": 0.05488209239939954,
	"eval_runtime": 103.0204,
	"eval_samples_per_second": 291.205,
	"eval_steps_per_second": 4.552,
	"eval_var_loss": 0.02930486012401103,
	"flow/cos_sim": 0.4771230810486686,
	"flow/improvement_ratio": 0.8480699183081767,
	"flow/mag_ratio_mean": 0.48936520539112943,
	"flow/mag_ratio_std": 0.2627385834386862,
	"step": 14336
	},
	{
	"epoch": 0.6288706445148361,
	"grad_norm": 0.6931398510932922,
	"learning_rate": 0.00031529685904119485,
	"loss": 1.4271036386489868,
	"step": 14592
	},
	{
	"epoch": 0.6399034628396578,
	"grad_norm": 0.616621196269989,
	"learning_rate": 0.0002989487855370421,
	"loss": 1.4223978519439697,
	"step": 14848
	},
	{
	"epoch": 0.6509362811644795,
	"grad_norm": 0.7069717645645142,
	"learning_rate": 0.00028285323179165424,
	"loss": 1.4210408926010132,
	"step": 15104
	},
	{
	"epoch": 0.6619690994893012,
	"grad_norm": 0.5767509937286377,
	"learning_rate": 0.0002670304137751759,
	"loss": 1.4249491691589355,
	"step": 15360
	},
	{
	"epoch": 0.6619690994893012,
	"eval_bleu": 0.7712555700160785,
	"eval_cos_loss": 0.520311662700893,
	"eval_dec_loss": 0.0013948907095809597,
	"eval_loss": 1.4238692244995377,
	"eval_mse2_loss": 0.1801110237900382,
	"eval_mse_loss": 1.4238692244995377,
	"eval_rec_loss": 0.05672604351370002,
	"eval_var_loss": 0.029106232196664507,
	"flow/cos_sim": 0.4796883367907518,
	"flow/improvement_ratio": 0.8454879620181981,
	"flow/mag_ratio_mean": 0.4905342829507043,
	"flow/mag_ratio_std": 0.2601209406786636,
	"step": 15360
	},
	{
	"epoch": 0.6619690994893012,
	"eval_bleu": 0.7712555700160785,
	"eval_cos_loss": 0.520311662700893,
	"eval_dec_loss": 0.0013948907095809597,
	"eval_loss": 1.4238692244995377,
	"eval_mse2_loss": 0.1801110237900382,
	"eval_mse_loss": 1.4238692244995377,
	"eval_rec_loss": 0.05672604351370002,
	"eval_runtime": 102.9224,
	"eval_samples_per_second": 291.482,
	"eval_steps_per_second": 4.557,
	"eval_var_loss": 0.029106232196664507,
	"flow/cos_sim": 0.4796883367907518,
	"flow/improvement_ratio": 0.8454879620181981,
	"flow/mag_ratio_mean": 0.4905342829507043,
	"flow/mag_ratio_std": 0.2601209406786636,
	"step": 15360
	},
	{
	"epoch": 0.6730019178141229,
	"grad_norm": 0.7135971784591675,
	"learning_rate": 0.0002515002049024435,
	"loss": 1.4220284223556519,
	"step": 15616
	},
	{
	"epoch": 0.6840347361389446,
	"grad_norm": 0.6657771468162537,
	"learning_rate": 0.00023628211107203429,
	"loss": 1.421180248260498,
	"step": 15872
	},
	{
	"epoch": 0.6950675544637662,
	"grad_norm": 0.6840319037437439,
	"learning_rate": 0.00022139524616691188,
	"loss": 1.4254897832870483,
	"step": 16128
	},
	{
	"epoch": 0.706100372788588,
	"grad_norm": 0.6978499889373779,
	"learning_rate": 0.000206858308047443,
	"loss": 1.4185926914215088,
	"step": 16384
	},
	{
	"epoch": 0.706100372788588,
	"eval_bleu": 0.7788876579155211,
	"eval_cos_loss": 0.5166550292643403,
	"eval_dec_loss": 0.0013616397724124983,
	"eval_loss": 1.4177445305435896,
	"eval_mse2_loss": 0.17684134553426872,
	"eval_mse_loss": 1.4177445305435896,
	"eval_rec_loss": 0.05370217473951103,
	"eval_var_loss": 0.02986719635233823,
	"flow/cos_sim": 0.48334496971894936,
	"flow/improvement_ratio": 0.851445895522388,
	"flow/mag_ratio_mean": 0.49312538899846675,
	"flow/mag_ratio_std": 0.2614598782586136,
	"step": 16384
	},
	{
	"epoch": 0.706100372788588,
	"eval_bleu": 0.7788876579155211,
	"eval_cos_loss": 0.5166550292643403,
	"eval_dec_loss": 0.0013616397724124983,
	"eval_loss": 1.4177445305435896,
	"eval_mse2_loss": 0.17684134553426872,
	"eval_mse_loss": 1.4177445305435896,
	"eval_rec_loss": 0.05370217473951103,
	"eval_runtime": 103.4098,
	"eval_samples_per_second": 290.108,
	"eval_steps_per_second": 4.535,
	"eval_var_loss": 0.02986719635233823,
	"flow/cos_sim": 0.48334496971894936,
	"flow/improvement_ratio": 0.851445895522388,
	"flow/mag_ratio_mean": 0.49312538899846675,
	"flow/mag_ratio_std": 0.2614598782586136,
	"step": 16384
	},
	{
	"epoch": 0.7171331911134096,
	"grad_norm": 0.7240028977394104,
	"learning_rate": 0.00019268955506693798,
	"loss": 1.4189178943634033,
	"step": 16640
	},
	{
	"epoch": 0.7281660094382313,
	"grad_norm": 0.6644338369369507,
	"learning_rate": 0.00017890678313921,
	"loss": 1.4202007055282593,
	"step": 16896
	},
	{
	"epoch": 0.739198827763053,
	"grad_norm": 0.8413478136062622,
	"learning_rate": 0.00016552730338695792,
	"loss": 1.419106364250183,
	"step": 17152
	},
	{
	"epoch": 0.7502316460878746,
	"grad_norm": 0.741065263748169,
	"learning_rate": 0.00015256792039904465,
	"loss": 1.415405511856079,
	"step": 17408
	},
	{
	"epoch": 0.7502316460878746,
	"eval_bleu": 0.7637354358631164,
	"eval_cos_loss": 0.5136227607727051,
	"eval_dec_loss": 0.0013235103740173923,
	"eval_loss": 1.4103716327183282,
	"eval_mse2_loss": 0.17683548507278662,
	"eval_mse_loss": 1.4103716327183282,
	"eval_rec_loss": 0.05761792201366125,
	"eval_var_loss": 0.03023185586926144,
	"flow/cos_sim": 0.4863772399898277,
	"flow/improvement_ratio": 0.8529339908028463,
	"flow/mag_ratio_mean": 0.4943711748128253,
	"flow/mag_ratio_std": 0.2643810258046396,
	"step": 17408
	},
	{
	"epoch": 0.7502316460878746,
	"eval_bleu": 0.7637354358631164,
	"eval_cos_loss": 0.5136227607727051,
	"eval_dec_loss": 0.0013235103740173923,
	"eval_loss": 1.4103716327183282,
	"eval_mse2_loss": 0.17683548507278662,
	"eval_mse_loss": 1.4103716327183282,
	"eval_rec_loss": 0.05761792201366125,
	"eval_runtime": 103.2171,
	"eval_samples_per_second": 290.65,
	"eval_steps_per_second": 4.544,
	"eval_var_loss": 0.03023185586926144,
	"flow/cos_sim": 0.4863772399898277,
	"flow/improvement_ratio": 0.8529339908028463,
	"flow/mag_ratio_mean": 0.4943711748128253,
	"flow/mag_ratio_std": 0.2643810258046396,
	"step": 17408
	},
	{
	"epoch": 0.7612644644126964,
	"grad_norm": 0.5421018600463867,
	"learning_rate": 0.00014004491112398103,
	"loss": 1.4142208099365234,
	"step": 17664
	},
	{
	"epoch": 0.7722972827375181,
	"grad_norm": 0.665582537651062,
	"learning_rate": 0.00012797400442612433,
	"loss": 1.411756992340088,
	"step": 17920
	},
	{
	"epoch": 0.7833301010623397,
	"grad_norm": 0.6837579607963562,
	"learning_rate": 0.00011637036133026895,
	"loss": 1.4075802564620972,
	"step": 18176
	},
	{
	"epoch": 0.7943629193871614,
	"grad_norm": 0.7160040736198425,
	"learning_rate": 0.00010524855597944216,
	"loss": 1.4070231914520264,
	"step": 18432
	},
	{
	"epoch": 0.7943629193871614,
	"eval_bleu": 0.8024029342579875,
	"eval_cos_loss": 0.5127464083593283,
	"eval_dec_loss": 0.0013179335473900858,
	"eval_loss": 1.4091586799763922,
	"eval_mse2_loss": 0.17562630394501472,
	"eval_mse_loss": 1.4091586799763922,
	"eval_rec_loss": 0.059627406716124334,
	"eval_var_loss": 0.029311500787576123,
	"flow/cos_sim": 0.4872535904333281,
	"flow/improvement_ratio": 0.8548329780096693,
	"flow/mag_ratio_mean": 0.49533584078491877,
	"flow/mag_ratio_std": 0.2655049035988891,
	"step": 18432
	},
	{
	"epoch": 0.7943629193871614,
	"eval_bleu": 0.8024029342579875,
	"eval_cos_loss": 0.5127464083593283,
	"eval_dec_loss": 0.0013179335473900858,
	"eval_loss": 1.4091586799763922,
	"eval_mse2_loss": 0.17562630394501472,
	"eval_mse_loss": 1.4091586799763922,
	"eval_rec_loss": 0.059627406716124334,
	"eval_runtime": 103.4418,
	"eval_samples_per_second": 290.018,
	"eval_steps_per_second": 4.534,
	"eval_var_loss": 0.029311500787576123,
	"flow/cos_sim": 0.4872535904333281,
	"flow/improvement_ratio": 0.8548329780096693,
	"flow/mag_ratio_mean": 0.49533584078491877,
	"flow/mag_ratio_std": 0.2655049035988891,
	"step": 18432
	},
	{
	"epoch": 0.8053957377119831,
	"grad_norm": 0.727080762386322,
	"learning_rate": 9.462255732982089e-05,
	"loss": 1.406097650527954,
	"step": 18688
	},
	{
	"epoch": 0.8164285560368048,
	"grad_norm": 0.6209878921508789,
	"learning_rate": 8.450571160576348e-05,
	"loss": 1.4059816598892212,
	"step": 18944
	},
	{
	"epoch": 0.8274613743616265,
	"grad_norm": 0.659706175327301,
	"learning_rate": 7.491072553698764e-05,
	"loss": 1.410292148590088,
	"step": 19200
	},
	{
	"epoch": 0.8384941926864482,
	"grad_norm": 0.5520651340484619,
	"learning_rate": 6.584965039895586e-05,
	"loss": 1.402584195137024,
	"step": 19456
	},
	{
	"epoch": 0.8384941926864482,
	"eval_bleu": 0.7435766156577157,
	"eval_cos_loss": 0.5144387822923884,
	"eval_dec_loss": 0.0013450082680801236,
	"eval_loss": 1.4127296161041585,
	"eval_mse2_loss": 0.17700788906134013,
	"eval_mse_loss": 1.4127296161041585,
	"eval_rec_loss": 0.058054142113306374,
	"eval_var_loss": 0.0291894421593022,
	"flow/cos_sim": 0.4855612163731793,
	"flow/improvement_ratio": 0.8498689588199038,
	"flow/mag_ratio_mean": 0.4951269815344292,
	"flow/mag_ratio_std": 0.26389562489508567,
	"step": 19456
	},
	{
	"epoch": 0.8384941926864482,
	"eval_bleu": 0.7435766156577157,
	"eval_cos_loss": 0.5144387822923884,
	"eval_dec_loss": 0.0013450082680801236,
	"eval_loss": 1.4127296161041585,
	"eval_mse2_loss": 0.17700788906134013,
	"eval_mse_loss": 1.4127296161041585,
	"eval_rec_loss": 0.058054142113306374,
	"eval_runtime": 103.8996,
	"eval_samples_per_second": 288.74,
	"eval_steps_per_second": 4.514,
	"eval_var_loss": 0.0291894421593022,
	"flow/cos_sim": 0.4855612163731793,
	"flow/improvement_ratio": 0.8498689588199038,
	"flow/mag_ratio_mean": 0.4951269815344292,
	"flow/mag_ratio_std": 0.26389562489508567,
	"step": 19456
	},
	{
	"epoch": 0.8495270110112698,
	"grad_norm": 0.7207916378974915,
	"learning_rate": 5.73338668765051e-05,
	"loss": 1.408148169517517,
	"step": 19712
	},
	{
	"epoch": 0.8605598293360915,
	"grad_norm": 0.6444937586784363,
	"learning_rate": 4.9374070769740984e-05,
	"loss": 1.4169082641601562,
	"step": 19968
	},
	{
	"epoch": 0.8715926476609133,
	"grad_norm": 0.6508966088294983,
	"learning_rate": 4.198025956014095e-05,
	"loss": 1.412489891052246,
	"step": 20224
	},
	{
	"epoch": 0.8826254659857349,
	"grad_norm": 0.8207064270973206,
	"learning_rate": 3.516171985374755e-05,
	"loss": 1.4014993906021118,
	"step": 20480
	},
	{
	"epoch": 0.8826254659857349,
	"eval_bleu": 0.7371724072330055,
	"eval_cos_loss": 0.5137777864805925,
	"eval_dec_loss": 0.0013706799051735545,
	"eval_loss": 1.409610672546094,
	"eval_mse2_loss": 0.17626210351361396,
	"eval_mse_loss": 1.409610672546094,
	"eval_rec_loss": 0.054663843655986574,
	"eval_var_loss": 0.029133995291965604,
	"flow/cos_sim": 0.48622221402776267,
	"flow/improvement_ratio": 0.8532393833975802,
	"flow/mag_ratio_mean": 0.4940188680249237,
	"flow/mag_ratio_std": 0.2655889735674299,
	"step": 20480
	},
	{
	"epoch": 0.8826254659857349,
	"eval_bleu": 0.7371724072330055,
	"eval_cos_loss": 0.5137777864805925,
	"eval_dec_loss": 0.0013706799051735545,
	"eval_loss": 1.409610672546094,
	"eval_mse2_loss": 0.17626210351361396,
	"eval_mse_loss": 1.409610672546094,
	"eval_rec_loss": 0.054663843655986574,
	"eval_runtime": 104.0379,
	"eval_samples_per_second": 288.356,
	"eval_steps_per_second": 4.508,
	"eval_var_loss": 0.029133995291965604,
	"flow/cos_sim": 0.48622221402776267,
	"flow/improvement_ratio": 0.8532393833975802,
	"flow/mag_ratio_mean": 0.4940188680249237,
	"flow/mag_ratio_std": 0.2655889735674299,
	"step": 20480
	},
	{
	"epoch": 0.8936582843105566,
	"grad_norm": 0.5996214151382446,
	"learning_rate": 2.8927015717215733e-05,
	"loss": 1.4027345180511475,
	"step": 20736
	},
	{
	"epoch": 0.9046911026353783,
	"grad_norm": 0.6789088845252991,
	"learning_rate": 2.3283977921370547e-05,
	"loss": 1.4052367210388184,
	"step": 20992
	},
	{
	"epoch": 0.9157239209601999,
	"grad_norm": 0.6676909327507019,
	"learning_rate": 1.8239694105780413e-05,
	"loss": 1.406872034072876,
	"step": 21248
	},
	{
	"epoch": 0.9267567392850217,
	"grad_norm": 0.5955349802970886,
	"learning_rate": 1.3800499876701955e-05,
	"loss": 1.4064586162567139,
	"step": 21504
	},
	{
	"epoch": 0.9267567392850217,
	"eval_bleu": 0.7426715244464189,
	"eval_cos_loss": 0.5071186275878695,
	"eval_dec_loss": 0.001350255208637894,
	"eval_loss": 1.3937010752366805,
	"eval_mse2_loss": 0.17541809607225695,
	"eval_mse_loss": 1.3937010752366805,
	"eval_rec_loss": 0.05103444970691445,
	"eval_var_loss": 0.02931836185091213,
	"flow/cos_sim": 0.49288137139542015,
	"flow/improvement_ratio": 0.8528173863252343,
	"flow/mag_ratio_mean": 0.4987420951252553,
	"flow/mag_ratio_std": 0.26658764935886936,
	"step": 21504
	},
	{
	"epoch": 0.9267567392850217,
	"eval_bleu": 0.7426715244464189,
	"eval_cos_loss": 0.5071186275878695,
	"eval_dec_loss": 0.001350255208637894,
	"eval_loss": 1.3937010752366805,
	"eval_mse2_loss": 0.17541809607225695,
	"eval_mse_loss": 1.3937010752366805,
	"eval_rec_loss": 0.05103444970691445,
	"eval_runtime": 104.142,
	"eval_samples_per_second": 288.068,
	"eval_steps_per_second": 4.503,
	"eval_var_loss": 0.02931836185091213,
	"flow/cos_sim": 0.49288137139542015,
	"flow/improvement_ratio": 0.8528173863252343,
	"flow/mag_ratio_mean": 0.4987420951252553,
	"flow/mag_ratio_std": 0.26658764935886936,
	"step": 21504
	},
	{
	"epoch": 0.9377895576098434,
	"grad_norm": 0.8665277361869812,
	"learning_rate": 9.971970849576406e-06,
	"loss": 1.4001104831695557,
	"step": 21760
	},
	{
	"epoch": 0.948822375934665,
	"grad_norm": 0.6160731315612793,
	"learning_rate": 6.758915646072339e-06,
	"loss": 1.4023921489715576,
	"step": 22016
	},
	{
	"epoch": 0.9598551942594867,
	"grad_norm": 0.6823092103004456,
	"learning_rate": 4.1653698544703575e-06,
	"loss": 1.4057680368423462,
	"step": 22272
	},
	{
	"epoch": 0.9708880125843083,
	"grad_norm": 0.7474303841590881,
	"learning_rate": 2.1945909609756286e-06,
	"loss": 1.402069330215454,
	"step": 22528
	},
	{
	"epoch": 0.9708880125843083,
	"eval_bleu": 0.7359243412878435,
	"eval_cos_loss": 0.5119307249593836,
	"eval_dec_loss": 0.0013969406839550735,
	"eval_loss": 1.4065255351158092,
	"eval_mse2_loss": 0.17711426552806073,
	"eval_mse_loss": 1.4065255351158092,
	"eval_rec_loss": 0.056425910651572604,
	"eval_var_loss": 0.02955100304091663,
	"flow/cos_sim": 0.4880692758031491,
	"flow/improvement_ratio": 0.8548107675906184,
	"flow/mag_ratio_mean": 0.49543472253945847,
	"flow/mag_ratio_std": 0.263321697140045,
	"step": 22528
	},
	{
	"epoch": 0.9708880125843083,
	"eval_bleu": 0.7359243412878435,
	"eval_cos_loss": 0.5119307249593836,
	"eval_dec_loss": 0.0013969406839550735,
	"eval_loss": 1.4065255351158092,
	"eval_mse2_loss": 0.17711426552806073,
	"eval_mse_loss": 1.4065255351158092,
	"eval_rec_loss": 0.056425910651572604,
	"eval_runtime": 103.1789,
	"eval_samples_per_second": 290.757,
	"eval_steps_per_second": 4.546,
	"eval_var_loss": 0.02955100304091663,
	"flow/cos_sim": 0.4880692758031491,
	"flow/improvement_ratio": 0.8548107675906184,
	"flow/mag_ratio_mean": 0.49543472253945847,
	"flow/mag_ratio_std": 0.263321697140045,
	"step": 22528
	},
	{
	"epoch": 0.9819208309091301,
	"grad_norm": 0.6597904562950134,
	"learning_rate": 8.490542583243222e-07,
	"loss": 1.4066376686096191,
	"step": 22784
	},
	{
	"epoch": 0.9929536492339518,
	"grad_norm": 0.7082860469818115,
	"learning_rate": 1.3044973682302396e-07,
	"loss": 1.4058468341827393,
	"step": 23040
	}
	],
	"logging_steps": 256,
	"max_steps": 23204,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1024,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}