{ "best_global_step": 37500, "best_metric": 0.3820163309574127, "best_model_checkpoint": "/work/HauSeq/train_results/results_bart/opus-mt-ha-en/checkpoint-37500", "epoch": 3.0, "eval_steps": 500, "global_step": 37500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.004, "grad_norm": 0.2092275619506836, "learning_rate": 0.0004993333333333334, "loss": 1.6076, "step": 50 }, { "epoch": 0.008, "grad_norm": 0.19429421424865723, "learning_rate": 0.0004986666666666667, "loss": 1.0458, "step": 100 }, { "epoch": 0.012, "grad_norm": 0.16413410007953644, "learning_rate": 0.000498, "loss": 0.9986, "step": 150 }, { "epoch": 0.016, "grad_norm": 0.22776064276695251, "learning_rate": 0.0004973333333333334, "loss": 0.917, "step": 200 }, { "epoch": 0.02, "grad_norm": 0.2378893941640854, "learning_rate": 0.0004966666666666666, "loss": 0.8685, "step": 250 }, { "epoch": 0.024, "grad_norm": 0.22648729383945465, "learning_rate": 0.000496, "loss": 0.8854, "step": 300 }, { "epoch": 0.028, "grad_norm": 0.21825851500034332, "learning_rate": 0.0004953333333333334, "loss": 0.85, "step": 350 }, { "epoch": 0.032, "grad_norm": 0.23655818402767181, "learning_rate": 0.0004946666666666667, "loss": 0.827, "step": 400 }, { "epoch": 0.036, "grad_norm": 0.22567935287952423, "learning_rate": 0.000494, "loss": 0.8075, "step": 450 }, { "epoch": 0.04, "grad_norm": 0.25502583384513855, "learning_rate": 0.0004933333333333334, "loss": 0.7793, "step": 500 }, { "epoch": 0.044, "grad_norm": 0.2530737519264221, "learning_rate": 0.0004926666666666666, "loss": 0.7396, "step": 550 }, { "epoch": 0.048, "grad_norm": 0.21066267788410187, "learning_rate": 0.000492, "loss": 0.7633, "step": 600 }, { "epoch": 0.052, "grad_norm": 0.2631346583366394, "learning_rate": 0.0004913333333333333, "loss": 0.7386, "step": 650 }, { "epoch": 0.056, "grad_norm": 0.2566450238227844, "learning_rate": 0.0004906666666666667, "loss": 0.7198, "step": 700 }, { "epoch": 0.06, "grad_norm": 0.32363173365592957, "learning_rate": 0.00049, "loss": 0.7249, "step": 750 }, { "epoch": 0.064, "grad_norm": 0.32649219036102295, "learning_rate": 0.0004893333333333334, "loss": 0.7205, "step": 800 }, { "epoch": 0.068, "grad_norm": 0.2959788143634796, "learning_rate": 0.0004886666666666667, "loss": 0.7081, "step": 850 }, { "epoch": 0.072, "grad_norm": 0.29660218954086304, "learning_rate": 0.000488, "loss": 0.6834, "step": 900 }, { "epoch": 0.076, "grad_norm": 0.31737223267555237, "learning_rate": 0.0004873333333333333, "loss": 0.689, "step": 950 }, { "epoch": 0.08, "grad_norm": 0.25910162925720215, "learning_rate": 0.0004866666666666667, "loss": 0.6824, "step": 1000 }, { "epoch": 0.084, "grad_norm": 0.2807078957557678, "learning_rate": 0.000486, "loss": 0.6612, "step": 1050 }, { "epoch": 0.088, "grad_norm": 0.2435218095779419, "learning_rate": 0.00048533333333333333, "loss": 0.6562, "step": 1100 }, { "epoch": 0.092, "grad_norm": 0.24235914647579193, "learning_rate": 0.0004846666666666667, "loss": 0.6341, "step": 1150 }, { "epoch": 0.096, "grad_norm": 0.25228413939476013, "learning_rate": 0.000484, "loss": 0.6719, "step": 1200 }, { "epoch": 0.1, "grad_norm": 0.28678834438323975, "learning_rate": 0.00048333333333333334, "loss": 0.6499, "step": 1250 }, { "epoch": 0.104, "grad_norm": 0.32590362429618835, "learning_rate": 0.00048266666666666667, "loss": 0.6559, "step": 1300 }, { "epoch": 0.108, "grad_norm": 0.2543511390686035, "learning_rate": 0.000482, "loss": 0.6229, "step": 1350 }, { "epoch": 0.112, "grad_norm": 0.3108578324317932, "learning_rate": 0.00048133333333333334, "loss": 0.6348, "step": 1400 }, { "epoch": 0.116, "grad_norm": 0.2822752594947815, "learning_rate": 0.0004806666666666667, "loss": 0.6329, "step": 1450 }, { "epoch": 0.12, "grad_norm": 0.24767610430717468, "learning_rate": 0.00048, "loss": 0.6423, "step": 1500 }, { "epoch": 0.124, "grad_norm": 0.301263689994812, "learning_rate": 0.00047933333333333335, "loss": 0.6211, "step": 1550 }, { "epoch": 0.128, "grad_norm": 0.27373722195625305, "learning_rate": 0.0004786666666666667, "loss": 0.5986, "step": 1600 }, { "epoch": 0.132, "grad_norm": 0.3386150002479553, "learning_rate": 0.00047799999999999996, "loss": 0.6203, "step": 1650 }, { "epoch": 0.136, "grad_norm": 0.2716316878795624, "learning_rate": 0.00047733333333333335, "loss": 0.6215, "step": 1700 }, { "epoch": 0.14, "grad_norm": 0.346894234418869, "learning_rate": 0.0004766666666666667, "loss": 0.6022, "step": 1750 }, { "epoch": 0.144, "grad_norm": 0.281380832195282, "learning_rate": 0.00047599999999999997, "loss": 0.599, "step": 1800 }, { "epoch": 0.148, "grad_norm": 0.26682645082473755, "learning_rate": 0.00047533333333333336, "loss": 0.6149, "step": 1850 }, { "epoch": 0.152, "grad_norm": 0.29206788539886475, "learning_rate": 0.0004746666666666667, "loss": 0.624, "step": 1900 }, { "epoch": 0.156, "grad_norm": 0.3583109378814697, "learning_rate": 0.000474, "loss": 0.5927, "step": 1950 }, { "epoch": 0.16, "grad_norm": 0.31711962819099426, "learning_rate": 0.00047333333333333336, "loss": 0.6035, "step": 2000 }, { "epoch": 0.164, "grad_norm": 0.4020940959453583, "learning_rate": 0.0004726666666666667, "loss": 0.5989, "step": 2050 }, { "epoch": 0.168, "grad_norm": 0.35674795508384705, "learning_rate": 0.000472, "loss": 0.5828, "step": 2100 }, { "epoch": 0.172, "grad_norm": 0.24146874248981476, "learning_rate": 0.0004713333333333333, "loss": 0.5723, "step": 2150 }, { "epoch": 0.176, "grad_norm": 0.26548057794570923, "learning_rate": 0.0004706666666666667, "loss": 0.5588, "step": 2200 }, { "epoch": 0.18, "grad_norm": 0.29983675479888916, "learning_rate": 0.00047, "loss": 0.605, "step": 2250 }, { "epoch": 0.184, "grad_norm": 0.28184646368026733, "learning_rate": 0.0004693333333333333, "loss": 0.5814, "step": 2300 }, { "epoch": 0.188, "grad_norm": 0.2990306615829468, "learning_rate": 0.0004686666666666667, "loss": 0.5636, "step": 2350 }, { "epoch": 0.192, "grad_norm": 0.2501387596130371, "learning_rate": 0.00046800000000000005, "loss": 0.5629, "step": 2400 }, { "epoch": 0.196, "grad_norm": 0.28481775522232056, "learning_rate": 0.0004673333333333333, "loss": 0.5898, "step": 2450 }, { "epoch": 0.2, "grad_norm": 0.31511107087135315, "learning_rate": 0.00046666666666666666, "loss": 0.5521, "step": 2500 }, { "epoch": 0.204, "grad_norm": 0.24317222833633423, "learning_rate": 0.00046600000000000005, "loss": 0.5751, "step": 2550 }, { "epoch": 0.208, "grad_norm": 0.26296958327293396, "learning_rate": 0.00046533333333333333, "loss": 0.5893, "step": 2600 }, { "epoch": 0.212, "grad_norm": 0.30075007677078247, "learning_rate": 0.00046466666666666667, "loss": 0.5307, "step": 2650 }, { "epoch": 0.216, "grad_norm": 0.34551864862442017, "learning_rate": 0.00046400000000000006, "loss": 0.5783, "step": 2700 }, { "epoch": 0.22, "grad_norm": 0.3560803234577179, "learning_rate": 0.00046333333333333334, "loss": 0.5645, "step": 2750 }, { "epoch": 0.224, "grad_norm": 0.23722952604293823, "learning_rate": 0.0004626666666666667, "loss": 0.5312, "step": 2800 }, { "epoch": 0.228, "grad_norm": 0.29451698064804077, "learning_rate": 0.000462, "loss": 0.5539, "step": 2850 }, { "epoch": 0.232, "grad_norm": 0.29222816228866577, "learning_rate": 0.00046133333333333334, "loss": 0.5679, "step": 2900 }, { "epoch": 0.236, "grad_norm": 0.2653771638870239, "learning_rate": 0.0004606666666666667, "loss": 0.5726, "step": 2950 }, { "epoch": 0.24, "grad_norm": 0.36674413084983826, "learning_rate": 0.00046, "loss": 0.5455, "step": 3000 }, { "epoch": 0.244, "grad_norm": 0.3437090218067169, "learning_rate": 0.00045933333333333335, "loss": 0.5303, "step": 3050 }, { "epoch": 0.248, "grad_norm": 0.2822039723396301, "learning_rate": 0.0004586666666666667, "loss": 0.5558, "step": 3100 }, { "epoch": 0.252, "grad_norm": 0.3630792498588562, "learning_rate": 0.000458, "loss": 0.5303, "step": 3150 }, { "epoch": 0.256, "grad_norm": 0.31400319933891296, "learning_rate": 0.0004573333333333333, "loss": 0.5505, "step": 3200 }, { "epoch": 0.26, "grad_norm": 0.26585137844085693, "learning_rate": 0.0004566666666666667, "loss": 0.5287, "step": 3250 }, { "epoch": 0.264, "grad_norm": 0.280496746301651, "learning_rate": 0.000456, "loss": 0.5334, "step": 3300 }, { "epoch": 0.268, "grad_norm": 0.2909296452999115, "learning_rate": 0.0004553333333333333, "loss": 0.524, "step": 3350 }, { "epoch": 0.272, "grad_norm": 0.2805761992931366, "learning_rate": 0.0004546666666666667, "loss": 0.525, "step": 3400 }, { "epoch": 0.276, "grad_norm": 0.28053075075149536, "learning_rate": 0.00045400000000000003, "loss": 0.574, "step": 3450 }, { "epoch": 0.28, "grad_norm": 0.3268900513648987, "learning_rate": 0.0004533333333333333, "loss": 0.5573, "step": 3500 }, { "epoch": 0.284, "grad_norm": 0.26179447770118713, "learning_rate": 0.00045266666666666665, "loss": 0.5306, "step": 3550 }, { "epoch": 0.288, "grad_norm": 0.2379418909549713, "learning_rate": 0.00045200000000000004, "loss": 0.5285, "step": 3600 }, { "epoch": 0.292, "grad_norm": 0.36370590329170227, "learning_rate": 0.0004513333333333333, "loss": 0.5624, "step": 3650 }, { "epoch": 0.296, "grad_norm": 0.2831771671772003, "learning_rate": 0.00045066666666666665, "loss": 0.5541, "step": 3700 }, { "epoch": 0.3, "grad_norm": 0.3059931993484497, "learning_rate": 0.00045000000000000004, "loss": 0.5547, "step": 3750 }, { "epoch": 0.304, "grad_norm": 0.26222649216651917, "learning_rate": 0.0004493333333333333, "loss": 0.5497, "step": 3800 }, { "epoch": 0.308, "grad_norm": 0.24700266122817993, "learning_rate": 0.00044866666666666666, "loss": 0.5392, "step": 3850 }, { "epoch": 0.312, "grad_norm": 0.3365049362182617, "learning_rate": 0.000448, "loss": 0.5538, "step": 3900 }, { "epoch": 0.316, "grad_norm": 0.26579147577285767, "learning_rate": 0.0004473333333333334, "loss": 0.5482, "step": 3950 }, { "epoch": 0.32, "grad_norm": 0.2766454219818115, "learning_rate": 0.00044666666666666666, "loss": 0.5277, "step": 4000 }, { "epoch": 0.324, "grad_norm": 0.2738679349422455, "learning_rate": 0.000446, "loss": 0.5227, "step": 4050 }, { "epoch": 0.328, "grad_norm": 0.2174311727285385, "learning_rate": 0.0004453333333333334, "loss": 0.5155, "step": 4100 }, { "epoch": 0.332, "grad_norm": 0.3532375395298004, "learning_rate": 0.00044466666666666667, "loss": 0.5488, "step": 4150 }, { "epoch": 0.336, "grad_norm": 0.28046268224716187, "learning_rate": 0.000444, "loss": 0.5411, "step": 4200 }, { "epoch": 0.34, "grad_norm": 0.2844601273536682, "learning_rate": 0.00044333333333333334, "loss": 0.5466, "step": 4250 }, { "epoch": 0.344, "grad_norm": 0.32266369462013245, "learning_rate": 0.0004426666666666667, "loss": 0.5548, "step": 4300 }, { "epoch": 0.348, "grad_norm": 0.27451226115226746, "learning_rate": 0.000442, "loss": 0.5261, "step": 4350 }, { "epoch": 0.352, "grad_norm": 0.3369055390357971, "learning_rate": 0.00044133333333333335, "loss": 0.5309, "step": 4400 }, { "epoch": 0.356, "grad_norm": 0.329650342464447, "learning_rate": 0.0004406666666666667, "loss": 0.5301, "step": 4450 }, { "epoch": 0.36, "grad_norm": 0.26292499899864197, "learning_rate": 0.00044, "loss": 0.5233, "step": 4500 }, { "epoch": 0.364, "grad_norm": 0.37950268387794495, "learning_rate": 0.00043933333333333335, "loss": 0.5517, "step": 4550 }, { "epoch": 0.368, "grad_norm": 0.2780044376850128, "learning_rate": 0.00043866666666666663, "loss": 0.5194, "step": 4600 }, { "epoch": 0.372, "grad_norm": 0.2816406488418579, "learning_rate": 0.000438, "loss": 0.5183, "step": 4650 }, { "epoch": 0.376, "grad_norm": 0.26864293217658997, "learning_rate": 0.00043733333333333336, "loss": 0.5307, "step": 4700 }, { "epoch": 0.38, "grad_norm": 0.33374643325805664, "learning_rate": 0.00043666666666666664, "loss": 0.5028, "step": 4750 }, { "epoch": 0.384, "grad_norm": 0.2985057830810547, "learning_rate": 0.000436, "loss": 0.553, "step": 4800 }, { "epoch": 0.388, "grad_norm": 0.3004714548587799, "learning_rate": 0.00043533333333333336, "loss": 0.5238, "step": 4850 }, { "epoch": 0.392, "grad_norm": 0.3005458116531372, "learning_rate": 0.00043466666666666664, "loss": 0.5283, "step": 4900 }, { "epoch": 0.396, "grad_norm": 0.29443225264549255, "learning_rate": 0.00043400000000000003, "loss": 0.4893, "step": 4950 }, { "epoch": 0.4, "grad_norm": 0.28742876648902893, "learning_rate": 0.00043333333333333337, "loss": 0.5341, "step": 5000 }, { "epoch": 0.404, "grad_norm": 0.25487369298934937, "learning_rate": 0.00043266666666666665, "loss": 0.5188, "step": 5050 }, { "epoch": 0.408, "grad_norm": 0.29729726910591125, "learning_rate": 0.000432, "loss": 0.5287, "step": 5100 }, { "epoch": 0.412, "grad_norm": 0.22507429122924805, "learning_rate": 0.0004313333333333334, "loss": 0.527, "step": 5150 }, { "epoch": 0.416, "grad_norm": 0.25595012307167053, "learning_rate": 0.00043066666666666665, "loss": 0.5246, "step": 5200 }, { "epoch": 0.42, "grad_norm": 0.36088213324546814, "learning_rate": 0.00043, "loss": 0.5077, "step": 5250 }, { "epoch": 0.424, "grad_norm": 0.2459583580493927, "learning_rate": 0.0004293333333333334, "loss": 0.5255, "step": 5300 }, { "epoch": 0.428, "grad_norm": 0.32024478912353516, "learning_rate": 0.00042866666666666666, "loss": 0.5221, "step": 5350 }, { "epoch": 0.432, "grad_norm": 0.24678969383239746, "learning_rate": 0.000428, "loss": 0.505, "step": 5400 }, { "epoch": 0.436, "grad_norm": 0.3292189836502075, "learning_rate": 0.00042733333333333333, "loss": 0.5102, "step": 5450 }, { "epoch": 0.44, "grad_norm": 0.28699588775634766, "learning_rate": 0.0004266666666666667, "loss": 0.5053, "step": 5500 }, { "epoch": 0.444, "grad_norm": 0.2756653428077698, "learning_rate": 0.000426, "loss": 0.5175, "step": 5550 }, { "epoch": 0.448, "grad_norm": 0.2923598885536194, "learning_rate": 0.00042533333333333334, "loss": 0.4928, "step": 5600 }, { "epoch": 0.452, "grad_norm": 0.24447552859783173, "learning_rate": 0.0004246666666666667, "loss": 0.5214, "step": 5650 }, { "epoch": 0.456, "grad_norm": 0.1894371509552002, "learning_rate": 0.000424, "loss": 0.5062, "step": 5700 }, { "epoch": 0.46, "grad_norm": 0.2202080637216568, "learning_rate": 0.00042333333333333334, "loss": 0.4852, "step": 5750 }, { "epoch": 0.464, "grad_norm": 0.2950378954410553, "learning_rate": 0.0004226666666666667, "loss": 0.5255, "step": 5800 }, { "epoch": 0.468, "grad_norm": 0.28961220383644104, "learning_rate": 0.000422, "loss": 0.5022, "step": 5850 }, { "epoch": 0.472, "grad_norm": 0.27346786856651306, "learning_rate": 0.00042133333333333335, "loss": 0.5307, "step": 5900 }, { "epoch": 0.476, "grad_norm": 0.24120746552944183, "learning_rate": 0.0004206666666666667, "loss": 0.5057, "step": 5950 }, { "epoch": 0.48, "grad_norm": 0.24060021340847015, "learning_rate": 0.00042, "loss": 0.4926, "step": 6000 }, { "epoch": 0.484, "grad_norm": 0.3075903356075287, "learning_rate": 0.00041933333333333335, "loss": 0.5081, "step": 6050 }, { "epoch": 0.488, "grad_norm": 0.3022703528404236, "learning_rate": 0.0004186666666666667, "loss": 0.5212, "step": 6100 }, { "epoch": 0.492, "grad_norm": 0.3121025860309601, "learning_rate": 0.00041799999999999997, "loss": 0.5087, "step": 6150 }, { "epoch": 0.496, "grad_norm": 0.2926901578903198, "learning_rate": 0.00041733333333333336, "loss": 0.5042, "step": 6200 }, { "epoch": 0.5, "grad_norm": 0.3166695237159729, "learning_rate": 0.0004166666666666667, "loss": 0.5224, "step": 6250 }, { "epoch": 0.504, "grad_norm": 0.3136211037635803, "learning_rate": 0.000416, "loss": 0.527, "step": 6300 }, { "epoch": 0.508, "grad_norm": 0.26788851618766785, "learning_rate": 0.00041533333333333336, "loss": 0.5027, "step": 6350 }, { "epoch": 0.512, "grad_norm": 0.3324771225452423, "learning_rate": 0.0004146666666666667, "loss": 0.5086, "step": 6400 }, { "epoch": 0.516, "grad_norm": 0.35602742433547974, "learning_rate": 0.000414, "loss": 0.5364, "step": 6450 }, { "epoch": 0.52, "grad_norm": 0.25825437903404236, "learning_rate": 0.0004133333333333333, "loss": 0.5221, "step": 6500 }, { "epoch": 0.524, "grad_norm": 0.287536084651947, "learning_rate": 0.0004126666666666667, "loss": 0.4937, "step": 6550 }, { "epoch": 0.528, "grad_norm": 0.29846829175949097, "learning_rate": 0.000412, "loss": 0.4978, "step": 6600 }, { "epoch": 0.532, "grad_norm": 0.2870037853717804, "learning_rate": 0.0004113333333333333, "loss": 0.5039, "step": 6650 }, { "epoch": 0.536, "grad_norm": 0.2645747661590576, "learning_rate": 0.0004106666666666667, "loss": 0.4901, "step": 6700 }, { "epoch": 0.54, "grad_norm": 0.2969241738319397, "learning_rate": 0.00041, "loss": 0.5184, "step": 6750 }, { "epoch": 0.544, "grad_norm": 0.2893584966659546, "learning_rate": 0.0004093333333333333, "loss": 0.5072, "step": 6800 }, { "epoch": 0.548, "grad_norm": 0.31742063164711, "learning_rate": 0.00040866666666666666, "loss": 0.5063, "step": 6850 }, { "epoch": 0.552, "grad_norm": 0.42868128418922424, "learning_rate": 0.000408, "loss": 0.503, "step": 6900 }, { "epoch": 0.556, "grad_norm": 0.23471830785274506, "learning_rate": 0.00040733333333333333, "loss": 0.5066, "step": 6950 }, { "epoch": 0.56, "grad_norm": 0.28356945514678955, "learning_rate": 0.00040666666666666667, "loss": 0.4905, "step": 7000 }, { "epoch": 0.564, "grad_norm": 0.24515143036842346, "learning_rate": 0.00040600000000000006, "loss": 0.4765, "step": 7050 }, { "epoch": 0.568, "grad_norm": 0.23990851640701294, "learning_rate": 0.00040533333333333334, "loss": 0.5097, "step": 7100 }, { "epoch": 0.572, "grad_norm": 0.2748514413833618, "learning_rate": 0.00040466666666666667, "loss": 0.536, "step": 7150 }, { "epoch": 0.576, "grad_norm": 0.2917095720767975, "learning_rate": 0.000404, "loss": 0.4849, "step": 7200 }, { "epoch": 0.58, "grad_norm": 0.3138541281223297, "learning_rate": 0.00040333333333333334, "loss": 0.4821, "step": 7250 }, { "epoch": 0.584, "grad_norm": 0.2899429202079773, "learning_rate": 0.0004026666666666667, "loss": 0.5037, "step": 7300 }, { "epoch": 0.588, "grad_norm": 0.24574729800224304, "learning_rate": 0.000402, "loss": 0.5153, "step": 7350 }, { "epoch": 0.592, "grad_norm": 0.29740893840789795, "learning_rate": 0.00040133333333333335, "loss": 0.5093, "step": 7400 }, { "epoch": 0.596, "grad_norm": 0.33804550766944885, "learning_rate": 0.0004006666666666667, "loss": 0.5026, "step": 7450 }, { "epoch": 0.6, "grad_norm": 0.26722225546836853, "learning_rate": 0.0004, "loss": 0.4991, "step": 7500 }, { "epoch": 0.604, "grad_norm": 0.3200959861278534, "learning_rate": 0.0003993333333333333, "loss": 0.498, "step": 7550 }, { "epoch": 0.608, "grad_norm": 0.26669803261756897, "learning_rate": 0.0003986666666666667, "loss": 0.4853, "step": 7600 }, { "epoch": 0.612, "grad_norm": 0.32375073432922363, "learning_rate": 0.000398, "loss": 0.5004, "step": 7650 }, { "epoch": 0.616, "grad_norm": 0.2246362268924713, "learning_rate": 0.0003973333333333333, "loss": 0.5056, "step": 7700 }, { "epoch": 0.62, "grad_norm": 0.2956292927265167, "learning_rate": 0.0003966666666666667, "loss": 0.4993, "step": 7750 }, { "epoch": 0.624, "grad_norm": 0.2602785527706146, "learning_rate": 0.00039600000000000003, "loss": 0.4869, "step": 7800 }, { "epoch": 0.628, "grad_norm": 0.2545652687549591, "learning_rate": 0.0003953333333333333, "loss": 0.492, "step": 7850 }, { "epoch": 0.632, "grad_norm": 0.35370874404907227, "learning_rate": 0.0003946666666666667, "loss": 0.4835, "step": 7900 }, { "epoch": 0.636, "grad_norm": 0.2842217683792114, "learning_rate": 0.00039400000000000004, "loss": 0.4992, "step": 7950 }, { "epoch": 0.64, "grad_norm": 0.26199471950531006, "learning_rate": 0.0003933333333333333, "loss": 0.5011, "step": 8000 }, { "epoch": 0.644, "grad_norm": 0.3429638743400574, "learning_rate": 0.00039266666666666665, "loss": 0.4915, "step": 8050 }, { "epoch": 0.648, "grad_norm": 0.2959030270576477, "learning_rate": 0.00039200000000000004, "loss": 0.5061, "step": 8100 }, { "epoch": 0.652, "grad_norm": 0.2924007177352905, "learning_rate": 0.0003913333333333333, "loss": 0.5024, "step": 8150 }, { "epoch": 0.656, "grad_norm": 0.25861507654190063, "learning_rate": 0.00039066666666666666, "loss": 0.4824, "step": 8200 }, { "epoch": 0.66, "grad_norm": 0.3849674165248871, "learning_rate": 0.00039000000000000005, "loss": 0.5018, "step": 8250 }, { "epoch": 0.664, "grad_norm": 0.29498299956321716, "learning_rate": 0.00038933333333333333, "loss": 0.5049, "step": 8300 }, { "epoch": 0.668, "grad_norm": 0.316537469625473, "learning_rate": 0.00038866666666666666, "loss": 0.4912, "step": 8350 }, { "epoch": 0.672, "grad_norm": 0.27407020330429077, "learning_rate": 0.000388, "loss": 0.5119, "step": 8400 }, { "epoch": 0.676, "grad_norm": 0.2714451551437378, "learning_rate": 0.00038733333333333333, "loss": 0.5133, "step": 8450 }, { "epoch": 0.68, "grad_norm": 0.29371556639671326, "learning_rate": 0.00038666666666666667, "loss": 0.5088, "step": 8500 }, { "epoch": 0.684, "grad_norm": 0.30629292130470276, "learning_rate": 0.000386, "loss": 0.4767, "step": 8550 }, { "epoch": 0.688, "grad_norm": 0.28031590580940247, "learning_rate": 0.0003853333333333334, "loss": 0.5005, "step": 8600 }, { "epoch": 0.692, "grad_norm": 0.25535598397254944, "learning_rate": 0.0003846666666666667, "loss": 0.5078, "step": 8650 }, { "epoch": 0.696, "grad_norm": 0.29329103231430054, "learning_rate": 0.000384, "loss": 0.5126, "step": 8700 }, { "epoch": 0.7, "grad_norm": 0.2747895121574402, "learning_rate": 0.00038333333333333334, "loss": 0.5086, "step": 8750 }, { "epoch": 0.704, "grad_norm": 0.25664788484573364, "learning_rate": 0.0003826666666666667, "loss": 0.4855, "step": 8800 }, { "epoch": 0.708, "grad_norm": 0.25921013951301575, "learning_rate": 0.000382, "loss": 0.49, "step": 8850 }, { "epoch": 0.712, "grad_norm": 0.26674720644950867, "learning_rate": 0.00038133333333333335, "loss": 0.4998, "step": 8900 }, { "epoch": 0.716, "grad_norm": 0.3254682123661041, "learning_rate": 0.0003806666666666667, "loss": 0.4741, "step": 8950 }, { "epoch": 0.72, "grad_norm": 0.31250348687171936, "learning_rate": 0.00038, "loss": 0.5087, "step": 9000 }, { "epoch": 0.724, "grad_norm": 0.3126009702682495, "learning_rate": 0.00037933333333333336, "loss": 0.5051, "step": 9050 }, { "epoch": 0.728, "grad_norm": 0.298431396484375, "learning_rate": 0.00037866666666666664, "loss": 0.4892, "step": 9100 }, { "epoch": 0.732, "grad_norm": 0.24428126215934753, "learning_rate": 0.000378, "loss": 0.4953, "step": 9150 }, { "epoch": 0.736, "grad_norm": 0.23693284392356873, "learning_rate": 0.00037734666666666667, "loss": 0.5244, "step": 9200 }, { "epoch": 0.74, "grad_norm": 0.3449302911758423, "learning_rate": 0.00037668, "loss": 0.4747, "step": 9250 }, { "epoch": 0.744, "grad_norm": 0.3592759966850281, "learning_rate": 0.00037601333333333334, "loss": 0.4828, "step": 9300 }, { "epoch": 0.748, "grad_norm": 0.3167342245578766, "learning_rate": 0.0003753466666666667, "loss": 0.5001, "step": 9350 }, { "epoch": 0.752, "grad_norm": 0.32248446345329285, "learning_rate": 0.00037468, "loss": 0.485, "step": 9400 }, { "epoch": 0.756, "grad_norm": 0.25082477927207947, "learning_rate": 0.0003740133333333333, "loss": 0.4911, "step": 9450 }, { "epoch": 0.76, "grad_norm": 0.2677770256996155, "learning_rate": 0.0003733466666666667, "loss": 0.504, "step": 9500 }, { "epoch": 0.764, "grad_norm": 0.24622194468975067, "learning_rate": 0.00037268, "loss": 0.5292, "step": 9550 }, { "epoch": 0.768, "grad_norm": 0.3372747004032135, "learning_rate": 0.0003720133333333333, "loss": 0.5291, "step": 9600 }, { "epoch": 0.772, "grad_norm": 0.3163023293018341, "learning_rate": 0.0003713466666666667, "loss": 0.4858, "step": 9650 }, { "epoch": 0.776, "grad_norm": 0.26732876896858215, "learning_rate": 0.00037068, "loss": 0.4571, "step": 9700 }, { "epoch": 0.78, "grad_norm": 0.36321815848350525, "learning_rate": 0.00037001333333333336, "loss": 0.4917, "step": 9750 }, { "epoch": 0.784, "grad_norm": 0.25806257128715515, "learning_rate": 0.00036934666666666664, "loss": 0.4576, "step": 9800 }, { "epoch": 0.788, "grad_norm": 0.35081419348716736, "learning_rate": 0.00036868000000000003, "loss": 0.4898, "step": 9850 }, { "epoch": 0.792, "grad_norm": 0.2805069088935852, "learning_rate": 0.00036801333333333336, "loss": 0.4735, "step": 9900 }, { "epoch": 0.796, "grad_norm": 0.2621886730194092, "learning_rate": 0.00036734666666666664, "loss": 0.4903, "step": 9950 }, { "epoch": 0.8, "grad_norm": 0.2226247787475586, "learning_rate": 0.00036668000000000003, "loss": 0.4979, "step": 10000 }, { "epoch": 0.804, "grad_norm": 0.3263295292854309, "learning_rate": 0.00036601333333333337, "loss": 0.4898, "step": 10050 }, { "epoch": 0.808, "grad_norm": 0.3030853867530823, "learning_rate": 0.00036534666666666665, "loss": 0.4873, "step": 10100 }, { "epoch": 0.812, "grad_norm": 0.29938003420829773, "learning_rate": 0.00036468000000000004, "loss": 0.4866, "step": 10150 }, { "epoch": 0.816, "grad_norm": 0.2580682039260864, "learning_rate": 0.0003640133333333334, "loss": 0.4822, "step": 10200 }, { "epoch": 0.82, "grad_norm": 0.2789117693901062, "learning_rate": 0.00036334666666666666, "loss": 0.5055, "step": 10250 }, { "epoch": 0.824, "grad_norm": 0.26500239968299866, "learning_rate": 0.00036268, "loss": 0.4812, "step": 10300 }, { "epoch": 0.828, "grad_norm": 0.235749751329422, "learning_rate": 0.0003620133333333334, "loss": 0.4972, "step": 10350 }, { "epoch": 0.832, "grad_norm": 0.31979885697364807, "learning_rate": 0.00036134666666666666, "loss": 0.474, "step": 10400 }, { "epoch": 0.836, "grad_norm": 0.3086276352405548, "learning_rate": 0.00036068, "loss": 0.4794, "step": 10450 }, { "epoch": 0.84, "grad_norm": 0.3262246251106262, "learning_rate": 0.0003600133333333334, "loss": 0.5247, "step": 10500 }, { "epoch": 0.844, "grad_norm": 0.2597404718399048, "learning_rate": 0.00035934666666666667, "loss": 0.4766, "step": 10550 }, { "epoch": 0.848, "grad_norm": 0.2788718640804291, "learning_rate": 0.00035868, "loss": 0.4772, "step": 10600 }, { "epoch": 0.852, "grad_norm": 0.30522826313972473, "learning_rate": 0.00035801333333333334, "loss": 0.4706, "step": 10650 }, { "epoch": 0.856, "grad_norm": 0.3109700679779053, "learning_rate": 0.00035734666666666667, "loss": 0.5005, "step": 10700 }, { "epoch": 0.86, "grad_norm": 0.34049564599990845, "learning_rate": 0.00035668, "loss": 0.4835, "step": 10750 }, { "epoch": 0.864, "grad_norm": 0.363732248544693, "learning_rate": 0.00035601333333333334, "loss": 0.4722, "step": 10800 }, { "epoch": 0.868, "grad_norm": 0.24134613573551178, "learning_rate": 0.0003553466666666667, "loss": 0.4813, "step": 10850 }, { "epoch": 0.872, "grad_norm": 0.24610887467861176, "learning_rate": 0.00035468, "loss": 0.4928, "step": 10900 }, { "epoch": 0.876, "grad_norm": 0.2842523157596588, "learning_rate": 0.00035401333333333335, "loss": 0.5107, "step": 10950 }, { "epoch": 0.88, "grad_norm": 0.28073206543922424, "learning_rate": 0.00035334666666666663, "loss": 0.5066, "step": 11000 }, { "epoch": 0.884, "grad_norm": 0.3019973039627075, "learning_rate": 0.00035268, "loss": 0.4579, "step": 11050 }, { "epoch": 0.888, "grad_norm": 0.28878089785575867, "learning_rate": 0.00035201333333333335, "loss": 0.4786, "step": 11100 }, { "epoch": 0.892, "grad_norm": 0.343481183052063, "learning_rate": 0.00035134666666666663, "loss": 0.4873, "step": 11150 }, { "epoch": 0.896, "grad_norm": 0.2982073426246643, "learning_rate": 0.00035068, "loss": 0.4782, "step": 11200 }, { "epoch": 0.9, "grad_norm": 0.26956865191459656, "learning_rate": 0.00035001333333333336, "loss": 0.5048, "step": 11250 }, { "epoch": 0.904, "grad_norm": 0.3186506927013397, "learning_rate": 0.0003493466666666667, "loss": 0.4989, "step": 11300 }, { "epoch": 0.908, "grad_norm": 0.2686464786529541, "learning_rate": 0.00034868, "loss": 0.4793, "step": 11350 }, { "epoch": 0.912, "grad_norm": 0.3437965512275696, "learning_rate": 0.00034801333333333336, "loss": 0.4868, "step": 11400 }, { "epoch": 0.916, "grad_norm": 0.30162402987480164, "learning_rate": 0.0003473466666666667, "loss": 0.4768, "step": 11450 }, { "epoch": 0.92, "grad_norm": 0.2590392529964447, "learning_rate": 0.00034668, "loss": 0.5218, "step": 11500 }, { "epoch": 0.924, "grad_norm": 0.25861477851867676, "learning_rate": 0.00034601333333333337, "loss": 0.514, "step": 11550 }, { "epoch": 0.928, "grad_norm": 0.33041343092918396, "learning_rate": 0.0003453466666666667, "loss": 0.4927, "step": 11600 }, { "epoch": 0.932, "grad_norm": 0.31611981987953186, "learning_rate": 0.00034468, "loss": 0.4677, "step": 11650 }, { "epoch": 0.936, "grad_norm": 0.2589157223701477, "learning_rate": 0.0003440133333333333, "loss": 0.4782, "step": 11700 }, { "epoch": 0.94, "grad_norm": 0.38315385580062866, "learning_rate": 0.0003433466666666667, "loss": 0.4829, "step": 11750 }, { "epoch": 0.944, "grad_norm": 0.25485607981681824, "learning_rate": 0.00034268, "loss": 0.4698, "step": 11800 }, { "epoch": 0.948, "grad_norm": 0.21316327154636383, "learning_rate": 0.00034201333333333333, "loss": 0.4749, "step": 11850 }, { "epoch": 0.952, "grad_norm": 0.3039748966693878, "learning_rate": 0.0003413466666666667, "loss": 0.4785, "step": 11900 }, { "epoch": 0.956, "grad_norm": 0.26846805214881897, "learning_rate": 0.00034068, "loss": 0.4882, "step": 11950 }, { "epoch": 0.96, "grad_norm": 0.23608337342739105, "learning_rate": 0.00034001333333333333, "loss": 0.4675, "step": 12000 }, { "epoch": 0.964, "grad_norm": 0.25088703632354736, "learning_rate": 0.00033934666666666667, "loss": 0.4792, "step": 12050 }, { "epoch": 0.968, "grad_norm": 0.22274646162986755, "learning_rate": 0.00033868, "loss": 0.4723, "step": 12100 }, { "epoch": 0.972, "grad_norm": 0.29319432377815247, "learning_rate": 0.00033801333333333334, "loss": 0.4849, "step": 12150 }, { "epoch": 0.976, "grad_norm": 0.3388037383556366, "learning_rate": 0.0003373466666666667, "loss": 0.4897, "step": 12200 }, { "epoch": 0.98, "grad_norm": 0.23492126166820526, "learning_rate": 0.00033668, "loss": 0.4793, "step": 12250 }, { "epoch": 0.984, "grad_norm": 0.24990254640579224, "learning_rate": 0.00033601333333333334, "loss": 0.487, "step": 12300 }, { "epoch": 0.988, "grad_norm": 0.35828229784965515, "learning_rate": 0.0003353466666666667, "loss": 0.4754, "step": 12350 }, { "epoch": 0.992, "grad_norm": 0.3121952414512634, "learning_rate": 0.00033467999999999996, "loss": 0.4709, "step": 12400 }, { "epoch": 0.996, "grad_norm": 0.31305962800979614, "learning_rate": 0.00033401333333333335, "loss": 0.4826, "step": 12450 }, { "epoch": 1.0, "grad_norm": 0.36394309997558594, "learning_rate": 0.0003333466666666667, "loss": 0.4955, "step": 12500 }, { "epoch": 1.0, "eval_bleu": 0.31633361709195856, "eval_cer": 0.3026747580955153, "eval_f1": 0.599540907309233, "eval_loss": 0.40856873989105225, "eval_meteor": 0.5806295876419754, "eval_runtime": 240.7283, "eval_samples_per_second": 20.77, "eval_steps_per_second": 0.652, "eval_wer": 0.5200205971260555, "step": 12500 }, { "epoch": 1.004, "grad_norm": 0.2500036060810089, "learning_rate": 0.00033267999999999997, "loss": 0.4812, "step": 12550 }, { "epoch": 1.008, "grad_norm": 0.2867385149002075, "learning_rate": 0.00033201333333333336, "loss": 0.4682, "step": 12600 }, { "epoch": 1.012, "grad_norm": 0.3150795102119446, "learning_rate": 0.00033136, "loss": 0.4735, "step": 12650 }, { "epoch": 1.016, "grad_norm": 0.28218817710876465, "learning_rate": 0.00033069333333333333, "loss": 0.4744, "step": 12700 }, { "epoch": 1.02, "grad_norm": 0.30784672498703003, "learning_rate": 0.0003300266666666667, "loss": 0.4768, "step": 12750 }, { "epoch": 1.024, "grad_norm": 0.2979671359062195, "learning_rate": 0.00032936, "loss": 0.4874, "step": 12800 }, { "epoch": 1.028, "grad_norm": 0.2744097411632538, "learning_rate": 0.00032869333333333334, "loss": 0.473, "step": 12850 }, { "epoch": 1.032, "grad_norm": 0.282791405916214, "learning_rate": 0.0003280266666666667, "loss": 0.475, "step": 12900 }, { "epoch": 1.036, "grad_norm": 0.3006061315536499, "learning_rate": 0.00032736, "loss": 0.4709, "step": 12950 }, { "epoch": 1.04, "grad_norm": 0.2986580729484558, "learning_rate": 0.00032669333333333335, "loss": 0.4856, "step": 13000 }, { "epoch": 1.044, "grad_norm": 0.3223816752433777, "learning_rate": 0.0003260266666666667, "loss": 0.4704, "step": 13050 }, { "epoch": 1.048, "grad_norm": 0.23746663331985474, "learning_rate": 0.00032536, "loss": 0.5102, "step": 13100 }, { "epoch": 1.052, "grad_norm": 0.35792630910873413, "learning_rate": 0.00032469333333333335, "loss": 0.4577, "step": 13150 }, { "epoch": 1.056, "grad_norm": 0.2772007882595062, "learning_rate": 0.0003240266666666667, "loss": 0.4649, "step": 13200 }, { "epoch": 1.06, "grad_norm": 0.2817031741142273, "learning_rate": 0.00032335999999999997, "loss": 0.4747, "step": 13250 }, { "epoch": 1.064, "grad_norm": 0.3015364408493042, "learning_rate": 0.00032269333333333336, "loss": 0.4766, "step": 13300 }, { "epoch": 1.068, "grad_norm": 0.2547887861728668, "learning_rate": 0.0003220266666666667, "loss": 0.4557, "step": 13350 }, { "epoch": 1.072, "grad_norm": 0.23996621370315552, "learning_rate": 0.00032135999999999997, "loss": 0.4683, "step": 13400 }, { "epoch": 1.076, "grad_norm": 0.2721744477748871, "learning_rate": 0.00032069333333333336, "loss": 0.4846, "step": 13450 }, { "epoch": 1.08, "grad_norm": 0.28801387548446655, "learning_rate": 0.0003200266666666667, "loss": 0.503, "step": 13500 }, { "epoch": 1.084, "grad_norm": 0.3717672526836395, "learning_rate": 0.00031936, "loss": 0.4839, "step": 13550 }, { "epoch": 1.088, "grad_norm": 0.3002767264842987, "learning_rate": 0.0003186933333333333, "loss": 0.4679, "step": 13600 }, { "epoch": 1.092, "grad_norm": 0.23872257769107819, "learning_rate": 0.0003180266666666667, "loss": 0.4636, "step": 13650 }, { "epoch": 1.096, "grad_norm": 0.26545438170433044, "learning_rate": 0.00031736, "loss": 0.4935, "step": 13700 }, { "epoch": 1.1, "grad_norm": 0.25952640175819397, "learning_rate": 0.0003166933333333333, "loss": 0.4792, "step": 13750 }, { "epoch": 1.104, "grad_norm": 0.28248780965805054, "learning_rate": 0.0003160266666666667, "loss": 0.4697, "step": 13800 }, { "epoch": 1.108, "grad_norm": 0.30348455905914307, "learning_rate": 0.00031536, "loss": 0.4755, "step": 13850 }, { "epoch": 1.112, "grad_norm": 0.2926234006881714, "learning_rate": 0.0003146933333333333, "loss": 0.4638, "step": 13900 }, { "epoch": 1.116, "grad_norm": 0.3370034694671631, "learning_rate": 0.00031402666666666666, "loss": 0.5214, "step": 13950 }, { "epoch": 1.12, "grad_norm": 0.30350279808044434, "learning_rate": 0.00031336000000000005, "loss": 0.4753, "step": 14000 }, { "epoch": 1.124, "grad_norm": 0.2867070734500885, "learning_rate": 0.00031269333333333333, "loss": 0.4633, "step": 14050 }, { "epoch": 1.1280000000000001, "grad_norm": 0.23236282169818878, "learning_rate": 0.00031202666666666667, "loss": 0.4741, "step": 14100 }, { "epoch": 1.1320000000000001, "grad_norm": 0.32306379079818726, "learning_rate": 0.00031136000000000005, "loss": 0.4961, "step": 14150 }, { "epoch": 1.1360000000000001, "grad_norm": 0.3291684091091156, "learning_rate": 0.00031069333333333334, "loss": 0.5087, "step": 14200 }, { "epoch": 1.1400000000000001, "grad_norm": 0.27017146348953247, "learning_rate": 0.00031002666666666667, "loss": 0.4822, "step": 14250 }, { "epoch": 1.144, "grad_norm": 0.35017845034599304, "learning_rate": 0.00030936, "loss": 0.4983, "step": 14300 }, { "epoch": 1.148, "grad_norm": 0.3788470923900604, "learning_rate": 0.00030869333333333334, "loss": 0.4608, "step": 14350 }, { "epoch": 1.152, "grad_norm": 0.2836882174015045, "learning_rate": 0.0003080266666666667, "loss": 0.4775, "step": 14400 }, { "epoch": 1.156, "grad_norm": 0.3272930085659027, "learning_rate": 0.00030736, "loss": 0.4871, "step": 14450 }, { "epoch": 1.16, "grad_norm": 0.27939507365226746, "learning_rate": 0.00030669333333333335, "loss": 0.4753, "step": 14500 }, { "epoch": 1.164, "grad_norm": 0.23815886676311493, "learning_rate": 0.0003060266666666667, "loss": 0.4696, "step": 14550 }, { "epoch": 1.168, "grad_norm": 0.274541974067688, "learning_rate": 0.00030536, "loss": 0.4739, "step": 14600 }, { "epoch": 1.172, "grad_norm": 0.24817168712615967, "learning_rate": 0.0003046933333333333, "loss": 0.483, "step": 14650 }, { "epoch": 1.176, "grad_norm": 0.27509042620658875, "learning_rate": 0.0003040266666666667, "loss": 0.4898, "step": 14700 }, { "epoch": 1.18, "grad_norm": 0.276006817817688, "learning_rate": 0.00030336, "loss": 0.4609, "step": 14750 }, { "epoch": 1.184, "grad_norm": 0.30276405811309814, "learning_rate": 0.0003026933333333333, "loss": 0.4823, "step": 14800 }, { "epoch": 1.188, "grad_norm": 0.2664280831813812, "learning_rate": 0.00030204, "loss": 0.4647, "step": 14850 }, { "epoch": 1.192, "grad_norm": 0.20124799013137817, "learning_rate": 0.00030137333333333334, "loss": 0.4552, "step": 14900 }, { "epoch": 1.196, "grad_norm": 0.2490241974592209, "learning_rate": 0.00030070666666666667, "loss": 0.4614, "step": 14950 }, { "epoch": 1.2, "grad_norm": 0.30199629068374634, "learning_rate": 0.00030003999999999995, "loss": 0.4797, "step": 15000 }, { "epoch": 1.204, "grad_norm": 0.3190577030181885, "learning_rate": 0.00029937333333333334, "loss": 0.4696, "step": 15050 }, { "epoch": 1.208, "grad_norm": 0.31624796986579895, "learning_rate": 0.0002987066666666667, "loss": 0.502, "step": 15100 }, { "epoch": 1.212, "grad_norm": 0.2972472310066223, "learning_rate": 0.00029804, "loss": 0.4785, "step": 15150 }, { "epoch": 1.216, "grad_norm": 0.2509859800338745, "learning_rate": 0.00029737333333333335, "loss": 0.4831, "step": 15200 }, { "epoch": 1.22, "grad_norm": 0.33859002590179443, "learning_rate": 0.0002967066666666667, "loss": 0.4866, "step": 15250 }, { "epoch": 1.224, "grad_norm": 0.3096024692058563, "learning_rate": 0.00029604, "loss": 0.4798, "step": 15300 }, { "epoch": 1.228, "grad_norm": 0.2664068341255188, "learning_rate": 0.00029537333333333335, "loss": 0.4899, "step": 15350 }, { "epoch": 1.232, "grad_norm": 0.2894981801509857, "learning_rate": 0.0002947066666666667, "loss": 0.4577, "step": 15400 }, { "epoch": 1.236, "grad_norm": 0.31407004594802856, "learning_rate": 0.00029404, "loss": 0.4933, "step": 15450 }, { "epoch": 1.24, "grad_norm": 0.29782843589782715, "learning_rate": 0.0002933733333333333, "loss": 0.4569, "step": 15500 }, { "epoch": 1.244, "grad_norm": 0.29805317521095276, "learning_rate": 0.0002927066666666667, "loss": 0.4851, "step": 15550 }, { "epoch": 1.248, "grad_norm": 0.27355390787124634, "learning_rate": 0.00029204000000000003, "loss": 0.4691, "step": 15600 }, { "epoch": 1.252, "grad_norm": 0.2702775001525879, "learning_rate": 0.0002913733333333333, "loss": 0.4778, "step": 15650 }, { "epoch": 1.256, "grad_norm": 0.2955879271030426, "learning_rate": 0.0002907066666666667, "loss": 0.4646, "step": 15700 }, { "epoch": 1.26, "grad_norm": 0.3229389488697052, "learning_rate": 0.00029004000000000004, "loss": 0.491, "step": 15750 }, { "epoch": 1.264, "grad_norm": 0.23525162041187286, "learning_rate": 0.0002893733333333333, "loss": 0.4692, "step": 15800 }, { "epoch": 1.268, "grad_norm": 0.289009690284729, "learning_rate": 0.00028870666666666665, "loss": 0.4899, "step": 15850 }, { "epoch": 1.272, "grad_norm": 0.32057586312294006, "learning_rate": 0.00028804000000000004, "loss": 0.4644, "step": 15900 }, { "epoch": 1.276, "grad_norm": 0.30154454708099365, "learning_rate": 0.0002873733333333333, "loss": 0.4955, "step": 15950 }, { "epoch": 1.28, "grad_norm": 0.2960298955440521, "learning_rate": 0.00028670666666666666, "loss": 0.4797, "step": 16000 }, { "epoch": 1.284, "grad_norm": 0.28514572978019714, "learning_rate": 0.00028604000000000005, "loss": 0.4699, "step": 16050 }, { "epoch": 1.288, "grad_norm": 0.3209136128425598, "learning_rate": 0.00028537333333333333, "loss": 0.488, "step": 16100 }, { "epoch": 1.292, "grad_norm": 0.22408682107925415, "learning_rate": 0.00028470666666666666, "loss": 0.4655, "step": 16150 }, { "epoch": 1.296, "grad_norm": 0.29021069407463074, "learning_rate": 0.00028404, "loss": 0.4862, "step": 16200 }, { "epoch": 1.3, "grad_norm": 0.29265522956848145, "learning_rate": 0.00028337333333333333, "loss": 0.4482, "step": 16250 }, { "epoch": 1.304, "grad_norm": 0.26601076126098633, "learning_rate": 0.00028270666666666667, "loss": 0.4509, "step": 16300 }, { "epoch": 1.308, "grad_norm": 0.3104246258735657, "learning_rate": 0.00028204, "loss": 0.4479, "step": 16350 }, { "epoch": 1.312, "grad_norm": 0.3156643509864807, "learning_rate": 0.00028137333333333334, "loss": 0.4964, "step": 16400 }, { "epoch": 1.316, "grad_norm": 0.2647090554237366, "learning_rate": 0.0002807066666666667, "loss": 0.4921, "step": 16450 }, { "epoch": 1.32, "grad_norm": 0.28769049048423767, "learning_rate": 0.00028004, "loss": 0.4549, "step": 16500 }, { "epoch": 1.324, "grad_norm": 0.3155941069126129, "learning_rate": 0.0002793733333333333, "loss": 0.4536, "step": 16550 }, { "epoch": 1.328, "grad_norm": 0.3364107310771942, "learning_rate": 0.0002787066666666667, "loss": 0.4719, "step": 16600 }, { "epoch": 1.332, "grad_norm": 0.2532012462615967, "learning_rate": 0.00027804, "loss": 0.4723, "step": 16650 }, { "epoch": 1.336, "grad_norm": 0.3144409656524658, "learning_rate": 0.00027737333333333335, "loss": 0.4654, "step": 16700 }, { "epoch": 1.34, "grad_norm": 0.24520185589790344, "learning_rate": 0.0002767066666666667, "loss": 0.4774, "step": 16750 }, { "epoch": 1.3439999999999999, "grad_norm": 0.26547014713287354, "learning_rate": 0.00027604, "loss": 0.5014, "step": 16800 }, { "epoch": 1.3479999999999999, "grad_norm": 0.34588199853897095, "learning_rate": 0.00027537333333333336, "loss": 0.4698, "step": 16850 }, { "epoch": 1.3519999999999999, "grad_norm": 0.23689764738082886, "learning_rate": 0.00027470666666666664, "loss": 0.4527, "step": 16900 }, { "epoch": 1.3559999999999999, "grad_norm": 0.28324463963508606, "learning_rate": 0.00027404, "loss": 0.4828, "step": 16950 }, { "epoch": 1.3599999999999999, "grad_norm": 0.3084874153137207, "learning_rate": 0.00027337333333333336, "loss": 0.4666, "step": 17000 }, { "epoch": 1.3639999999999999, "grad_norm": 0.3006160855293274, "learning_rate": 0.00027270666666666664, "loss": 0.4417, "step": 17050 }, { "epoch": 1.3679999999999999, "grad_norm": 0.3295688033103943, "learning_rate": 0.00027204000000000003, "loss": 0.4746, "step": 17100 }, { "epoch": 1.3719999999999999, "grad_norm": 0.24469783902168274, "learning_rate": 0.00027137333333333337, "loss": 0.4769, "step": 17150 }, { "epoch": 1.376, "grad_norm": 0.3538406491279602, "learning_rate": 0.00027070666666666665, "loss": 0.4645, "step": 17200 }, { "epoch": 1.38, "grad_norm": 0.31772086024284363, "learning_rate": 0.00027004, "loss": 0.4822, "step": 17250 }, { "epoch": 1.384, "grad_norm": 0.3570919632911682, "learning_rate": 0.00026937333333333337, "loss": 0.4478, "step": 17300 }, { "epoch": 1.388, "grad_norm": 0.2592201232910156, "learning_rate": 0.00026870666666666665, "loss": 0.4605, "step": 17350 }, { "epoch": 1.392, "grad_norm": 0.2992711365222931, "learning_rate": 0.00026804, "loss": 0.4507, "step": 17400 }, { "epoch": 1.396, "grad_norm": 0.22785666584968567, "learning_rate": 0.0002673733333333334, "loss": 0.4515, "step": 17450 }, { "epoch": 1.4, "grad_norm": 0.3160172700881958, "learning_rate": 0.00026670666666666666, "loss": 0.4746, "step": 17500 }, { "epoch": 1.404, "grad_norm": 0.2995624244213104, "learning_rate": 0.00026604, "loss": 0.4717, "step": 17550 }, { "epoch": 1.408, "grad_norm": 0.20798690617084503, "learning_rate": 0.00026537333333333333, "loss": 0.4568, "step": 17600 }, { "epoch": 1.412, "grad_norm": 0.27740103006362915, "learning_rate": 0.00026470666666666666, "loss": 0.4895, "step": 17650 }, { "epoch": 1.416, "grad_norm": 0.28020384907722473, "learning_rate": 0.00026404, "loss": 0.4738, "step": 17700 }, { "epoch": 1.42, "grad_norm": 0.41296902298927307, "learning_rate": 0.00026337333333333333, "loss": 0.4751, "step": 17750 }, { "epoch": 1.424, "grad_norm": 0.27197784185409546, "learning_rate": 0.00026270666666666667, "loss": 0.455, "step": 17800 }, { "epoch": 1.428, "grad_norm": 0.40654972195625305, "learning_rate": 0.00026204, "loss": 0.4736, "step": 17850 }, { "epoch": 1.432, "grad_norm": 0.2697378098964691, "learning_rate": 0.00026137333333333334, "loss": 0.453, "step": 17900 }, { "epoch": 1.436, "grad_norm": 0.3013555407524109, "learning_rate": 0.0002607066666666666, "loss": 0.4621, "step": 17950 }, { "epoch": 1.44, "grad_norm": 0.24706317484378815, "learning_rate": 0.00026004, "loss": 0.4848, "step": 18000 }, { "epoch": 1.444, "grad_norm": 0.27455249428749084, "learning_rate": 0.00025937333333333335, "loss": 0.4659, "step": 18050 }, { "epoch": 1.448, "grad_norm": 0.27741050720214844, "learning_rate": 0.0002587066666666666, "loss": 0.4873, "step": 18100 }, { "epoch": 1.452, "grad_norm": 0.2550397217273712, "learning_rate": 0.00025804, "loss": 0.478, "step": 18150 }, { "epoch": 1.456, "grad_norm": 0.29555752873420715, "learning_rate": 0.00025737333333333335, "loss": 0.4496, "step": 18200 }, { "epoch": 1.46, "grad_norm": 0.2709548771381378, "learning_rate": 0.0002567066666666667, "loss": 0.4811, "step": 18250 }, { "epoch": 1.464, "grad_norm": 0.2967120110988617, "learning_rate": 0.00025604, "loss": 0.4851, "step": 18300 }, { "epoch": 1.468, "grad_norm": 0.31517747044563293, "learning_rate": 0.00025537333333333336, "loss": 0.4586, "step": 18350 }, { "epoch": 1.472, "grad_norm": 0.2162676900625229, "learning_rate": 0.0002547066666666667, "loss": 0.4695, "step": 18400 }, { "epoch": 1.476, "grad_norm": 0.31056004762649536, "learning_rate": 0.00025404, "loss": 0.4484, "step": 18450 }, { "epoch": 1.48, "grad_norm": 0.32838574051856995, "learning_rate": 0.00025337333333333336, "loss": 0.4852, "step": 18500 }, { "epoch": 1.484, "grad_norm": 0.2534690201282501, "learning_rate": 0.0002527066666666667, "loss": 0.4575, "step": 18550 }, { "epoch": 1.488, "grad_norm": 0.2541729509830475, "learning_rate": 0.00025204, "loss": 0.4567, "step": 18600 }, { "epoch": 1.492, "grad_norm": 0.28390800952911377, "learning_rate": 0.00025137333333333337, "loss": 0.475, "step": 18650 }, { "epoch": 1.496, "grad_norm": 0.3094373643398285, "learning_rate": 0.0002507066666666667, "loss": 0.4579, "step": 18700 }, { "epoch": 1.5, "grad_norm": 0.25698211789131165, "learning_rate": 0.00025004, "loss": 0.4574, "step": 18750 }, { "epoch": 1.504, "grad_norm": 0.2955055236816406, "learning_rate": 0.0002493733333333333, "loss": 0.4542, "step": 18800 }, { "epoch": 1.508, "grad_norm": 0.27750635147094727, "learning_rate": 0.00024870666666666665, "loss": 0.4475, "step": 18850 }, { "epoch": 1.512, "grad_norm": 0.3643854260444641, "learning_rate": 0.0002480533333333333, "loss": 0.4545, "step": 18900 }, { "epoch": 1.516, "grad_norm": 0.2834565341472626, "learning_rate": 0.0002473866666666667, "loss": 0.4753, "step": 18950 }, { "epoch": 1.52, "grad_norm": 0.2682524621486664, "learning_rate": 0.00024672, "loss": 0.464, "step": 19000 }, { "epoch": 1.524, "grad_norm": 0.26153242588043213, "learning_rate": 0.00024605333333333336, "loss": 0.4622, "step": 19050 }, { "epoch": 1.528, "grad_norm": 0.2866336405277252, "learning_rate": 0.0002453866666666667, "loss": 0.458, "step": 19100 }, { "epoch": 1.532, "grad_norm": 0.23598459362983704, "learning_rate": 0.00024472, "loss": 0.4743, "step": 19150 }, { "epoch": 1.536, "grad_norm": 0.2445322722196579, "learning_rate": 0.00024405333333333334, "loss": 0.4531, "step": 19200 }, { "epoch": 1.54, "grad_norm": 0.28900501132011414, "learning_rate": 0.00024338666666666667, "loss": 0.4672, "step": 19250 }, { "epoch": 1.544, "grad_norm": 0.29762062430381775, "learning_rate": 0.00024272, "loss": 0.481, "step": 19300 }, { "epoch": 1.548, "grad_norm": 0.345310777425766, "learning_rate": 0.00024205333333333334, "loss": 0.47, "step": 19350 }, { "epoch": 1.552, "grad_norm": 0.2770834267139435, "learning_rate": 0.0002414, "loss": 0.4584, "step": 19400 }, { "epoch": 1.556, "grad_norm": 0.25502651929855347, "learning_rate": 0.00024073333333333332, "loss": 0.4592, "step": 19450 }, { "epoch": 1.56, "grad_norm": 0.3983103930950165, "learning_rate": 0.00024006666666666668, "loss": 0.4736, "step": 19500 }, { "epoch": 1.564, "grad_norm": 0.26423758268356323, "learning_rate": 0.00023940000000000002, "loss": 0.4681, "step": 19550 }, { "epoch": 1.568, "grad_norm": 0.3226359784603119, "learning_rate": 0.00023873333333333333, "loss": 0.438, "step": 19600 }, { "epoch": 1.572, "grad_norm": 0.2670074701309204, "learning_rate": 0.0002380666666666667, "loss": 0.4769, "step": 19650 }, { "epoch": 1.576, "grad_norm": 0.22759200632572174, "learning_rate": 0.0002374, "loss": 0.4616, "step": 19700 }, { "epoch": 1.58, "grad_norm": 0.2426389902830124, "learning_rate": 0.00023673333333333333, "loss": 0.4457, "step": 19750 }, { "epoch": 1.584, "grad_norm": 0.2860774099826813, "learning_rate": 0.00023606666666666667, "loss": 0.4861, "step": 19800 }, { "epoch": 1.588, "grad_norm": 0.2793583273887634, "learning_rate": 0.0002354, "loss": 0.4716, "step": 19850 }, { "epoch": 1.592, "grad_norm": 0.276412695646286, "learning_rate": 0.00023473333333333334, "loss": 0.4806, "step": 19900 }, { "epoch": 1.596, "grad_norm": 0.2666271924972534, "learning_rate": 0.00023406666666666667, "loss": 0.4793, "step": 19950 }, { "epoch": 1.6, "grad_norm": 0.2800932824611664, "learning_rate": 0.0002334, "loss": 0.4657, "step": 20000 }, { "epoch": 1.604, "grad_norm": 0.25909069180488586, "learning_rate": 0.00023273333333333332, "loss": 0.47, "step": 20050 }, { "epoch": 1.608, "grad_norm": 0.24460501968860626, "learning_rate": 0.00023206666666666668, "loss": 0.4824, "step": 20100 }, { "epoch": 1.612, "grad_norm": 0.2733166515827179, "learning_rate": 0.00023141333333333335, "loss": 0.4568, "step": 20150 }, { "epoch": 1.616, "grad_norm": 0.22740538418293, "learning_rate": 0.00023074666666666666, "loss": 0.4736, "step": 20200 }, { "epoch": 1.62, "grad_norm": 0.2770317494869232, "learning_rate": 0.00023008000000000002, "loss": 0.459, "step": 20250 }, { "epoch": 1.624, "grad_norm": 0.2701035737991333, "learning_rate": 0.00022941333333333333, "loss": 0.4438, "step": 20300 }, { "epoch": 1.6280000000000001, "grad_norm": 0.2947094738483429, "learning_rate": 0.00022874666666666666, "loss": 0.4623, "step": 20350 }, { "epoch": 1.6320000000000001, "grad_norm": 0.24584254622459412, "learning_rate": 0.00022808, "loss": 0.4546, "step": 20400 }, { "epoch": 1.6360000000000001, "grad_norm": 0.30227118730545044, "learning_rate": 0.00022741333333333333, "loss": 0.4332, "step": 20450 }, { "epoch": 1.6400000000000001, "grad_norm": 0.3074963688850403, "learning_rate": 0.0002267466666666667, "loss": 0.47, "step": 20500 }, { "epoch": 1.6440000000000001, "grad_norm": 0.2765690088272095, "learning_rate": 0.00022608, "loss": 0.4442, "step": 20550 }, { "epoch": 1.6480000000000001, "grad_norm": 0.3042277693748474, "learning_rate": 0.00022541333333333334, "loss": 0.4717, "step": 20600 }, { "epoch": 1.6520000000000001, "grad_norm": 0.3536015748977661, "learning_rate": 0.00022474666666666667, "loss": 0.4722, "step": 20650 }, { "epoch": 1.6560000000000001, "grad_norm": 0.24768327176570892, "learning_rate": 0.00022408, "loss": 0.4518, "step": 20700 }, { "epoch": 1.6600000000000001, "grad_norm": 0.265460342168808, "learning_rate": 0.00022341333333333332, "loss": 0.4695, "step": 20750 }, { "epoch": 1.6640000000000001, "grad_norm": 0.2603040337562561, "learning_rate": 0.00022274666666666668, "loss": 0.4855, "step": 20800 }, { "epoch": 1.6680000000000001, "grad_norm": 0.2699715495109558, "learning_rate": 0.00022208000000000002, "loss": 0.4807, "step": 20850 }, { "epoch": 1.6720000000000002, "grad_norm": 0.2546932101249695, "learning_rate": 0.00022141333333333332, "loss": 0.4644, "step": 20900 }, { "epoch": 1.6760000000000002, "grad_norm": 0.26244810223579407, "learning_rate": 0.00022074666666666669, "loss": 0.4546, "step": 20950 }, { "epoch": 1.6800000000000002, "grad_norm": 0.298951119184494, "learning_rate": 0.00022008, "loss": 0.4809, "step": 21000 }, { "epoch": 1.6840000000000002, "grad_norm": 0.37903425097465515, "learning_rate": 0.00021941333333333333, "loss": 0.4772, "step": 21050 }, { "epoch": 1.688, "grad_norm": 0.7026617527008057, "learning_rate": 0.00021874666666666666, "loss": 0.4678, "step": 21100 }, { "epoch": 1.692, "grad_norm": 0.25089162588119507, "learning_rate": 0.00021808, "loss": 0.4641, "step": 21150 }, { "epoch": 1.696, "grad_norm": 0.328753262758255, "learning_rate": 0.00021741333333333333, "loss": 0.4663, "step": 21200 }, { "epoch": 1.7, "grad_norm": 0.28294557332992554, "learning_rate": 0.00021674666666666667, "loss": 0.4478, "step": 21250 }, { "epoch": 1.704, "grad_norm": 0.22784091532230377, "learning_rate": 0.00021608, "loss": 0.4683, "step": 21300 }, { "epoch": 1.708, "grad_norm": 0.37249916791915894, "learning_rate": 0.00021541333333333334, "loss": 0.4565, "step": 21350 }, { "epoch": 1.712, "grad_norm": 0.4652419686317444, "learning_rate": 0.00021474666666666668, "loss": 0.4668, "step": 21400 }, { "epoch": 1.716, "grad_norm": 0.2790099084377289, "learning_rate": 0.00021408, "loss": 0.4567, "step": 21450 }, { "epoch": 1.72, "grad_norm": 0.28255659341812134, "learning_rate": 0.00021341333333333335, "loss": 0.4456, "step": 21500 }, { "epoch": 1.724, "grad_norm": 0.28610745072364807, "learning_rate": 0.00021274666666666668, "loss": 0.4758, "step": 21550 }, { "epoch": 1.728, "grad_norm": 0.29554563760757446, "learning_rate": 0.00021208, "loss": 0.4542, "step": 21600 }, { "epoch": 1.732, "grad_norm": 0.2769472301006317, "learning_rate": 0.00021141333333333335, "loss": 0.4551, "step": 21650 }, { "epoch": 1.736, "grad_norm": 0.3376840353012085, "learning_rate": 0.00021074666666666666, "loss": 0.4634, "step": 21700 }, { "epoch": 1.74, "grad_norm": 0.2753366231918335, "learning_rate": 0.00021008, "loss": 0.436, "step": 21750 }, { "epoch": 1.744, "grad_norm": 0.3832499086856842, "learning_rate": 0.00020941333333333336, "loss": 0.4596, "step": 21800 }, { "epoch": 1.748, "grad_norm": 0.2914954721927643, "learning_rate": 0.00020874666666666666, "loss": 0.4736, "step": 21850 }, { "epoch": 1.752, "grad_norm": 0.2752770483493805, "learning_rate": 0.00020808, "loss": 0.4822, "step": 21900 }, { "epoch": 1.756, "grad_norm": 0.3437884747982025, "learning_rate": 0.00020741333333333334, "loss": 0.4554, "step": 21950 }, { "epoch": 1.76, "grad_norm": 0.2697654664516449, "learning_rate": 0.00020674666666666667, "loss": 0.4533, "step": 22000 }, { "epoch": 1.764, "grad_norm": 0.3043977916240692, "learning_rate": 0.00020608, "loss": 0.4763, "step": 22050 }, { "epoch": 1.768, "grad_norm": 0.3610328435897827, "learning_rate": 0.00020541333333333334, "loss": 0.4652, "step": 22100 }, { "epoch": 1.772, "grad_norm": 0.2615935206413269, "learning_rate": 0.00020474666666666668, "loss": 0.4678, "step": 22150 }, { "epoch": 1.776, "grad_norm": 0.28010860085487366, "learning_rate": 0.00020408, "loss": 0.4569, "step": 22200 }, { "epoch": 1.78, "grad_norm": 0.27897879481315613, "learning_rate": 0.00020341333333333335, "loss": 0.4604, "step": 22250 }, { "epoch": 1.784, "grad_norm": 0.37449902296066284, "learning_rate": 0.00020274666666666665, "loss": 0.4496, "step": 22300 }, { "epoch": 1.788, "grad_norm": 0.4321173131465912, "learning_rate": 0.00020208000000000002, "loss": 0.4519, "step": 22350 }, { "epoch": 1.792, "grad_norm": 0.3634038269519806, "learning_rate": 0.00020141333333333332, "loss": 0.4319, "step": 22400 }, { "epoch": 1.796, "grad_norm": 0.2457379549741745, "learning_rate": 0.00020074666666666666, "loss": 0.4321, "step": 22450 }, { "epoch": 1.8, "grad_norm": 0.2036055028438568, "learning_rate": 0.00020008000000000002, "loss": 0.4482, "step": 22500 }, { "epoch": 1.804, "grad_norm": 0.22888793051242828, "learning_rate": 0.00019941333333333333, "loss": 0.4598, "step": 22550 }, { "epoch": 1.808, "grad_norm": 0.28881940245628357, "learning_rate": 0.00019874666666666667, "loss": 0.4597, "step": 22600 }, { "epoch": 1.812, "grad_norm": 0.35653358697891235, "learning_rate": 0.00019808, "loss": 0.468, "step": 22650 }, { "epoch": 1.8159999999999998, "grad_norm": 0.3056986629962921, "learning_rate": 0.00019741333333333334, "loss": 0.4705, "step": 22700 }, { "epoch": 1.8199999999999998, "grad_norm": 0.3083111345767975, "learning_rate": 0.00019674666666666664, "loss": 0.4618, "step": 22750 }, { "epoch": 1.8239999999999998, "grad_norm": 0.2887648642063141, "learning_rate": 0.00019608, "loss": 0.4618, "step": 22800 }, { "epoch": 1.8279999999999998, "grad_norm": 0.308720201253891, "learning_rate": 0.00019541333333333334, "loss": 0.4641, "step": 22850 }, { "epoch": 1.8319999999999999, "grad_norm": 0.32696419954299927, "learning_rate": 0.00019474666666666668, "loss": 0.4411, "step": 22900 }, { "epoch": 1.8359999999999999, "grad_norm": 0.29909035563468933, "learning_rate": 0.00019408, "loss": 0.4526, "step": 22950 }, { "epoch": 1.8399999999999999, "grad_norm": 0.27794134616851807, "learning_rate": 0.00019341333333333332, "loss": 0.4621, "step": 23000 }, { "epoch": 1.8439999999999999, "grad_norm": 0.2632865309715271, "learning_rate": 0.00019274666666666668, "loss": 0.4497, "step": 23050 }, { "epoch": 1.8479999999999999, "grad_norm": 0.253614604473114, "learning_rate": 0.00019208000000000002, "loss": 0.4662, "step": 23100 }, { "epoch": 1.8519999999999999, "grad_norm": 0.2354058176279068, "learning_rate": 0.00019141333333333333, "loss": 0.45, "step": 23150 }, { "epoch": 1.8559999999999999, "grad_norm": 0.2517555356025696, "learning_rate": 0.0001907466666666667, "loss": 0.4364, "step": 23200 }, { "epoch": 1.8599999999999999, "grad_norm": 0.33812275528907776, "learning_rate": 0.00019008, "loss": 0.4593, "step": 23250 }, { "epoch": 1.8639999999999999, "grad_norm": 0.2925659418106079, "learning_rate": 0.00018941333333333333, "loss": 0.4775, "step": 23300 }, { "epoch": 1.8679999999999999, "grad_norm": 0.2653798758983612, "learning_rate": 0.00018874666666666667, "loss": 0.4871, "step": 23350 }, { "epoch": 1.8719999999999999, "grad_norm": 0.30115747451782227, "learning_rate": 0.00018808, "loss": 0.4709, "step": 23400 }, { "epoch": 1.876, "grad_norm": 0.36089083552360535, "learning_rate": 0.00018741333333333334, "loss": 0.4604, "step": 23450 }, { "epoch": 1.88, "grad_norm": 0.3408987522125244, "learning_rate": 0.00018674666666666667, "loss": 0.4802, "step": 23500 }, { "epoch": 1.884, "grad_norm": 0.2501823902130127, "learning_rate": 0.00018608, "loss": 0.447, "step": 23550 }, { "epoch": 1.888, "grad_norm": 0.3086705803871155, "learning_rate": 0.00018541333333333334, "loss": 0.4746, "step": 23600 }, { "epoch": 1.892, "grad_norm": 0.2390304058790207, "learning_rate": 0.00018474666666666668, "loss": 0.4553, "step": 23650 }, { "epoch": 1.896, "grad_norm": 0.3000665605068207, "learning_rate": 0.00018407999999999999, "loss": 0.4457, "step": 23700 }, { "epoch": 1.9, "grad_norm": 0.2494654506444931, "learning_rate": 0.00018341333333333335, "loss": 0.4562, "step": 23750 }, { "epoch": 1.904, "grad_norm": 0.2544473111629486, "learning_rate": 0.00018274666666666668, "loss": 0.4639, "step": 23800 }, { "epoch": 1.908, "grad_norm": 0.27693989872932434, "learning_rate": 0.00018208, "loss": 0.4678, "step": 23850 }, { "epoch": 1.912, "grad_norm": 0.276531845331192, "learning_rate": 0.00018141333333333335, "loss": 0.4504, "step": 23900 }, { "epoch": 1.916, "grad_norm": 0.2995479106903076, "learning_rate": 0.00018074666666666666, "loss": 0.453, "step": 23950 }, { "epoch": 1.92, "grad_norm": 0.3349391520023346, "learning_rate": 0.00018008, "loss": 0.4563, "step": 24000 }, { "epoch": 1.924, "grad_norm": 0.29086410999298096, "learning_rate": 0.00017941333333333333, "loss": 0.47, "step": 24050 }, { "epoch": 1.928, "grad_norm": 0.29417112469673157, "learning_rate": 0.00017874666666666667, "loss": 0.4711, "step": 24100 }, { "epoch": 1.932, "grad_norm": 0.2554011642932892, "learning_rate": 0.00017808, "loss": 0.4463, "step": 24150 }, { "epoch": 1.936, "grad_norm": 0.3205755352973938, "learning_rate": 0.00017741333333333334, "loss": 0.4661, "step": 24200 }, { "epoch": 1.94, "grad_norm": 0.275869756937027, "learning_rate": 0.00017674666666666667, "loss": 0.4241, "step": 24250 }, { "epoch": 1.944, "grad_norm": 0.45462125539779663, "learning_rate": 0.00017607999999999998, "loss": 0.4607, "step": 24300 }, { "epoch": 1.948, "grad_norm": 0.29895463585853577, "learning_rate": 0.00017541333333333334, "loss": 0.4706, "step": 24350 }, { "epoch": 1.952, "grad_norm": 0.3111779987812042, "learning_rate": 0.00017474666666666665, "loss": 0.4651, "step": 24400 }, { "epoch": 1.956, "grad_norm": 0.36759302020072937, "learning_rate": 0.00017408000000000001, "loss": 0.4512, "step": 24450 }, { "epoch": 1.96, "grad_norm": 0.2587209939956665, "learning_rate": 0.00017341333333333335, "loss": 0.4468, "step": 24500 }, { "epoch": 1.964, "grad_norm": 0.2650446891784668, "learning_rate": 0.00017276, "loss": 0.4742, "step": 24550 }, { "epoch": 1.968, "grad_norm": 0.3336881399154663, "learning_rate": 0.00017209333333333333, "loss": 0.4841, "step": 24600 }, { "epoch": 1.972, "grad_norm": 0.2946482002735138, "learning_rate": 0.00017142666666666666, "loss": 0.4521, "step": 24650 }, { "epoch": 1.976, "grad_norm": 0.3213157057762146, "learning_rate": 0.00017076, "loss": 0.4424, "step": 24700 }, { "epoch": 1.98, "grad_norm": 0.2885224223136902, "learning_rate": 0.00017009333333333336, "loss": 0.4614, "step": 24750 }, { "epoch": 1.984, "grad_norm": 0.25760945677757263, "learning_rate": 0.00016942666666666667, "loss": 0.4313, "step": 24800 }, { "epoch": 1.988, "grad_norm": 0.2988007366657257, "learning_rate": 0.00016876, "loss": 0.4334, "step": 24850 }, { "epoch": 1.992, "grad_norm": 0.22181323170661926, "learning_rate": 0.00016809333333333334, "loss": 0.4677, "step": 24900 }, { "epoch": 1.996, "grad_norm": 0.2706112861633301, "learning_rate": 0.00016742666666666667, "loss": 0.4428, "step": 24950 }, { "epoch": 2.0, "grad_norm": 0.28647464513778687, "learning_rate": 0.00016675999999999998, "loss": 0.4557, "step": 25000 }, { "epoch": 2.0, "eval_bleu": 0.3319147755107139, "eval_cer": 0.2906991050268772, "eval_f1": 0.6107819257639036, "eval_loss": 0.3888804018497467, "eval_meteor": 0.5967403227260373, "eval_runtime": 238.6886, "eval_samples_per_second": 20.948, "eval_steps_per_second": 0.658, "eval_wer": 0.5211065464680894, "step": 25000 }, { "epoch": 2.004, "grad_norm": 0.2939594089984894, "learning_rate": 0.00016609333333333334, "loss": 0.4605, "step": 25050 }, { "epoch": 2.008, "grad_norm": 0.25819525122642517, "learning_rate": 0.00016542666666666668, "loss": 0.4444, "step": 25100 }, { "epoch": 2.012, "grad_norm": 0.3204494118690491, "learning_rate": 0.00016476, "loss": 0.4371, "step": 25150 }, { "epoch": 2.016, "grad_norm": 0.22696028649806976, "learning_rate": 0.00016409333333333335, "loss": 0.4563, "step": 25200 }, { "epoch": 2.02, "grad_norm": 0.30907168984413147, "learning_rate": 0.00016342666666666666, "loss": 0.4589, "step": 25250 }, { "epoch": 2.024, "grad_norm": 0.24826285243034363, "learning_rate": 0.00016276, "loss": 0.4665, "step": 25300 }, { "epoch": 2.028, "grad_norm": 0.2349691390991211, "learning_rate": 0.00016209333333333336, "loss": 0.4517, "step": 25350 }, { "epoch": 2.032, "grad_norm": 0.3125999867916107, "learning_rate": 0.00016142666666666666, "loss": 0.4684, "step": 25400 }, { "epoch": 2.036, "grad_norm": 0.2494412660598755, "learning_rate": 0.00016076, "loss": 0.4455, "step": 25450 }, { "epoch": 2.04, "grad_norm": 0.29433155059814453, "learning_rate": 0.00016009333333333333, "loss": 0.4467, "step": 25500 }, { "epoch": 2.044, "grad_norm": 0.3250634968280792, "learning_rate": 0.00015942666666666667, "loss": 0.45, "step": 25550 }, { "epoch": 2.048, "grad_norm": 0.26807671785354614, "learning_rate": 0.00015876, "loss": 0.4467, "step": 25600 }, { "epoch": 2.052, "grad_norm": 0.2789306342601776, "learning_rate": 0.00015809333333333334, "loss": 0.4822, "step": 25650 }, { "epoch": 2.056, "grad_norm": 0.2899162173271179, "learning_rate": 0.00015742666666666668, "loss": 0.4499, "step": 25700 }, { "epoch": 2.06, "grad_norm": 0.38058122992515564, "learning_rate": 0.00015676, "loss": 0.476, "step": 25750 }, { "epoch": 2.064, "grad_norm": 0.3462042808532715, "learning_rate": 0.00015609333333333335, "loss": 0.468, "step": 25800 }, { "epoch": 2.068, "grad_norm": 0.29906922578811646, "learning_rate": 0.00015542666666666665, "loss": 0.4532, "step": 25850 }, { "epoch": 2.072, "grad_norm": 0.27238503098487854, "learning_rate": 0.00015476000000000002, "loss": 0.4499, "step": 25900 }, { "epoch": 2.076, "grad_norm": 0.30061212182044983, "learning_rate": 0.00015409333333333332, "loss": 0.4518, "step": 25950 }, { "epoch": 2.08, "grad_norm": 0.3721722364425659, "learning_rate": 0.00015342666666666666, "loss": 0.4384, "step": 26000 }, { "epoch": 2.084, "grad_norm": 0.2754833698272705, "learning_rate": 0.00015276000000000002, "loss": 0.4413, "step": 26050 }, { "epoch": 2.088, "grad_norm": 0.28479087352752686, "learning_rate": 0.00015209333333333333, "loss": 0.4382, "step": 26100 }, { "epoch": 2.092, "grad_norm": 0.2770088315010071, "learning_rate": 0.00015142666666666666, "loss": 0.4645, "step": 26150 }, { "epoch": 2.096, "grad_norm": 0.33242395520210266, "learning_rate": 0.00015076, "loss": 0.4543, "step": 26200 }, { "epoch": 2.1, "grad_norm": 0.23008863627910614, "learning_rate": 0.00015009333333333334, "loss": 0.4824, "step": 26250 }, { "epoch": 2.104, "grad_norm": 0.25794917345046997, "learning_rate": 0.00014942666666666667, "loss": 0.4513, "step": 26300 }, { "epoch": 2.108, "grad_norm": 0.39592331647872925, "learning_rate": 0.00014876, "loss": 0.4495, "step": 26350 }, { "epoch": 2.112, "grad_norm": 0.2359061986207962, "learning_rate": 0.00014809333333333334, "loss": 0.4434, "step": 26400 }, { "epoch": 2.116, "grad_norm": 0.2760692536830902, "learning_rate": 0.00014742666666666668, "loss": 0.4538, "step": 26450 }, { "epoch": 2.12, "grad_norm": 0.26441076397895813, "learning_rate": 0.00014676, "loss": 0.4523, "step": 26500 }, { "epoch": 2.124, "grad_norm": 0.2554430365562439, "learning_rate": 0.00014609333333333332, "loss": 0.4806, "step": 26550 }, { "epoch": 2.128, "grad_norm": 0.252074271440506, "learning_rate": 0.00014542666666666668, "loss": 0.4689, "step": 26600 }, { "epoch": 2.132, "grad_norm": 0.3027336597442627, "learning_rate": 0.00014476, "loss": 0.4779, "step": 26650 }, { "epoch": 2.136, "grad_norm": 0.25952109694480896, "learning_rate": 0.00014409333333333332, "loss": 0.4325, "step": 26700 }, { "epoch": 2.14, "grad_norm": 0.2962138056755066, "learning_rate": 0.0001434266666666667, "loss": 0.4632, "step": 26750 }, { "epoch": 2.144, "grad_norm": 0.26393434405326843, "learning_rate": 0.00014276, "loss": 0.4469, "step": 26800 }, { "epoch": 2.148, "grad_norm": 0.35279715061187744, "learning_rate": 0.00014209333333333333, "loss": 0.4523, "step": 26850 }, { "epoch": 2.152, "grad_norm": 0.297848641872406, "learning_rate": 0.00014144, "loss": 0.45, "step": 26900 }, { "epoch": 2.156, "grad_norm": 0.36224573850631714, "learning_rate": 0.00014077333333333334, "loss": 0.4622, "step": 26950 }, { "epoch": 2.16, "grad_norm": 0.2728904187679291, "learning_rate": 0.00014010666666666667, "loss": 0.4471, "step": 27000 }, { "epoch": 2.164, "grad_norm": 0.2377961426973343, "learning_rate": 0.00013944, "loss": 0.4428, "step": 27050 }, { "epoch": 2.168, "grad_norm": 0.27920272946357727, "learning_rate": 0.00013877333333333334, "loss": 0.4523, "step": 27100 }, { "epoch": 2.172, "grad_norm": 0.27000221610069275, "learning_rate": 0.00013810666666666665, "loss": 0.4547, "step": 27150 }, { "epoch": 2.176, "grad_norm": 0.23448887467384338, "learning_rate": 0.00013744, "loss": 0.4377, "step": 27200 }, { "epoch": 2.18, "grad_norm": 0.2916282117366791, "learning_rate": 0.00013677333333333332, "loss": 0.4513, "step": 27250 }, { "epoch": 2.184, "grad_norm": 0.33092817664146423, "learning_rate": 0.00013610666666666666, "loss": 0.4455, "step": 27300 }, { "epoch": 2.188, "grad_norm": 0.24522395431995392, "learning_rate": 0.00013544000000000002, "loss": 0.4526, "step": 27350 }, { "epoch": 2.192, "grad_norm": 0.2436528205871582, "learning_rate": 0.00013477333333333333, "loss": 0.4374, "step": 27400 }, { "epoch": 2.196, "grad_norm": 0.21092589199543, "learning_rate": 0.0001341066666666667, "loss": 0.4388, "step": 27450 }, { "epoch": 2.2, "grad_norm": 0.28023019433021545, "learning_rate": 0.00013344, "loss": 0.4385, "step": 27500 }, { "epoch": 2.204, "grad_norm": 0.2584914565086365, "learning_rate": 0.00013277333333333333, "loss": 0.4444, "step": 27550 }, { "epoch": 2.208, "grad_norm": 0.3019558787345886, "learning_rate": 0.0001321066666666667, "loss": 0.4273, "step": 27600 }, { "epoch": 2.212, "grad_norm": 0.27569064497947693, "learning_rate": 0.00013144, "loss": 0.4657, "step": 27650 }, { "epoch": 2.216, "grad_norm": 0.3404678404331207, "learning_rate": 0.00013077333333333334, "loss": 0.4665, "step": 27700 }, { "epoch": 2.22, "grad_norm": 0.27721646428108215, "learning_rate": 0.00013010666666666667, "loss": 0.4612, "step": 27750 }, { "epoch": 2.224, "grad_norm": 0.31788599491119385, "learning_rate": 0.00012944, "loss": 0.4616, "step": 27800 }, { "epoch": 2.228, "grad_norm": 0.2686368227005005, "learning_rate": 0.00012877333333333332, "loss": 0.4483, "step": 27850 }, { "epoch": 2.232, "grad_norm": 0.30599814653396606, "learning_rate": 0.00012810666666666668, "loss": 0.4593, "step": 27900 }, { "epoch": 2.2359999999999998, "grad_norm": 0.32590654492378235, "learning_rate": 0.00012744, "loss": 0.4655, "step": 27950 }, { "epoch": 2.24, "grad_norm": 0.2741105258464813, "learning_rate": 0.00012677333333333332, "loss": 0.4487, "step": 28000 }, { "epoch": 2.2439999999999998, "grad_norm": 0.30908265709877014, "learning_rate": 0.00012610666666666668, "loss": 0.4408, "step": 28050 }, { "epoch": 2.248, "grad_norm": 0.23703044652938843, "learning_rate": 0.00012544, "loss": 0.4487, "step": 28100 }, { "epoch": 2.252, "grad_norm": 0.3251242935657501, "learning_rate": 0.00012477333333333333, "loss": 0.4486, "step": 28150 }, { "epoch": 2.2560000000000002, "grad_norm": 0.32202380895614624, "learning_rate": 0.00012410666666666666, "loss": 0.4751, "step": 28200 }, { "epoch": 2.26, "grad_norm": 0.26794669032096863, "learning_rate": 0.00012344, "loss": 0.4422, "step": 28250 }, { "epoch": 2.2640000000000002, "grad_norm": 0.2127068191766739, "learning_rate": 0.00012277333333333333, "loss": 0.4474, "step": 28300 }, { "epoch": 2.268, "grad_norm": 0.28123363852500916, "learning_rate": 0.00012210666666666667, "loss": 0.4671, "step": 28350 }, { "epoch": 2.2720000000000002, "grad_norm": 0.2891286611557007, "learning_rate": 0.00012144, "loss": 0.4825, "step": 28400 }, { "epoch": 2.276, "grad_norm": 0.27893853187561035, "learning_rate": 0.00012077333333333334, "loss": 0.4502, "step": 28450 }, { "epoch": 2.2800000000000002, "grad_norm": 0.36596694588661194, "learning_rate": 0.00012010666666666667, "loss": 0.5034, "step": 28500 }, { "epoch": 2.284, "grad_norm": 0.25044432282447815, "learning_rate": 0.00011944000000000001, "loss": 0.4468, "step": 28550 }, { "epoch": 2.288, "grad_norm": 0.29934161901474, "learning_rate": 0.00011877333333333333, "loss": 0.4701, "step": 28600 }, { "epoch": 2.292, "grad_norm": 0.36825746297836304, "learning_rate": 0.00011810666666666667, "loss": 0.4639, "step": 28650 }, { "epoch": 2.296, "grad_norm": 0.3040882349014282, "learning_rate": 0.00011744, "loss": 0.4665, "step": 28700 }, { "epoch": 2.3, "grad_norm": 0.3292265236377716, "learning_rate": 0.00011677333333333335, "loss": 0.4452, "step": 28750 }, { "epoch": 2.304, "grad_norm": 0.27619364857673645, "learning_rate": 0.00011610666666666667, "loss": 0.4545, "step": 28800 }, { "epoch": 2.308, "grad_norm": 0.26268327236175537, "learning_rate": 0.00011544, "loss": 0.4385, "step": 28850 }, { "epoch": 2.312, "grad_norm": 0.3106476962566376, "learning_rate": 0.00011477333333333334, "loss": 0.455, "step": 28900 }, { "epoch": 2.316, "grad_norm": 0.2751711308956146, "learning_rate": 0.00011410666666666666, "loss": 0.4542, "step": 28950 }, { "epoch": 2.32, "grad_norm": 0.3215223252773285, "learning_rate": 0.00011344, "loss": 0.4278, "step": 29000 }, { "epoch": 2.324, "grad_norm": 0.2911795973777771, "learning_rate": 0.00011277333333333333, "loss": 0.4597, "step": 29050 }, { "epoch": 2.328, "grad_norm": 0.21519587934017181, "learning_rate": 0.00011210666666666667, "loss": 0.4552, "step": 29100 }, { "epoch": 2.332, "grad_norm": 0.28264325857162476, "learning_rate": 0.00011144, "loss": 0.4405, "step": 29150 }, { "epoch": 2.336, "grad_norm": 0.26788267493247986, "learning_rate": 0.00011077333333333334, "loss": 0.4531, "step": 29200 }, { "epoch": 2.34, "grad_norm": 0.3479743003845215, "learning_rate": 0.00011010666666666667, "loss": 0.4585, "step": 29250 }, { "epoch": 2.344, "grad_norm": 0.24785076081752777, "learning_rate": 0.00010945333333333333, "loss": 0.456, "step": 29300 }, { "epoch": 2.348, "grad_norm": 0.3766777813434601, "learning_rate": 0.00010878666666666667, "loss": 0.4608, "step": 29350 }, { "epoch": 2.352, "grad_norm": 0.25761738419532776, "learning_rate": 0.00010812, "loss": 0.4589, "step": 29400 }, { "epoch": 2.356, "grad_norm": 0.3456856608390808, "learning_rate": 0.00010745333333333334, "loss": 0.4529, "step": 29450 }, { "epoch": 2.36, "grad_norm": 0.2645689845085144, "learning_rate": 0.00010678666666666667, "loss": 0.4692, "step": 29500 }, { "epoch": 2.364, "grad_norm": 0.23604953289031982, "learning_rate": 0.00010612000000000001, "loss": 0.4691, "step": 29550 }, { "epoch": 2.368, "grad_norm": 0.3434421718120575, "learning_rate": 0.00010545333333333333, "loss": 0.4729, "step": 29600 }, { "epoch": 2.372, "grad_norm": 0.2944164276123047, "learning_rate": 0.00010478666666666666, "loss": 0.4477, "step": 29650 }, { "epoch": 2.376, "grad_norm": 0.3284704089164734, "learning_rate": 0.00010412000000000001, "loss": 0.4164, "step": 29700 }, { "epoch": 2.38, "grad_norm": 0.29514458775520325, "learning_rate": 0.00010345333333333333, "loss": 0.4589, "step": 29750 }, { "epoch": 2.384, "grad_norm": 0.3022924065589905, "learning_rate": 0.00010278666666666667, "loss": 0.4652, "step": 29800 }, { "epoch": 2.388, "grad_norm": 0.3164527714252472, "learning_rate": 0.00010212, "loss": 0.4455, "step": 29850 }, { "epoch": 2.392, "grad_norm": 0.2851755917072296, "learning_rate": 0.00010145333333333334, "loss": 0.4486, "step": 29900 }, { "epoch": 2.396, "grad_norm": 0.2626616656780243, "learning_rate": 0.00010078666666666666, "loss": 0.459, "step": 29950 }, { "epoch": 2.4, "grad_norm": 0.33604660630226135, "learning_rate": 0.00010012, "loss": 0.4551, "step": 30000 }, { "epoch": 2.404, "grad_norm": 0.2219858318567276, "learning_rate": 9.945333333333335e-05, "loss": 0.4441, "step": 30050 }, { "epoch": 2.408, "grad_norm": 0.293307363986969, "learning_rate": 9.878666666666667e-05, "loss": 0.4707, "step": 30100 }, { "epoch": 2.412, "grad_norm": 0.2321629822254181, "learning_rate": 9.812e-05, "loss": 0.4581, "step": 30150 }, { "epoch": 2.416, "grad_norm": 0.3554525077342987, "learning_rate": 9.745333333333334e-05, "loss": 0.4698, "step": 30200 }, { "epoch": 2.42, "grad_norm": 0.29694491624832153, "learning_rate": 9.678666666666666e-05, "loss": 0.4598, "step": 30250 }, { "epoch": 2.424, "grad_norm": 0.2549535930156708, "learning_rate": 9.612e-05, "loss": 0.4759, "step": 30300 }, { "epoch": 2.428, "grad_norm": 0.2669490575790405, "learning_rate": 9.545333333333333e-05, "loss": 0.4218, "step": 30350 }, { "epoch": 2.432, "grad_norm": 0.3022160530090332, "learning_rate": 9.478666666666668e-05, "loss": 0.4552, "step": 30400 }, { "epoch": 2.436, "grad_norm": 0.23143869638442993, "learning_rate": 9.412e-05, "loss": 0.4526, "step": 30450 }, { "epoch": 2.44, "grad_norm": 0.24490754306316376, "learning_rate": 9.345333333333334e-05, "loss": 0.4214, "step": 30500 }, { "epoch": 2.444, "grad_norm": 0.23917007446289062, "learning_rate": 9.278666666666667e-05, "loss": 0.4591, "step": 30550 }, { "epoch": 2.448, "grad_norm": 0.22969672083854675, "learning_rate": 9.211999999999999e-05, "loss": 0.4583, "step": 30600 }, { "epoch": 2.452, "grad_norm": 0.3000829815864563, "learning_rate": 9.145333333333333e-05, "loss": 0.4643, "step": 30650 }, { "epoch": 2.456, "grad_norm": 0.2941370904445648, "learning_rate": 9.078666666666668e-05, "loss": 0.4343, "step": 30700 }, { "epoch": 2.46, "grad_norm": 0.3030686378479004, "learning_rate": 9.012000000000001e-05, "loss": 0.4553, "step": 30750 }, { "epoch": 2.464, "grad_norm": 0.31065088510513306, "learning_rate": 8.945333333333333e-05, "loss": 0.4354, "step": 30800 }, { "epoch": 2.468, "grad_norm": 0.33551186323165894, "learning_rate": 8.878666666666667e-05, "loss": 0.4262, "step": 30850 }, { "epoch": 2.472, "grad_norm": 0.30474284291267395, "learning_rate": 8.812e-05, "loss": 0.4534, "step": 30900 }, { "epoch": 2.476, "grad_norm": 0.27165547013282776, "learning_rate": 8.745333333333332e-05, "loss": 0.4439, "step": 30950 }, { "epoch": 2.48, "grad_norm": 0.26946690678596497, "learning_rate": 8.678666666666666e-05, "loss": 0.4561, "step": 31000 }, { "epoch": 2.484, "grad_norm": 0.26706361770629883, "learning_rate": 8.612000000000001e-05, "loss": 0.444, "step": 31050 }, { "epoch": 2.488, "grad_norm": 0.2699045240879059, "learning_rate": 8.545333333333334e-05, "loss": 0.4458, "step": 31100 }, { "epoch": 2.492, "grad_norm": 0.3229534924030304, "learning_rate": 8.478666666666667e-05, "loss": 0.4432, "step": 31150 }, { "epoch": 2.496, "grad_norm": 0.2839939296245575, "learning_rate": 8.412e-05, "loss": 0.437, "step": 31200 }, { "epoch": 2.5, "grad_norm": 0.25432726740837097, "learning_rate": 8.345333333333334e-05, "loss": 0.4415, "step": 31250 }, { "epoch": 2.504, "grad_norm": 0.2797224521636963, "learning_rate": 8.278666666666666e-05, "loss": 0.4418, "step": 31300 }, { "epoch": 2.508, "grad_norm": 0.3126223087310791, "learning_rate": 8.212e-05, "loss": 0.4413, "step": 31350 }, { "epoch": 2.512, "grad_norm": 0.3439057469367981, "learning_rate": 8.145333333333334e-05, "loss": 0.46, "step": 31400 }, { "epoch": 2.516, "grad_norm": 0.3235597014427185, "learning_rate": 8.078666666666668e-05, "loss": 0.4301, "step": 31450 }, { "epoch": 2.52, "grad_norm": 0.40689998865127563, "learning_rate": 8.012e-05, "loss": 0.4421, "step": 31500 }, { "epoch": 2.524, "grad_norm": 0.21976891160011292, "learning_rate": 7.945333333333333e-05, "loss": 0.4738, "step": 31550 }, { "epoch": 2.528, "grad_norm": 0.34355059266090393, "learning_rate": 7.878666666666667e-05, "loss": 0.4537, "step": 31600 }, { "epoch": 2.532, "grad_norm": 0.30710023641586304, "learning_rate": 7.811999999999999e-05, "loss": 0.4514, "step": 31650 }, { "epoch": 2.536, "grad_norm": 0.36115074157714844, "learning_rate": 7.745333333333334e-05, "loss": 0.4538, "step": 31700 }, { "epoch": 2.54, "grad_norm": 0.25416499376296997, "learning_rate": 7.678666666666667e-05, "loss": 0.4609, "step": 31750 }, { "epoch": 2.544, "grad_norm": 0.39226630330085754, "learning_rate": 7.612e-05, "loss": 0.4527, "step": 31800 }, { "epoch": 2.548, "grad_norm": 0.30426350235939026, "learning_rate": 7.545333333333333e-05, "loss": 0.4442, "step": 31850 }, { "epoch": 2.552, "grad_norm": 0.4089012145996094, "learning_rate": 7.478666666666667e-05, "loss": 0.461, "step": 31900 }, { "epoch": 2.556, "grad_norm": 0.28102219104766846, "learning_rate": 7.412e-05, "loss": 0.452, "step": 31950 }, { "epoch": 2.56, "grad_norm": 0.31851691007614136, "learning_rate": 7.345333333333334e-05, "loss": 0.4649, "step": 32000 }, { "epoch": 2.564, "grad_norm": 0.27418580651283264, "learning_rate": 7.278666666666667e-05, "loss": 0.4328, "step": 32050 }, { "epoch": 2.568, "grad_norm": 0.24056550860404968, "learning_rate": 7.212000000000001e-05, "loss": 0.4366, "step": 32100 }, { "epoch": 2.572, "grad_norm": 0.2933375835418701, "learning_rate": 7.145333333333333e-05, "loss": 0.4615, "step": 32150 }, { "epoch": 2.576, "grad_norm": 0.26340237259864807, "learning_rate": 7.078666666666666e-05, "loss": 0.4458, "step": 32200 }, { "epoch": 2.58, "grad_norm": 0.3188941478729248, "learning_rate": 7.012e-05, "loss": 0.4478, "step": 32250 }, { "epoch": 2.584, "grad_norm": 0.2975289523601532, "learning_rate": 6.945333333333333e-05, "loss": 0.4295, "step": 32300 }, { "epoch": 2.588, "grad_norm": 0.30115413665771484, "learning_rate": 6.878666666666667e-05, "loss": 0.4475, "step": 32350 }, { "epoch": 2.592, "grad_norm": 0.22286610305309296, "learning_rate": 6.812e-05, "loss": 0.4644, "step": 32400 }, { "epoch": 2.596, "grad_norm": 0.2956683039665222, "learning_rate": 6.745333333333334e-05, "loss": 0.4563, "step": 32450 }, { "epoch": 2.6, "grad_norm": 0.2956625521183014, "learning_rate": 6.678666666666666e-05, "loss": 0.4445, "step": 32500 }, { "epoch": 2.604, "grad_norm": 0.2499222308397293, "learning_rate": 6.612e-05, "loss": 0.471, "step": 32550 }, { "epoch": 2.608, "grad_norm": 0.2879573404788971, "learning_rate": 6.545333333333333e-05, "loss": 0.439, "step": 32600 }, { "epoch": 2.612, "grad_norm": 0.25872039794921875, "learning_rate": 6.478666666666667e-05, "loss": 0.4611, "step": 32650 }, { "epoch": 2.616, "grad_norm": 0.2626016438007355, "learning_rate": 6.412e-05, "loss": 0.4433, "step": 32700 }, { "epoch": 2.62, "grad_norm": 0.30265554785728455, "learning_rate": 6.345333333333334e-05, "loss": 0.4622, "step": 32750 }, { "epoch": 2.624, "grad_norm": 0.25516897439956665, "learning_rate": 6.278666666666667e-05, "loss": 0.4554, "step": 32800 }, { "epoch": 2.628, "grad_norm": 0.30672165751457214, "learning_rate": 6.212000000000001e-05, "loss": 0.4475, "step": 32850 }, { "epoch": 2.632, "grad_norm": 0.31180885434150696, "learning_rate": 6.145333333333333e-05, "loss": 0.4514, "step": 32900 }, { "epoch": 2.636, "grad_norm": 0.2680656909942627, "learning_rate": 6.078666666666667e-05, "loss": 0.4367, "step": 32950 }, { "epoch": 2.64, "grad_norm": 0.2780224680900574, "learning_rate": 6.012e-05, "loss": 0.4464, "step": 33000 }, { "epoch": 2.644, "grad_norm": 0.29504239559173584, "learning_rate": 5.945333333333333e-05, "loss": 0.4471, "step": 33050 }, { "epoch": 2.648, "grad_norm": 0.28059807419776917, "learning_rate": 5.878666666666667e-05, "loss": 0.442, "step": 33100 }, { "epoch": 2.652, "grad_norm": 0.2165469527244568, "learning_rate": 5.812e-05, "loss": 0.4645, "step": 33150 }, { "epoch": 2.656, "grad_norm": 0.1961279958486557, "learning_rate": 5.7453333333333334e-05, "loss": 0.4562, "step": 33200 }, { "epoch": 2.66, "grad_norm": 0.1775653064250946, "learning_rate": 5.678666666666667e-05, "loss": 0.4444, "step": 33250 }, { "epoch": 2.664, "grad_norm": 0.3550254702568054, "learning_rate": 5.6120000000000005e-05, "loss": 0.4665, "step": 33300 }, { "epoch": 2.668, "grad_norm": 0.35240018367767334, "learning_rate": 5.545333333333333e-05, "loss": 0.4719, "step": 33350 }, { "epoch": 2.672, "grad_norm": 0.22879506647586823, "learning_rate": 5.478666666666667e-05, "loss": 0.446, "step": 33400 }, { "epoch": 2.676, "grad_norm": 0.29414916038513184, "learning_rate": 5.4120000000000004e-05, "loss": 0.4617, "step": 33450 }, { "epoch": 2.68, "grad_norm": 0.2868782579898834, "learning_rate": 5.345333333333333e-05, "loss": 0.4372, "step": 33500 }, { "epoch": 2.684, "grad_norm": 0.22824135422706604, "learning_rate": 5.28e-05, "loss": 0.4328, "step": 33550 }, { "epoch": 2.6879999999999997, "grad_norm": 0.3710310757160187, "learning_rate": 5.213333333333333e-05, "loss": 0.4468, "step": 33600 }, { "epoch": 2.692, "grad_norm": 0.25575074553489685, "learning_rate": 5.1466666666666666e-05, "loss": 0.4524, "step": 33650 }, { "epoch": 2.6959999999999997, "grad_norm": 0.41803932189941406, "learning_rate": 5.08e-05, "loss": 0.4524, "step": 33700 }, { "epoch": 2.7, "grad_norm": 0.33436158299446106, "learning_rate": 5.013333333333334e-05, "loss": 0.4411, "step": 33750 }, { "epoch": 2.7039999999999997, "grad_norm": 0.2582109868526459, "learning_rate": 4.9466666666666665e-05, "loss": 0.4448, "step": 33800 }, { "epoch": 2.708, "grad_norm": 0.2088334858417511, "learning_rate": 4.880000000000001e-05, "loss": 0.4329, "step": 33850 }, { "epoch": 2.7119999999999997, "grad_norm": 0.34279492497444153, "learning_rate": 4.8133333333333336e-05, "loss": 0.4505, "step": 33900 }, { "epoch": 2.716, "grad_norm": 0.3136851489543915, "learning_rate": 4.7466666666666664e-05, "loss": 0.4488, "step": 33950 }, { "epoch": 2.7199999999999998, "grad_norm": 0.3766196668148041, "learning_rate": 4.68e-05, "loss": 0.4465, "step": 34000 }, { "epoch": 2.724, "grad_norm": 0.25338220596313477, "learning_rate": 4.6133333333333334e-05, "loss": 0.4299, "step": 34050 }, { "epoch": 2.7279999999999998, "grad_norm": 0.3437287211418152, "learning_rate": 4.546666666666667e-05, "loss": 0.4665, "step": 34100 }, { "epoch": 2.732, "grad_norm": 0.2480098456144333, "learning_rate": 4.48e-05, "loss": 0.4286, "step": 34150 }, { "epoch": 2.7359999999999998, "grad_norm": 0.27710428833961487, "learning_rate": 4.413333333333333e-05, "loss": 0.4339, "step": 34200 }, { "epoch": 2.74, "grad_norm": 0.2701534330844879, "learning_rate": 4.346666666666667e-05, "loss": 0.4631, "step": 34250 }, { "epoch": 2.7439999999999998, "grad_norm": 0.26565784215927124, "learning_rate": 4.28e-05, "loss": 0.4546, "step": 34300 }, { "epoch": 2.748, "grad_norm": 0.20189706981182098, "learning_rate": 4.213333333333334e-05, "loss": 0.4505, "step": 34350 }, { "epoch": 2.752, "grad_norm": 0.28106382489204407, "learning_rate": 4.146666666666667e-05, "loss": 0.4462, "step": 34400 }, { "epoch": 2.7560000000000002, "grad_norm": 0.2922661304473877, "learning_rate": 4.08e-05, "loss": 0.4513, "step": 34450 }, { "epoch": 2.76, "grad_norm": 0.3567800521850586, "learning_rate": 4.013333333333333e-05, "loss": 0.4785, "step": 34500 }, { "epoch": 2.7640000000000002, "grad_norm": 0.2758147716522217, "learning_rate": 3.9466666666666666e-05, "loss": 0.4527, "step": 34550 }, { "epoch": 2.768, "grad_norm": 0.2899794578552246, "learning_rate": 3.88e-05, "loss": 0.4671, "step": 34600 }, { "epoch": 2.7720000000000002, "grad_norm": 0.24867789447307587, "learning_rate": 3.813333333333333e-05, "loss": 0.4684, "step": 34650 }, { "epoch": 2.776, "grad_norm": 0.22296515107154846, "learning_rate": 3.746666666666667e-05, "loss": 0.441, "step": 34700 }, { "epoch": 2.7800000000000002, "grad_norm": 0.25724735856056213, "learning_rate": 3.68e-05, "loss": 0.4472, "step": 34750 }, { "epoch": 2.784, "grad_norm": 0.31313836574554443, "learning_rate": 3.614666666666667e-05, "loss": 0.4552, "step": 34800 }, { "epoch": 2.7880000000000003, "grad_norm": 0.32281118631362915, "learning_rate": 3.548e-05, "loss": 0.477, "step": 34850 }, { "epoch": 2.792, "grad_norm": 0.3177658021450043, "learning_rate": 3.4813333333333334e-05, "loss": 0.4539, "step": 34900 }, { "epoch": 2.7960000000000003, "grad_norm": 0.27014464139938354, "learning_rate": 3.414666666666667e-05, "loss": 0.472, "step": 34950 }, { "epoch": 2.8, "grad_norm": 0.29081207513809204, "learning_rate": 3.3480000000000005e-05, "loss": 0.4598, "step": 35000 }, { "epoch": 2.8040000000000003, "grad_norm": 0.35768747329711914, "learning_rate": 3.281333333333333e-05, "loss": 0.4637, "step": 35050 }, { "epoch": 2.808, "grad_norm": 0.23590107262134552, "learning_rate": 3.214666666666666e-05, "loss": 0.4405, "step": 35100 }, { "epoch": 2.8120000000000003, "grad_norm": 0.2606336772441864, "learning_rate": 3.1480000000000004e-05, "loss": 0.434, "step": 35150 }, { "epoch": 2.816, "grad_norm": 0.31214970350265503, "learning_rate": 3.081333333333334e-05, "loss": 0.4263, "step": 35200 }, { "epoch": 2.82, "grad_norm": 0.22976574301719666, "learning_rate": 3.0146666666666667e-05, "loss": 0.45, "step": 35250 }, { "epoch": 2.824, "grad_norm": 0.2707850933074951, "learning_rate": 2.948e-05, "loss": 0.4431, "step": 35300 }, { "epoch": 2.828, "grad_norm": 0.23899267613887787, "learning_rate": 2.8813333333333334e-05, "loss": 0.4583, "step": 35350 }, { "epoch": 2.832, "grad_norm": 0.2468588650226593, "learning_rate": 2.8146666666666666e-05, "loss": 0.4604, "step": 35400 }, { "epoch": 2.836, "grad_norm": 0.29869726300239563, "learning_rate": 2.748e-05, "loss": 0.431, "step": 35450 }, { "epoch": 2.84, "grad_norm": 0.24732047319412231, "learning_rate": 2.6813333333333336e-05, "loss": 0.4507, "step": 35500 }, { "epoch": 2.844, "grad_norm": 0.3324715495109558, "learning_rate": 2.6146666666666665e-05, "loss": 0.4555, "step": 35550 }, { "epoch": 2.848, "grad_norm": 0.2818158268928528, "learning_rate": 2.548e-05, "loss": 0.4515, "step": 35600 }, { "epoch": 2.852, "grad_norm": 0.1923283338546753, "learning_rate": 2.4813333333333335e-05, "loss": 0.4297, "step": 35650 }, { "epoch": 2.856, "grad_norm": 0.25327619910240173, "learning_rate": 2.4146666666666667e-05, "loss": 0.4507, "step": 35700 }, { "epoch": 2.86, "grad_norm": 0.287896990776062, "learning_rate": 2.3480000000000002e-05, "loss": 0.4718, "step": 35750 }, { "epoch": 2.864, "grad_norm": 0.215403750538826, "learning_rate": 2.2813333333333334e-05, "loss": 0.4511, "step": 35800 }, { "epoch": 2.868, "grad_norm": 0.30752989649772644, "learning_rate": 2.2146666666666666e-05, "loss": 0.4535, "step": 35850 }, { "epoch": 2.872, "grad_norm": 0.4140700399875641, "learning_rate": 2.148e-05, "loss": 0.4235, "step": 35900 }, { "epoch": 2.876, "grad_norm": 0.27981796860694885, "learning_rate": 2.0813333333333333e-05, "loss": 0.4326, "step": 35950 }, { "epoch": 2.88, "grad_norm": 0.36529111862182617, "learning_rate": 2.0146666666666668e-05, "loss": 0.4583, "step": 36000 }, { "epoch": 2.884, "grad_norm": 0.33879294991493225, "learning_rate": 1.948e-05, "loss": 0.4776, "step": 36050 }, { "epoch": 2.888, "grad_norm": 0.30573463439941406, "learning_rate": 1.8813333333333335e-05, "loss": 0.4629, "step": 36100 }, { "epoch": 2.892, "grad_norm": 0.4092652499675751, "learning_rate": 1.8146666666666667e-05, "loss": 0.4525, "step": 36150 }, { "epoch": 2.896, "grad_norm": 0.2524120509624481, "learning_rate": 1.748e-05, "loss": 0.48, "step": 36200 }, { "epoch": 2.9, "grad_norm": 0.301166832447052, "learning_rate": 1.6813333333333334e-05, "loss": 0.425, "step": 36250 }, { "epoch": 2.904, "grad_norm": 0.2597818970680237, "learning_rate": 1.6146666666666666e-05, "loss": 0.4678, "step": 36300 }, { "epoch": 2.908, "grad_norm": 0.2293042540550232, "learning_rate": 1.548e-05, "loss": 0.4558, "step": 36350 }, { "epoch": 2.912, "grad_norm": 0.2601728141307831, "learning_rate": 1.4813333333333333e-05, "loss": 0.4575, "step": 36400 }, { "epoch": 2.916, "grad_norm": 0.20663675665855408, "learning_rate": 1.4146666666666668e-05, "loss": 0.4511, "step": 36450 }, { "epoch": 2.92, "grad_norm": 0.326138436794281, "learning_rate": 1.3480000000000001e-05, "loss": 0.4478, "step": 36500 }, { "epoch": 2.924, "grad_norm": 0.3107542097568512, "learning_rate": 1.2813333333333333e-05, "loss": 0.457, "step": 36550 }, { "epoch": 2.928, "grad_norm": 0.234524667263031, "learning_rate": 1.2146666666666667e-05, "loss": 0.472, "step": 36600 }, { "epoch": 2.932, "grad_norm": 0.2568289041519165, "learning_rate": 1.148e-05, "loss": 0.4551, "step": 36650 }, { "epoch": 2.936, "grad_norm": 0.23207560181617737, "learning_rate": 1.0813333333333334e-05, "loss": 0.4652, "step": 36700 }, { "epoch": 2.94, "grad_norm": 0.24545793235301971, "learning_rate": 1.0146666666666667e-05, "loss": 0.4413, "step": 36750 }, { "epoch": 2.944, "grad_norm": 0.2292717695236206, "learning_rate": 9.48e-06, "loss": 0.438, "step": 36800 }, { "epoch": 2.948, "grad_norm": 0.3610619902610779, "learning_rate": 8.813333333333333e-06, "loss": 0.4465, "step": 36850 }, { "epoch": 2.952, "grad_norm": 0.3205767273902893, "learning_rate": 8.146666666666666e-06, "loss": 0.4696, "step": 36900 }, { "epoch": 2.956, "grad_norm": 0.3331379294395447, "learning_rate": 7.4799999999999995e-06, "loss": 0.4504, "step": 36950 }, { "epoch": 2.96, "grad_norm": 0.30620986223220825, "learning_rate": 6.813333333333334e-06, "loss": 0.4555, "step": 37000 }, { "epoch": 2.964, "grad_norm": 0.3850225806236267, "learning_rate": 6.1466666666666665e-06, "loss": 0.4571, "step": 37050 }, { "epoch": 2.968, "grad_norm": 0.3780403137207031, "learning_rate": 5.48e-06, "loss": 0.4351, "step": 37100 }, { "epoch": 2.972, "grad_norm": 0.29484397172927856, "learning_rate": 4.8133333333333336e-06, "loss": 0.4321, "step": 37150 }, { "epoch": 2.976, "grad_norm": 0.2501869797706604, "learning_rate": 4.146666666666667e-06, "loss": 0.447, "step": 37200 }, { "epoch": 2.98, "grad_norm": 0.2183392494916916, "learning_rate": 3.48e-06, "loss": 0.4533, "step": 37250 }, { "epoch": 2.984, "grad_norm": 0.31984663009643555, "learning_rate": 2.8133333333333336e-06, "loss": 0.4251, "step": 37300 }, { "epoch": 2.988, "grad_norm": 0.2767412066459656, "learning_rate": 2.1466666666666667e-06, "loss": 0.4235, "step": 37350 }, { "epoch": 2.992, "grad_norm": 0.25361520051956177, "learning_rate": 1.48e-06, "loss": 0.4369, "step": 37400 }, { "epoch": 2.996, "grad_norm": 0.288673460483551, "learning_rate": 8.133333333333333e-07, "loss": 0.4249, "step": 37450 }, { "epoch": 3.0, "grad_norm": 0.22177539765834808, "learning_rate": 1.4666666666666666e-07, "loss": 0.4371, "step": 37500 }, { "epoch": 3.0, "eval_bleu": 0.3386404997587714, "eval_cer": 0.28147095294898533, "eval_f1": 0.6153534805079603, "eval_loss": 0.3820163309574127, "eval_meteor": 0.6028071424520438, "eval_runtime": 237.8342, "eval_samples_per_second": 21.023, "eval_steps_per_second": 0.66, "eval_wer": 0.5062094115300532, "step": 37500 }, { "epoch": 3.0, "step": 37500, "total_flos": 8.244262109970432e+16, "train_loss": 0.4885604788208008, "train_runtime": 4587.9371, "train_samples_per_second": 261.553, "train_steps_per_second": 8.174 } ], "logging_steps": 50, "max_steps": 37500, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 8.244262109970432e+16, "train_batch_size": 32, "trial_name": null, "trial_params": null }