diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,5332 @@ +{ + "best_global_step": 37500, + "best_metric": 0.3820163309574127, + "best_model_checkpoint": "/work/HauSeq/train_results/results_bart/opus-mt-ha-en/checkpoint-37500", + "epoch": 3.0, + "eval_steps": 500, + "global_step": 37500, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.004, + "grad_norm": 0.2092275619506836, + "learning_rate": 0.0004993333333333334, + "loss": 1.6076, + "step": 50 + }, + { + "epoch": 0.008, + "grad_norm": 0.19429421424865723, + "learning_rate": 0.0004986666666666667, + "loss": 1.0458, + "step": 100 + }, + { + "epoch": 0.012, + "grad_norm": 0.16413410007953644, + "learning_rate": 0.000498, + "loss": 0.9986, + "step": 150 + }, + { + "epoch": 0.016, + "grad_norm": 0.22776064276695251, + "learning_rate": 0.0004973333333333334, + "loss": 0.917, + "step": 200 + }, + { + "epoch": 0.02, + "grad_norm": 0.2378893941640854, + "learning_rate": 0.0004966666666666666, + "loss": 0.8685, + "step": 250 + }, + { + "epoch": 0.024, + "grad_norm": 0.22648729383945465, + "learning_rate": 0.000496, + "loss": 0.8854, + "step": 300 + }, + { + "epoch": 0.028, + "grad_norm": 0.21825851500034332, + "learning_rate": 0.0004953333333333334, + "loss": 0.85, + "step": 350 + }, + { + "epoch": 0.032, + "grad_norm": 0.23655818402767181, + "learning_rate": 0.0004946666666666667, + "loss": 0.827, + "step": 400 + }, + { + "epoch": 0.036, + "grad_norm": 0.22567935287952423, + "learning_rate": 0.000494, + "loss": 0.8075, + "step": 450 + }, + { + "epoch": 0.04, + "grad_norm": 0.25502583384513855, + "learning_rate": 0.0004933333333333334, + "loss": 0.7793, + "step": 500 + }, + { + "epoch": 0.044, + "grad_norm": 0.2530737519264221, + "learning_rate": 0.0004926666666666666, + "loss": 0.7396, + "step": 550 + }, + { + "epoch": 0.048, + "grad_norm": 0.21066267788410187, + "learning_rate": 0.000492, + "loss": 0.7633, + "step": 600 + }, + { + "epoch": 0.052, + "grad_norm": 0.2631346583366394, + "learning_rate": 0.0004913333333333333, + "loss": 0.7386, + "step": 650 + }, + { + "epoch": 0.056, + "grad_norm": 0.2566450238227844, + "learning_rate": 0.0004906666666666667, + "loss": 0.7198, + "step": 700 + }, + { + "epoch": 0.06, + "grad_norm": 0.32363173365592957, + "learning_rate": 0.00049, + "loss": 0.7249, + "step": 750 + }, + { + "epoch": 0.064, + "grad_norm": 0.32649219036102295, + "learning_rate": 0.0004893333333333334, + "loss": 0.7205, + "step": 800 + }, + { + "epoch": 0.068, + "grad_norm": 0.2959788143634796, + "learning_rate": 0.0004886666666666667, + "loss": 0.7081, + "step": 850 + }, + { + "epoch": 0.072, + "grad_norm": 0.29660218954086304, + "learning_rate": 0.000488, + "loss": 0.6834, + "step": 900 + }, + { + "epoch": 0.076, + "grad_norm": 0.31737223267555237, + "learning_rate": 0.0004873333333333333, + "loss": 0.689, + "step": 950 + }, + { + "epoch": 0.08, + "grad_norm": 0.25910162925720215, + "learning_rate": 0.0004866666666666667, + "loss": 0.6824, + "step": 1000 + }, + { + "epoch": 0.084, + "grad_norm": 0.2807078957557678, + "learning_rate": 0.000486, + "loss": 0.6612, + "step": 1050 + }, + { + "epoch": 0.088, + "grad_norm": 0.2435218095779419, + "learning_rate": 0.00048533333333333333, + "loss": 0.6562, + "step": 1100 + }, + { + "epoch": 0.092, + "grad_norm": 0.24235914647579193, + "learning_rate": 0.0004846666666666667, + "loss": 0.6341, + "step": 1150 + }, + { + "epoch": 0.096, + "grad_norm": 0.25228413939476013, + "learning_rate": 0.000484, + "loss": 0.6719, + "step": 1200 + }, + { + "epoch": 0.1, + "grad_norm": 0.28678834438323975, + "learning_rate": 0.00048333333333333334, + "loss": 0.6499, + "step": 1250 + }, + { + "epoch": 0.104, + "grad_norm": 0.32590362429618835, + "learning_rate": 0.00048266666666666667, + "loss": 0.6559, + "step": 1300 + }, + { + "epoch": 0.108, + "grad_norm": 0.2543511390686035, + "learning_rate": 0.000482, + "loss": 0.6229, + "step": 1350 + }, + { + "epoch": 0.112, + "grad_norm": 0.3108578324317932, + "learning_rate": 0.00048133333333333334, + "loss": 0.6348, + "step": 1400 + }, + { + "epoch": 0.116, + "grad_norm": 0.2822752594947815, + "learning_rate": 0.0004806666666666667, + "loss": 0.6329, + "step": 1450 + }, + { + "epoch": 0.12, + "grad_norm": 0.24767610430717468, + "learning_rate": 0.00048, + "loss": 0.6423, + "step": 1500 + }, + { + "epoch": 0.124, + "grad_norm": 0.301263689994812, + "learning_rate": 0.00047933333333333335, + "loss": 0.6211, + "step": 1550 + }, + { + "epoch": 0.128, + "grad_norm": 0.27373722195625305, + "learning_rate": 0.0004786666666666667, + "loss": 0.5986, + "step": 1600 + }, + { + "epoch": 0.132, + "grad_norm": 0.3386150002479553, + "learning_rate": 0.00047799999999999996, + "loss": 0.6203, + "step": 1650 + }, + { + "epoch": 0.136, + "grad_norm": 0.2716316878795624, + "learning_rate": 0.00047733333333333335, + "loss": 0.6215, + "step": 1700 + }, + { + "epoch": 0.14, + "grad_norm": 0.346894234418869, + "learning_rate": 0.0004766666666666667, + "loss": 0.6022, + "step": 1750 + }, + { + "epoch": 0.144, + "grad_norm": 0.281380832195282, + "learning_rate": 0.00047599999999999997, + "loss": 0.599, + "step": 1800 + }, + { + "epoch": 0.148, + "grad_norm": 0.26682645082473755, + "learning_rate": 0.00047533333333333336, + "loss": 0.6149, + "step": 1850 + }, + { + "epoch": 0.152, + "grad_norm": 0.29206788539886475, + "learning_rate": 0.0004746666666666667, + "loss": 0.624, + "step": 1900 + }, + { + "epoch": 0.156, + "grad_norm": 0.3583109378814697, + "learning_rate": 0.000474, + "loss": 0.5927, + "step": 1950 + }, + { + "epoch": 0.16, + "grad_norm": 0.31711962819099426, + "learning_rate": 0.00047333333333333336, + "loss": 0.6035, + "step": 2000 + }, + { + "epoch": 0.164, + "grad_norm": 0.4020940959453583, + "learning_rate": 0.0004726666666666667, + "loss": 0.5989, + "step": 2050 + }, + { + "epoch": 0.168, + "grad_norm": 0.35674795508384705, + "learning_rate": 0.000472, + "loss": 0.5828, + "step": 2100 + }, + { + "epoch": 0.172, + "grad_norm": 0.24146874248981476, + "learning_rate": 0.0004713333333333333, + "loss": 0.5723, + "step": 2150 + }, + { + "epoch": 0.176, + "grad_norm": 0.26548057794570923, + "learning_rate": 0.0004706666666666667, + "loss": 0.5588, + "step": 2200 + }, + { + "epoch": 0.18, + "grad_norm": 0.29983675479888916, + "learning_rate": 0.00047, + "loss": 0.605, + "step": 2250 + }, + { + "epoch": 0.184, + "grad_norm": 0.28184646368026733, + "learning_rate": 0.0004693333333333333, + "loss": 0.5814, + "step": 2300 + }, + { + "epoch": 0.188, + "grad_norm": 0.2990306615829468, + "learning_rate": 0.0004686666666666667, + "loss": 0.5636, + "step": 2350 + }, + { + "epoch": 0.192, + "grad_norm": 0.2501387596130371, + "learning_rate": 0.00046800000000000005, + "loss": 0.5629, + "step": 2400 + }, + { + "epoch": 0.196, + "grad_norm": 0.28481775522232056, + "learning_rate": 0.0004673333333333333, + "loss": 0.5898, + "step": 2450 + }, + { + "epoch": 0.2, + "grad_norm": 0.31511107087135315, + "learning_rate": 0.00046666666666666666, + "loss": 0.5521, + "step": 2500 + }, + { + "epoch": 0.204, + "grad_norm": 0.24317222833633423, + "learning_rate": 0.00046600000000000005, + "loss": 0.5751, + "step": 2550 + }, + { + "epoch": 0.208, + "grad_norm": 0.26296958327293396, + "learning_rate": 0.00046533333333333333, + "loss": 0.5893, + "step": 2600 + }, + { + "epoch": 0.212, + "grad_norm": 0.30075007677078247, + "learning_rate": 0.00046466666666666667, + "loss": 0.5307, + "step": 2650 + }, + { + "epoch": 0.216, + "grad_norm": 0.34551864862442017, + "learning_rate": 0.00046400000000000006, + "loss": 0.5783, + "step": 2700 + }, + { + "epoch": 0.22, + "grad_norm": 0.3560803234577179, + "learning_rate": 0.00046333333333333334, + "loss": 0.5645, + "step": 2750 + }, + { + "epoch": 0.224, + "grad_norm": 0.23722952604293823, + "learning_rate": 0.0004626666666666667, + "loss": 0.5312, + "step": 2800 + }, + { + "epoch": 0.228, + "grad_norm": 0.29451698064804077, + "learning_rate": 0.000462, + "loss": 0.5539, + "step": 2850 + }, + { + "epoch": 0.232, + "grad_norm": 0.29222816228866577, + "learning_rate": 0.00046133333333333334, + "loss": 0.5679, + "step": 2900 + }, + { + "epoch": 0.236, + "grad_norm": 0.2653771638870239, + "learning_rate": 0.0004606666666666667, + "loss": 0.5726, + "step": 2950 + }, + { + "epoch": 0.24, + "grad_norm": 0.36674413084983826, + "learning_rate": 0.00046, + "loss": 0.5455, + "step": 3000 + }, + { + "epoch": 0.244, + "grad_norm": 0.3437090218067169, + "learning_rate": 0.00045933333333333335, + "loss": 0.5303, + "step": 3050 + }, + { + "epoch": 0.248, + "grad_norm": 0.2822039723396301, + "learning_rate": 0.0004586666666666667, + "loss": 0.5558, + "step": 3100 + }, + { + "epoch": 0.252, + "grad_norm": 0.3630792498588562, + "learning_rate": 0.000458, + "loss": 0.5303, + "step": 3150 + }, + { + "epoch": 0.256, + "grad_norm": 0.31400319933891296, + "learning_rate": 0.0004573333333333333, + "loss": 0.5505, + "step": 3200 + }, + { + "epoch": 0.26, + "grad_norm": 0.26585137844085693, + "learning_rate": 0.0004566666666666667, + "loss": 0.5287, + "step": 3250 + }, + { + "epoch": 0.264, + "grad_norm": 0.280496746301651, + "learning_rate": 0.000456, + "loss": 0.5334, + "step": 3300 + }, + { + "epoch": 0.268, + "grad_norm": 0.2909296452999115, + "learning_rate": 0.0004553333333333333, + "loss": 0.524, + "step": 3350 + }, + { + "epoch": 0.272, + "grad_norm": 0.2805761992931366, + "learning_rate": 0.0004546666666666667, + "loss": 0.525, + "step": 3400 + }, + { + "epoch": 0.276, + "grad_norm": 0.28053075075149536, + "learning_rate": 0.00045400000000000003, + "loss": 0.574, + "step": 3450 + }, + { + "epoch": 0.28, + "grad_norm": 0.3268900513648987, + "learning_rate": 0.0004533333333333333, + "loss": 0.5573, + "step": 3500 + }, + { + "epoch": 0.284, + "grad_norm": 0.26179447770118713, + "learning_rate": 0.00045266666666666665, + "loss": 0.5306, + "step": 3550 + }, + { + "epoch": 0.288, + "grad_norm": 0.2379418909549713, + "learning_rate": 0.00045200000000000004, + "loss": 0.5285, + "step": 3600 + }, + { + "epoch": 0.292, + "grad_norm": 0.36370590329170227, + "learning_rate": 0.0004513333333333333, + "loss": 0.5624, + "step": 3650 + }, + { + "epoch": 0.296, + "grad_norm": 0.2831771671772003, + "learning_rate": 0.00045066666666666665, + "loss": 0.5541, + "step": 3700 + }, + { + "epoch": 0.3, + "grad_norm": 0.3059931993484497, + "learning_rate": 0.00045000000000000004, + "loss": 0.5547, + "step": 3750 + }, + { + "epoch": 0.304, + "grad_norm": 0.26222649216651917, + "learning_rate": 0.0004493333333333333, + "loss": 0.5497, + "step": 3800 + }, + { + "epoch": 0.308, + "grad_norm": 0.24700266122817993, + "learning_rate": 0.00044866666666666666, + "loss": 0.5392, + "step": 3850 + }, + { + "epoch": 0.312, + "grad_norm": 0.3365049362182617, + "learning_rate": 0.000448, + "loss": 0.5538, + "step": 3900 + }, + { + "epoch": 0.316, + "grad_norm": 0.26579147577285767, + "learning_rate": 0.0004473333333333334, + "loss": 0.5482, + "step": 3950 + }, + { + "epoch": 0.32, + "grad_norm": 0.2766454219818115, + "learning_rate": 0.00044666666666666666, + "loss": 0.5277, + "step": 4000 + }, + { + "epoch": 0.324, + "grad_norm": 0.2738679349422455, + "learning_rate": 0.000446, + "loss": 0.5227, + "step": 4050 + }, + { + "epoch": 0.328, + "grad_norm": 0.2174311727285385, + "learning_rate": 0.0004453333333333334, + "loss": 0.5155, + "step": 4100 + }, + { + "epoch": 0.332, + "grad_norm": 0.3532375395298004, + "learning_rate": 0.00044466666666666667, + "loss": 0.5488, + "step": 4150 + }, + { + "epoch": 0.336, + "grad_norm": 0.28046268224716187, + "learning_rate": 0.000444, + "loss": 0.5411, + "step": 4200 + }, + { + "epoch": 0.34, + "grad_norm": 0.2844601273536682, + "learning_rate": 0.00044333333333333334, + "loss": 0.5466, + "step": 4250 + }, + { + "epoch": 0.344, + "grad_norm": 0.32266369462013245, + "learning_rate": 0.0004426666666666667, + "loss": 0.5548, + "step": 4300 + }, + { + "epoch": 0.348, + "grad_norm": 0.27451226115226746, + "learning_rate": 0.000442, + "loss": 0.5261, + "step": 4350 + }, + { + "epoch": 0.352, + "grad_norm": 0.3369055390357971, + "learning_rate": 0.00044133333333333335, + "loss": 0.5309, + "step": 4400 + }, + { + "epoch": 0.356, + "grad_norm": 0.329650342464447, + "learning_rate": 0.0004406666666666667, + "loss": 0.5301, + "step": 4450 + }, + { + "epoch": 0.36, + "grad_norm": 0.26292499899864197, + "learning_rate": 0.00044, + "loss": 0.5233, + "step": 4500 + }, + { + "epoch": 0.364, + "grad_norm": 0.37950268387794495, + "learning_rate": 0.00043933333333333335, + "loss": 0.5517, + "step": 4550 + }, + { + "epoch": 0.368, + "grad_norm": 0.2780044376850128, + "learning_rate": 0.00043866666666666663, + "loss": 0.5194, + "step": 4600 + }, + { + "epoch": 0.372, + "grad_norm": 0.2816406488418579, + "learning_rate": 0.000438, + "loss": 0.5183, + "step": 4650 + }, + { + "epoch": 0.376, + "grad_norm": 0.26864293217658997, + "learning_rate": 0.00043733333333333336, + "loss": 0.5307, + "step": 4700 + }, + { + "epoch": 0.38, + "grad_norm": 0.33374643325805664, + "learning_rate": 0.00043666666666666664, + "loss": 0.5028, + "step": 4750 + }, + { + "epoch": 0.384, + "grad_norm": 0.2985057830810547, + "learning_rate": 0.000436, + "loss": 0.553, + "step": 4800 + }, + { + "epoch": 0.388, + "grad_norm": 0.3004714548587799, + "learning_rate": 0.00043533333333333336, + "loss": 0.5238, + "step": 4850 + }, + { + "epoch": 0.392, + "grad_norm": 0.3005458116531372, + "learning_rate": 0.00043466666666666664, + "loss": 0.5283, + "step": 4900 + }, + { + "epoch": 0.396, + "grad_norm": 0.29443225264549255, + "learning_rate": 0.00043400000000000003, + "loss": 0.4893, + "step": 4950 + }, + { + "epoch": 0.4, + "grad_norm": 0.28742876648902893, + "learning_rate": 0.00043333333333333337, + "loss": 0.5341, + "step": 5000 + }, + { + "epoch": 0.404, + "grad_norm": 0.25487369298934937, + "learning_rate": 0.00043266666666666665, + "loss": 0.5188, + "step": 5050 + }, + { + "epoch": 0.408, + "grad_norm": 0.29729726910591125, + "learning_rate": 0.000432, + "loss": 0.5287, + "step": 5100 + }, + { + "epoch": 0.412, + "grad_norm": 0.22507429122924805, + "learning_rate": 0.0004313333333333334, + "loss": 0.527, + "step": 5150 + }, + { + "epoch": 0.416, + "grad_norm": 0.25595012307167053, + "learning_rate": 0.00043066666666666665, + "loss": 0.5246, + "step": 5200 + }, + { + "epoch": 0.42, + "grad_norm": 0.36088213324546814, + "learning_rate": 0.00043, + "loss": 0.5077, + "step": 5250 + }, + { + "epoch": 0.424, + "grad_norm": 0.2459583580493927, + "learning_rate": 0.0004293333333333334, + "loss": 0.5255, + "step": 5300 + }, + { + "epoch": 0.428, + "grad_norm": 0.32024478912353516, + "learning_rate": 0.00042866666666666666, + "loss": 0.5221, + "step": 5350 + }, + { + "epoch": 0.432, + "grad_norm": 0.24678969383239746, + "learning_rate": 0.000428, + "loss": 0.505, + "step": 5400 + }, + { + "epoch": 0.436, + "grad_norm": 0.3292189836502075, + "learning_rate": 0.00042733333333333333, + "loss": 0.5102, + "step": 5450 + }, + { + "epoch": 0.44, + "grad_norm": 0.28699588775634766, + "learning_rate": 0.0004266666666666667, + "loss": 0.5053, + "step": 5500 + }, + { + "epoch": 0.444, + "grad_norm": 0.2756653428077698, + "learning_rate": 0.000426, + "loss": 0.5175, + "step": 5550 + }, + { + "epoch": 0.448, + "grad_norm": 0.2923598885536194, + "learning_rate": 0.00042533333333333334, + "loss": 0.4928, + "step": 5600 + }, + { + "epoch": 0.452, + "grad_norm": 0.24447552859783173, + "learning_rate": 0.0004246666666666667, + "loss": 0.5214, + "step": 5650 + }, + { + "epoch": 0.456, + "grad_norm": 0.1894371509552002, + "learning_rate": 0.000424, + "loss": 0.5062, + "step": 5700 + }, + { + "epoch": 0.46, + "grad_norm": 0.2202080637216568, + "learning_rate": 0.00042333333333333334, + "loss": 0.4852, + "step": 5750 + }, + { + "epoch": 0.464, + "grad_norm": 0.2950378954410553, + "learning_rate": 0.0004226666666666667, + "loss": 0.5255, + "step": 5800 + }, + { + "epoch": 0.468, + "grad_norm": 0.28961220383644104, + "learning_rate": 0.000422, + "loss": 0.5022, + "step": 5850 + }, + { + "epoch": 0.472, + "grad_norm": 0.27346786856651306, + "learning_rate": 0.00042133333333333335, + "loss": 0.5307, + "step": 5900 + }, + { + "epoch": 0.476, + "grad_norm": 0.24120746552944183, + "learning_rate": 0.0004206666666666667, + "loss": 0.5057, + "step": 5950 + }, + { + "epoch": 0.48, + "grad_norm": 0.24060021340847015, + "learning_rate": 0.00042, + "loss": 0.4926, + "step": 6000 + }, + { + "epoch": 0.484, + "grad_norm": 0.3075903356075287, + "learning_rate": 0.00041933333333333335, + "loss": 0.5081, + "step": 6050 + }, + { + "epoch": 0.488, + "grad_norm": 0.3022703528404236, + "learning_rate": 0.0004186666666666667, + "loss": 0.5212, + "step": 6100 + }, + { + "epoch": 0.492, + "grad_norm": 0.3121025860309601, + "learning_rate": 0.00041799999999999997, + "loss": 0.5087, + "step": 6150 + }, + { + "epoch": 0.496, + "grad_norm": 0.2926901578903198, + "learning_rate": 0.00041733333333333336, + "loss": 0.5042, + "step": 6200 + }, + { + "epoch": 0.5, + "grad_norm": 0.3166695237159729, + "learning_rate": 0.0004166666666666667, + "loss": 0.5224, + "step": 6250 + }, + { + "epoch": 0.504, + "grad_norm": 0.3136211037635803, + "learning_rate": 0.000416, + "loss": 0.527, + "step": 6300 + }, + { + "epoch": 0.508, + "grad_norm": 0.26788851618766785, + "learning_rate": 0.00041533333333333336, + "loss": 0.5027, + "step": 6350 + }, + { + "epoch": 0.512, + "grad_norm": 0.3324771225452423, + "learning_rate": 0.0004146666666666667, + "loss": 0.5086, + "step": 6400 + }, + { + "epoch": 0.516, + "grad_norm": 0.35602742433547974, + "learning_rate": 0.000414, + "loss": 0.5364, + "step": 6450 + }, + { + "epoch": 0.52, + "grad_norm": 0.25825437903404236, + "learning_rate": 0.0004133333333333333, + "loss": 0.5221, + "step": 6500 + }, + { + "epoch": 0.524, + "grad_norm": 0.287536084651947, + "learning_rate": 0.0004126666666666667, + "loss": 0.4937, + "step": 6550 + }, + { + "epoch": 0.528, + "grad_norm": 0.29846829175949097, + "learning_rate": 0.000412, + "loss": 0.4978, + "step": 6600 + }, + { + "epoch": 0.532, + "grad_norm": 0.2870037853717804, + "learning_rate": 0.0004113333333333333, + "loss": 0.5039, + "step": 6650 + }, + { + "epoch": 0.536, + "grad_norm": 0.2645747661590576, + "learning_rate": 0.0004106666666666667, + "loss": 0.4901, + "step": 6700 + }, + { + "epoch": 0.54, + "grad_norm": 0.2969241738319397, + "learning_rate": 0.00041, + "loss": 0.5184, + "step": 6750 + }, + { + "epoch": 0.544, + "grad_norm": 0.2893584966659546, + "learning_rate": 0.0004093333333333333, + "loss": 0.5072, + "step": 6800 + }, + { + "epoch": 0.548, + "grad_norm": 0.31742063164711, + "learning_rate": 0.00040866666666666666, + "loss": 0.5063, + "step": 6850 + }, + { + "epoch": 0.552, + "grad_norm": 0.42868128418922424, + "learning_rate": 0.000408, + "loss": 0.503, + "step": 6900 + }, + { + "epoch": 0.556, + "grad_norm": 0.23471830785274506, + "learning_rate": 0.00040733333333333333, + "loss": 0.5066, + "step": 6950 + }, + { + "epoch": 0.56, + "grad_norm": 0.28356945514678955, + "learning_rate": 0.00040666666666666667, + "loss": 0.4905, + "step": 7000 + }, + { + "epoch": 0.564, + "grad_norm": 0.24515143036842346, + "learning_rate": 0.00040600000000000006, + "loss": 0.4765, + "step": 7050 + }, + { + "epoch": 0.568, + "grad_norm": 0.23990851640701294, + "learning_rate": 0.00040533333333333334, + "loss": 0.5097, + "step": 7100 + }, + { + "epoch": 0.572, + "grad_norm": 0.2748514413833618, + "learning_rate": 0.00040466666666666667, + "loss": 0.536, + "step": 7150 + }, + { + "epoch": 0.576, + "grad_norm": 0.2917095720767975, + "learning_rate": 0.000404, + "loss": 0.4849, + "step": 7200 + }, + { + "epoch": 0.58, + "grad_norm": 0.3138541281223297, + "learning_rate": 0.00040333333333333334, + "loss": 0.4821, + "step": 7250 + }, + { + "epoch": 0.584, + "grad_norm": 0.2899429202079773, + "learning_rate": 0.0004026666666666667, + "loss": 0.5037, + "step": 7300 + }, + { + "epoch": 0.588, + "grad_norm": 0.24574729800224304, + "learning_rate": 0.000402, + "loss": 0.5153, + "step": 7350 + }, + { + "epoch": 0.592, + "grad_norm": 0.29740893840789795, + "learning_rate": 0.00040133333333333335, + "loss": 0.5093, + "step": 7400 + }, + { + "epoch": 0.596, + "grad_norm": 0.33804550766944885, + "learning_rate": 0.0004006666666666667, + "loss": 0.5026, + "step": 7450 + }, + { + "epoch": 0.6, + "grad_norm": 0.26722225546836853, + "learning_rate": 0.0004, + "loss": 0.4991, + "step": 7500 + }, + { + "epoch": 0.604, + "grad_norm": 0.3200959861278534, + "learning_rate": 0.0003993333333333333, + "loss": 0.498, + "step": 7550 + }, + { + "epoch": 0.608, + "grad_norm": 0.26669803261756897, + "learning_rate": 0.0003986666666666667, + "loss": 0.4853, + "step": 7600 + }, + { + "epoch": 0.612, + "grad_norm": 0.32375073432922363, + "learning_rate": 0.000398, + "loss": 0.5004, + "step": 7650 + }, + { + "epoch": 0.616, + "grad_norm": 0.2246362268924713, + "learning_rate": 0.0003973333333333333, + "loss": 0.5056, + "step": 7700 + }, + { + "epoch": 0.62, + "grad_norm": 0.2956292927265167, + "learning_rate": 0.0003966666666666667, + "loss": 0.4993, + "step": 7750 + }, + { + "epoch": 0.624, + "grad_norm": 0.2602785527706146, + "learning_rate": 0.00039600000000000003, + "loss": 0.4869, + "step": 7800 + }, + { + "epoch": 0.628, + "grad_norm": 0.2545652687549591, + "learning_rate": 0.0003953333333333333, + "loss": 0.492, + "step": 7850 + }, + { + "epoch": 0.632, + "grad_norm": 0.35370874404907227, + "learning_rate": 0.0003946666666666667, + "loss": 0.4835, + "step": 7900 + }, + { + "epoch": 0.636, + "grad_norm": 0.2842217683792114, + "learning_rate": 0.00039400000000000004, + "loss": 0.4992, + "step": 7950 + }, + { + "epoch": 0.64, + "grad_norm": 0.26199471950531006, + "learning_rate": 0.0003933333333333333, + "loss": 0.5011, + "step": 8000 + }, + { + "epoch": 0.644, + "grad_norm": 0.3429638743400574, + "learning_rate": 0.00039266666666666665, + "loss": 0.4915, + "step": 8050 + }, + { + "epoch": 0.648, + "grad_norm": 0.2959030270576477, + "learning_rate": 0.00039200000000000004, + "loss": 0.5061, + "step": 8100 + }, + { + "epoch": 0.652, + "grad_norm": 0.2924007177352905, + "learning_rate": 0.0003913333333333333, + "loss": 0.5024, + "step": 8150 + }, + { + "epoch": 0.656, + "grad_norm": 0.25861507654190063, + "learning_rate": 0.00039066666666666666, + "loss": 0.4824, + "step": 8200 + }, + { + "epoch": 0.66, + "grad_norm": 0.3849674165248871, + "learning_rate": 0.00039000000000000005, + "loss": 0.5018, + "step": 8250 + }, + { + "epoch": 0.664, + "grad_norm": 0.29498299956321716, + "learning_rate": 0.00038933333333333333, + "loss": 0.5049, + "step": 8300 + }, + { + "epoch": 0.668, + "grad_norm": 0.316537469625473, + "learning_rate": 0.00038866666666666666, + "loss": 0.4912, + "step": 8350 + }, + { + "epoch": 0.672, + "grad_norm": 0.27407020330429077, + "learning_rate": 0.000388, + "loss": 0.5119, + "step": 8400 + }, + { + "epoch": 0.676, + "grad_norm": 0.2714451551437378, + "learning_rate": 0.00038733333333333333, + "loss": 0.5133, + "step": 8450 + }, + { + "epoch": 0.68, + "grad_norm": 0.29371556639671326, + "learning_rate": 0.00038666666666666667, + "loss": 0.5088, + "step": 8500 + }, + { + "epoch": 0.684, + "grad_norm": 0.30629292130470276, + "learning_rate": 0.000386, + "loss": 0.4767, + "step": 8550 + }, + { + "epoch": 0.688, + "grad_norm": 0.28031590580940247, + "learning_rate": 0.0003853333333333334, + "loss": 0.5005, + "step": 8600 + }, + { + "epoch": 0.692, + "grad_norm": 0.25535598397254944, + "learning_rate": 0.0003846666666666667, + "loss": 0.5078, + "step": 8650 + }, + { + "epoch": 0.696, + "grad_norm": 0.29329103231430054, + "learning_rate": 0.000384, + "loss": 0.5126, + "step": 8700 + }, + { + "epoch": 0.7, + "grad_norm": 0.2747895121574402, + "learning_rate": 0.00038333333333333334, + "loss": 0.5086, + "step": 8750 + }, + { + "epoch": 0.704, + "grad_norm": 0.25664788484573364, + "learning_rate": 0.0003826666666666667, + "loss": 0.4855, + "step": 8800 + }, + { + "epoch": 0.708, + "grad_norm": 0.25921013951301575, + "learning_rate": 0.000382, + "loss": 0.49, + "step": 8850 + }, + { + "epoch": 0.712, + "grad_norm": 0.26674720644950867, + "learning_rate": 0.00038133333333333335, + "loss": 0.4998, + "step": 8900 + }, + { + "epoch": 0.716, + "grad_norm": 0.3254682123661041, + "learning_rate": 0.0003806666666666667, + "loss": 0.4741, + "step": 8950 + }, + { + "epoch": 0.72, + "grad_norm": 0.31250348687171936, + "learning_rate": 0.00038, + "loss": 0.5087, + "step": 9000 + }, + { + "epoch": 0.724, + "grad_norm": 0.3126009702682495, + "learning_rate": 0.00037933333333333336, + "loss": 0.5051, + "step": 9050 + }, + { + "epoch": 0.728, + "grad_norm": 0.298431396484375, + "learning_rate": 0.00037866666666666664, + "loss": 0.4892, + "step": 9100 + }, + { + "epoch": 0.732, + "grad_norm": 0.24428126215934753, + "learning_rate": 0.000378, + "loss": 0.4953, + "step": 9150 + }, + { + "epoch": 0.736, + "grad_norm": 0.23693284392356873, + "learning_rate": 0.00037734666666666667, + "loss": 0.5244, + "step": 9200 + }, + { + "epoch": 0.74, + "grad_norm": 0.3449302911758423, + "learning_rate": 0.00037668, + "loss": 0.4747, + "step": 9250 + }, + { + "epoch": 0.744, + "grad_norm": 0.3592759966850281, + "learning_rate": 0.00037601333333333334, + "loss": 0.4828, + "step": 9300 + }, + { + "epoch": 0.748, + "grad_norm": 0.3167342245578766, + "learning_rate": 0.0003753466666666667, + "loss": 0.5001, + "step": 9350 + }, + { + "epoch": 0.752, + "grad_norm": 0.32248446345329285, + "learning_rate": 0.00037468, + "loss": 0.485, + "step": 9400 + }, + { + "epoch": 0.756, + "grad_norm": 0.25082477927207947, + "learning_rate": 0.0003740133333333333, + "loss": 0.4911, + "step": 9450 + }, + { + "epoch": 0.76, + "grad_norm": 0.2677770256996155, + "learning_rate": 0.0003733466666666667, + "loss": 0.504, + "step": 9500 + }, + { + "epoch": 0.764, + "grad_norm": 0.24622194468975067, + "learning_rate": 0.00037268, + "loss": 0.5292, + "step": 9550 + }, + { + "epoch": 0.768, + "grad_norm": 0.3372747004032135, + "learning_rate": 0.0003720133333333333, + "loss": 0.5291, + "step": 9600 + }, + { + "epoch": 0.772, + "grad_norm": 0.3163023293018341, + "learning_rate": 0.0003713466666666667, + "loss": 0.4858, + "step": 9650 + }, + { + "epoch": 0.776, + "grad_norm": 0.26732876896858215, + "learning_rate": 0.00037068, + "loss": 0.4571, + "step": 9700 + }, + { + "epoch": 0.78, + "grad_norm": 0.36321815848350525, + "learning_rate": 0.00037001333333333336, + "loss": 0.4917, + "step": 9750 + }, + { + "epoch": 0.784, + "grad_norm": 0.25806257128715515, + "learning_rate": 0.00036934666666666664, + "loss": 0.4576, + "step": 9800 + }, + { + "epoch": 0.788, + "grad_norm": 0.35081419348716736, + "learning_rate": 0.00036868000000000003, + "loss": 0.4898, + "step": 9850 + }, + { + "epoch": 0.792, + "grad_norm": 0.2805069088935852, + "learning_rate": 0.00036801333333333336, + "loss": 0.4735, + "step": 9900 + }, + { + "epoch": 0.796, + "grad_norm": 0.2621886730194092, + "learning_rate": 0.00036734666666666664, + "loss": 0.4903, + "step": 9950 + }, + { + "epoch": 0.8, + "grad_norm": 0.2226247787475586, + "learning_rate": 0.00036668000000000003, + "loss": 0.4979, + "step": 10000 + }, + { + "epoch": 0.804, + "grad_norm": 0.3263295292854309, + "learning_rate": 0.00036601333333333337, + "loss": 0.4898, + "step": 10050 + }, + { + "epoch": 0.808, + "grad_norm": 0.3030853867530823, + "learning_rate": 0.00036534666666666665, + "loss": 0.4873, + "step": 10100 + }, + { + "epoch": 0.812, + "grad_norm": 0.29938003420829773, + "learning_rate": 0.00036468000000000004, + "loss": 0.4866, + "step": 10150 + }, + { + "epoch": 0.816, + "grad_norm": 0.2580682039260864, + "learning_rate": 0.0003640133333333334, + "loss": 0.4822, + "step": 10200 + }, + { + "epoch": 0.82, + "grad_norm": 0.2789117693901062, + "learning_rate": 0.00036334666666666666, + "loss": 0.5055, + "step": 10250 + }, + { + "epoch": 0.824, + "grad_norm": 0.26500239968299866, + "learning_rate": 0.00036268, + "loss": 0.4812, + "step": 10300 + }, + { + "epoch": 0.828, + "grad_norm": 0.235749751329422, + "learning_rate": 0.0003620133333333334, + "loss": 0.4972, + "step": 10350 + }, + { + "epoch": 0.832, + "grad_norm": 0.31979885697364807, + "learning_rate": 0.00036134666666666666, + "loss": 0.474, + "step": 10400 + }, + { + "epoch": 0.836, + "grad_norm": 0.3086276352405548, + "learning_rate": 0.00036068, + "loss": 0.4794, + "step": 10450 + }, + { + "epoch": 0.84, + "grad_norm": 0.3262246251106262, + "learning_rate": 0.0003600133333333334, + "loss": 0.5247, + "step": 10500 + }, + { + "epoch": 0.844, + "grad_norm": 0.2597404718399048, + "learning_rate": 0.00035934666666666667, + "loss": 0.4766, + "step": 10550 + }, + { + "epoch": 0.848, + "grad_norm": 0.2788718640804291, + "learning_rate": 0.00035868, + "loss": 0.4772, + "step": 10600 + }, + { + "epoch": 0.852, + "grad_norm": 0.30522826313972473, + "learning_rate": 0.00035801333333333334, + "loss": 0.4706, + "step": 10650 + }, + { + "epoch": 0.856, + "grad_norm": 0.3109700679779053, + "learning_rate": 0.00035734666666666667, + "loss": 0.5005, + "step": 10700 + }, + { + "epoch": 0.86, + "grad_norm": 0.34049564599990845, + "learning_rate": 0.00035668, + "loss": 0.4835, + "step": 10750 + }, + { + "epoch": 0.864, + "grad_norm": 0.363732248544693, + "learning_rate": 0.00035601333333333334, + "loss": 0.4722, + "step": 10800 + }, + { + "epoch": 0.868, + "grad_norm": 0.24134613573551178, + "learning_rate": 0.0003553466666666667, + "loss": 0.4813, + "step": 10850 + }, + { + "epoch": 0.872, + "grad_norm": 0.24610887467861176, + "learning_rate": 0.00035468, + "loss": 0.4928, + "step": 10900 + }, + { + "epoch": 0.876, + "grad_norm": 0.2842523157596588, + "learning_rate": 0.00035401333333333335, + "loss": 0.5107, + "step": 10950 + }, + { + "epoch": 0.88, + "grad_norm": 0.28073206543922424, + "learning_rate": 0.00035334666666666663, + "loss": 0.5066, + "step": 11000 + }, + { + "epoch": 0.884, + "grad_norm": 0.3019973039627075, + "learning_rate": 0.00035268, + "loss": 0.4579, + "step": 11050 + }, + { + "epoch": 0.888, + "grad_norm": 0.28878089785575867, + "learning_rate": 0.00035201333333333335, + "loss": 0.4786, + "step": 11100 + }, + { + "epoch": 0.892, + "grad_norm": 0.343481183052063, + "learning_rate": 0.00035134666666666663, + "loss": 0.4873, + "step": 11150 + }, + { + "epoch": 0.896, + "grad_norm": 0.2982073426246643, + "learning_rate": 0.00035068, + "loss": 0.4782, + "step": 11200 + }, + { + "epoch": 0.9, + "grad_norm": 0.26956865191459656, + "learning_rate": 0.00035001333333333336, + "loss": 0.5048, + "step": 11250 + }, + { + "epoch": 0.904, + "grad_norm": 0.3186506927013397, + "learning_rate": 0.0003493466666666667, + "loss": 0.4989, + "step": 11300 + }, + { + "epoch": 0.908, + "grad_norm": 0.2686464786529541, + "learning_rate": 0.00034868, + "loss": 0.4793, + "step": 11350 + }, + { + "epoch": 0.912, + "grad_norm": 0.3437965512275696, + "learning_rate": 0.00034801333333333336, + "loss": 0.4868, + "step": 11400 + }, + { + "epoch": 0.916, + "grad_norm": 0.30162402987480164, + "learning_rate": 0.0003473466666666667, + "loss": 0.4768, + "step": 11450 + }, + { + "epoch": 0.92, + "grad_norm": 0.2590392529964447, + "learning_rate": 0.00034668, + "loss": 0.5218, + "step": 11500 + }, + { + "epoch": 0.924, + "grad_norm": 0.25861477851867676, + "learning_rate": 0.00034601333333333337, + "loss": 0.514, + "step": 11550 + }, + { + "epoch": 0.928, + "grad_norm": 0.33041343092918396, + "learning_rate": 0.0003453466666666667, + "loss": 0.4927, + "step": 11600 + }, + { + "epoch": 0.932, + "grad_norm": 0.31611981987953186, + "learning_rate": 0.00034468, + "loss": 0.4677, + "step": 11650 + }, + { + "epoch": 0.936, + "grad_norm": 0.2589157223701477, + "learning_rate": 0.0003440133333333333, + "loss": 0.4782, + "step": 11700 + }, + { + "epoch": 0.94, + "grad_norm": 0.38315385580062866, + "learning_rate": 0.0003433466666666667, + "loss": 0.4829, + "step": 11750 + }, + { + "epoch": 0.944, + "grad_norm": 0.25485607981681824, + "learning_rate": 0.00034268, + "loss": 0.4698, + "step": 11800 + }, + { + "epoch": 0.948, + "grad_norm": 0.21316327154636383, + "learning_rate": 0.00034201333333333333, + "loss": 0.4749, + "step": 11850 + }, + { + "epoch": 0.952, + "grad_norm": 0.3039748966693878, + "learning_rate": 0.0003413466666666667, + "loss": 0.4785, + "step": 11900 + }, + { + "epoch": 0.956, + "grad_norm": 0.26846805214881897, + "learning_rate": 0.00034068, + "loss": 0.4882, + "step": 11950 + }, + { + "epoch": 0.96, + "grad_norm": 0.23608337342739105, + "learning_rate": 0.00034001333333333333, + "loss": 0.4675, + "step": 12000 + }, + { + "epoch": 0.964, + "grad_norm": 0.25088703632354736, + "learning_rate": 0.00033934666666666667, + "loss": 0.4792, + "step": 12050 + }, + { + "epoch": 0.968, + "grad_norm": 0.22274646162986755, + "learning_rate": 0.00033868, + "loss": 0.4723, + "step": 12100 + }, + { + "epoch": 0.972, + "grad_norm": 0.29319432377815247, + "learning_rate": 0.00033801333333333334, + "loss": 0.4849, + "step": 12150 + }, + { + "epoch": 0.976, + "grad_norm": 0.3388037383556366, + "learning_rate": 0.0003373466666666667, + "loss": 0.4897, + "step": 12200 + }, + { + "epoch": 0.98, + "grad_norm": 0.23492126166820526, + "learning_rate": 0.00033668, + "loss": 0.4793, + "step": 12250 + }, + { + "epoch": 0.984, + "grad_norm": 0.24990254640579224, + "learning_rate": 0.00033601333333333334, + "loss": 0.487, + "step": 12300 + }, + { + "epoch": 0.988, + "grad_norm": 0.35828229784965515, + "learning_rate": 0.0003353466666666667, + "loss": 0.4754, + "step": 12350 + }, + { + "epoch": 0.992, + "grad_norm": 0.3121952414512634, + "learning_rate": 0.00033467999999999996, + "loss": 0.4709, + "step": 12400 + }, + { + "epoch": 0.996, + "grad_norm": 0.31305962800979614, + "learning_rate": 0.00033401333333333335, + "loss": 0.4826, + "step": 12450 + }, + { + "epoch": 1.0, + "grad_norm": 0.36394309997558594, + "learning_rate": 0.0003333466666666667, + "loss": 0.4955, + "step": 12500 + }, + { + "epoch": 1.0, + "eval_bleu": 0.31633361709195856, + "eval_cer": 0.3026747580955153, + "eval_f1": 0.599540907309233, + "eval_loss": 0.40856873989105225, + "eval_meteor": 0.5806295876419754, + "eval_runtime": 240.7283, + "eval_samples_per_second": 20.77, + "eval_steps_per_second": 0.652, + "eval_wer": 0.5200205971260555, + "step": 12500 + }, + { + "epoch": 1.004, + "grad_norm": 0.2500036060810089, + "learning_rate": 0.00033267999999999997, + "loss": 0.4812, + "step": 12550 + }, + { + "epoch": 1.008, + "grad_norm": 0.2867385149002075, + "learning_rate": 0.00033201333333333336, + "loss": 0.4682, + "step": 12600 + }, + { + "epoch": 1.012, + "grad_norm": 0.3150795102119446, + "learning_rate": 0.00033136, + "loss": 0.4735, + "step": 12650 + }, + { + "epoch": 1.016, + "grad_norm": 0.28218817710876465, + "learning_rate": 0.00033069333333333333, + "loss": 0.4744, + "step": 12700 + }, + { + "epoch": 1.02, + "grad_norm": 0.30784672498703003, + "learning_rate": 0.0003300266666666667, + "loss": 0.4768, + "step": 12750 + }, + { + "epoch": 1.024, + "grad_norm": 0.2979671359062195, + "learning_rate": 0.00032936, + "loss": 0.4874, + "step": 12800 + }, + { + "epoch": 1.028, + "grad_norm": 0.2744097411632538, + "learning_rate": 0.00032869333333333334, + "loss": 0.473, + "step": 12850 + }, + { + "epoch": 1.032, + "grad_norm": 0.282791405916214, + "learning_rate": 0.0003280266666666667, + "loss": 0.475, + "step": 12900 + }, + { + "epoch": 1.036, + "grad_norm": 0.3006061315536499, + "learning_rate": 0.00032736, + "loss": 0.4709, + "step": 12950 + }, + { + "epoch": 1.04, + "grad_norm": 0.2986580729484558, + "learning_rate": 0.00032669333333333335, + "loss": 0.4856, + "step": 13000 + }, + { + "epoch": 1.044, + "grad_norm": 0.3223816752433777, + "learning_rate": 0.0003260266666666667, + "loss": 0.4704, + "step": 13050 + }, + { + "epoch": 1.048, + "grad_norm": 0.23746663331985474, + "learning_rate": 0.00032536, + "loss": 0.5102, + "step": 13100 + }, + { + "epoch": 1.052, + "grad_norm": 0.35792630910873413, + "learning_rate": 0.00032469333333333335, + "loss": 0.4577, + "step": 13150 + }, + { + "epoch": 1.056, + "grad_norm": 0.2772007882595062, + "learning_rate": 0.0003240266666666667, + "loss": 0.4649, + "step": 13200 + }, + { + "epoch": 1.06, + "grad_norm": 0.2817031741142273, + "learning_rate": 0.00032335999999999997, + "loss": 0.4747, + "step": 13250 + }, + { + "epoch": 1.064, + "grad_norm": 0.3015364408493042, + "learning_rate": 0.00032269333333333336, + "loss": 0.4766, + "step": 13300 + }, + { + "epoch": 1.068, + "grad_norm": 0.2547887861728668, + "learning_rate": 0.0003220266666666667, + "loss": 0.4557, + "step": 13350 + }, + { + "epoch": 1.072, + "grad_norm": 0.23996621370315552, + "learning_rate": 0.00032135999999999997, + "loss": 0.4683, + "step": 13400 + }, + { + "epoch": 1.076, + "grad_norm": 0.2721744477748871, + "learning_rate": 0.00032069333333333336, + "loss": 0.4846, + "step": 13450 + }, + { + "epoch": 1.08, + "grad_norm": 0.28801387548446655, + "learning_rate": 0.0003200266666666667, + "loss": 0.503, + "step": 13500 + }, + { + "epoch": 1.084, + "grad_norm": 0.3717672526836395, + "learning_rate": 0.00031936, + "loss": 0.4839, + "step": 13550 + }, + { + "epoch": 1.088, + "grad_norm": 0.3002767264842987, + "learning_rate": 0.0003186933333333333, + "loss": 0.4679, + "step": 13600 + }, + { + "epoch": 1.092, + "grad_norm": 0.23872257769107819, + "learning_rate": 0.0003180266666666667, + "loss": 0.4636, + "step": 13650 + }, + { + "epoch": 1.096, + "grad_norm": 0.26545438170433044, + "learning_rate": 0.00031736, + "loss": 0.4935, + "step": 13700 + }, + { + "epoch": 1.1, + "grad_norm": 0.25952640175819397, + "learning_rate": 0.0003166933333333333, + "loss": 0.4792, + "step": 13750 + }, + { + "epoch": 1.104, + "grad_norm": 0.28248780965805054, + "learning_rate": 0.0003160266666666667, + "loss": 0.4697, + "step": 13800 + }, + { + "epoch": 1.108, + "grad_norm": 0.30348455905914307, + "learning_rate": 0.00031536, + "loss": 0.4755, + "step": 13850 + }, + { + "epoch": 1.112, + "grad_norm": 0.2926234006881714, + "learning_rate": 0.0003146933333333333, + "loss": 0.4638, + "step": 13900 + }, + { + "epoch": 1.116, + "grad_norm": 0.3370034694671631, + "learning_rate": 0.00031402666666666666, + "loss": 0.5214, + "step": 13950 + }, + { + "epoch": 1.12, + "grad_norm": 0.30350279808044434, + "learning_rate": 0.00031336000000000005, + "loss": 0.4753, + "step": 14000 + }, + { + "epoch": 1.124, + "grad_norm": 0.2867070734500885, + "learning_rate": 0.00031269333333333333, + "loss": 0.4633, + "step": 14050 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 0.23236282169818878, + "learning_rate": 0.00031202666666666667, + "loss": 0.4741, + "step": 14100 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 0.32306379079818726, + "learning_rate": 0.00031136000000000005, + "loss": 0.4961, + "step": 14150 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 0.3291684091091156, + "learning_rate": 0.00031069333333333334, + "loss": 0.5087, + "step": 14200 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 0.27017146348953247, + "learning_rate": 0.00031002666666666667, + "loss": 0.4822, + "step": 14250 + }, + { + "epoch": 1.144, + "grad_norm": 0.35017845034599304, + "learning_rate": 0.00030936, + "loss": 0.4983, + "step": 14300 + }, + { + "epoch": 1.148, + "grad_norm": 0.3788470923900604, + "learning_rate": 0.00030869333333333334, + "loss": 0.4608, + "step": 14350 + }, + { + "epoch": 1.152, + "grad_norm": 0.2836882174015045, + "learning_rate": 0.0003080266666666667, + "loss": 0.4775, + "step": 14400 + }, + { + "epoch": 1.156, + "grad_norm": 0.3272930085659027, + "learning_rate": 0.00030736, + "loss": 0.4871, + "step": 14450 + }, + { + "epoch": 1.16, + "grad_norm": 0.27939507365226746, + "learning_rate": 0.00030669333333333335, + "loss": 0.4753, + "step": 14500 + }, + { + "epoch": 1.164, + "grad_norm": 0.23815886676311493, + "learning_rate": 0.0003060266666666667, + "loss": 0.4696, + "step": 14550 + }, + { + "epoch": 1.168, + "grad_norm": 0.274541974067688, + "learning_rate": 0.00030536, + "loss": 0.4739, + "step": 14600 + }, + { + "epoch": 1.172, + "grad_norm": 0.24817168712615967, + "learning_rate": 0.0003046933333333333, + "loss": 0.483, + "step": 14650 + }, + { + "epoch": 1.176, + "grad_norm": 0.27509042620658875, + "learning_rate": 0.0003040266666666667, + "loss": 0.4898, + "step": 14700 + }, + { + "epoch": 1.18, + "grad_norm": 0.276006817817688, + "learning_rate": 0.00030336, + "loss": 0.4609, + "step": 14750 + }, + { + "epoch": 1.184, + "grad_norm": 0.30276405811309814, + "learning_rate": 0.0003026933333333333, + "loss": 0.4823, + "step": 14800 + }, + { + "epoch": 1.188, + "grad_norm": 0.2664280831813812, + "learning_rate": 0.00030204, + "loss": 0.4647, + "step": 14850 + }, + { + "epoch": 1.192, + "grad_norm": 0.20124799013137817, + "learning_rate": 0.00030137333333333334, + "loss": 0.4552, + "step": 14900 + }, + { + "epoch": 1.196, + "grad_norm": 0.2490241974592209, + "learning_rate": 0.00030070666666666667, + "loss": 0.4614, + "step": 14950 + }, + { + "epoch": 1.2, + "grad_norm": 0.30199629068374634, + "learning_rate": 0.00030003999999999995, + "loss": 0.4797, + "step": 15000 + }, + { + "epoch": 1.204, + "grad_norm": 0.3190577030181885, + "learning_rate": 0.00029937333333333334, + "loss": 0.4696, + "step": 15050 + }, + { + "epoch": 1.208, + "grad_norm": 0.31624796986579895, + "learning_rate": 0.0002987066666666667, + "loss": 0.502, + "step": 15100 + }, + { + "epoch": 1.212, + "grad_norm": 0.2972472310066223, + "learning_rate": 0.00029804, + "loss": 0.4785, + "step": 15150 + }, + { + "epoch": 1.216, + "grad_norm": 0.2509859800338745, + "learning_rate": 0.00029737333333333335, + "loss": 0.4831, + "step": 15200 + }, + { + "epoch": 1.22, + "grad_norm": 0.33859002590179443, + "learning_rate": 0.0002967066666666667, + "loss": 0.4866, + "step": 15250 + }, + { + "epoch": 1.224, + "grad_norm": 0.3096024692058563, + "learning_rate": 0.00029604, + "loss": 0.4798, + "step": 15300 + }, + { + "epoch": 1.228, + "grad_norm": 0.2664068341255188, + "learning_rate": 0.00029537333333333335, + "loss": 0.4899, + "step": 15350 + }, + { + "epoch": 1.232, + "grad_norm": 0.2894981801509857, + "learning_rate": 0.0002947066666666667, + "loss": 0.4577, + "step": 15400 + }, + { + "epoch": 1.236, + "grad_norm": 0.31407004594802856, + "learning_rate": 0.00029404, + "loss": 0.4933, + "step": 15450 + }, + { + "epoch": 1.24, + "grad_norm": 0.29782843589782715, + "learning_rate": 0.0002933733333333333, + "loss": 0.4569, + "step": 15500 + }, + { + "epoch": 1.244, + "grad_norm": 0.29805317521095276, + "learning_rate": 0.0002927066666666667, + "loss": 0.4851, + "step": 15550 + }, + { + "epoch": 1.248, + "grad_norm": 0.27355390787124634, + "learning_rate": 0.00029204000000000003, + "loss": 0.4691, + "step": 15600 + }, + { + "epoch": 1.252, + "grad_norm": 0.2702775001525879, + "learning_rate": 0.0002913733333333333, + "loss": 0.4778, + "step": 15650 + }, + { + "epoch": 1.256, + "grad_norm": 0.2955879271030426, + "learning_rate": 0.0002907066666666667, + "loss": 0.4646, + "step": 15700 + }, + { + "epoch": 1.26, + "grad_norm": 0.3229389488697052, + "learning_rate": 0.00029004000000000004, + "loss": 0.491, + "step": 15750 + }, + { + "epoch": 1.264, + "grad_norm": 0.23525162041187286, + "learning_rate": 0.0002893733333333333, + "loss": 0.4692, + "step": 15800 + }, + { + "epoch": 1.268, + "grad_norm": 0.289009690284729, + "learning_rate": 0.00028870666666666665, + "loss": 0.4899, + "step": 15850 + }, + { + "epoch": 1.272, + "grad_norm": 0.32057586312294006, + "learning_rate": 0.00028804000000000004, + "loss": 0.4644, + "step": 15900 + }, + { + "epoch": 1.276, + "grad_norm": 0.30154454708099365, + "learning_rate": 0.0002873733333333333, + "loss": 0.4955, + "step": 15950 + }, + { + "epoch": 1.28, + "grad_norm": 0.2960298955440521, + "learning_rate": 0.00028670666666666666, + "loss": 0.4797, + "step": 16000 + }, + { + "epoch": 1.284, + "grad_norm": 0.28514572978019714, + "learning_rate": 0.00028604000000000005, + "loss": 0.4699, + "step": 16050 + }, + { + "epoch": 1.288, + "grad_norm": 0.3209136128425598, + "learning_rate": 0.00028537333333333333, + "loss": 0.488, + "step": 16100 + }, + { + "epoch": 1.292, + "grad_norm": 0.22408682107925415, + "learning_rate": 0.00028470666666666666, + "loss": 0.4655, + "step": 16150 + }, + { + "epoch": 1.296, + "grad_norm": 0.29021069407463074, + "learning_rate": 0.00028404, + "loss": 0.4862, + "step": 16200 + }, + { + "epoch": 1.3, + "grad_norm": 0.29265522956848145, + "learning_rate": 0.00028337333333333333, + "loss": 0.4482, + "step": 16250 + }, + { + "epoch": 1.304, + "grad_norm": 0.26601076126098633, + "learning_rate": 0.00028270666666666667, + "loss": 0.4509, + "step": 16300 + }, + { + "epoch": 1.308, + "grad_norm": 0.3104246258735657, + "learning_rate": 0.00028204, + "loss": 0.4479, + "step": 16350 + }, + { + "epoch": 1.312, + "grad_norm": 0.3156643509864807, + "learning_rate": 0.00028137333333333334, + "loss": 0.4964, + "step": 16400 + }, + { + "epoch": 1.316, + "grad_norm": 0.2647090554237366, + "learning_rate": 0.0002807066666666667, + "loss": 0.4921, + "step": 16450 + }, + { + "epoch": 1.32, + "grad_norm": 0.28769049048423767, + "learning_rate": 0.00028004, + "loss": 0.4549, + "step": 16500 + }, + { + "epoch": 1.324, + "grad_norm": 0.3155941069126129, + "learning_rate": 0.0002793733333333333, + "loss": 0.4536, + "step": 16550 + }, + { + "epoch": 1.328, + "grad_norm": 0.3364107310771942, + "learning_rate": 0.0002787066666666667, + "loss": 0.4719, + "step": 16600 + }, + { + "epoch": 1.332, + "grad_norm": 0.2532012462615967, + "learning_rate": 0.00027804, + "loss": 0.4723, + "step": 16650 + }, + { + "epoch": 1.336, + "grad_norm": 0.3144409656524658, + "learning_rate": 0.00027737333333333335, + "loss": 0.4654, + "step": 16700 + }, + { + "epoch": 1.34, + "grad_norm": 0.24520185589790344, + "learning_rate": 0.0002767066666666667, + "loss": 0.4774, + "step": 16750 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 0.26547014713287354, + "learning_rate": 0.00027604, + "loss": 0.5014, + "step": 16800 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 0.34588199853897095, + "learning_rate": 0.00027537333333333336, + "loss": 0.4698, + "step": 16850 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 0.23689764738082886, + "learning_rate": 0.00027470666666666664, + "loss": 0.4527, + "step": 16900 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 0.28324463963508606, + "learning_rate": 0.00027404, + "loss": 0.4828, + "step": 16950 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 0.3084874153137207, + "learning_rate": 0.00027337333333333336, + "loss": 0.4666, + "step": 17000 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 0.3006160855293274, + "learning_rate": 0.00027270666666666664, + "loss": 0.4417, + "step": 17050 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 0.3295688033103943, + "learning_rate": 0.00027204000000000003, + "loss": 0.4746, + "step": 17100 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 0.24469783902168274, + "learning_rate": 0.00027137333333333337, + "loss": 0.4769, + "step": 17150 + }, + { + "epoch": 1.376, + "grad_norm": 0.3538406491279602, + "learning_rate": 0.00027070666666666665, + "loss": 0.4645, + "step": 17200 + }, + { + "epoch": 1.38, + "grad_norm": 0.31772086024284363, + "learning_rate": 0.00027004, + "loss": 0.4822, + "step": 17250 + }, + { + "epoch": 1.384, + "grad_norm": 0.3570919632911682, + "learning_rate": 0.00026937333333333337, + "loss": 0.4478, + "step": 17300 + }, + { + "epoch": 1.388, + "grad_norm": 0.2592201232910156, + "learning_rate": 0.00026870666666666665, + "loss": 0.4605, + "step": 17350 + }, + { + "epoch": 1.392, + "grad_norm": 0.2992711365222931, + "learning_rate": 0.00026804, + "loss": 0.4507, + "step": 17400 + }, + { + "epoch": 1.396, + "grad_norm": 0.22785666584968567, + "learning_rate": 0.0002673733333333334, + "loss": 0.4515, + "step": 17450 + }, + { + "epoch": 1.4, + "grad_norm": 0.3160172700881958, + "learning_rate": 0.00026670666666666666, + "loss": 0.4746, + "step": 17500 + }, + { + "epoch": 1.404, + "grad_norm": 0.2995624244213104, + "learning_rate": 0.00026604, + "loss": 0.4717, + "step": 17550 + }, + { + "epoch": 1.408, + "grad_norm": 0.20798690617084503, + "learning_rate": 0.00026537333333333333, + "loss": 0.4568, + "step": 17600 + }, + { + "epoch": 1.412, + "grad_norm": 0.27740103006362915, + "learning_rate": 0.00026470666666666666, + "loss": 0.4895, + "step": 17650 + }, + { + "epoch": 1.416, + "grad_norm": 0.28020384907722473, + "learning_rate": 0.00026404, + "loss": 0.4738, + "step": 17700 + }, + { + "epoch": 1.42, + "grad_norm": 0.41296902298927307, + "learning_rate": 0.00026337333333333333, + "loss": 0.4751, + "step": 17750 + }, + { + "epoch": 1.424, + "grad_norm": 0.27197784185409546, + "learning_rate": 0.00026270666666666667, + "loss": 0.455, + "step": 17800 + }, + { + "epoch": 1.428, + "grad_norm": 0.40654972195625305, + "learning_rate": 0.00026204, + "loss": 0.4736, + "step": 17850 + }, + { + "epoch": 1.432, + "grad_norm": 0.2697378098964691, + "learning_rate": 0.00026137333333333334, + "loss": 0.453, + "step": 17900 + }, + { + "epoch": 1.436, + "grad_norm": 0.3013555407524109, + "learning_rate": 0.0002607066666666666, + "loss": 0.4621, + "step": 17950 + }, + { + "epoch": 1.44, + "grad_norm": 0.24706317484378815, + "learning_rate": 0.00026004, + "loss": 0.4848, + "step": 18000 + }, + { + "epoch": 1.444, + "grad_norm": 0.27455249428749084, + "learning_rate": 0.00025937333333333335, + "loss": 0.4659, + "step": 18050 + }, + { + "epoch": 1.448, + "grad_norm": 0.27741050720214844, + "learning_rate": 0.0002587066666666666, + "loss": 0.4873, + "step": 18100 + }, + { + "epoch": 1.452, + "grad_norm": 0.2550397217273712, + "learning_rate": 0.00025804, + "loss": 0.478, + "step": 18150 + }, + { + "epoch": 1.456, + "grad_norm": 0.29555752873420715, + "learning_rate": 0.00025737333333333335, + "loss": 0.4496, + "step": 18200 + }, + { + "epoch": 1.46, + "grad_norm": 0.2709548771381378, + "learning_rate": 0.0002567066666666667, + "loss": 0.4811, + "step": 18250 + }, + { + "epoch": 1.464, + "grad_norm": 0.2967120110988617, + "learning_rate": 0.00025604, + "loss": 0.4851, + "step": 18300 + }, + { + "epoch": 1.468, + "grad_norm": 0.31517747044563293, + "learning_rate": 0.00025537333333333336, + "loss": 0.4586, + "step": 18350 + }, + { + "epoch": 1.472, + "grad_norm": 0.2162676900625229, + "learning_rate": 0.0002547066666666667, + "loss": 0.4695, + "step": 18400 + }, + { + "epoch": 1.476, + "grad_norm": 0.31056004762649536, + "learning_rate": 0.00025404, + "loss": 0.4484, + "step": 18450 + }, + { + "epoch": 1.48, + "grad_norm": 0.32838574051856995, + "learning_rate": 0.00025337333333333336, + "loss": 0.4852, + "step": 18500 + }, + { + "epoch": 1.484, + "grad_norm": 0.2534690201282501, + "learning_rate": 0.0002527066666666667, + "loss": 0.4575, + "step": 18550 + }, + { + "epoch": 1.488, + "grad_norm": 0.2541729509830475, + "learning_rate": 0.00025204, + "loss": 0.4567, + "step": 18600 + }, + { + "epoch": 1.492, + "grad_norm": 0.28390800952911377, + "learning_rate": 0.00025137333333333337, + "loss": 0.475, + "step": 18650 + }, + { + "epoch": 1.496, + "grad_norm": 0.3094373643398285, + "learning_rate": 0.0002507066666666667, + "loss": 0.4579, + "step": 18700 + }, + { + "epoch": 1.5, + "grad_norm": 0.25698211789131165, + "learning_rate": 0.00025004, + "loss": 0.4574, + "step": 18750 + }, + { + "epoch": 1.504, + "grad_norm": 0.2955055236816406, + "learning_rate": 0.0002493733333333333, + "loss": 0.4542, + "step": 18800 + }, + { + "epoch": 1.508, + "grad_norm": 0.27750635147094727, + "learning_rate": 0.00024870666666666665, + "loss": 0.4475, + "step": 18850 + }, + { + "epoch": 1.512, + "grad_norm": 0.3643854260444641, + "learning_rate": 0.0002480533333333333, + "loss": 0.4545, + "step": 18900 + }, + { + "epoch": 1.516, + "grad_norm": 0.2834565341472626, + "learning_rate": 0.0002473866666666667, + "loss": 0.4753, + "step": 18950 + }, + { + "epoch": 1.52, + "grad_norm": 0.2682524621486664, + "learning_rate": 0.00024672, + "loss": 0.464, + "step": 19000 + }, + { + "epoch": 1.524, + "grad_norm": 0.26153242588043213, + "learning_rate": 0.00024605333333333336, + "loss": 0.4622, + "step": 19050 + }, + { + "epoch": 1.528, + "grad_norm": 0.2866336405277252, + "learning_rate": 0.0002453866666666667, + "loss": 0.458, + "step": 19100 + }, + { + "epoch": 1.532, + "grad_norm": 0.23598459362983704, + "learning_rate": 0.00024472, + "loss": 0.4743, + "step": 19150 + }, + { + "epoch": 1.536, + "grad_norm": 0.2445322722196579, + "learning_rate": 0.00024405333333333334, + "loss": 0.4531, + "step": 19200 + }, + { + "epoch": 1.54, + "grad_norm": 0.28900501132011414, + "learning_rate": 0.00024338666666666667, + "loss": 0.4672, + "step": 19250 + }, + { + "epoch": 1.544, + "grad_norm": 0.29762062430381775, + "learning_rate": 0.00024272, + "loss": 0.481, + "step": 19300 + }, + { + "epoch": 1.548, + "grad_norm": 0.345310777425766, + "learning_rate": 0.00024205333333333334, + "loss": 0.47, + "step": 19350 + }, + { + "epoch": 1.552, + "grad_norm": 0.2770834267139435, + "learning_rate": 0.0002414, + "loss": 0.4584, + "step": 19400 + }, + { + "epoch": 1.556, + "grad_norm": 0.25502651929855347, + "learning_rate": 0.00024073333333333332, + "loss": 0.4592, + "step": 19450 + }, + { + "epoch": 1.56, + "grad_norm": 0.3983103930950165, + "learning_rate": 0.00024006666666666668, + "loss": 0.4736, + "step": 19500 + }, + { + "epoch": 1.564, + "grad_norm": 0.26423758268356323, + "learning_rate": 0.00023940000000000002, + "loss": 0.4681, + "step": 19550 + }, + { + "epoch": 1.568, + "grad_norm": 0.3226359784603119, + "learning_rate": 0.00023873333333333333, + "loss": 0.438, + "step": 19600 + }, + { + "epoch": 1.572, + "grad_norm": 0.2670074701309204, + "learning_rate": 0.0002380666666666667, + "loss": 0.4769, + "step": 19650 + }, + { + "epoch": 1.576, + "grad_norm": 0.22759200632572174, + "learning_rate": 0.0002374, + "loss": 0.4616, + "step": 19700 + }, + { + "epoch": 1.58, + "grad_norm": 0.2426389902830124, + "learning_rate": 0.00023673333333333333, + "loss": 0.4457, + "step": 19750 + }, + { + "epoch": 1.584, + "grad_norm": 0.2860774099826813, + "learning_rate": 0.00023606666666666667, + "loss": 0.4861, + "step": 19800 + }, + { + "epoch": 1.588, + "grad_norm": 0.2793583273887634, + "learning_rate": 0.0002354, + "loss": 0.4716, + "step": 19850 + }, + { + "epoch": 1.592, + "grad_norm": 0.276412695646286, + "learning_rate": 0.00023473333333333334, + "loss": 0.4806, + "step": 19900 + }, + { + "epoch": 1.596, + "grad_norm": 0.2666271924972534, + "learning_rate": 0.00023406666666666667, + "loss": 0.4793, + "step": 19950 + }, + { + "epoch": 1.6, + "grad_norm": 0.2800932824611664, + "learning_rate": 0.0002334, + "loss": 0.4657, + "step": 20000 + }, + { + "epoch": 1.604, + "grad_norm": 0.25909069180488586, + "learning_rate": 0.00023273333333333332, + "loss": 0.47, + "step": 20050 + }, + { + "epoch": 1.608, + "grad_norm": 0.24460501968860626, + "learning_rate": 0.00023206666666666668, + "loss": 0.4824, + "step": 20100 + }, + { + "epoch": 1.612, + "grad_norm": 0.2733166515827179, + "learning_rate": 0.00023141333333333335, + "loss": 0.4568, + "step": 20150 + }, + { + "epoch": 1.616, + "grad_norm": 0.22740538418293, + "learning_rate": 0.00023074666666666666, + "loss": 0.4736, + "step": 20200 + }, + { + "epoch": 1.62, + "grad_norm": 0.2770317494869232, + "learning_rate": 0.00023008000000000002, + "loss": 0.459, + "step": 20250 + }, + { + "epoch": 1.624, + "grad_norm": 0.2701035737991333, + "learning_rate": 0.00022941333333333333, + "loss": 0.4438, + "step": 20300 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 0.2947094738483429, + "learning_rate": 0.00022874666666666666, + "loss": 0.4623, + "step": 20350 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 0.24584254622459412, + "learning_rate": 0.00022808, + "loss": 0.4546, + "step": 20400 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 0.30227118730545044, + "learning_rate": 0.00022741333333333333, + "loss": 0.4332, + "step": 20450 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 0.3074963688850403, + "learning_rate": 0.0002267466666666667, + "loss": 0.47, + "step": 20500 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 0.2765690088272095, + "learning_rate": 0.00022608, + "loss": 0.4442, + "step": 20550 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 0.3042277693748474, + "learning_rate": 0.00022541333333333334, + "loss": 0.4717, + "step": 20600 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 0.3536015748977661, + "learning_rate": 0.00022474666666666667, + "loss": 0.4722, + "step": 20650 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 0.24768327176570892, + "learning_rate": 0.00022408, + "loss": 0.4518, + "step": 20700 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 0.265460342168808, + "learning_rate": 0.00022341333333333332, + "loss": 0.4695, + "step": 20750 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 0.2603040337562561, + "learning_rate": 0.00022274666666666668, + "loss": 0.4855, + "step": 20800 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 0.2699715495109558, + "learning_rate": 0.00022208000000000002, + "loss": 0.4807, + "step": 20850 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 0.2546932101249695, + "learning_rate": 0.00022141333333333332, + "loss": 0.4644, + "step": 20900 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 0.26244810223579407, + "learning_rate": 0.00022074666666666669, + "loss": 0.4546, + "step": 20950 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 0.298951119184494, + "learning_rate": 0.00022008, + "loss": 0.4809, + "step": 21000 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 0.37903425097465515, + "learning_rate": 0.00021941333333333333, + "loss": 0.4772, + "step": 21050 + }, + { + "epoch": 1.688, + "grad_norm": 0.7026617527008057, + "learning_rate": 0.00021874666666666666, + "loss": 0.4678, + "step": 21100 + }, + { + "epoch": 1.692, + "grad_norm": 0.25089162588119507, + "learning_rate": 0.00021808, + "loss": 0.4641, + "step": 21150 + }, + { + "epoch": 1.696, + "grad_norm": 0.328753262758255, + "learning_rate": 0.00021741333333333333, + "loss": 0.4663, + "step": 21200 + }, + { + "epoch": 1.7, + "grad_norm": 0.28294557332992554, + "learning_rate": 0.00021674666666666667, + "loss": 0.4478, + "step": 21250 + }, + { + "epoch": 1.704, + "grad_norm": 0.22784091532230377, + "learning_rate": 0.00021608, + "loss": 0.4683, + "step": 21300 + }, + { + "epoch": 1.708, + "grad_norm": 0.37249916791915894, + "learning_rate": 0.00021541333333333334, + "loss": 0.4565, + "step": 21350 + }, + { + "epoch": 1.712, + "grad_norm": 0.4652419686317444, + "learning_rate": 0.00021474666666666668, + "loss": 0.4668, + "step": 21400 + }, + { + "epoch": 1.716, + "grad_norm": 0.2790099084377289, + "learning_rate": 0.00021408, + "loss": 0.4567, + "step": 21450 + }, + { + "epoch": 1.72, + "grad_norm": 0.28255659341812134, + "learning_rate": 0.00021341333333333335, + "loss": 0.4456, + "step": 21500 + }, + { + "epoch": 1.724, + "grad_norm": 0.28610745072364807, + "learning_rate": 0.00021274666666666668, + "loss": 0.4758, + "step": 21550 + }, + { + "epoch": 1.728, + "grad_norm": 0.29554563760757446, + "learning_rate": 0.00021208, + "loss": 0.4542, + "step": 21600 + }, + { + "epoch": 1.732, + "grad_norm": 0.2769472301006317, + "learning_rate": 0.00021141333333333335, + "loss": 0.4551, + "step": 21650 + }, + { + "epoch": 1.736, + "grad_norm": 0.3376840353012085, + "learning_rate": 0.00021074666666666666, + "loss": 0.4634, + "step": 21700 + }, + { + "epoch": 1.74, + "grad_norm": 0.2753366231918335, + "learning_rate": 0.00021008, + "loss": 0.436, + "step": 21750 + }, + { + "epoch": 1.744, + "grad_norm": 0.3832499086856842, + "learning_rate": 0.00020941333333333336, + "loss": 0.4596, + "step": 21800 + }, + { + "epoch": 1.748, + "grad_norm": 0.2914954721927643, + "learning_rate": 0.00020874666666666666, + "loss": 0.4736, + "step": 21850 + }, + { + "epoch": 1.752, + "grad_norm": 0.2752770483493805, + "learning_rate": 0.00020808, + "loss": 0.4822, + "step": 21900 + }, + { + "epoch": 1.756, + "grad_norm": 0.3437884747982025, + "learning_rate": 0.00020741333333333334, + "loss": 0.4554, + "step": 21950 + }, + { + "epoch": 1.76, + "grad_norm": 0.2697654664516449, + "learning_rate": 0.00020674666666666667, + "loss": 0.4533, + "step": 22000 + }, + { + "epoch": 1.764, + "grad_norm": 0.3043977916240692, + "learning_rate": 0.00020608, + "loss": 0.4763, + "step": 22050 + }, + { + "epoch": 1.768, + "grad_norm": 0.3610328435897827, + "learning_rate": 0.00020541333333333334, + "loss": 0.4652, + "step": 22100 + }, + { + "epoch": 1.772, + "grad_norm": 0.2615935206413269, + "learning_rate": 0.00020474666666666668, + "loss": 0.4678, + "step": 22150 + }, + { + "epoch": 1.776, + "grad_norm": 0.28010860085487366, + "learning_rate": 0.00020408, + "loss": 0.4569, + "step": 22200 + }, + { + "epoch": 1.78, + "grad_norm": 0.27897879481315613, + "learning_rate": 0.00020341333333333335, + "loss": 0.4604, + "step": 22250 + }, + { + "epoch": 1.784, + "grad_norm": 0.37449902296066284, + "learning_rate": 0.00020274666666666665, + "loss": 0.4496, + "step": 22300 + }, + { + "epoch": 1.788, + "grad_norm": 0.4321173131465912, + "learning_rate": 0.00020208000000000002, + "loss": 0.4519, + "step": 22350 + }, + { + "epoch": 1.792, + "grad_norm": 0.3634038269519806, + "learning_rate": 0.00020141333333333332, + "loss": 0.4319, + "step": 22400 + }, + { + "epoch": 1.796, + "grad_norm": 0.2457379549741745, + "learning_rate": 0.00020074666666666666, + "loss": 0.4321, + "step": 22450 + }, + { + "epoch": 1.8, + "grad_norm": 0.2036055028438568, + "learning_rate": 0.00020008000000000002, + "loss": 0.4482, + "step": 22500 + }, + { + "epoch": 1.804, + "grad_norm": 0.22888793051242828, + "learning_rate": 0.00019941333333333333, + "loss": 0.4598, + "step": 22550 + }, + { + "epoch": 1.808, + "grad_norm": 0.28881940245628357, + "learning_rate": 0.00019874666666666667, + "loss": 0.4597, + "step": 22600 + }, + { + "epoch": 1.812, + "grad_norm": 0.35653358697891235, + "learning_rate": 0.00019808, + "loss": 0.468, + "step": 22650 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 0.3056986629962921, + "learning_rate": 0.00019741333333333334, + "loss": 0.4705, + "step": 22700 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 0.3083111345767975, + "learning_rate": 0.00019674666666666664, + "loss": 0.4618, + "step": 22750 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 0.2887648642063141, + "learning_rate": 0.00019608, + "loss": 0.4618, + "step": 22800 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 0.308720201253891, + "learning_rate": 0.00019541333333333334, + "loss": 0.4641, + "step": 22850 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 0.32696419954299927, + "learning_rate": 0.00019474666666666668, + "loss": 0.4411, + "step": 22900 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 0.29909035563468933, + "learning_rate": 0.00019408, + "loss": 0.4526, + "step": 22950 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 0.27794134616851807, + "learning_rate": 0.00019341333333333332, + "loss": 0.4621, + "step": 23000 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 0.2632865309715271, + "learning_rate": 0.00019274666666666668, + "loss": 0.4497, + "step": 23050 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 0.253614604473114, + "learning_rate": 0.00019208000000000002, + "loss": 0.4662, + "step": 23100 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 0.2354058176279068, + "learning_rate": 0.00019141333333333333, + "loss": 0.45, + "step": 23150 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 0.2517555356025696, + "learning_rate": 0.0001907466666666667, + "loss": 0.4364, + "step": 23200 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 0.33812275528907776, + "learning_rate": 0.00019008, + "loss": 0.4593, + "step": 23250 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 0.2925659418106079, + "learning_rate": 0.00018941333333333333, + "loss": 0.4775, + "step": 23300 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 0.2653798758983612, + "learning_rate": 0.00018874666666666667, + "loss": 0.4871, + "step": 23350 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 0.30115747451782227, + "learning_rate": 0.00018808, + "loss": 0.4709, + "step": 23400 + }, + { + "epoch": 1.876, + "grad_norm": 0.36089083552360535, + "learning_rate": 0.00018741333333333334, + "loss": 0.4604, + "step": 23450 + }, + { + "epoch": 1.88, + "grad_norm": 0.3408987522125244, + "learning_rate": 0.00018674666666666667, + "loss": 0.4802, + "step": 23500 + }, + { + "epoch": 1.884, + "grad_norm": 0.2501823902130127, + "learning_rate": 0.00018608, + "loss": 0.447, + "step": 23550 + }, + { + "epoch": 1.888, + "grad_norm": 0.3086705803871155, + "learning_rate": 0.00018541333333333334, + "loss": 0.4746, + "step": 23600 + }, + { + "epoch": 1.892, + "grad_norm": 0.2390304058790207, + "learning_rate": 0.00018474666666666668, + "loss": 0.4553, + "step": 23650 + }, + { + "epoch": 1.896, + "grad_norm": 0.3000665605068207, + "learning_rate": 0.00018407999999999999, + "loss": 0.4457, + "step": 23700 + }, + { + "epoch": 1.9, + "grad_norm": 0.2494654506444931, + "learning_rate": 0.00018341333333333335, + "loss": 0.4562, + "step": 23750 + }, + { + "epoch": 1.904, + "grad_norm": 0.2544473111629486, + "learning_rate": 0.00018274666666666668, + "loss": 0.4639, + "step": 23800 + }, + { + "epoch": 1.908, + "grad_norm": 0.27693989872932434, + "learning_rate": 0.00018208, + "loss": 0.4678, + "step": 23850 + }, + { + "epoch": 1.912, + "grad_norm": 0.276531845331192, + "learning_rate": 0.00018141333333333335, + "loss": 0.4504, + "step": 23900 + }, + { + "epoch": 1.916, + "grad_norm": 0.2995479106903076, + "learning_rate": 0.00018074666666666666, + "loss": 0.453, + "step": 23950 + }, + { + "epoch": 1.92, + "grad_norm": 0.3349391520023346, + "learning_rate": 0.00018008, + "loss": 0.4563, + "step": 24000 + }, + { + "epoch": 1.924, + "grad_norm": 0.29086410999298096, + "learning_rate": 0.00017941333333333333, + "loss": 0.47, + "step": 24050 + }, + { + "epoch": 1.928, + "grad_norm": 0.29417112469673157, + "learning_rate": 0.00017874666666666667, + "loss": 0.4711, + "step": 24100 + }, + { + "epoch": 1.932, + "grad_norm": 0.2554011642932892, + "learning_rate": 0.00017808, + "loss": 0.4463, + "step": 24150 + }, + { + "epoch": 1.936, + "grad_norm": 0.3205755352973938, + "learning_rate": 0.00017741333333333334, + "loss": 0.4661, + "step": 24200 + }, + { + "epoch": 1.94, + "grad_norm": 0.275869756937027, + "learning_rate": 0.00017674666666666667, + "loss": 0.4241, + "step": 24250 + }, + { + "epoch": 1.944, + "grad_norm": 0.45462125539779663, + "learning_rate": 0.00017607999999999998, + "loss": 0.4607, + "step": 24300 + }, + { + "epoch": 1.948, + "grad_norm": 0.29895463585853577, + "learning_rate": 0.00017541333333333334, + "loss": 0.4706, + "step": 24350 + }, + { + "epoch": 1.952, + "grad_norm": 0.3111779987812042, + "learning_rate": 0.00017474666666666665, + "loss": 0.4651, + "step": 24400 + }, + { + "epoch": 1.956, + "grad_norm": 0.36759302020072937, + "learning_rate": 0.00017408000000000001, + "loss": 0.4512, + "step": 24450 + }, + { + "epoch": 1.96, + "grad_norm": 0.2587209939956665, + "learning_rate": 0.00017341333333333335, + "loss": 0.4468, + "step": 24500 + }, + { + "epoch": 1.964, + "grad_norm": 0.2650446891784668, + "learning_rate": 0.00017276, + "loss": 0.4742, + "step": 24550 + }, + { + "epoch": 1.968, + "grad_norm": 0.3336881399154663, + "learning_rate": 0.00017209333333333333, + "loss": 0.4841, + "step": 24600 + }, + { + "epoch": 1.972, + "grad_norm": 0.2946482002735138, + "learning_rate": 0.00017142666666666666, + "loss": 0.4521, + "step": 24650 + }, + { + "epoch": 1.976, + "grad_norm": 0.3213157057762146, + "learning_rate": 0.00017076, + "loss": 0.4424, + "step": 24700 + }, + { + "epoch": 1.98, + "grad_norm": 0.2885224223136902, + "learning_rate": 0.00017009333333333336, + "loss": 0.4614, + "step": 24750 + }, + { + "epoch": 1.984, + "grad_norm": 0.25760945677757263, + "learning_rate": 0.00016942666666666667, + "loss": 0.4313, + "step": 24800 + }, + { + "epoch": 1.988, + "grad_norm": 0.2988007366657257, + "learning_rate": 0.00016876, + "loss": 0.4334, + "step": 24850 + }, + { + "epoch": 1.992, + "grad_norm": 0.22181323170661926, + "learning_rate": 0.00016809333333333334, + "loss": 0.4677, + "step": 24900 + }, + { + "epoch": 1.996, + "grad_norm": 0.2706112861633301, + "learning_rate": 0.00016742666666666667, + "loss": 0.4428, + "step": 24950 + }, + { + "epoch": 2.0, + "grad_norm": 0.28647464513778687, + "learning_rate": 0.00016675999999999998, + "loss": 0.4557, + "step": 25000 + }, + { + "epoch": 2.0, + "eval_bleu": 0.3319147755107139, + "eval_cer": 0.2906991050268772, + "eval_f1": 0.6107819257639036, + "eval_loss": 0.3888804018497467, + "eval_meteor": 0.5967403227260373, + "eval_runtime": 238.6886, + "eval_samples_per_second": 20.948, + "eval_steps_per_second": 0.658, + "eval_wer": 0.5211065464680894, + "step": 25000 + }, + { + "epoch": 2.004, + "grad_norm": 0.2939594089984894, + "learning_rate": 0.00016609333333333334, + "loss": 0.4605, + "step": 25050 + }, + { + "epoch": 2.008, + "grad_norm": 0.25819525122642517, + "learning_rate": 0.00016542666666666668, + "loss": 0.4444, + "step": 25100 + }, + { + "epoch": 2.012, + "grad_norm": 0.3204494118690491, + "learning_rate": 0.00016476, + "loss": 0.4371, + "step": 25150 + }, + { + "epoch": 2.016, + "grad_norm": 0.22696028649806976, + "learning_rate": 0.00016409333333333335, + "loss": 0.4563, + "step": 25200 + }, + { + "epoch": 2.02, + "grad_norm": 0.30907168984413147, + "learning_rate": 0.00016342666666666666, + "loss": 0.4589, + "step": 25250 + }, + { + "epoch": 2.024, + "grad_norm": 0.24826285243034363, + "learning_rate": 0.00016276, + "loss": 0.4665, + "step": 25300 + }, + { + "epoch": 2.028, + "grad_norm": 0.2349691390991211, + "learning_rate": 0.00016209333333333336, + "loss": 0.4517, + "step": 25350 + }, + { + "epoch": 2.032, + "grad_norm": 0.3125999867916107, + "learning_rate": 0.00016142666666666666, + "loss": 0.4684, + "step": 25400 + }, + { + "epoch": 2.036, + "grad_norm": 0.2494412660598755, + "learning_rate": 0.00016076, + "loss": 0.4455, + "step": 25450 + }, + { + "epoch": 2.04, + "grad_norm": 0.29433155059814453, + "learning_rate": 0.00016009333333333333, + "loss": 0.4467, + "step": 25500 + }, + { + "epoch": 2.044, + "grad_norm": 0.3250634968280792, + "learning_rate": 0.00015942666666666667, + "loss": 0.45, + "step": 25550 + }, + { + "epoch": 2.048, + "grad_norm": 0.26807671785354614, + "learning_rate": 0.00015876, + "loss": 0.4467, + "step": 25600 + }, + { + "epoch": 2.052, + "grad_norm": 0.2789306342601776, + "learning_rate": 0.00015809333333333334, + "loss": 0.4822, + "step": 25650 + }, + { + "epoch": 2.056, + "grad_norm": 0.2899162173271179, + "learning_rate": 0.00015742666666666668, + "loss": 0.4499, + "step": 25700 + }, + { + "epoch": 2.06, + "grad_norm": 0.38058122992515564, + "learning_rate": 0.00015676, + "loss": 0.476, + "step": 25750 + }, + { + "epoch": 2.064, + "grad_norm": 0.3462042808532715, + "learning_rate": 0.00015609333333333335, + "loss": 0.468, + "step": 25800 + }, + { + "epoch": 2.068, + "grad_norm": 0.29906922578811646, + "learning_rate": 0.00015542666666666665, + "loss": 0.4532, + "step": 25850 + }, + { + "epoch": 2.072, + "grad_norm": 0.27238503098487854, + "learning_rate": 0.00015476000000000002, + "loss": 0.4499, + "step": 25900 + }, + { + "epoch": 2.076, + "grad_norm": 0.30061212182044983, + "learning_rate": 0.00015409333333333332, + "loss": 0.4518, + "step": 25950 + }, + { + "epoch": 2.08, + "grad_norm": 0.3721722364425659, + "learning_rate": 0.00015342666666666666, + "loss": 0.4384, + "step": 26000 + }, + { + "epoch": 2.084, + "grad_norm": 0.2754833698272705, + "learning_rate": 0.00015276000000000002, + "loss": 0.4413, + "step": 26050 + }, + { + "epoch": 2.088, + "grad_norm": 0.28479087352752686, + "learning_rate": 0.00015209333333333333, + "loss": 0.4382, + "step": 26100 + }, + { + "epoch": 2.092, + "grad_norm": 0.2770088315010071, + "learning_rate": 0.00015142666666666666, + "loss": 0.4645, + "step": 26150 + }, + { + "epoch": 2.096, + "grad_norm": 0.33242395520210266, + "learning_rate": 0.00015076, + "loss": 0.4543, + "step": 26200 + }, + { + "epoch": 2.1, + "grad_norm": 0.23008863627910614, + "learning_rate": 0.00015009333333333334, + "loss": 0.4824, + "step": 26250 + }, + { + "epoch": 2.104, + "grad_norm": 0.25794917345046997, + "learning_rate": 0.00014942666666666667, + "loss": 0.4513, + "step": 26300 + }, + { + "epoch": 2.108, + "grad_norm": 0.39592331647872925, + "learning_rate": 0.00014876, + "loss": 0.4495, + "step": 26350 + }, + { + "epoch": 2.112, + "grad_norm": 0.2359061986207962, + "learning_rate": 0.00014809333333333334, + "loss": 0.4434, + "step": 26400 + }, + { + "epoch": 2.116, + "grad_norm": 0.2760692536830902, + "learning_rate": 0.00014742666666666668, + "loss": 0.4538, + "step": 26450 + }, + { + "epoch": 2.12, + "grad_norm": 0.26441076397895813, + "learning_rate": 0.00014676, + "loss": 0.4523, + "step": 26500 + }, + { + "epoch": 2.124, + "grad_norm": 0.2554430365562439, + "learning_rate": 0.00014609333333333332, + "loss": 0.4806, + "step": 26550 + }, + { + "epoch": 2.128, + "grad_norm": 0.252074271440506, + "learning_rate": 0.00014542666666666668, + "loss": 0.4689, + "step": 26600 + }, + { + "epoch": 2.132, + "grad_norm": 0.3027336597442627, + "learning_rate": 0.00014476, + "loss": 0.4779, + "step": 26650 + }, + { + "epoch": 2.136, + "grad_norm": 0.25952109694480896, + "learning_rate": 0.00014409333333333332, + "loss": 0.4325, + "step": 26700 + }, + { + "epoch": 2.14, + "grad_norm": 0.2962138056755066, + "learning_rate": 0.0001434266666666667, + "loss": 0.4632, + "step": 26750 + }, + { + "epoch": 2.144, + "grad_norm": 0.26393434405326843, + "learning_rate": 0.00014276, + "loss": 0.4469, + "step": 26800 + }, + { + "epoch": 2.148, + "grad_norm": 0.35279715061187744, + "learning_rate": 0.00014209333333333333, + "loss": 0.4523, + "step": 26850 + }, + { + "epoch": 2.152, + "grad_norm": 0.297848641872406, + "learning_rate": 0.00014144, + "loss": 0.45, + "step": 26900 + }, + { + "epoch": 2.156, + "grad_norm": 0.36224573850631714, + "learning_rate": 0.00014077333333333334, + "loss": 0.4622, + "step": 26950 + }, + { + "epoch": 2.16, + "grad_norm": 0.2728904187679291, + "learning_rate": 0.00014010666666666667, + "loss": 0.4471, + "step": 27000 + }, + { + "epoch": 2.164, + "grad_norm": 0.2377961426973343, + "learning_rate": 0.00013944, + "loss": 0.4428, + "step": 27050 + }, + { + "epoch": 2.168, + "grad_norm": 0.27920272946357727, + "learning_rate": 0.00013877333333333334, + "loss": 0.4523, + "step": 27100 + }, + { + "epoch": 2.172, + "grad_norm": 0.27000221610069275, + "learning_rate": 0.00013810666666666665, + "loss": 0.4547, + "step": 27150 + }, + { + "epoch": 2.176, + "grad_norm": 0.23448887467384338, + "learning_rate": 0.00013744, + "loss": 0.4377, + "step": 27200 + }, + { + "epoch": 2.18, + "grad_norm": 0.2916282117366791, + "learning_rate": 0.00013677333333333332, + "loss": 0.4513, + "step": 27250 + }, + { + "epoch": 2.184, + "grad_norm": 0.33092817664146423, + "learning_rate": 0.00013610666666666666, + "loss": 0.4455, + "step": 27300 + }, + { + "epoch": 2.188, + "grad_norm": 0.24522395431995392, + "learning_rate": 0.00013544000000000002, + "loss": 0.4526, + "step": 27350 + }, + { + "epoch": 2.192, + "grad_norm": 0.2436528205871582, + "learning_rate": 0.00013477333333333333, + "loss": 0.4374, + "step": 27400 + }, + { + "epoch": 2.196, + "grad_norm": 0.21092589199543, + "learning_rate": 0.0001341066666666667, + "loss": 0.4388, + "step": 27450 + }, + { + "epoch": 2.2, + "grad_norm": 0.28023019433021545, + "learning_rate": 0.00013344, + "loss": 0.4385, + "step": 27500 + }, + { + "epoch": 2.204, + "grad_norm": 0.2584914565086365, + "learning_rate": 0.00013277333333333333, + "loss": 0.4444, + "step": 27550 + }, + { + "epoch": 2.208, + "grad_norm": 0.3019558787345886, + "learning_rate": 0.0001321066666666667, + "loss": 0.4273, + "step": 27600 + }, + { + "epoch": 2.212, + "grad_norm": 0.27569064497947693, + "learning_rate": 0.00013144, + "loss": 0.4657, + "step": 27650 + }, + { + "epoch": 2.216, + "grad_norm": 0.3404678404331207, + "learning_rate": 0.00013077333333333334, + "loss": 0.4665, + "step": 27700 + }, + { + "epoch": 2.22, + "grad_norm": 0.27721646428108215, + "learning_rate": 0.00013010666666666667, + "loss": 0.4612, + "step": 27750 + }, + { + "epoch": 2.224, + "grad_norm": 0.31788599491119385, + "learning_rate": 0.00012944, + "loss": 0.4616, + "step": 27800 + }, + { + "epoch": 2.228, + "grad_norm": 0.2686368227005005, + "learning_rate": 0.00012877333333333332, + "loss": 0.4483, + "step": 27850 + }, + { + "epoch": 2.232, + "grad_norm": 0.30599814653396606, + "learning_rate": 0.00012810666666666668, + "loss": 0.4593, + "step": 27900 + }, + { + "epoch": 2.2359999999999998, + "grad_norm": 0.32590654492378235, + "learning_rate": 0.00012744, + "loss": 0.4655, + "step": 27950 + }, + { + "epoch": 2.24, + "grad_norm": 0.2741105258464813, + "learning_rate": 0.00012677333333333332, + "loss": 0.4487, + "step": 28000 + }, + { + "epoch": 2.2439999999999998, + "grad_norm": 0.30908265709877014, + "learning_rate": 0.00012610666666666668, + "loss": 0.4408, + "step": 28050 + }, + { + "epoch": 2.248, + "grad_norm": 0.23703044652938843, + "learning_rate": 0.00012544, + "loss": 0.4487, + "step": 28100 + }, + { + "epoch": 2.252, + "grad_norm": 0.3251242935657501, + "learning_rate": 0.00012477333333333333, + "loss": 0.4486, + "step": 28150 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 0.32202380895614624, + "learning_rate": 0.00012410666666666666, + "loss": 0.4751, + "step": 28200 + }, + { + "epoch": 2.26, + "grad_norm": 0.26794669032096863, + "learning_rate": 0.00012344, + "loss": 0.4422, + "step": 28250 + }, + { + "epoch": 2.2640000000000002, + "grad_norm": 0.2127068191766739, + "learning_rate": 0.00012277333333333333, + "loss": 0.4474, + "step": 28300 + }, + { + "epoch": 2.268, + "grad_norm": 0.28123363852500916, + "learning_rate": 0.00012210666666666667, + "loss": 0.4671, + "step": 28350 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 0.2891286611557007, + "learning_rate": 0.00012144, + "loss": 0.4825, + "step": 28400 + }, + { + "epoch": 2.276, + "grad_norm": 0.27893853187561035, + "learning_rate": 0.00012077333333333334, + "loss": 0.4502, + "step": 28450 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 0.36596694588661194, + "learning_rate": 0.00012010666666666667, + "loss": 0.5034, + "step": 28500 + }, + { + "epoch": 2.284, + "grad_norm": 0.25044432282447815, + "learning_rate": 0.00011944000000000001, + "loss": 0.4468, + "step": 28550 + }, + { + "epoch": 2.288, + "grad_norm": 0.29934161901474, + "learning_rate": 0.00011877333333333333, + "loss": 0.4701, + "step": 28600 + }, + { + "epoch": 2.292, + "grad_norm": 0.36825746297836304, + "learning_rate": 0.00011810666666666667, + "loss": 0.4639, + "step": 28650 + }, + { + "epoch": 2.296, + "grad_norm": 0.3040882349014282, + "learning_rate": 0.00011744, + "loss": 0.4665, + "step": 28700 + }, + { + "epoch": 2.3, + "grad_norm": 0.3292265236377716, + "learning_rate": 0.00011677333333333335, + "loss": 0.4452, + "step": 28750 + }, + { + "epoch": 2.304, + "grad_norm": 0.27619364857673645, + "learning_rate": 0.00011610666666666667, + "loss": 0.4545, + "step": 28800 + }, + { + "epoch": 2.308, + "grad_norm": 0.26268327236175537, + "learning_rate": 0.00011544, + "loss": 0.4385, + "step": 28850 + }, + { + "epoch": 2.312, + "grad_norm": 0.3106476962566376, + "learning_rate": 0.00011477333333333334, + "loss": 0.455, + "step": 28900 + }, + { + "epoch": 2.316, + "grad_norm": 0.2751711308956146, + "learning_rate": 0.00011410666666666666, + "loss": 0.4542, + "step": 28950 + }, + { + "epoch": 2.32, + "grad_norm": 0.3215223252773285, + "learning_rate": 0.00011344, + "loss": 0.4278, + "step": 29000 + }, + { + "epoch": 2.324, + "grad_norm": 0.2911795973777771, + "learning_rate": 0.00011277333333333333, + "loss": 0.4597, + "step": 29050 + }, + { + "epoch": 2.328, + "grad_norm": 0.21519587934017181, + "learning_rate": 0.00011210666666666667, + "loss": 0.4552, + "step": 29100 + }, + { + "epoch": 2.332, + "grad_norm": 0.28264325857162476, + "learning_rate": 0.00011144, + "loss": 0.4405, + "step": 29150 + }, + { + "epoch": 2.336, + "grad_norm": 0.26788267493247986, + "learning_rate": 0.00011077333333333334, + "loss": 0.4531, + "step": 29200 + }, + { + "epoch": 2.34, + "grad_norm": 0.3479743003845215, + "learning_rate": 0.00011010666666666667, + "loss": 0.4585, + "step": 29250 + }, + { + "epoch": 2.344, + "grad_norm": 0.24785076081752777, + "learning_rate": 0.00010945333333333333, + "loss": 0.456, + "step": 29300 + }, + { + "epoch": 2.348, + "grad_norm": 0.3766777813434601, + "learning_rate": 0.00010878666666666667, + "loss": 0.4608, + "step": 29350 + }, + { + "epoch": 2.352, + "grad_norm": 0.25761738419532776, + "learning_rate": 0.00010812, + "loss": 0.4589, + "step": 29400 + }, + { + "epoch": 2.356, + "grad_norm": 0.3456856608390808, + "learning_rate": 0.00010745333333333334, + "loss": 0.4529, + "step": 29450 + }, + { + "epoch": 2.36, + "grad_norm": 0.2645689845085144, + "learning_rate": 0.00010678666666666667, + "loss": 0.4692, + "step": 29500 + }, + { + "epoch": 2.364, + "grad_norm": 0.23604953289031982, + "learning_rate": 0.00010612000000000001, + "loss": 0.4691, + "step": 29550 + }, + { + "epoch": 2.368, + "grad_norm": 0.3434421718120575, + "learning_rate": 0.00010545333333333333, + "loss": 0.4729, + "step": 29600 + }, + { + "epoch": 2.372, + "grad_norm": 0.2944164276123047, + "learning_rate": 0.00010478666666666666, + "loss": 0.4477, + "step": 29650 + }, + { + "epoch": 2.376, + "grad_norm": 0.3284704089164734, + "learning_rate": 0.00010412000000000001, + "loss": 0.4164, + "step": 29700 + }, + { + "epoch": 2.38, + "grad_norm": 0.29514458775520325, + "learning_rate": 0.00010345333333333333, + "loss": 0.4589, + "step": 29750 + }, + { + "epoch": 2.384, + "grad_norm": 0.3022924065589905, + "learning_rate": 0.00010278666666666667, + "loss": 0.4652, + "step": 29800 + }, + { + "epoch": 2.388, + "grad_norm": 0.3164527714252472, + "learning_rate": 0.00010212, + "loss": 0.4455, + "step": 29850 + }, + { + "epoch": 2.392, + "grad_norm": 0.2851755917072296, + "learning_rate": 0.00010145333333333334, + "loss": 0.4486, + "step": 29900 + }, + { + "epoch": 2.396, + "grad_norm": 0.2626616656780243, + "learning_rate": 0.00010078666666666666, + "loss": 0.459, + "step": 29950 + }, + { + "epoch": 2.4, + "grad_norm": 0.33604660630226135, + "learning_rate": 0.00010012, + "loss": 0.4551, + "step": 30000 + }, + { + "epoch": 2.404, + "grad_norm": 0.2219858318567276, + "learning_rate": 9.945333333333335e-05, + "loss": 0.4441, + "step": 30050 + }, + { + "epoch": 2.408, + "grad_norm": 0.293307363986969, + "learning_rate": 9.878666666666667e-05, + "loss": 0.4707, + "step": 30100 + }, + { + "epoch": 2.412, + "grad_norm": 0.2321629822254181, + "learning_rate": 9.812e-05, + "loss": 0.4581, + "step": 30150 + }, + { + "epoch": 2.416, + "grad_norm": 0.3554525077342987, + "learning_rate": 9.745333333333334e-05, + "loss": 0.4698, + "step": 30200 + }, + { + "epoch": 2.42, + "grad_norm": 0.29694491624832153, + "learning_rate": 9.678666666666666e-05, + "loss": 0.4598, + "step": 30250 + }, + { + "epoch": 2.424, + "grad_norm": 0.2549535930156708, + "learning_rate": 9.612e-05, + "loss": 0.4759, + "step": 30300 + }, + { + "epoch": 2.428, + "grad_norm": 0.2669490575790405, + "learning_rate": 9.545333333333333e-05, + "loss": 0.4218, + "step": 30350 + }, + { + "epoch": 2.432, + "grad_norm": 0.3022160530090332, + "learning_rate": 9.478666666666668e-05, + "loss": 0.4552, + "step": 30400 + }, + { + "epoch": 2.436, + "grad_norm": 0.23143869638442993, + "learning_rate": 9.412e-05, + "loss": 0.4526, + "step": 30450 + }, + { + "epoch": 2.44, + "grad_norm": 0.24490754306316376, + "learning_rate": 9.345333333333334e-05, + "loss": 0.4214, + "step": 30500 + }, + { + "epoch": 2.444, + "grad_norm": 0.23917007446289062, + "learning_rate": 9.278666666666667e-05, + "loss": 0.4591, + "step": 30550 + }, + { + "epoch": 2.448, + "grad_norm": 0.22969672083854675, + "learning_rate": 9.211999999999999e-05, + "loss": 0.4583, + "step": 30600 + }, + { + "epoch": 2.452, + "grad_norm": 0.3000829815864563, + "learning_rate": 9.145333333333333e-05, + "loss": 0.4643, + "step": 30650 + }, + { + "epoch": 2.456, + "grad_norm": 0.2941370904445648, + "learning_rate": 9.078666666666668e-05, + "loss": 0.4343, + "step": 30700 + }, + { + "epoch": 2.46, + "grad_norm": 0.3030686378479004, + "learning_rate": 9.012000000000001e-05, + "loss": 0.4553, + "step": 30750 + }, + { + "epoch": 2.464, + "grad_norm": 0.31065088510513306, + "learning_rate": 8.945333333333333e-05, + "loss": 0.4354, + "step": 30800 + }, + { + "epoch": 2.468, + "grad_norm": 0.33551186323165894, + "learning_rate": 8.878666666666667e-05, + "loss": 0.4262, + "step": 30850 + }, + { + "epoch": 2.472, + "grad_norm": 0.30474284291267395, + "learning_rate": 8.812e-05, + "loss": 0.4534, + "step": 30900 + }, + { + "epoch": 2.476, + "grad_norm": 0.27165547013282776, + "learning_rate": 8.745333333333332e-05, + "loss": 0.4439, + "step": 30950 + }, + { + "epoch": 2.48, + "grad_norm": 0.26946690678596497, + "learning_rate": 8.678666666666666e-05, + "loss": 0.4561, + "step": 31000 + }, + { + "epoch": 2.484, + "grad_norm": 0.26706361770629883, + "learning_rate": 8.612000000000001e-05, + "loss": 0.444, + "step": 31050 + }, + { + "epoch": 2.488, + "grad_norm": 0.2699045240879059, + "learning_rate": 8.545333333333334e-05, + "loss": 0.4458, + "step": 31100 + }, + { + "epoch": 2.492, + "grad_norm": 0.3229534924030304, + "learning_rate": 8.478666666666667e-05, + "loss": 0.4432, + "step": 31150 + }, + { + "epoch": 2.496, + "grad_norm": 0.2839939296245575, + "learning_rate": 8.412e-05, + "loss": 0.437, + "step": 31200 + }, + { + "epoch": 2.5, + "grad_norm": 0.25432726740837097, + "learning_rate": 8.345333333333334e-05, + "loss": 0.4415, + "step": 31250 + }, + { + "epoch": 2.504, + "grad_norm": 0.2797224521636963, + "learning_rate": 8.278666666666666e-05, + "loss": 0.4418, + "step": 31300 + }, + { + "epoch": 2.508, + "grad_norm": 0.3126223087310791, + "learning_rate": 8.212e-05, + "loss": 0.4413, + "step": 31350 + }, + { + "epoch": 2.512, + "grad_norm": 0.3439057469367981, + "learning_rate": 8.145333333333334e-05, + "loss": 0.46, + "step": 31400 + }, + { + "epoch": 2.516, + "grad_norm": 0.3235597014427185, + "learning_rate": 8.078666666666668e-05, + "loss": 0.4301, + "step": 31450 + }, + { + "epoch": 2.52, + "grad_norm": 0.40689998865127563, + "learning_rate": 8.012e-05, + "loss": 0.4421, + "step": 31500 + }, + { + "epoch": 2.524, + "grad_norm": 0.21976891160011292, + "learning_rate": 7.945333333333333e-05, + "loss": 0.4738, + "step": 31550 + }, + { + "epoch": 2.528, + "grad_norm": 0.34355059266090393, + "learning_rate": 7.878666666666667e-05, + "loss": 0.4537, + "step": 31600 + }, + { + "epoch": 2.532, + "grad_norm": 0.30710023641586304, + "learning_rate": 7.811999999999999e-05, + "loss": 0.4514, + "step": 31650 + }, + { + "epoch": 2.536, + "grad_norm": 0.36115074157714844, + "learning_rate": 7.745333333333334e-05, + "loss": 0.4538, + "step": 31700 + }, + { + "epoch": 2.54, + "grad_norm": 0.25416499376296997, + "learning_rate": 7.678666666666667e-05, + "loss": 0.4609, + "step": 31750 + }, + { + "epoch": 2.544, + "grad_norm": 0.39226630330085754, + "learning_rate": 7.612e-05, + "loss": 0.4527, + "step": 31800 + }, + { + "epoch": 2.548, + "grad_norm": 0.30426350235939026, + "learning_rate": 7.545333333333333e-05, + "loss": 0.4442, + "step": 31850 + }, + { + "epoch": 2.552, + "grad_norm": 0.4089012145996094, + "learning_rate": 7.478666666666667e-05, + "loss": 0.461, + "step": 31900 + }, + { + "epoch": 2.556, + "grad_norm": 0.28102219104766846, + "learning_rate": 7.412e-05, + "loss": 0.452, + "step": 31950 + }, + { + "epoch": 2.56, + "grad_norm": 0.31851691007614136, + "learning_rate": 7.345333333333334e-05, + "loss": 0.4649, + "step": 32000 + }, + { + "epoch": 2.564, + "grad_norm": 0.27418580651283264, + "learning_rate": 7.278666666666667e-05, + "loss": 0.4328, + "step": 32050 + }, + { + "epoch": 2.568, + "grad_norm": 0.24056550860404968, + "learning_rate": 7.212000000000001e-05, + "loss": 0.4366, + "step": 32100 + }, + { + "epoch": 2.572, + "grad_norm": 0.2933375835418701, + "learning_rate": 7.145333333333333e-05, + "loss": 0.4615, + "step": 32150 + }, + { + "epoch": 2.576, + "grad_norm": 0.26340237259864807, + "learning_rate": 7.078666666666666e-05, + "loss": 0.4458, + "step": 32200 + }, + { + "epoch": 2.58, + "grad_norm": 0.3188941478729248, + "learning_rate": 7.012e-05, + "loss": 0.4478, + "step": 32250 + }, + { + "epoch": 2.584, + "grad_norm": 0.2975289523601532, + "learning_rate": 6.945333333333333e-05, + "loss": 0.4295, + "step": 32300 + }, + { + "epoch": 2.588, + "grad_norm": 0.30115413665771484, + "learning_rate": 6.878666666666667e-05, + "loss": 0.4475, + "step": 32350 + }, + { + "epoch": 2.592, + "grad_norm": 0.22286610305309296, + "learning_rate": 6.812e-05, + "loss": 0.4644, + "step": 32400 + }, + { + "epoch": 2.596, + "grad_norm": 0.2956683039665222, + "learning_rate": 6.745333333333334e-05, + "loss": 0.4563, + "step": 32450 + }, + { + "epoch": 2.6, + "grad_norm": 0.2956625521183014, + "learning_rate": 6.678666666666666e-05, + "loss": 0.4445, + "step": 32500 + }, + { + "epoch": 2.604, + "grad_norm": 0.2499222308397293, + "learning_rate": 6.612e-05, + "loss": 0.471, + "step": 32550 + }, + { + "epoch": 2.608, + "grad_norm": 0.2879573404788971, + "learning_rate": 6.545333333333333e-05, + "loss": 0.439, + "step": 32600 + }, + { + "epoch": 2.612, + "grad_norm": 0.25872039794921875, + "learning_rate": 6.478666666666667e-05, + "loss": 0.4611, + "step": 32650 + }, + { + "epoch": 2.616, + "grad_norm": 0.2626016438007355, + "learning_rate": 6.412e-05, + "loss": 0.4433, + "step": 32700 + }, + { + "epoch": 2.62, + "grad_norm": 0.30265554785728455, + "learning_rate": 6.345333333333334e-05, + "loss": 0.4622, + "step": 32750 + }, + { + "epoch": 2.624, + "grad_norm": 0.25516897439956665, + "learning_rate": 6.278666666666667e-05, + "loss": 0.4554, + "step": 32800 + }, + { + "epoch": 2.628, + "grad_norm": 0.30672165751457214, + "learning_rate": 6.212000000000001e-05, + "loss": 0.4475, + "step": 32850 + }, + { + "epoch": 2.632, + "grad_norm": 0.31180885434150696, + "learning_rate": 6.145333333333333e-05, + "loss": 0.4514, + "step": 32900 + }, + { + "epoch": 2.636, + "grad_norm": 0.2680656909942627, + "learning_rate": 6.078666666666667e-05, + "loss": 0.4367, + "step": 32950 + }, + { + "epoch": 2.64, + "grad_norm": 0.2780224680900574, + "learning_rate": 6.012e-05, + "loss": 0.4464, + "step": 33000 + }, + { + "epoch": 2.644, + "grad_norm": 0.29504239559173584, + "learning_rate": 5.945333333333333e-05, + "loss": 0.4471, + "step": 33050 + }, + { + "epoch": 2.648, + "grad_norm": 0.28059807419776917, + "learning_rate": 5.878666666666667e-05, + "loss": 0.442, + "step": 33100 + }, + { + "epoch": 2.652, + "grad_norm": 0.2165469527244568, + "learning_rate": 5.812e-05, + "loss": 0.4645, + "step": 33150 + }, + { + "epoch": 2.656, + "grad_norm": 0.1961279958486557, + "learning_rate": 5.7453333333333334e-05, + "loss": 0.4562, + "step": 33200 + }, + { + "epoch": 2.66, + "grad_norm": 0.1775653064250946, + "learning_rate": 5.678666666666667e-05, + "loss": 0.4444, + "step": 33250 + }, + { + "epoch": 2.664, + "grad_norm": 0.3550254702568054, + "learning_rate": 5.6120000000000005e-05, + "loss": 0.4665, + "step": 33300 + }, + { + "epoch": 2.668, + "grad_norm": 0.35240018367767334, + "learning_rate": 5.545333333333333e-05, + "loss": 0.4719, + "step": 33350 + }, + { + "epoch": 2.672, + "grad_norm": 0.22879506647586823, + "learning_rate": 5.478666666666667e-05, + "loss": 0.446, + "step": 33400 + }, + { + "epoch": 2.676, + "grad_norm": 0.29414916038513184, + "learning_rate": 5.4120000000000004e-05, + "loss": 0.4617, + "step": 33450 + }, + { + "epoch": 2.68, + "grad_norm": 0.2868782579898834, + "learning_rate": 5.345333333333333e-05, + "loss": 0.4372, + "step": 33500 + }, + { + "epoch": 2.684, + "grad_norm": 0.22824135422706604, + "learning_rate": 5.28e-05, + "loss": 0.4328, + "step": 33550 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 0.3710310757160187, + "learning_rate": 5.213333333333333e-05, + "loss": 0.4468, + "step": 33600 + }, + { + "epoch": 2.692, + "grad_norm": 0.25575074553489685, + "learning_rate": 5.1466666666666666e-05, + "loss": 0.4524, + "step": 33650 + }, + { + "epoch": 2.6959999999999997, + "grad_norm": 0.41803932189941406, + "learning_rate": 5.08e-05, + "loss": 0.4524, + "step": 33700 + }, + { + "epoch": 2.7, + "grad_norm": 0.33436158299446106, + "learning_rate": 5.013333333333334e-05, + "loss": 0.4411, + "step": 33750 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 0.2582109868526459, + "learning_rate": 4.9466666666666665e-05, + "loss": 0.4448, + "step": 33800 + }, + { + "epoch": 2.708, + "grad_norm": 0.2088334858417511, + "learning_rate": 4.880000000000001e-05, + "loss": 0.4329, + "step": 33850 + }, + { + "epoch": 2.7119999999999997, + "grad_norm": 0.34279492497444153, + "learning_rate": 4.8133333333333336e-05, + "loss": 0.4505, + "step": 33900 + }, + { + "epoch": 2.716, + "grad_norm": 0.3136851489543915, + "learning_rate": 4.7466666666666664e-05, + "loss": 0.4488, + "step": 33950 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 0.3766196668148041, + "learning_rate": 4.68e-05, + "loss": 0.4465, + "step": 34000 + }, + { + "epoch": 2.724, + "grad_norm": 0.25338220596313477, + "learning_rate": 4.6133333333333334e-05, + "loss": 0.4299, + "step": 34050 + }, + { + "epoch": 2.7279999999999998, + "grad_norm": 0.3437287211418152, + "learning_rate": 4.546666666666667e-05, + "loss": 0.4665, + "step": 34100 + }, + { + "epoch": 2.732, + "grad_norm": 0.2480098456144333, + "learning_rate": 4.48e-05, + "loss": 0.4286, + "step": 34150 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 0.27710428833961487, + "learning_rate": 4.413333333333333e-05, + "loss": 0.4339, + "step": 34200 + }, + { + "epoch": 2.74, + "grad_norm": 0.2701534330844879, + "learning_rate": 4.346666666666667e-05, + "loss": 0.4631, + "step": 34250 + }, + { + "epoch": 2.7439999999999998, + "grad_norm": 0.26565784215927124, + "learning_rate": 4.28e-05, + "loss": 0.4546, + "step": 34300 + }, + { + "epoch": 2.748, + "grad_norm": 0.20189706981182098, + "learning_rate": 4.213333333333334e-05, + "loss": 0.4505, + "step": 34350 + }, + { + "epoch": 2.752, + "grad_norm": 0.28106382489204407, + "learning_rate": 4.146666666666667e-05, + "loss": 0.4462, + "step": 34400 + }, + { + "epoch": 2.7560000000000002, + "grad_norm": 0.2922661304473877, + "learning_rate": 4.08e-05, + "loss": 0.4513, + "step": 34450 + }, + { + "epoch": 2.76, + "grad_norm": 0.3567800521850586, + "learning_rate": 4.013333333333333e-05, + "loss": 0.4785, + "step": 34500 + }, + { + "epoch": 2.7640000000000002, + "grad_norm": 0.2758147716522217, + "learning_rate": 3.9466666666666666e-05, + "loss": 0.4527, + "step": 34550 + }, + { + "epoch": 2.768, + "grad_norm": 0.2899794578552246, + "learning_rate": 3.88e-05, + "loss": 0.4671, + "step": 34600 + }, + { + "epoch": 2.7720000000000002, + "grad_norm": 0.24867789447307587, + "learning_rate": 3.813333333333333e-05, + "loss": 0.4684, + "step": 34650 + }, + { + "epoch": 2.776, + "grad_norm": 0.22296515107154846, + "learning_rate": 3.746666666666667e-05, + "loss": 0.441, + "step": 34700 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 0.25724735856056213, + "learning_rate": 3.68e-05, + "loss": 0.4472, + "step": 34750 + }, + { + "epoch": 2.784, + "grad_norm": 0.31313836574554443, + "learning_rate": 3.614666666666667e-05, + "loss": 0.4552, + "step": 34800 + }, + { + "epoch": 2.7880000000000003, + "grad_norm": 0.32281118631362915, + "learning_rate": 3.548e-05, + "loss": 0.477, + "step": 34850 + }, + { + "epoch": 2.792, + "grad_norm": 0.3177658021450043, + "learning_rate": 3.4813333333333334e-05, + "loss": 0.4539, + "step": 34900 + }, + { + "epoch": 2.7960000000000003, + "grad_norm": 0.27014464139938354, + "learning_rate": 3.414666666666667e-05, + "loss": 0.472, + "step": 34950 + }, + { + "epoch": 2.8, + "grad_norm": 0.29081207513809204, + "learning_rate": 3.3480000000000005e-05, + "loss": 0.4598, + "step": 35000 + }, + { + "epoch": 2.8040000000000003, + "grad_norm": 0.35768747329711914, + "learning_rate": 3.281333333333333e-05, + "loss": 0.4637, + "step": 35050 + }, + { + "epoch": 2.808, + "grad_norm": 0.23590107262134552, + "learning_rate": 3.214666666666666e-05, + "loss": 0.4405, + "step": 35100 + }, + { + "epoch": 2.8120000000000003, + "grad_norm": 0.2606336772441864, + "learning_rate": 3.1480000000000004e-05, + "loss": 0.434, + "step": 35150 + }, + { + "epoch": 2.816, + "grad_norm": 0.31214970350265503, + "learning_rate": 3.081333333333334e-05, + "loss": 0.4263, + "step": 35200 + }, + { + "epoch": 2.82, + "grad_norm": 0.22976574301719666, + "learning_rate": 3.0146666666666667e-05, + "loss": 0.45, + "step": 35250 + }, + { + "epoch": 2.824, + "grad_norm": 0.2707850933074951, + "learning_rate": 2.948e-05, + "loss": 0.4431, + "step": 35300 + }, + { + "epoch": 2.828, + "grad_norm": 0.23899267613887787, + "learning_rate": 2.8813333333333334e-05, + "loss": 0.4583, + "step": 35350 + }, + { + "epoch": 2.832, + "grad_norm": 0.2468588650226593, + "learning_rate": 2.8146666666666666e-05, + "loss": 0.4604, + "step": 35400 + }, + { + "epoch": 2.836, + "grad_norm": 0.29869726300239563, + "learning_rate": 2.748e-05, + "loss": 0.431, + "step": 35450 + }, + { + "epoch": 2.84, + "grad_norm": 0.24732047319412231, + "learning_rate": 2.6813333333333336e-05, + "loss": 0.4507, + "step": 35500 + }, + { + "epoch": 2.844, + "grad_norm": 0.3324715495109558, + "learning_rate": 2.6146666666666665e-05, + "loss": 0.4555, + "step": 35550 + }, + { + "epoch": 2.848, + "grad_norm": 0.2818158268928528, + "learning_rate": 2.548e-05, + "loss": 0.4515, + "step": 35600 + }, + { + "epoch": 2.852, + "grad_norm": 0.1923283338546753, + "learning_rate": 2.4813333333333335e-05, + "loss": 0.4297, + "step": 35650 + }, + { + "epoch": 2.856, + "grad_norm": 0.25327619910240173, + "learning_rate": 2.4146666666666667e-05, + "loss": 0.4507, + "step": 35700 + }, + { + "epoch": 2.86, + "grad_norm": 0.287896990776062, + "learning_rate": 2.3480000000000002e-05, + "loss": 0.4718, + "step": 35750 + }, + { + "epoch": 2.864, + "grad_norm": 0.215403750538826, + "learning_rate": 2.2813333333333334e-05, + "loss": 0.4511, + "step": 35800 + }, + { + "epoch": 2.868, + "grad_norm": 0.30752989649772644, + "learning_rate": 2.2146666666666666e-05, + "loss": 0.4535, + "step": 35850 + }, + { + "epoch": 2.872, + "grad_norm": 0.4140700399875641, + "learning_rate": 2.148e-05, + "loss": 0.4235, + "step": 35900 + }, + { + "epoch": 2.876, + "grad_norm": 0.27981796860694885, + "learning_rate": 2.0813333333333333e-05, + "loss": 0.4326, + "step": 35950 + }, + { + "epoch": 2.88, + "grad_norm": 0.36529111862182617, + "learning_rate": 2.0146666666666668e-05, + "loss": 0.4583, + "step": 36000 + }, + { + "epoch": 2.884, + "grad_norm": 0.33879294991493225, + "learning_rate": 1.948e-05, + "loss": 0.4776, + "step": 36050 + }, + { + "epoch": 2.888, + "grad_norm": 0.30573463439941406, + "learning_rate": 1.8813333333333335e-05, + "loss": 0.4629, + "step": 36100 + }, + { + "epoch": 2.892, + "grad_norm": 0.4092652499675751, + "learning_rate": 1.8146666666666667e-05, + "loss": 0.4525, + "step": 36150 + }, + { + "epoch": 2.896, + "grad_norm": 0.2524120509624481, + "learning_rate": 1.748e-05, + "loss": 0.48, + "step": 36200 + }, + { + "epoch": 2.9, + "grad_norm": 0.301166832447052, + "learning_rate": 1.6813333333333334e-05, + "loss": 0.425, + "step": 36250 + }, + { + "epoch": 2.904, + "grad_norm": 0.2597818970680237, + "learning_rate": 1.6146666666666666e-05, + "loss": 0.4678, + "step": 36300 + }, + { + "epoch": 2.908, + "grad_norm": 0.2293042540550232, + "learning_rate": 1.548e-05, + "loss": 0.4558, + "step": 36350 + }, + { + "epoch": 2.912, + "grad_norm": 0.2601728141307831, + "learning_rate": 1.4813333333333333e-05, + "loss": 0.4575, + "step": 36400 + }, + { + "epoch": 2.916, + "grad_norm": 0.20663675665855408, + "learning_rate": 1.4146666666666668e-05, + "loss": 0.4511, + "step": 36450 + }, + { + "epoch": 2.92, + "grad_norm": 0.326138436794281, + "learning_rate": 1.3480000000000001e-05, + "loss": 0.4478, + "step": 36500 + }, + { + "epoch": 2.924, + "grad_norm": 0.3107542097568512, + "learning_rate": 1.2813333333333333e-05, + "loss": 0.457, + "step": 36550 + }, + { + "epoch": 2.928, + "grad_norm": 0.234524667263031, + "learning_rate": 1.2146666666666667e-05, + "loss": 0.472, + "step": 36600 + }, + { + "epoch": 2.932, + "grad_norm": 0.2568289041519165, + "learning_rate": 1.148e-05, + "loss": 0.4551, + "step": 36650 + }, + { + "epoch": 2.936, + "grad_norm": 0.23207560181617737, + "learning_rate": 1.0813333333333334e-05, + "loss": 0.4652, + "step": 36700 + }, + { + "epoch": 2.94, + "grad_norm": 0.24545793235301971, + "learning_rate": 1.0146666666666667e-05, + "loss": 0.4413, + "step": 36750 + }, + { + "epoch": 2.944, + "grad_norm": 0.2292717695236206, + "learning_rate": 9.48e-06, + "loss": 0.438, + "step": 36800 + }, + { + "epoch": 2.948, + "grad_norm": 0.3610619902610779, + "learning_rate": 8.813333333333333e-06, + "loss": 0.4465, + "step": 36850 + }, + { + "epoch": 2.952, + "grad_norm": 0.3205767273902893, + "learning_rate": 8.146666666666666e-06, + "loss": 0.4696, + "step": 36900 + }, + { + "epoch": 2.956, + "grad_norm": 0.3331379294395447, + "learning_rate": 7.4799999999999995e-06, + "loss": 0.4504, + "step": 36950 + }, + { + "epoch": 2.96, + "grad_norm": 0.30620986223220825, + "learning_rate": 6.813333333333334e-06, + "loss": 0.4555, + "step": 37000 + }, + { + "epoch": 2.964, + "grad_norm": 0.3850225806236267, + "learning_rate": 6.1466666666666665e-06, + "loss": 0.4571, + "step": 37050 + }, + { + "epoch": 2.968, + "grad_norm": 0.3780403137207031, + "learning_rate": 5.48e-06, + "loss": 0.4351, + "step": 37100 + }, + { + "epoch": 2.972, + "grad_norm": 0.29484397172927856, + "learning_rate": 4.8133333333333336e-06, + "loss": 0.4321, + "step": 37150 + }, + { + "epoch": 2.976, + "grad_norm": 0.2501869797706604, + "learning_rate": 4.146666666666667e-06, + "loss": 0.447, + "step": 37200 + }, + { + "epoch": 2.98, + "grad_norm": 0.2183392494916916, + "learning_rate": 3.48e-06, + "loss": 0.4533, + "step": 37250 + }, + { + "epoch": 2.984, + "grad_norm": 0.31984663009643555, + "learning_rate": 2.8133333333333336e-06, + "loss": 0.4251, + "step": 37300 + }, + { + "epoch": 2.988, + "grad_norm": 0.2767412066459656, + "learning_rate": 2.1466666666666667e-06, + "loss": 0.4235, + "step": 37350 + }, + { + "epoch": 2.992, + "grad_norm": 0.25361520051956177, + "learning_rate": 1.48e-06, + "loss": 0.4369, + "step": 37400 + }, + { + "epoch": 2.996, + "grad_norm": 0.288673460483551, + "learning_rate": 8.133333333333333e-07, + "loss": 0.4249, + "step": 37450 + }, + { + "epoch": 3.0, + "grad_norm": 0.22177539765834808, + "learning_rate": 1.4666666666666666e-07, + "loss": 0.4371, + "step": 37500 + }, + { + "epoch": 3.0, + "eval_bleu": 0.3386404997587714, + "eval_cer": 0.28147095294898533, + "eval_f1": 0.6153534805079603, + "eval_loss": 0.3820163309574127, + "eval_meteor": 0.6028071424520438, + "eval_runtime": 237.8342, + "eval_samples_per_second": 21.023, + "eval_steps_per_second": 0.66, + "eval_wer": 0.5062094115300532, + "step": 37500 + }, + { + "epoch": 3.0, + "step": 37500, + "total_flos": 8.244262109970432e+16, + "train_loss": 0.4885604788208008, + "train_runtime": 4587.9371, + "train_samples_per_second": 261.553, + "train_steps_per_second": 8.174 + } + ], + "logging_steps": 50, + "max_steps": 37500, + "num_input_tokens_seen": 0, + "num_train_epochs": 3, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 8.244262109970432e+16, + "train_batch_size": 32, + "trial_name": null, + "trial_params": null +}