diff --git "a/trainer_state.json" "b/trainer_state.json" --- "a/trainer_state.json" +++ "b/trainer_state.json" @@ -1,65 +1,5315 @@ { - "best_global_step": null, - "best_metric": Infinity, - "best_model_checkpoint": null, + "best_global_step": 37500, + "best_metric": 6.103950500488281, + "best_model_checkpoint": "/work/HauSeq/train_results/results_bart/m2m100_418M/checkpoint-37500", "epoch": 3.0, "eval_steps": 500, - "global_step": 21, + "global_step": 37500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ + { + "epoch": 0.004, + "grad_norm": 0.1499740183353424, + "learning_rate": 0.0004993333333333334, + "loss": 7.4805, + "step": 50 + }, + { + "epoch": 0.008, + "grad_norm": 0.10667843371629715, + "learning_rate": 0.0004986666666666667, + "loss": 6.3096, + "step": 100 + }, + { + "epoch": 0.012, + "grad_norm": 0.1355574131011963, + "learning_rate": 0.000498, + "loss": 6.2826, + "step": 150 + }, + { + "epoch": 0.016, + "grad_norm": 0.14119619131088257, + "learning_rate": 0.0004973333333333334, + "loss": 6.2311, + "step": 200 + }, + { + "epoch": 0.02, + "grad_norm": 0.18526268005371094, + "learning_rate": 0.0004966666666666666, + "loss": 6.2137, + "step": 250 + }, + { + "epoch": 0.024, + "grad_norm": 0.08763302862644196, + "learning_rate": 0.000496, + "loss": 6.228, + "step": 300 + }, + { + "epoch": 0.028, + "grad_norm": 0.11844474822282791, + "learning_rate": 0.0004953333333333334, + "loss": 6.1911, + "step": 350 + }, + { + "epoch": 0.032, + "grad_norm": 0.13791300356388092, + "learning_rate": 0.0004946666666666667, + "loss": 6.2095, + "step": 400 + }, + { + "epoch": 0.036, + "grad_norm": 0.10078135132789612, + "learning_rate": 0.000494, + "loss": 6.2104, + "step": 450 + }, + { + "epoch": 0.04, + "grad_norm": 0.10703647136688232, + "learning_rate": 0.0004933333333333334, + "loss": 6.2012, + "step": 500 + }, + { + "epoch": 0.044, + "grad_norm": 0.07797997444868088, + "learning_rate": 0.0004926666666666666, + "loss": 6.2023, + "step": 550 + }, + { + "epoch": 0.048, + "grad_norm": 0.08424604684114456, + "learning_rate": 0.000492, + "loss": 6.1922, + "step": 600 + }, + { + "epoch": 0.052, + "grad_norm": 0.08989514410495758, + "learning_rate": 0.0004913333333333333, + "loss": 6.1845, + "step": 650 + }, + { + "epoch": 0.056, + "grad_norm": 0.07796361297369003, + "learning_rate": 0.0004906666666666667, + "loss": 6.1891, + "step": 700 + }, + { + "epoch": 0.06, + "grad_norm": 0.10093868523836136, + "learning_rate": 0.00049, + "loss": 6.1497, + "step": 750 + }, + { + "epoch": 0.064, + "grad_norm": 0.09657121449708939, + "learning_rate": 0.0004893333333333334, + "loss": 6.2065, + "step": 800 + }, + { + "epoch": 0.068, + "grad_norm": 0.09952595084905624, + "learning_rate": 0.0004886666666666667, + "loss": 6.1895, + "step": 850 + }, + { + "epoch": 0.072, + "grad_norm": 0.0855650082230568, + "learning_rate": 0.000488, + "loss": 6.1645, + "step": 900 + }, + { + "epoch": 0.076, + "grad_norm": 0.09803396463394165, + "learning_rate": 0.0004873333333333333, + "loss": 6.1762, + "step": 950 + }, + { + "epoch": 0.08, + "grad_norm": 0.06794276833534241, + "learning_rate": 0.0004866666666666667, + "loss": 6.1682, + "step": 1000 + }, + { + "epoch": 0.084, + "grad_norm": 0.08897081762552261, + "learning_rate": 0.000486, + "loss": 6.1931, + "step": 1050 + }, + { + "epoch": 0.088, + "grad_norm": 0.08984973281621933, + "learning_rate": 0.00048533333333333333, + "loss": 6.2078, + "step": 1100 + }, + { + "epoch": 0.092, + "grad_norm": 0.11525110900402069, + "learning_rate": 0.0004846666666666667, + "loss": 6.1856, + "step": 1150 + }, + { + "epoch": 0.096, + "grad_norm": 0.12420480698347092, + "learning_rate": 0.000484, + "loss": 6.197, + "step": 1200 + }, + { + "epoch": 0.1, + "grad_norm": 0.0768909901380539, + "learning_rate": 0.00048333333333333334, + "loss": 6.1788, + "step": 1250 + }, + { + "epoch": 0.104, + "grad_norm": 0.07718764990568161, + "learning_rate": 0.00048266666666666667, + "loss": 6.1689, + "step": 1300 + }, + { + "epoch": 0.108, + "grad_norm": 0.0695982426404953, + "learning_rate": 0.000482, + "loss": 6.1618, + "step": 1350 + }, + { + "epoch": 0.112, + "grad_norm": 0.09627287089824677, + "learning_rate": 0.00048133333333333334, + "loss": 6.1909, + "step": 1400 + }, + { + "epoch": 0.116, + "grad_norm": 0.08323939889669418, + "learning_rate": 0.0004806666666666667, + "loss": 6.1744, + "step": 1450 + }, + { + "epoch": 0.12, + "grad_norm": 0.07320117205381393, + "learning_rate": 0.00048, + "loss": 6.146, + "step": 1500 + }, + { + "epoch": 0.124, + "grad_norm": 0.09260224550962448, + "learning_rate": 0.00047933333333333335, + "loss": 6.1594, + "step": 1550 + }, + { + "epoch": 0.128, + "grad_norm": 0.08849816024303436, + "learning_rate": 0.0004786666666666667, + "loss": 6.1484, + "step": 1600 + }, + { + "epoch": 0.132, + "grad_norm": 0.06321880221366882, + "learning_rate": 0.00047799999999999996, + "loss": 6.1839, + "step": 1650 + }, + { + "epoch": 0.136, + "grad_norm": 0.06969976425170898, + "learning_rate": 0.00047733333333333335, + "loss": 6.1824, + "step": 1700 + }, + { + "epoch": 0.14, + "grad_norm": 0.14432759582996368, + "learning_rate": 0.0004766666666666667, + "loss": 6.1721, + "step": 1750 + }, + { + "epoch": 0.144, + "grad_norm": 0.16085149347782135, + "learning_rate": 0.00047599999999999997, + "loss": 6.1837, + "step": 1800 + }, + { + "epoch": 0.148, + "grad_norm": 0.07657184451818466, + "learning_rate": 0.00047533333333333336, + "loss": 6.2191, + "step": 1850 + }, + { + "epoch": 0.152, + "grad_norm": 0.09527961909770966, + "learning_rate": 0.0004746666666666667, + "loss": 6.1861, + "step": 1900 + }, + { + "epoch": 0.156, + "grad_norm": 0.21131065487861633, + "learning_rate": 0.000474, + "loss": 6.1697, + "step": 1950 + }, + { + "epoch": 0.16, + "grad_norm": 0.07655874639749527, + "learning_rate": 0.00047333333333333336, + "loss": 6.1828, + "step": 2000 + }, + { + "epoch": 0.164, + "grad_norm": 0.10856800526380539, + "learning_rate": 0.0004726666666666667, + "loss": 6.1647, + "step": 2050 + }, + { + "epoch": 0.168, + "grad_norm": 0.07398238033056259, + "learning_rate": 0.000472, + "loss": 6.1524, + "step": 2100 + }, + { + "epoch": 0.172, + "grad_norm": 0.14157165586948395, + "learning_rate": 0.0004713333333333333, + "loss": 6.1912, + "step": 2150 + }, + { + "epoch": 0.176, + "grad_norm": 0.07149046659469604, + "learning_rate": 0.0004706666666666667, + "loss": 6.1762, + "step": 2200 + }, + { + "epoch": 0.18, + "grad_norm": 0.07425113022327423, + "learning_rate": 0.00047, + "loss": 6.1843, + "step": 2250 + }, + { + "epoch": 0.184, + "grad_norm": 0.09057290107011795, + "learning_rate": 0.0004693333333333333, + "loss": 6.166, + "step": 2300 + }, + { + "epoch": 0.188, + "grad_norm": 0.06506957858800888, + "learning_rate": 0.0004686666666666667, + "loss": 6.165, + "step": 2350 + }, + { + "epoch": 0.192, + "grad_norm": 0.10421702265739441, + "learning_rate": 0.00046800000000000005, + "loss": 6.157, + "step": 2400 + }, + { + "epoch": 0.196, + "grad_norm": 0.08778171241283417, + "learning_rate": 0.0004673333333333333, + "loss": 6.179, + "step": 2450 + }, + { + "epoch": 0.2, + "grad_norm": 0.08456961065530777, + "learning_rate": 0.00046666666666666666, + "loss": 6.1642, + "step": 2500 + }, + { + "epoch": 0.204, + "grad_norm": 0.08116275817155838, + "learning_rate": 0.00046600000000000005, + "loss": 6.1818, + "step": 2550 + }, + { + "epoch": 0.208, + "grad_norm": 0.08622491359710693, + "learning_rate": 0.00046533333333333333, + "loss": 6.1427, + "step": 2600 + }, + { + "epoch": 0.212, + "grad_norm": 0.08298862725496292, + "learning_rate": 0.00046466666666666667, + "loss": 6.1661, + "step": 2650 + }, + { + "epoch": 0.216, + "grad_norm": 0.11220812797546387, + "learning_rate": 0.00046400000000000006, + "loss": 6.1522, + "step": 2700 + }, + { + "epoch": 0.22, + "grad_norm": 0.06386397033929825, + "learning_rate": 0.00046333333333333334, + "loss": 6.1492, + "step": 2750 + }, + { + "epoch": 0.224, + "grad_norm": 0.09490926563739777, + "learning_rate": 0.0004626666666666667, + "loss": 6.1572, + "step": 2800 + }, + { + "epoch": 0.228, + "grad_norm": 0.08788993209600449, + "learning_rate": 0.000462, + "loss": 6.121, + "step": 2850 + }, + { + "epoch": 0.232, + "grad_norm": 0.09061021357774734, + "learning_rate": 0.00046133333333333334, + "loss": 6.1823, + "step": 2900 + }, + { + "epoch": 0.236, + "grad_norm": 0.0788547694683075, + "learning_rate": 0.0004606666666666667, + "loss": 6.1525, + "step": 2950 + }, + { + "epoch": 0.24, + "grad_norm": 0.09918448328971863, + "learning_rate": 0.00046, + "loss": 6.1389, + "step": 3000 + }, + { + "epoch": 0.244, + "grad_norm": 0.09212467074394226, + "learning_rate": 0.00045933333333333335, + "loss": 6.1263, + "step": 3050 + }, + { + "epoch": 0.248, + "grad_norm": 0.11654188483953476, + "learning_rate": 0.0004586666666666667, + "loss": 6.1733, + "step": 3100 + }, + { + "epoch": 0.252, + "grad_norm": 0.07138317078351974, + "learning_rate": 0.000458, + "loss": 6.1387, + "step": 3150 + }, + { + "epoch": 0.256, + "grad_norm": 0.3928240239620209, + "learning_rate": 0.0004573333333333333, + "loss": 6.1474, + "step": 3200 + }, + { + "epoch": 0.26, + "grad_norm": 0.07229406386613846, + "learning_rate": 0.0004566666666666667, + "loss": 6.1906, + "step": 3250 + }, + { + "epoch": 0.264, + "grad_norm": 0.10225030779838562, + "learning_rate": 0.000456, + "loss": 6.148, + "step": 3300 + }, + { + "epoch": 0.268, + "grad_norm": 0.07748144865036011, + "learning_rate": 0.0004553333333333333, + "loss": 6.1808, + "step": 3350 + }, + { + "epoch": 0.272, + "grad_norm": 0.09261620044708252, + "learning_rate": 0.0004546666666666667, + "loss": 6.1435, + "step": 3400 + }, + { + "epoch": 0.276, + "grad_norm": 0.0762810930609703, + "learning_rate": 0.00045400000000000003, + "loss": 6.1424, + "step": 3450 + }, + { + "epoch": 0.28, + "grad_norm": 0.06503546983003616, + "learning_rate": 0.0004533333333333333, + "loss": 6.1398, + "step": 3500 + }, + { + "epoch": 0.284, + "grad_norm": 0.10272552818059921, + "learning_rate": 0.00045266666666666665, + "loss": 6.1477, + "step": 3550 + }, + { + "epoch": 0.288, + "grad_norm": 0.09250053763389587, + "learning_rate": 0.00045200000000000004, + "loss": 6.1523, + "step": 3600 + }, + { + "epoch": 0.292, + "grad_norm": 0.09228478372097015, + "learning_rate": 0.0004513333333333333, + "loss": 6.1321, + "step": 3650 + }, + { + "epoch": 0.296, + "grad_norm": 0.10222690552473068, + "learning_rate": 0.00045066666666666665, + "loss": 6.1548, + "step": 3700 + }, + { + "epoch": 0.3, + "grad_norm": 0.08718942850828171, + "learning_rate": 0.00045000000000000004, + "loss": 6.1427, + "step": 3750 + }, + { + "epoch": 0.304, + "grad_norm": 0.08387800306081772, + "learning_rate": 0.0004493333333333333, + "loss": 6.1444, + "step": 3800 + }, + { + "epoch": 0.308, + "grad_norm": 0.09418994933366776, + "learning_rate": 0.00044866666666666666, + "loss": 6.1368, + "step": 3850 + }, + { + "epoch": 0.312, + "grad_norm": 0.0849212035536766, + "learning_rate": 0.000448, + "loss": 6.167, + "step": 3900 + }, + { + "epoch": 0.316, + "grad_norm": 0.07717032730579376, + "learning_rate": 0.0004473333333333334, + "loss": 6.1776, + "step": 3950 + }, + { + "epoch": 0.32, + "grad_norm": 0.0638657808303833, + "learning_rate": 0.00044666666666666666, + "loss": 6.1661, + "step": 4000 + }, + { + "epoch": 0.324, + "grad_norm": 0.07268249988555908, + "learning_rate": 0.000446, + "loss": 6.1305, + "step": 4050 + }, + { + "epoch": 0.328, + "grad_norm": 0.08437797427177429, + "learning_rate": 0.0004453333333333334, + "loss": 6.1464, + "step": 4100 + }, + { + "epoch": 0.332, + "grad_norm": 0.09433490037918091, + "learning_rate": 0.00044466666666666667, + "loss": 6.1447, + "step": 4150 + }, + { + "epoch": 0.336, + "grad_norm": 0.0792909786105156, + "learning_rate": 0.000444, + "loss": 6.1455, + "step": 4200 + }, + { + "epoch": 0.34, + "grad_norm": 0.0803828164935112, + "learning_rate": 0.00044333333333333334, + "loss": 6.1274, + "step": 4250 + }, + { + "epoch": 0.344, + "grad_norm": 0.10000285506248474, + "learning_rate": 0.0004426666666666667, + "loss": 6.158, + "step": 4300 + }, + { + "epoch": 0.348, + "grad_norm": 0.08715959638357162, + "learning_rate": 0.000442, + "loss": 6.1726, + "step": 4350 + }, + { + "epoch": 0.352, + "grad_norm": 0.10016287863254547, + "learning_rate": 0.00044133333333333335, + "loss": 6.1528, + "step": 4400 + }, + { + "epoch": 0.356, + "grad_norm": 0.10741645097732544, + "learning_rate": 0.0004406666666666667, + "loss": 6.1196, + "step": 4450 + }, + { + "epoch": 0.36, + "grad_norm": 0.11115501821041107, + "learning_rate": 0.0004400133333333333, + "loss": 6.1466, + "step": 4500 + }, + { + "epoch": 0.364, + "grad_norm": 0.1398707628250122, + "learning_rate": 0.00043934666666666666, + "loss": 6.1885, + "step": 4550 + }, + { + "epoch": 0.368, + "grad_norm": 0.07707438617944717, + "learning_rate": 0.00043868000000000005, + "loss": 6.1615, + "step": 4600 + }, + { + "epoch": 0.372, + "grad_norm": 0.07468201220035553, + "learning_rate": 0.00043801333333333333, + "loss": 6.1561, + "step": 4650 + }, + { + "epoch": 0.376, + "grad_norm": 0.061577290296554565, + "learning_rate": 0.00043734666666666666, + "loss": 6.1668, + "step": 4700 + }, + { + "epoch": 0.38, + "grad_norm": 0.13523687422275543, + "learning_rate": 0.00043668, + "loss": 6.1224, + "step": 4750 + }, + { + "epoch": 0.384, + "grad_norm": 0.13001352548599243, + "learning_rate": 0.00043601333333333334, + "loss": 6.1633, + "step": 4800 + }, + { + "epoch": 0.388, + "grad_norm": 0.10008837282657623, + "learning_rate": 0.00043534666666666667, + "loss": 6.1487, + "step": 4850 + }, + { + "epoch": 0.392, + "grad_norm": 0.13334940373897552, + "learning_rate": 0.00043468, + "loss": 6.1385, + "step": 4900 + }, + { + "epoch": 0.396, + "grad_norm": 0.10124535113573074, + "learning_rate": 0.00043401333333333334, + "loss": 6.1289, + "step": 4950 + }, + { + "epoch": 0.4, + "grad_norm": 0.0942668467760086, + "learning_rate": 0.0004333466666666667, + "loss": 6.1385, + "step": 5000 + }, + { + "epoch": 0.404, + "grad_norm": 0.10667609423398972, + "learning_rate": 0.00043268, + "loss": 6.1557, + "step": 5050 + }, + { + "epoch": 0.408, + "grad_norm": 0.2684639096260071, + "learning_rate": 0.00043201333333333335, + "loss": 6.1648, + "step": 5100 + }, + { + "epoch": 0.412, + "grad_norm": 0.112238310277462, + "learning_rate": 0.0004313466666666667, + "loss": 6.1376, + "step": 5150 + }, + { + "epoch": 0.416, + "grad_norm": 0.2296871393918991, + "learning_rate": 0.00043068, + "loss": 6.1263, + "step": 5200 + }, + { + "epoch": 0.42, + "grad_norm": 0.08786416798830032, + "learning_rate": 0.00043001333333333335, + "loss": 6.1214, + "step": 5250 + }, + { + "epoch": 0.424, + "grad_norm": 0.06915111839771271, + "learning_rate": 0.0004293466666666667, + "loss": 6.1315, + "step": 5300 + }, + { + "epoch": 0.428, + "grad_norm": 0.07821060717105865, + "learning_rate": 0.00042868, + "loss": 6.145, + "step": 5350 + }, + { + "epoch": 0.432, + "grad_norm": 0.07595105469226837, + "learning_rate": 0.00042801333333333336, + "loss": 6.1535, + "step": 5400 + }, + { + "epoch": 0.436, + "grad_norm": 0.23297429084777832, + "learning_rate": 0.00042734666666666664, + "loss": 6.1426, + "step": 5450 + }, + { + "epoch": 0.44, + "grad_norm": 0.14106471836566925, + "learning_rate": 0.00042668000000000003, + "loss": 6.149, + "step": 5500 + }, + { + "epoch": 0.444, + "grad_norm": 0.0981304794549942, + "learning_rate": 0.00042601333333333336, + "loss": 6.1747, + "step": 5550 + }, + { + "epoch": 0.448, + "grad_norm": 0.07914501428604126, + "learning_rate": 0.00042534666666666664, + "loss": 6.1753, + "step": 5600 + }, + { + "epoch": 0.452, + "grad_norm": 0.11057311296463013, + "learning_rate": 0.00042468000000000003, + "loss": 6.1228, + "step": 5650 + }, + { + "epoch": 0.456, + "grad_norm": 0.11598452180624008, + "learning_rate": 0.00042401333333333337, + "loss": 6.1525, + "step": 5700 + }, + { + "epoch": 0.46, + "grad_norm": 0.10947534441947937, + "learning_rate": 0.00042334666666666665, + "loss": 6.1402, + "step": 5750 + }, + { + "epoch": 0.464, + "grad_norm": 0.0935596451163292, + "learning_rate": 0.00042268, + "loss": 6.147, + "step": 5800 + }, + { + "epoch": 0.468, + "grad_norm": 0.09724355489015579, + "learning_rate": 0.0004220133333333334, + "loss": 6.1391, + "step": 5850 + }, + { + "epoch": 0.472, + "grad_norm": 0.0583486370742321, + "learning_rate": 0.00042134666666666666, + "loss": 6.1514, + "step": 5900 + }, + { + "epoch": 0.476, + "grad_norm": 0.08680520951747894, + "learning_rate": 0.00042068, + "loss": 6.1375, + "step": 5950 + }, + { + "epoch": 0.48, + "grad_norm": 0.09536125510931015, + "learning_rate": 0.0004200133333333334, + "loss": 6.1444, + "step": 6000 + }, + { + "epoch": 0.484, + "grad_norm": 0.08268143981695175, + "learning_rate": 0.00041934666666666666, + "loss": 6.1428, + "step": 6050 + }, + { + "epoch": 0.488, + "grad_norm": 0.07624943554401398, + "learning_rate": 0.00041868, + "loss": 6.1372, + "step": 6100 + }, + { + "epoch": 0.492, + "grad_norm": 0.10751429945230484, + "learning_rate": 0.00041801333333333333, + "loss": 6.1561, + "step": 6150 + }, + { + "epoch": 0.496, + "grad_norm": 0.08387358486652374, + "learning_rate": 0.00041734666666666667, + "loss": 6.1476, + "step": 6200 + }, + { + "epoch": 0.5, + "grad_norm": 0.11335717886686325, + "learning_rate": 0.00041668, + "loss": 6.1413, + "step": 6250 + }, + { + "epoch": 0.504, + "grad_norm": 0.1355256885290146, + "learning_rate": 0.00041601333333333334, + "loss": 6.1412, + "step": 6300 + }, + { + "epoch": 0.508, + "grad_norm": 0.1453883796930313, + "learning_rate": 0.00041534666666666667, + "loss": 6.1495, + "step": 6350 + }, + { + "epoch": 0.512, + "grad_norm": 0.11146925389766693, + "learning_rate": 0.00041468, + "loss": 6.1445, + "step": 6400 + }, + { + "epoch": 0.516, + "grad_norm": 0.07427259534597397, + "learning_rate": 0.00041401333333333334, + "loss": 6.1229, + "step": 6450 + }, + { + "epoch": 0.52, + "grad_norm": 0.06469317525625229, + "learning_rate": 0.0004133466666666666, + "loss": 6.1494, + "step": 6500 + }, + { + "epoch": 0.524, + "grad_norm": 0.08428920060396194, + "learning_rate": 0.00041268, + "loss": 6.1651, + "step": 6550 + }, + { + "epoch": 0.528, + "grad_norm": 0.0702928975224495, + "learning_rate": 0.00041201333333333335, + "loss": 6.1434, + "step": 6600 + }, + { + "epoch": 0.532, + "grad_norm": 0.09311379492282867, + "learning_rate": 0.0004113466666666667, + "loss": 6.1441, + "step": 6650 + }, + { + "epoch": 0.536, + "grad_norm": 0.08133190870285034, + "learning_rate": 0.00041068, + "loss": 6.1878, + "step": 6700 + }, + { + "epoch": 0.54, + "grad_norm": 0.08373269438743591, + "learning_rate": 0.00041001333333333335, + "loss": 6.1378, + "step": 6750 + }, + { + "epoch": 0.544, + "grad_norm": 0.06816371530294418, + "learning_rate": 0.00040936, + "loss": 6.1358, + "step": 6800 + }, + { + "epoch": 0.548, + "grad_norm": 0.07305701076984406, + "learning_rate": 0.0004087066666666667, + "loss": 6.1841, + "step": 6850 + }, + { + "epoch": 0.552, + "grad_norm": 0.1215256080031395, + "learning_rate": 0.00040804000000000003, + "loss": 6.125, + "step": 6900 + }, + { + "epoch": 0.556, + "grad_norm": 0.08969780057668686, + "learning_rate": 0.0004073733333333333, + "loss": 6.0996, + "step": 6950 + }, + { + "epoch": 0.56, + "grad_norm": 0.0834660530090332, + "learning_rate": 0.00040670666666666665, + "loss": 6.1435, + "step": 7000 + }, + { + "epoch": 0.564, + "grad_norm": 0.08142099529504776, + "learning_rate": 0.00040604000000000004, + "loss": 6.1237, + "step": 7050 + }, + { + "epoch": 0.568, + "grad_norm": 0.0919690951704979, + "learning_rate": 0.0004053733333333333, + "loss": 6.1278, + "step": 7100 + }, + { + "epoch": 0.572, + "grad_norm": 0.10338471084833145, + "learning_rate": 0.00040470666666666665, + "loss": 6.168, + "step": 7150 + }, + { + "epoch": 0.576, + "grad_norm": 0.07737001776695251, + "learning_rate": 0.00040404000000000004, + "loss": 6.1539, + "step": 7200 + }, + { + "epoch": 0.58, + "grad_norm": 0.13907049596309662, + "learning_rate": 0.0004033733333333333, + "loss": 6.1379, + "step": 7250 + }, + { + "epoch": 0.584, + "grad_norm": 0.07844569534063339, + "learning_rate": 0.00040270666666666666, + "loss": 6.1154, + "step": 7300 + }, + { + "epoch": 0.588, + "grad_norm": 0.09141326695680618, + "learning_rate": 0.00040204, + "loss": 6.1492, + "step": 7350 + }, + { + "epoch": 0.592, + "grad_norm": 0.09647424519062042, + "learning_rate": 0.0004013733333333334, + "loss": 6.156, + "step": 7400 + }, + { + "epoch": 0.596, + "grad_norm": 0.07945197075605392, + "learning_rate": 0.00040070666666666666, + "loss": 6.1439, + "step": 7450 + }, + { + "epoch": 0.6, + "grad_norm": 0.12464960664510727, + "learning_rate": 0.00040004, + "loss": 6.1405, + "step": 7500 + }, + { + "epoch": 0.604, + "grad_norm": 0.06744404882192612, + "learning_rate": 0.0003993733333333334, + "loss": 6.1561, + "step": 7550 + }, + { + "epoch": 0.608, + "grad_norm": 0.08145774900913239, + "learning_rate": 0.00039870666666666667, + "loss": 6.0811, + "step": 7600 + }, + { + "epoch": 0.612, + "grad_norm": 0.08174900710582733, + "learning_rate": 0.00039804, + "loss": 6.1552, + "step": 7650 + }, + { + "epoch": 0.616, + "grad_norm": 0.08908479660749435, + "learning_rate": 0.00039737333333333334, + "loss": 6.1393, + "step": 7700 + }, + { + "epoch": 0.62, + "grad_norm": 0.08309025317430496, + "learning_rate": 0.0003967066666666667, + "loss": 6.1374, + "step": 7750 + }, + { + "epoch": 0.624, + "grad_norm": 0.08000774681568146, + "learning_rate": 0.00039604, + "loss": 6.1387, + "step": 7800 + }, + { + "epoch": 0.628, + "grad_norm": 0.07455053925514221, + "learning_rate": 0.00039537333333333334, + "loss": 6.1469, + "step": 7850 + }, + { + "epoch": 0.632, + "grad_norm": 0.0924578532576561, + "learning_rate": 0.0003947066666666667, + "loss": 6.1104, + "step": 7900 + }, + { + "epoch": 0.636, + "grad_norm": 0.08321697264909744, + "learning_rate": 0.00039404, + "loss": 6.1415, + "step": 7950 + }, + { + "epoch": 0.64, + "grad_norm": 0.0698736160993576, + "learning_rate": 0.00039337333333333335, + "loss": 6.1518, + "step": 8000 + }, + { + "epoch": 0.644, + "grad_norm": 0.08551068603992462, + "learning_rate": 0.00039270666666666663, + "loss": 6.1562, + "step": 8050 + }, + { + "epoch": 0.648, + "grad_norm": 0.08324693888425827, + "learning_rate": 0.00039204, + "loss": 6.1013, + "step": 8100 + }, + { + "epoch": 0.652, + "grad_norm": 0.06940361857414246, + "learning_rate": 0.00039137333333333336, + "loss": 6.1458, + "step": 8150 + }, + { + "epoch": 0.656, + "grad_norm": 0.07582579553127289, + "learning_rate": 0.00039070666666666664, + "loss": 6.0928, + "step": 8200 + }, + { + "epoch": 0.66, + "grad_norm": 0.11975613981485367, + "learning_rate": 0.00039004, + "loss": 6.152, + "step": 8250 + }, + { + "epoch": 0.664, + "grad_norm": 0.09661959856748581, + "learning_rate": 0.00038937333333333336, + "loss": 6.1467, + "step": 8300 + }, + { + "epoch": 0.668, + "grad_norm": 0.09524175524711609, + "learning_rate": 0.00038870666666666664, + "loss": 6.1101, + "step": 8350 + }, + { + "epoch": 0.672, + "grad_norm": 0.08360280841588974, + "learning_rate": 0.00038804, + "loss": 6.1326, + "step": 8400 + }, + { + "epoch": 0.676, + "grad_norm": 0.07377854734659195, + "learning_rate": 0.00038737333333333337, + "loss": 6.1445, + "step": 8450 + }, + { + "epoch": 0.68, + "grad_norm": 0.09777391701936722, + "learning_rate": 0.00038670666666666665, + "loss": 6.1412, + "step": 8500 + }, + { + "epoch": 0.684, + "grad_norm": 0.08494503796100616, + "learning_rate": 0.00038604, + "loss": 6.1235, + "step": 8550 + }, + { + "epoch": 0.688, + "grad_norm": 0.08853717148303986, + "learning_rate": 0.00038537333333333337, + "loss": 6.1498, + "step": 8600 + }, + { + "epoch": 0.692, + "grad_norm": 0.09651113301515579, + "learning_rate": 0.00038470666666666665, + "loss": 6.1191, + "step": 8650 + }, + { + "epoch": 0.696, + "grad_norm": 0.08529637008905411, + "learning_rate": 0.00038404, + "loss": 6.147, + "step": 8700 + }, + { + "epoch": 0.7, + "grad_norm": 0.07602822780609131, + "learning_rate": 0.0003833733333333334, + "loss": 6.1364, + "step": 8750 + }, + { + "epoch": 0.704, + "grad_norm": 0.06690848618745804, + "learning_rate": 0.00038270666666666666, + "loss": 6.1841, + "step": 8800 + }, + { + "epoch": 0.708, + "grad_norm": 0.07576138526201248, + "learning_rate": 0.00038204, + "loss": 6.1261, + "step": 8850 + }, + { + "epoch": 0.712, + "grad_norm": 0.08975618332624435, + "learning_rate": 0.00038137333333333333, + "loss": 6.1233, + "step": 8900 + }, + { + "epoch": 0.716, + "grad_norm": 0.13412073254585266, + "learning_rate": 0.0003807066666666667, + "loss": 6.1178, + "step": 8950 + }, + { + "epoch": 0.72, + "grad_norm": 0.08113139867782593, + "learning_rate": 0.00038004, + "loss": 6.1509, + "step": 9000 + }, + { + "epoch": 0.724, + "grad_norm": 0.07520956546068192, + "learning_rate": 0.00037937333333333334, + "loss": 6.1431, + "step": 9050 + }, + { + "epoch": 0.728, + "grad_norm": 0.12510055303573608, + "learning_rate": 0.0003787066666666667, + "loss": 6.106, + "step": 9100 + }, + { + "epoch": 0.732, + "grad_norm": 0.11861733347177505, + "learning_rate": 0.00037804, + "loss": 6.1283, + "step": 9150 + }, + { + "epoch": 0.736, + "grad_norm": 0.16747646033763885, + "learning_rate": 0.00037737333333333334, + "loss": 6.1004, + "step": 9200 + }, + { + "epoch": 0.74, + "grad_norm": 0.18359404802322388, + "learning_rate": 0.0003767066666666667, + "loss": 6.1607, + "step": 9250 + }, + { + "epoch": 0.744, + "grad_norm": 0.08035677671432495, + "learning_rate": 0.00037604, + "loss": 6.1409, + "step": 9300 + }, + { + "epoch": 0.748, + "grad_norm": 0.09229722619056702, + "learning_rate": 0.00037537333333333335, + "loss": 6.1374, + "step": 9350 + }, + { + "epoch": 0.752, + "grad_norm": 0.09677824378013611, + "learning_rate": 0.0003747066666666667, + "loss": 6.1612, + "step": 9400 + }, + { + "epoch": 0.756, + "grad_norm": 0.12031961232423782, + "learning_rate": 0.00037404, + "loss": 6.1559, + "step": 9450 + }, + { + "epoch": 0.76, + "grad_norm": 0.0747058093547821, + "learning_rate": 0.00037337333333333335, + "loss": 6.1283, + "step": 9500 + }, + { + "epoch": 0.764, + "grad_norm": 0.18246150016784668, + "learning_rate": 0.0003727066666666667, + "loss": 6.1237, + "step": 9550 + }, + { + "epoch": 0.768, + "grad_norm": 0.06202407553792, + "learning_rate": 0.00037203999999999997, + "loss": 6.118, + "step": 9600 + }, + { + "epoch": 0.772, + "grad_norm": 0.07311294972896576, + "learning_rate": 0.00037137333333333336, + "loss": 6.1396, + "step": 9650 + }, + { + "epoch": 0.776, + "grad_norm": 0.099601611495018, + "learning_rate": 0.0003707066666666667, + "loss": 6.1331, + "step": 9700 + }, + { + "epoch": 0.78, + "grad_norm": 0.07287988066673279, + "learning_rate": 0.00037004, + "loss": 6.1538, + "step": 9750 + }, + { + "epoch": 0.784, + "grad_norm": 0.07323318719863892, + "learning_rate": 0.00036937333333333336, + "loss": 6.1364, + "step": 9800 + }, + { + "epoch": 0.788, + "grad_norm": 0.10191000252962112, + "learning_rate": 0.0003687066666666667, + "loss": 6.1143, + "step": 9850 + }, + { + "epoch": 0.792, + "grad_norm": 0.07466744631528854, + "learning_rate": 0.00036804, + "loss": 6.1344, + "step": 9900 + }, + { + "epoch": 0.796, + "grad_norm": 0.07567007094621658, + "learning_rate": 0.0003673733333333333, + "loss": 6.1432, + "step": 9950 + }, + { + "epoch": 0.8, + "grad_norm": 0.06828475743532181, + "learning_rate": 0.0003667066666666667, + "loss": 6.1376, + "step": 10000 + }, + { + "epoch": 0.804, + "grad_norm": 0.10929539054632187, + "learning_rate": 0.00036604, + "loss": 6.1475, + "step": 10050 + }, + { + "epoch": 0.808, + "grad_norm": 0.11247921735048294, + "learning_rate": 0.0003653733333333333, + "loss": 6.1208, + "step": 10100 + }, + { + "epoch": 0.812, + "grad_norm": 0.07238536328077316, + "learning_rate": 0.0003647066666666667, + "loss": 6.1217, + "step": 10150 + }, + { + "epoch": 0.816, + "grad_norm": 0.06981945782899857, + "learning_rate": 0.00036404, + "loss": 6.142, + "step": 10200 + }, + { + "epoch": 0.82, + "grad_norm": 0.09269541501998901, + "learning_rate": 0.0003633733333333333, + "loss": 6.1582, + "step": 10250 + }, + { + "epoch": 0.824, + "grad_norm": 0.0833270475268364, + "learning_rate": 0.00036270666666666666, + "loss": 6.1527, + "step": 10300 + }, + { + "epoch": 0.828, + "grad_norm": 0.07164114713668823, + "learning_rate": 0.00036204, + "loss": 6.1436, + "step": 10350 + }, + { + "epoch": 0.832, + "grad_norm": 0.0754464715719223, + "learning_rate": 0.00036137333333333333, + "loss": 6.1467, + "step": 10400 + }, + { + "epoch": 0.836, + "grad_norm": 0.0831957682967186, + "learning_rate": 0.00036070666666666667, + "loss": 6.114, + "step": 10450 + }, + { + "epoch": 0.84, + "grad_norm": 0.0908898413181305, + "learning_rate": 0.00036004000000000006, + "loss": 6.1469, + "step": 10500 + }, + { + "epoch": 0.844, + "grad_norm": 0.1036674827337265, + "learning_rate": 0.00035937333333333334, + "loss": 6.1182, + "step": 10550 + }, + { + "epoch": 0.848, + "grad_norm": 0.08748626708984375, + "learning_rate": 0.00035870666666666667, + "loss": 6.1617, + "step": 10600 + }, + { + "epoch": 0.852, + "grad_norm": 0.07695665955543518, + "learning_rate": 0.00035804, + "loss": 6.1595, + "step": 10650 + }, + { + "epoch": 0.856, + "grad_norm": 0.14038455486297607, + "learning_rate": 0.00035737333333333334, + "loss": 6.1283, + "step": 10700 + }, + { + "epoch": 0.86, + "grad_norm": 0.14883290231227875, + "learning_rate": 0.0003567066666666667, + "loss": 6.1277, + "step": 10750 + }, + { + "epoch": 0.864, + "grad_norm": 0.1166934072971344, + "learning_rate": 0.00035604, + "loss": 6.1298, + "step": 10800 + }, + { + "epoch": 0.868, + "grad_norm": 0.10375168174505234, + "learning_rate": 0.00035537333333333335, + "loss": 6.1657, + "step": 10850 + }, + { + "epoch": 0.872, + "grad_norm": 0.0937887653708458, + "learning_rate": 0.0003547066666666667, + "loss": 6.1073, + "step": 10900 + }, + { + "epoch": 0.876, + "grad_norm": 0.09421999007463455, + "learning_rate": 0.00035404, + "loss": 6.1454, + "step": 10950 + }, + { + "epoch": 0.88, + "grad_norm": 0.061154287308454514, + "learning_rate": 0.0003533733333333333, + "loss": 6.1495, + "step": 11000 + }, + { + "epoch": 0.884, + "grad_norm": 0.11502575874328613, + "learning_rate": 0.0003527066666666667, + "loss": 6.1125, + "step": 11050 + }, + { + "epoch": 0.888, + "grad_norm": 0.07529284060001373, + "learning_rate": 0.00035204, + "loss": 6.1357, + "step": 11100 + }, + { + "epoch": 0.892, + "grad_norm": 0.0707298144698143, + "learning_rate": 0.0003513733333333333, + "loss": 6.1384, + "step": 11150 + }, + { + "epoch": 0.896, + "grad_norm": 0.06800556927919388, + "learning_rate": 0.0003507066666666667, + "loss": 6.1308, + "step": 11200 + }, + { + "epoch": 0.9, + "grad_norm": 0.08016080409288406, + "learning_rate": 0.00035004000000000003, + "loss": 6.1439, + "step": 11250 + }, + { + "epoch": 0.904, + "grad_norm": 0.09714719653129578, + "learning_rate": 0.0003493733333333333, + "loss": 6.1258, + "step": 11300 + }, + { + "epoch": 0.908, + "grad_norm": 0.08954201638698578, + "learning_rate": 0.00034870666666666665, + "loss": 6.1502, + "step": 11350 + }, + { + "epoch": 0.912, + "grad_norm": 0.09711569547653198, + "learning_rate": 0.00034804000000000004, + "loss": 6.1092, + "step": 11400 + }, + { + "epoch": 0.916, + "grad_norm": 0.11210755258798599, + "learning_rate": 0.0003473733333333333, + "loss": 6.1422, + "step": 11450 + }, + { + "epoch": 0.92, + "grad_norm": 0.07598470896482468, + "learning_rate": 0.00034670666666666665, + "loss": 6.133, + "step": 11500 + }, + { + "epoch": 0.924, + "grad_norm": 0.08543366193771362, + "learning_rate": 0.00034604000000000004, + "loss": 6.1384, + "step": 11550 + }, + { + "epoch": 0.928, + "grad_norm": 0.1102716326713562, + "learning_rate": 0.0003453733333333333, + "loss": 6.1346, + "step": 11600 + }, + { + "epoch": 0.932, + "grad_norm": 0.10113808512687683, + "learning_rate": 0.00034470666666666666, + "loss": 6.1563, + "step": 11650 + }, + { + "epoch": 0.936, + "grad_norm": 0.09919101744890213, + "learning_rate": 0.00034404000000000005, + "loss": 6.1495, + "step": 11700 + }, + { + "epoch": 0.94, + "grad_norm": 0.0859888419508934, + "learning_rate": 0.00034337333333333333, + "loss": 6.1546, + "step": 11750 + }, + { + "epoch": 0.944, + "grad_norm": 0.07188451290130615, + "learning_rate": 0.00034270666666666666, + "loss": 6.1401, + "step": 11800 + }, + { + "epoch": 0.948, + "grad_norm": 0.09451431035995483, + "learning_rate": 0.00034204, + "loss": 6.1285, + "step": 11850 + }, + { + "epoch": 0.952, + "grad_norm": 0.12343863397836685, + "learning_rate": 0.00034137333333333333, + "loss": 6.1657, + "step": 11900 + }, + { + "epoch": 0.956, + "grad_norm": 0.06947904080152512, + "learning_rate": 0.00034070666666666667, + "loss": 6.1313, + "step": 11950 + }, + { + "epoch": 0.96, + "grad_norm": 0.10269363969564438, + "learning_rate": 0.00034004, + "loss": 6.1357, + "step": 12000 + }, + { + "epoch": 0.964, + "grad_norm": 0.061956118792295456, + "learning_rate": 0.0003393733333333334, + "loss": 6.1673, + "step": 12050 + }, + { + "epoch": 0.968, + "grad_norm": 0.07338792830705643, + "learning_rate": 0.0003387066666666667, + "loss": 6.1374, + "step": 12100 + }, + { + "epoch": 0.972, + "grad_norm": 0.0828167125582695, + "learning_rate": 0.00033804, + "loss": 6.1399, + "step": 12150 + }, + { + "epoch": 0.976, + "grad_norm": 0.1011744812130928, + "learning_rate": 0.00033737333333333334, + "loss": 6.1104, + "step": 12200 + }, + { + "epoch": 0.98, + "grad_norm": 0.08904950320720673, + "learning_rate": 0.0003367066666666667, + "loss": 6.1481, + "step": 12250 + }, + { + "epoch": 0.984, + "grad_norm": 0.1888546347618103, + "learning_rate": 0.00033604, + "loss": 6.1276, + "step": 12300 + }, + { + "epoch": 0.988, + "grad_norm": 0.08079323917627335, + "learning_rate": 0.00033537333333333335, + "loss": 6.1638, + "step": 12350 + }, + { + "epoch": 0.992, + "grad_norm": 0.10190458595752716, + "learning_rate": 0.0003347066666666667, + "loss": 6.1159, + "step": 12400 + }, + { + "epoch": 0.996, + "grad_norm": 0.08592880517244339, + "learning_rate": 0.00033404, + "loss": 6.1186, + "step": 12450 + }, + { + "epoch": 1.0, + "grad_norm": 0.1583154797554016, + "learning_rate": 0.00033337333333333336, + "loss": 6.1256, + "step": 12500 + }, { "epoch": 1.0, - "eval_bleu": 0.0, - "eval_cer": 0.9994926085469246, - "eval_f1": 0.0, - "eval_loss": NaN, - "eval_meteor": 0.0, - "eval_runtime": 9.4006, - "eval_samples_per_second": 10.638, - "eval_steps_per_second": 10.638, - "eval_wer": 1.0, - "step": 7 + "eval_bleu": 0.7995372681306891, + "eval_cer": 0.030366360236151205, + "eval_f1": 0.9118213924083076, + "eval_loss": 6.115033149719238, + "eval_meteor": 0.9020218160778495, + "eval_runtime": 589.9282, + "eval_samples_per_second": 8.476, + "eval_steps_per_second": 0.266, + "eval_wer": 0.09516401040134903, + "step": 12500 + }, + { + "epoch": 1.004, + "grad_norm": 0.1088235154747963, + "learning_rate": 0.00033270666666666664, + "loss": 6.1245, + "step": 12550 + }, + { + "epoch": 1.008, + "grad_norm": 0.14619402587413788, + "learning_rate": 0.00033204, + "loss": 6.1316, + "step": 12600 + }, + { + "epoch": 1.012, + "grad_norm": 0.08536680787801743, + "learning_rate": 0.00033137333333333336, + "loss": 6.1599, + "step": 12650 + }, + { + "epoch": 1.016, + "grad_norm": 0.06968214362859726, + "learning_rate": 0.00033070666666666664, + "loss": 6.0956, + "step": 12700 + }, + { + "epoch": 1.02, + "grad_norm": 0.07364306598901749, + "learning_rate": 0.00033004000000000003, + "loss": 6.114, + "step": 12750 + }, + { + "epoch": 1.024, + "grad_norm": 0.09717796742916107, + "learning_rate": 0.00032937333333333337, + "loss": 6.1384, + "step": 12800 + }, + { + "epoch": 1.028, + "grad_norm": 0.08217481523752213, + "learning_rate": 0.00032870666666666665, + "loss": 6.131, + "step": 12850 + }, + { + "epoch": 1.032, + "grad_norm": 0.07433569431304932, + "learning_rate": 0.00032804, + "loss": 6.119, + "step": 12900 + }, + { + "epoch": 1.036, + "grad_norm": 0.1044766753911972, + "learning_rate": 0.00032737333333333337, + "loss": 6.1263, + "step": 12950 + }, + { + "epoch": 1.04, + "grad_norm": 0.08765199780464172, + "learning_rate": 0.00032670666666666665, + "loss": 6.1134, + "step": 13000 + }, + { + "epoch": 1.044, + "grad_norm": 0.1728278547525406, + "learning_rate": 0.00032604, + "loss": 6.1047, + "step": 13050 + }, + { + "epoch": 1.048, + "grad_norm": 0.1502096951007843, + "learning_rate": 0.0003253733333333334, + "loss": 6.1091, + "step": 13100 + }, + { + "epoch": 1.052, + "grad_norm": 0.08799701929092407, + "learning_rate": 0.00032470666666666666, + "loss": 6.1011, + "step": 13150 + }, + { + "epoch": 1.056, + "grad_norm": 0.1453343778848648, + "learning_rate": 0.00032404, + "loss": 6.1424, + "step": 13200 + }, + { + "epoch": 1.06, + "grad_norm": 0.2136784940958023, + "learning_rate": 0.00032337333333333333, + "loss": 6.1325, + "step": 13250 + }, + { + "epoch": 1.064, + "grad_norm": 0.10065055638551712, + "learning_rate": 0.00032270666666666666, + "loss": 6.1361, + "step": 13300 + }, + { + "epoch": 1.068, + "grad_norm": 0.08612313866615295, + "learning_rate": 0.00032204, + "loss": 6.151, + "step": 13350 + }, + { + "epoch": 1.072, + "grad_norm": 0.10783877223730087, + "learning_rate": 0.00032137333333333334, + "loss": 6.1349, + "step": 13400 + }, + { + "epoch": 1.076, + "grad_norm": 0.06575068086385727, + "learning_rate": 0.00032070666666666667, + "loss": 6.1573, + "step": 13450 + }, + { + "epoch": 1.08, + "grad_norm": 0.08412425965070724, + "learning_rate": 0.00032004, + "loss": 6.1327, + "step": 13500 + }, + { + "epoch": 1.084, + "grad_norm": 0.07987543940544128, + "learning_rate": 0.00031937333333333334, + "loss": 6.1475, + "step": 13550 + }, + { + "epoch": 1.088, + "grad_norm": 0.18939942121505737, + "learning_rate": 0.0003187066666666667, + "loss": 6.1343, + "step": 13600 + }, + { + "epoch": 1.092, + "grad_norm": 0.07109981030225754, + "learning_rate": 0.00031804, + "loss": 6.1208, + "step": 13650 + }, + { + "epoch": 1.096, + "grad_norm": 0.14232422411441803, + "learning_rate": 0.00031737333333333335, + "loss": 6.1355, + "step": 13700 + }, + { + "epoch": 1.1, + "grad_norm": 0.08082246035337448, + "learning_rate": 0.0003167066666666667, + "loss": 6.1213, + "step": 13750 + }, + { + "epoch": 1.104, + "grad_norm": 0.07012423872947693, + "learning_rate": 0.00031604, + "loss": 6.1442, + "step": 13800 + }, + { + "epoch": 1.108, + "grad_norm": 0.08353628218173981, + "learning_rate": 0.00031537333333333335, + "loss": 6.1394, + "step": 13850 + }, + { + "epoch": 1.112, + "grad_norm": 0.07532083243131638, + "learning_rate": 0.0003147066666666667, + "loss": 6.1138, + "step": 13900 + }, + { + "epoch": 1.116, + "grad_norm": 0.08878076076507568, + "learning_rate": 0.00031403999999999997, + "loss": 6.0984, + "step": 13950 + }, + { + "epoch": 1.12, + "grad_norm": 0.07699454575777054, + "learning_rate": 0.00031337333333333336, + "loss": 6.1413, + "step": 14000 + }, + { + "epoch": 1.124, + "grad_norm": 0.09743419289588928, + "learning_rate": 0.0003127066666666667, + "loss": 6.1388, + "step": 14050 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 0.07804418355226517, + "learning_rate": 0.00031204, + "loss": 6.1115, + "step": 14100 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 0.08637243509292603, + "learning_rate": 0.00031137333333333336, + "loss": 6.1377, + "step": 14150 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 0.08408474922180176, + "learning_rate": 0.0003107066666666667, + "loss": 6.1374, + "step": 14200 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 0.1243443563580513, + "learning_rate": 0.00031004, + "loss": 6.1221, + "step": 14250 + }, + { + "epoch": 1.144, + "grad_norm": 0.07794096320867538, + "learning_rate": 0.0003093733333333333, + "loss": 6.1485, + "step": 14300 + }, + { + "epoch": 1.148, + "grad_norm": 0.08038461208343506, + "learning_rate": 0.0003087066666666667, + "loss": 6.1506, + "step": 14350 + }, + { + "epoch": 1.152, + "grad_norm": 0.08340616524219513, + "learning_rate": 0.00030804, + "loss": 6.1489, + "step": 14400 + }, + { + "epoch": 1.156, + "grad_norm": 0.1211434081196785, + "learning_rate": 0.0003073733333333333, + "loss": 6.1438, + "step": 14450 + }, + { + "epoch": 1.16, + "grad_norm": 0.1488044708967209, + "learning_rate": 0.0003067066666666667, + "loss": 6.1263, + "step": 14500 + }, + { + "epoch": 1.164, + "grad_norm": 0.10393700003623962, + "learning_rate": 0.00030604, + "loss": 6.1096, + "step": 14550 + }, + { + "epoch": 1.168, + "grad_norm": 0.07413198798894882, + "learning_rate": 0.0003053733333333333, + "loss": 6.162, + "step": 14600 + }, + { + "epoch": 1.172, + "grad_norm": 0.12798531353473663, + "learning_rate": 0.00030470666666666666, + "loss": 6.1012, + "step": 14650 + }, + { + "epoch": 1.176, + "grad_norm": 0.09617897123098373, + "learning_rate": 0.00030404, + "loss": 6.1497, + "step": 14700 + }, + { + "epoch": 1.18, + "grad_norm": 0.11101476103067398, + "learning_rate": 0.00030337333333333333, + "loss": 6.141, + "step": 14750 + }, + { + "epoch": 1.184, + "grad_norm": 0.12121427059173584, + "learning_rate": 0.00030270666666666667, + "loss": 6.138, + "step": 14800 + }, + { + "epoch": 1.188, + "grad_norm": 0.09279973804950714, + "learning_rate": 0.00030204, + "loss": 6.1375, + "step": 14850 + }, + { + "epoch": 1.192, + "grad_norm": 0.08456185460090637, + "learning_rate": 0.00030137333333333334, + "loss": 6.121, + "step": 14900 + }, + { + "epoch": 1.196, + "grad_norm": 0.10345940291881561, + "learning_rate": 0.00030070666666666667, + "loss": 6.1118, + "step": 14950 + }, + { + "epoch": 1.2, + "grad_norm": 0.08513045310974121, + "learning_rate": 0.00030003999999999995, + "loss": 6.1392, + "step": 15000 + }, + { + "epoch": 1.204, + "grad_norm": 0.15066863596439362, + "learning_rate": 0.00029937333333333334, + "loss": 6.1292, + "step": 15050 + }, + { + "epoch": 1.208, + "grad_norm": 0.09752634912729263, + "learning_rate": 0.0002987066666666667, + "loss": 6.0854, + "step": 15100 + }, + { + "epoch": 1.212, + "grad_norm": 0.06856788694858551, + "learning_rate": 0.00029804, + "loss": 6.1548, + "step": 15150 + }, + { + "epoch": 1.216, + "grad_norm": 0.07196564227342606, + "learning_rate": 0.00029737333333333335, + "loss": 6.1483, + "step": 15200 + }, + { + "epoch": 1.22, + "grad_norm": 0.11761686950922012, + "learning_rate": 0.0002967066666666667, + "loss": 6.108, + "step": 15250 + }, + { + "epoch": 1.224, + "grad_norm": 0.11497968435287476, + "learning_rate": 0.00029604, + "loss": 6.1335, + "step": 15300 + }, + { + "epoch": 1.228, + "grad_norm": 0.09549636393785477, + "learning_rate": 0.00029537333333333335, + "loss": 6.0952, + "step": 15350 + }, + { + "epoch": 1.232, + "grad_norm": 0.08787547796964645, + "learning_rate": 0.0002947066666666667, + "loss": 6.1297, + "step": 15400 + }, + { + "epoch": 1.236, + "grad_norm": 0.08563657850027084, + "learning_rate": 0.00029404, + "loss": 6.1299, + "step": 15450 + }, + { + "epoch": 1.24, + "grad_norm": 0.08820952475070953, + "learning_rate": 0.0002933733333333333, + "loss": 6.1426, + "step": 15500 + }, + { + "epoch": 1.244, + "grad_norm": 0.11025594919919968, + "learning_rate": 0.0002927066666666667, + "loss": 6.0913, + "step": 15550 + }, + { + "epoch": 1.248, + "grad_norm": 0.08784265071153641, + "learning_rate": 0.00029204000000000003, + "loss": 6.1333, + "step": 15600 + }, + { + "epoch": 1.252, + "grad_norm": 0.06103042885661125, + "learning_rate": 0.0002913733333333333, + "loss": 6.157, + "step": 15650 + }, + { + "epoch": 1.256, + "grad_norm": 0.08425799757242203, + "learning_rate": 0.0002907066666666667, + "loss": 6.1414, + "step": 15700 + }, + { + "epoch": 1.26, + "grad_norm": 0.09107000380754471, + "learning_rate": 0.00029004000000000004, + "loss": 6.128, + "step": 15750 + }, + { + "epoch": 1.264, + "grad_norm": 0.11721521615982056, + "learning_rate": 0.0002893733333333333, + "loss": 6.1328, + "step": 15800 + }, + { + "epoch": 1.268, + "grad_norm": 0.09568388760089874, + "learning_rate": 0.00028870666666666665, + "loss": 6.1357, + "step": 15850 + }, + { + "epoch": 1.272, + "grad_norm": 0.10155589133501053, + "learning_rate": 0.00028804000000000004, + "loss": 6.1342, + "step": 15900 + }, + { + "epoch": 1.276, + "grad_norm": 0.13752900063991547, + "learning_rate": 0.0002873733333333333, + "loss": 6.1321, + "step": 15950 + }, + { + "epoch": 1.28, + "grad_norm": 0.07466930150985718, + "learning_rate": 0.00028670666666666666, + "loss": 6.1111, + "step": 16000 + }, + { + "epoch": 1.284, + "grad_norm": 0.09076645970344543, + "learning_rate": 0.00028604000000000005, + "loss": 6.1503, + "step": 16050 + }, + { + "epoch": 1.288, + "grad_norm": 0.09673663228750229, + "learning_rate": 0.00028537333333333333, + "loss": 6.1247, + "step": 16100 + }, + { + "epoch": 1.292, + "grad_norm": 0.09689677506685257, + "learning_rate": 0.00028470666666666666, + "loss": 6.1438, + "step": 16150 + }, + { + "epoch": 1.296, + "grad_norm": 0.08582115173339844, + "learning_rate": 0.00028404, + "loss": 6.1026, + "step": 16200 + }, + { + "epoch": 1.3, + "grad_norm": 0.06580589711666107, + "learning_rate": 0.00028337333333333333, + "loss": 6.1356, + "step": 16250 + }, + { + "epoch": 1.304, + "grad_norm": 0.07466253638267517, + "learning_rate": 0.00028270666666666667, + "loss": 6.1119, + "step": 16300 + }, + { + "epoch": 1.308, + "grad_norm": 0.08360084891319275, + "learning_rate": 0.00028204, + "loss": 6.106, + "step": 16350 + }, + { + "epoch": 1.312, + "grad_norm": 0.09959370642900467, + "learning_rate": 0.00028137333333333334, + "loss": 6.1366, + "step": 16400 + }, + { + "epoch": 1.316, + "grad_norm": 0.1362200379371643, + "learning_rate": 0.0002807066666666667, + "loss": 6.1247, + "step": 16450 + }, + { + "epoch": 1.32, + "grad_norm": 0.09656199812889099, + "learning_rate": 0.00028004, + "loss": 6.1367, + "step": 16500 + }, + { + "epoch": 1.324, + "grad_norm": 0.10894264280796051, + "learning_rate": 0.0002793733333333333, + "loss": 6.1547, + "step": 16550 + }, + { + "epoch": 1.328, + "grad_norm": 0.16204901039600372, + "learning_rate": 0.0002787066666666667, + "loss": 6.1181, + "step": 16600 + }, + { + "epoch": 1.332, + "grad_norm": 0.07494725286960602, + "learning_rate": 0.00027804, + "loss": 6.1121, + "step": 16650 + }, + { + "epoch": 1.336, + "grad_norm": 0.08796348422765732, + "learning_rate": 0.00027737333333333335, + "loss": 6.1512, + "step": 16700 + }, + { + "epoch": 1.34, + "grad_norm": 0.08645831048488617, + "learning_rate": 0.0002767066666666667, + "loss": 6.0933, + "step": 16750 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 0.08027906715869904, + "learning_rate": 0.00027604, + "loss": 6.1366, + "step": 16800 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 0.09457040578126907, + "learning_rate": 0.00027537333333333336, + "loss": 6.0917, + "step": 16850 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 0.07643978297710419, + "learning_rate": 0.00027470666666666664, + "loss": 6.1456, + "step": 16900 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 0.11894559860229492, + "learning_rate": 0.00027404, + "loss": 6.1335, + "step": 16950 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 0.07458426058292389, + "learning_rate": 0.00027337333333333336, + "loss": 6.114, + "step": 17000 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 0.2044578194618225, + "learning_rate": 0.00027270666666666664, + "loss": 6.1294, + "step": 17050 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 0.08873511850833893, + "learning_rate": 0.00027205333333333334, + "loss": 6.1305, + "step": 17100 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 0.08227358758449554, + "learning_rate": 0.0002713866666666667, + "loss": 6.1525, + "step": 17150 + }, + { + "epoch": 1.376, + "grad_norm": 0.0750478208065033, + "learning_rate": 0.00027072, + "loss": 6.1486, + "step": 17200 + }, + { + "epoch": 1.38, + "grad_norm": 0.07646878063678741, + "learning_rate": 0.0002700533333333333, + "loss": 6.1058, + "step": 17250 + }, + { + "epoch": 1.384, + "grad_norm": 0.2076842039823532, + "learning_rate": 0.0002693866666666667, + "loss": 6.1503, + "step": 17300 + }, + { + "epoch": 1.388, + "grad_norm": 0.061696745455265045, + "learning_rate": 0.00026872, + "loss": 6.1336, + "step": 17350 + }, + { + "epoch": 1.392, + "grad_norm": 0.07082093507051468, + "learning_rate": 0.0002680533333333333, + "loss": 6.1233, + "step": 17400 + }, + { + "epoch": 1.396, + "grad_norm": 0.07677255570888519, + "learning_rate": 0.0002673866666666667, + "loss": 6.1124, + "step": 17450 + }, + { + "epoch": 1.4, + "grad_norm": 0.07728563249111176, + "learning_rate": 0.00026672, + "loss": 6.1254, + "step": 17500 + }, + { + "epoch": 1.404, + "grad_norm": 0.08721369504928589, + "learning_rate": 0.0002660533333333333, + "loss": 6.1165, + "step": 17550 + }, + { + "epoch": 1.408, + "grad_norm": 0.08908843994140625, + "learning_rate": 0.0002653866666666667, + "loss": 6.1137, + "step": 17600 + }, + { + "epoch": 1.412, + "grad_norm": 0.0802750512957573, + "learning_rate": 0.00026472, + "loss": 6.137, + "step": 17650 + }, + { + "epoch": 1.416, + "grad_norm": 0.09379253536462784, + "learning_rate": 0.0002640533333333333, + "loss": 6.1429, + "step": 17700 + }, + { + "epoch": 1.42, + "grad_norm": 0.09145001322031021, + "learning_rate": 0.00026338666666666664, + "loss": 6.1638, + "step": 17750 + }, + { + "epoch": 1.424, + "grad_norm": 0.08691798895597458, + "learning_rate": 0.00026272000000000003, + "loss": 6.1231, + "step": 17800 + }, + { + "epoch": 1.428, + "grad_norm": 0.1062631905078888, + "learning_rate": 0.00026205333333333337, + "loss": 6.102, + "step": 17850 + }, + { + "epoch": 1.432, + "grad_norm": 0.09666631370782852, + "learning_rate": 0.00026138666666666665, + "loss": 6.1368, + "step": 17900 + }, + { + "epoch": 1.436, + "grad_norm": 0.1032392755150795, + "learning_rate": 0.00026072000000000004, + "loss": 6.095, + "step": 17950 + }, + { + "epoch": 1.44, + "grad_norm": 0.0690690279006958, + "learning_rate": 0.0002600533333333334, + "loss": 6.1333, + "step": 18000 + }, + { + "epoch": 1.444, + "grad_norm": 0.09867589175701141, + "learning_rate": 0.00025938666666666665, + "loss": 6.1353, + "step": 18050 + }, + { + "epoch": 1.448, + "grad_norm": 0.08560248464345932, + "learning_rate": 0.00025872, + "loss": 6.1175, + "step": 18100 + }, + { + "epoch": 1.452, + "grad_norm": 0.08767534047365189, + "learning_rate": 0.0002580533333333334, + "loss": 6.1553, + "step": 18150 + }, + { + "epoch": 1.456, + "grad_norm": 0.1288089007139206, + "learning_rate": 0.00025738666666666666, + "loss": 6.1317, + "step": 18200 + }, + { + "epoch": 1.46, + "grad_norm": 0.07840058207511902, + "learning_rate": 0.00025672, + "loss": 6.1455, + "step": 18250 + }, + { + "epoch": 1.464, + "grad_norm": 0.08922507613897324, + "learning_rate": 0.0002560533333333334, + "loss": 6.1477, + "step": 18300 + }, + { + "epoch": 1.468, + "grad_norm": 0.0734248012304306, + "learning_rate": 0.00025538666666666667, + "loss": 6.1454, + "step": 18350 + }, + { + "epoch": 1.472, + "grad_norm": 0.11283086240291595, + "learning_rate": 0.00025472, + "loss": 6.1382, + "step": 18400 + }, + { + "epoch": 1.476, + "grad_norm": 0.10328733175992966, + "learning_rate": 0.00025405333333333334, + "loss": 6.1116, + "step": 18450 + }, + { + "epoch": 1.48, + "grad_norm": 0.17041072249412537, + "learning_rate": 0.00025338666666666667, + "loss": 6.1192, + "step": 18500 + }, + { + "epoch": 1.484, + "grad_norm": 0.08879195898771286, + "learning_rate": 0.00025272, + "loss": 6.1373, + "step": 18550 + }, + { + "epoch": 1.488, + "grad_norm": 0.08262701332569122, + "learning_rate": 0.00025205333333333334, + "loss": 6.1231, + "step": 18600 + }, + { + "epoch": 1.492, + "grad_norm": 0.07616383582353592, + "learning_rate": 0.0002513866666666667, + "loss": 6.1257, + "step": 18650 + }, + { + "epoch": 1.496, + "grad_norm": 0.1372746080160141, + "learning_rate": 0.00025072, + "loss": 6.1394, + "step": 18700 + }, + { + "epoch": 1.5, + "grad_norm": 0.09357302635908127, + "learning_rate": 0.00025005333333333335, + "loss": 6.1241, + "step": 18750 + }, + { + "epoch": 1.504, + "grad_norm": 0.0740058645606041, + "learning_rate": 0.0002493866666666667, + "loss": 6.1392, + "step": 18800 + }, + { + "epoch": 1.508, + "grad_norm": 0.09194362163543701, + "learning_rate": 0.00024872, + "loss": 6.1454, + "step": 18850 + }, + { + "epoch": 1.512, + "grad_norm": 0.1513901650905609, + "learning_rate": 0.0002480533333333333, + "loss": 6.1432, + "step": 18900 + }, + { + "epoch": 1.516, + "grad_norm": 0.11606410145759583, + "learning_rate": 0.0002473866666666667, + "loss": 6.1363, + "step": 18950 + }, + { + "epoch": 1.52, + "grad_norm": 0.11996625363826752, + "learning_rate": 0.00024672, + "loss": 6.1147, + "step": 19000 + }, + { + "epoch": 1.524, + "grad_norm": 0.06401240080595016, + "learning_rate": 0.00024605333333333336, + "loss": 6.1377, + "step": 19050 + }, + { + "epoch": 1.528, + "grad_norm": 0.09013175964355469, + "learning_rate": 0.0002453866666666667, + "loss": 6.116, + "step": 19100 + }, + { + "epoch": 1.532, + "grad_norm": 0.12328334897756577, + "learning_rate": 0.00024472, + "loss": 6.1289, + "step": 19150 + }, + { + "epoch": 1.536, + "grad_norm": 0.07706048339605331, + "learning_rate": 0.00024405333333333334, + "loss": 6.1308, + "step": 19200 + }, + { + "epoch": 1.54, + "grad_norm": 0.08806943893432617, + "learning_rate": 0.00024338666666666667, + "loss": 6.1503, + "step": 19250 + }, + { + "epoch": 1.544, + "grad_norm": 0.07804612070322037, + "learning_rate": 0.00024272, + "loss": 6.1364, + "step": 19300 + }, + { + "epoch": 1.548, + "grad_norm": 0.0912741869688034, + "learning_rate": 0.00024205333333333334, + "loss": 6.1323, + "step": 19350 + }, + { + "epoch": 1.552, + "grad_norm": 0.11907844990491867, + "learning_rate": 0.00024138666666666668, + "loss": 6.1211, + "step": 19400 + }, + { + "epoch": 1.556, + "grad_norm": 0.17449723184108734, + "learning_rate": 0.00024071999999999999, + "loss": 6.1569, + "step": 19450 + }, + { + "epoch": 1.56, + "grad_norm": 0.08113750070333481, + "learning_rate": 0.00024005333333333335, + "loss": 6.1166, + "step": 19500 + }, + { + "epoch": 1.564, + "grad_norm": 0.08905630558729172, + "learning_rate": 0.00023938666666666666, + "loss": 6.1437, + "step": 19550 + }, + { + "epoch": 1.568, + "grad_norm": 0.12490048259496689, + "learning_rate": 0.00023872, + "loss": 6.1509, + "step": 19600 + }, + { + "epoch": 1.572, + "grad_norm": 0.08738457411527634, + "learning_rate": 0.00023805333333333335, + "loss": 6.1463, + "step": 19650 + }, + { + "epoch": 1.576, + "grad_norm": 0.14799749851226807, + "learning_rate": 0.00023738666666666666, + "loss": 6.1037, + "step": 19700 + }, + { + "epoch": 1.58, + "grad_norm": 0.06769344210624695, + "learning_rate": 0.00023672000000000002, + "loss": 6.1497, + "step": 19750 + }, + { + "epoch": 1.584, + "grad_norm": 0.10938281565904617, + "learning_rate": 0.00023605333333333333, + "loss": 6.1118, + "step": 19800 + }, + { + "epoch": 1.588, + "grad_norm": 0.08344705402851105, + "learning_rate": 0.00023538666666666667, + "loss": 6.1199, + "step": 19850 + }, + { + "epoch": 1.592, + "grad_norm": 0.14386941492557526, + "learning_rate": 0.00023472000000000003, + "loss": 6.1229, + "step": 19900 + }, + { + "epoch": 1.596, + "grad_norm": 0.07731454819440842, + "learning_rate": 0.00023405333333333334, + "loss": 6.1439, + "step": 19950 + }, + { + "epoch": 1.6, + "grad_norm": 0.0755479633808136, + "learning_rate": 0.00023338666666666667, + "loss": 6.155, + "step": 20000 + }, + { + "epoch": 1.604, + "grad_norm": 0.0744314193725586, + "learning_rate": 0.00023272, + "loss": 6.1217, + "step": 20050 + }, + { + "epoch": 1.608, + "grad_norm": 0.06846653670072556, + "learning_rate": 0.00023206666666666668, + "loss": 6.1155, + "step": 20100 + }, + { + "epoch": 1.612, + "grad_norm": 0.09221585839986801, + "learning_rate": 0.0002314, + "loss": 6.1049, + "step": 20150 + }, + { + "epoch": 1.616, + "grad_norm": 0.0822395533323288, + "learning_rate": 0.00023073333333333335, + "loss": 6.1521, + "step": 20200 + }, + { + "epoch": 1.62, + "grad_norm": 0.09295441955327988, + "learning_rate": 0.00023006666666666668, + "loss": 6.1393, + "step": 20250 + }, + { + "epoch": 1.624, + "grad_norm": 0.09227140247821808, + "learning_rate": 0.0002294, + "loss": 6.1574, + "step": 20300 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 0.07955559343099594, + "learning_rate": 0.00022873333333333335, + "loss": 6.1071, + "step": 20350 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 0.09234923869371414, + "learning_rate": 0.00022806666666666666, + "loss": 6.1369, + "step": 20400 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 0.09684661030769348, + "learning_rate": 0.0002274, + "loss": 6.1346, + "step": 20450 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 0.08736401051282883, + "learning_rate": 0.00022673333333333336, + "loss": 6.0995, + "step": 20500 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 0.08277806639671326, + "learning_rate": 0.00022606666666666667, + "loss": 6.098, + "step": 20550 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 0.11574963480234146, + "learning_rate": 0.0002254, + "loss": 6.1045, + "step": 20600 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 0.07442941516637802, + "learning_rate": 0.00022473333333333334, + "loss": 6.1246, + "step": 20650 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 0.09945354610681534, + "learning_rate": 0.00022406666666666667, + "loss": 6.1361, + "step": 20700 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 0.0927756130695343, + "learning_rate": 0.00022339999999999998, + "loss": 6.1212, + "step": 20750 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 0.07912717759609222, + "learning_rate": 0.00022273333333333334, + "loss": 6.1331, + "step": 20800 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 0.11761283874511719, + "learning_rate": 0.00022206666666666668, + "loss": 6.1411, + "step": 20850 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 0.0674104392528534, + "learning_rate": 0.00022140000000000001, + "loss": 6.1181, + "step": 20900 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 0.08749347180128098, + "learning_rate": 0.00022073333333333335, + "loss": 6.1103, + "step": 20950 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 0.0970534160733223, + "learning_rate": 0.00022006666666666666, + "loss": 6.1635, + "step": 21000 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 0.09466703981161118, + "learning_rate": 0.00021940000000000002, + "loss": 6.1516, + "step": 21050 + }, + { + "epoch": 1.688, + "grad_norm": 0.07698915153741837, + "learning_rate": 0.00021873333333333333, + "loss": 6.1193, + "step": 21100 + }, + { + "epoch": 1.692, + "grad_norm": 0.06014780327677727, + "learning_rate": 0.00021806666666666666, + "loss": 6.1283, + "step": 21150 + }, + { + "epoch": 1.696, + "grad_norm": 0.10710900276899338, + "learning_rate": 0.00021740000000000003, + "loss": 6.1378, + "step": 21200 + }, + { + "epoch": 1.7, + "grad_norm": 0.0796588733792305, + "learning_rate": 0.00021673333333333333, + "loss": 6.1172, + "step": 21250 + }, + { + "epoch": 1.704, + "grad_norm": 0.09120773524045944, + "learning_rate": 0.00021606666666666667, + "loss": 6.1204, + "step": 21300 + }, + { + "epoch": 1.708, + "grad_norm": 0.13685761392116547, + "learning_rate": 0.0002154, + "loss": 6.1172, + "step": 21350 + }, + { + "epoch": 1.712, + "grad_norm": 0.07200626283884048, + "learning_rate": 0.00021473333333333334, + "loss": 6.1106, + "step": 21400 + }, + { + "epoch": 1.716, + "grad_norm": 0.11761701107025146, + "learning_rate": 0.00021406666666666665, + "loss": 6.1266, + "step": 21450 + }, + { + "epoch": 1.72, + "grad_norm": 0.1559247225522995, + "learning_rate": 0.0002134, + "loss": 6.108, + "step": 21500 + }, + { + "epoch": 1.724, + "grad_norm": 0.07047467678785324, + "learning_rate": 0.00021273333333333335, + "loss": 6.1521, + "step": 21550 + }, + { + "epoch": 1.728, + "grad_norm": 0.07625342905521393, + "learning_rate": 0.00021206666666666665, + "loss": 6.1162, + "step": 21600 + }, + { + "epoch": 1.732, + "grad_norm": 0.09841157495975494, + "learning_rate": 0.00021140000000000002, + "loss": 6.1092, + "step": 21650 + }, + { + "epoch": 1.736, + "grad_norm": 0.1515773981809616, + "learning_rate": 0.00021073333333333332, + "loss": 6.1247, + "step": 21700 + }, + { + "epoch": 1.74, + "grad_norm": 0.07497995346784592, + "learning_rate": 0.00021006666666666669, + "loss": 6.1198, + "step": 21750 + }, + { + "epoch": 1.744, + "grad_norm": 0.08322889357805252, + "learning_rate": 0.0002094, + "loss": 6.1347, + "step": 21800 + }, + { + "epoch": 1.748, + "grad_norm": 0.1281735599040985, + "learning_rate": 0.00020873333333333333, + "loss": 6.1412, + "step": 21850 + }, + { + "epoch": 1.752, + "grad_norm": 0.08412302285432816, + "learning_rate": 0.0002080666666666667, + "loss": 6.161, + "step": 21900 + }, + { + "epoch": 1.756, + "grad_norm": 0.10882619768381119, + "learning_rate": 0.0002074, + "loss": 6.1361, + "step": 21950 + }, + { + "epoch": 1.76, + "grad_norm": 0.09710519015789032, + "learning_rate": 0.00020673333333333333, + "loss": 6.115, + "step": 22000 + }, + { + "epoch": 1.764, + "grad_norm": 0.10905112326145172, + "learning_rate": 0.00020606666666666667, + "loss": 6.1676, + "step": 22050 + }, + { + "epoch": 1.768, + "grad_norm": 0.08183619379997253, + "learning_rate": 0.0002054, + "loss": 6.1424, + "step": 22100 + }, + { + "epoch": 1.772, + "grad_norm": 0.1097608208656311, + "learning_rate": 0.00020474666666666668, + "loss": 6.123, + "step": 22150 + }, + { + "epoch": 1.776, + "grad_norm": 0.0719539225101471, + "learning_rate": 0.00020408, + "loss": 6.1355, + "step": 22200 + }, + { + "epoch": 1.78, + "grad_norm": 0.11873086541891098, + "learning_rate": 0.00020341333333333335, + "loss": 6.1406, + "step": 22250 + }, + { + "epoch": 1.784, + "grad_norm": 0.08480535447597504, + "learning_rate": 0.00020274666666666665, + "loss": 6.1052, + "step": 22300 + }, + { + "epoch": 1.788, + "grad_norm": 0.09004438668489456, + "learning_rate": 0.00020208000000000002, + "loss": 6.1362, + "step": 22350 + }, + { + "epoch": 1.792, + "grad_norm": 0.09184271842241287, + "learning_rate": 0.00020141333333333332, + "loss": 6.1526, + "step": 22400 + }, + { + "epoch": 1.796, + "grad_norm": 0.1007433533668518, + "learning_rate": 0.00020074666666666666, + "loss": 6.1111, + "step": 22450 + }, + { + "epoch": 1.8, + "grad_norm": 0.15147453546524048, + "learning_rate": 0.00020008000000000002, + "loss": 6.1322, + "step": 22500 + }, + { + "epoch": 1.804, + "grad_norm": 0.07061131298542023, + "learning_rate": 0.00019941333333333333, + "loss": 6.1305, + "step": 22550 + }, + { + "epoch": 1.808, + "grad_norm": 0.07813531160354614, + "learning_rate": 0.00019874666666666667, + "loss": 6.1495, + "step": 22600 + }, + { + "epoch": 1.812, + "grad_norm": 0.07356473058462143, + "learning_rate": 0.00019808, + "loss": 6.0949, + "step": 22650 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 0.0641862079501152, + "learning_rate": 0.00019741333333333334, + "loss": 6.1279, + "step": 22700 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 0.08949114382266998, + "learning_rate": 0.00019674666666666664, + "loss": 6.1809, + "step": 22750 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 0.07792693376541138, + "learning_rate": 0.00019608, + "loss": 6.1448, + "step": 22800 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 0.07246623933315277, + "learning_rate": 0.00019541333333333334, + "loss": 6.1459, + "step": 22850 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 0.07589177787303925, + "learning_rate": 0.00019474666666666668, + "loss": 6.0945, + "step": 22900 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 0.08631810545921326, + "learning_rate": 0.00019408, + "loss": 6.1334, + "step": 22950 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 0.11569676548242569, + "learning_rate": 0.00019341333333333332, + "loss": 6.141, + "step": 23000 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 0.07531487196683884, + "learning_rate": 0.00019274666666666668, + "loss": 6.1233, + "step": 23050 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 0.08743354678153992, + "learning_rate": 0.00019208000000000002, + "loss": 6.1203, + "step": 23100 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 0.16395872831344604, + "learning_rate": 0.00019141333333333333, + "loss": 6.12, + "step": 23150 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 0.09209359437227249, + "learning_rate": 0.0001907466666666667, + "loss": 6.1066, + "step": 23200 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 0.06615041941404343, + "learning_rate": 0.00019008, + "loss": 6.117, + "step": 23250 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 0.08748790621757507, + "learning_rate": 0.00018941333333333333, + "loss": 6.1504, + "step": 23300 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 0.07904337346553802, + "learning_rate": 0.00018874666666666667, + "loss": 6.114, + "step": 23350 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 0.1026885136961937, + "learning_rate": 0.00018808, + "loss": 6.0753, + "step": 23400 + }, + { + "epoch": 1.876, + "grad_norm": 0.0745600089430809, + "learning_rate": 0.00018741333333333334, + "loss": 6.1282, + "step": 23450 + }, + { + "epoch": 1.88, + "grad_norm": 0.0803820788860321, + "learning_rate": 0.00018674666666666667, + "loss": 6.1243, + "step": 23500 + }, + { + "epoch": 1.884, + "grad_norm": 0.07554348558187485, + "learning_rate": 0.00018608, + "loss": 6.1411, + "step": 23550 + }, + { + "epoch": 1.888, + "grad_norm": 0.08262581378221512, + "learning_rate": 0.00018541333333333334, + "loss": 6.1195, + "step": 23600 + }, + { + "epoch": 1.892, + "grad_norm": 0.07449466735124588, + "learning_rate": 0.00018474666666666668, + "loss": 6.1264, + "step": 23650 + }, + { + "epoch": 1.896, + "grad_norm": 0.06833427399396896, + "learning_rate": 0.00018407999999999999, + "loss": 6.1616, + "step": 23700 + }, + { + "epoch": 1.9, + "grad_norm": 0.11080046743154526, + "learning_rate": 0.00018341333333333335, + "loss": 6.1382, + "step": 23750 + }, + { + "epoch": 1.904, + "grad_norm": 0.06843602657318115, + "learning_rate": 0.00018274666666666668, + "loss": 6.1137, + "step": 23800 + }, + { + "epoch": 1.908, + "grad_norm": 0.11361279338598251, + "learning_rate": 0.00018208, + "loss": 6.1049, + "step": 23850 + }, + { + "epoch": 1.912, + "grad_norm": 0.07638482749462128, + "learning_rate": 0.00018141333333333335, + "loss": 6.1021, + "step": 23900 + }, + { + "epoch": 1.916, + "grad_norm": 0.10797129571437836, + "learning_rate": 0.00018074666666666666, + "loss": 6.1336, + "step": 23950 + }, + { + "epoch": 1.92, + "grad_norm": 0.08732916414737701, + "learning_rate": 0.00018008, + "loss": 6.0961, + "step": 24000 + }, + { + "epoch": 1.924, + "grad_norm": 0.09449349343776703, + "learning_rate": 0.00017941333333333333, + "loss": 6.1306, + "step": 24050 + }, + { + "epoch": 1.928, + "grad_norm": 0.14732420444488525, + "learning_rate": 0.00017874666666666667, + "loss": 6.1428, + "step": 24100 + }, + { + "epoch": 1.932, + "grad_norm": 0.07863035798072815, + "learning_rate": 0.00017808, + "loss": 6.1105, + "step": 24150 + }, + { + "epoch": 1.936, + "grad_norm": 0.09098464995622635, + "learning_rate": 0.00017741333333333334, + "loss": 6.1152, + "step": 24200 + }, + { + "epoch": 1.94, + "grad_norm": 0.15920573472976685, + "learning_rate": 0.00017674666666666667, + "loss": 6.1298, + "step": 24250 + }, + { + "epoch": 1.944, + "grad_norm": 0.1167706772685051, + "learning_rate": 0.00017607999999999998, + "loss": 6.1321, + "step": 24300 + }, + { + "epoch": 1.948, + "grad_norm": 0.10469064861536026, + "learning_rate": 0.00017541333333333334, + "loss": 6.1507, + "step": 24350 + }, + { + "epoch": 1.952, + "grad_norm": 0.12183935195207596, + "learning_rate": 0.00017474666666666665, + "loss": 6.12, + "step": 24400 + }, + { + "epoch": 1.956, + "grad_norm": 0.0638742446899414, + "learning_rate": 0.00017409333333333332, + "loss": 6.0974, + "step": 24450 + }, + { + "epoch": 1.96, + "grad_norm": 0.10402480512857437, + "learning_rate": 0.00017342666666666668, + "loss": 6.138, + "step": 24500 + }, + { + "epoch": 1.964, + "grad_norm": 0.0881372019648552, + "learning_rate": 0.00017276, + "loss": 6.1191, + "step": 24550 + }, + { + "epoch": 1.968, + "grad_norm": 0.05916423350572586, + "learning_rate": 0.00017209333333333333, + "loss": 6.1204, + "step": 24600 + }, + { + "epoch": 1.972, + "grad_norm": 0.08443310111761093, + "learning_rate": 0.00017142666666666666, + "loss": 6.1117, + "step": 24650 + }, + { + "epoch": 1.976, + "grad_norm": 0.07356678694486618, + "learning_rate": 0.00017076, + "loss": 6.1857, + "step": 24700 + }, + { + "epoch": 1.98, + "grad_norm": 0.08206187933683395, + "learning_rate": 0.00017009333333333336, + "loss": 6.114, + "step": 24750 + }, + { + "epoch": 1.984, + "grad_norm": 0.06768918037414551, + "learning_rate": 0.00016942666666666667, + "loss": 6.1141, + "step": 24800 + }, + { + "epoch": 1.988, + "grad_norm": 0.06911814957857132, + "learning_rate": 0.00016876, + "loss": 6.1022, + "step": 24850 + }, + { + "epoch": 1.992, + "grad_norm": 0.13596247136592865, + "learning_rate": 0.00016809333333333334, + "loss": 6.1177, + "step": 24900 + }, + { + "epoch": 1.996, + "grad_norm": 0.12095494568347931, + "learning_rate": 0.00016742666666666667, + "loss": 6.1275, + "step": 24950 + }, + { + "epoch": 2.0, + "grad_norm": 0.08685009181499481, + "learning_rate": 0.00016675999999999998, + "loss": 6.1178, + "step": 25000 + }, + { + "epoch": 2.0, + "eval_bleu": 0.8172409164417785, + "eval_cer": 0.02820345755401032, + "eval_f1": 0.9199425723591416, + "eval_loss": 6.107292652130127, + "eval_meteor": 0.9109223417604091, + "eval_runtime": 588.9927, + "eval_samples_per_second": 8.489, + "eval_steps_per_second": 0.267, + "eval_wer": 0.08702847593734808, + "step": 25000 + }, + { + "epoch": 2.004, + "grad_norm": 0.06785596907138824, + "learning_rate": 0.00016609333333333334, + "loss": 6.1447, + "step": 25050 + }, + { + "epoch": 2.008, + "grad_norm": 0.22999106347560883, + "learning_rate": 0.00016542666666666668, + "loss": 6.1201, + "step": 25100 + }, + { + "epoch": 2.012, + "grad_norm": 0.0983622819185257, + "learning_rate": 0.00016476, + "loss": 6.1247, + "step": 25150 + }, + { + "epoch": 2.016, + "grad_norm": 0.08283865451812744, + "learning_rate": 0.00016409333333333335, + "loss": 6.1471, + "step": 25200 + }, + { + "epoch": 2.02, + "grad_norm": 0.08810332417488098, + "learning_rate": 0.00016342666666666666, + "loss": 6.0961, + "step": 25250 + }, + { + "epoch": 2.024, + "grad_norm": 0.08109007030725479, + "learning_rate": 0.00016276, + "loss": 6.1345, + "step": 25300 + }, + { + "epoch": 2.028, + "grad_norm": 0.08069324493408203, + "learning_rate": 0.00016209333333333336, + "loss": 6.1464, + "step": 25350 + }, + { + "epoch": 2.032, + "grad_norm": 0.07347917556762695, + "learning_rate": 0.00016142666666666666, + "loss": 6.1227, + "step": 25400 + }, + { + "epoch": 2.036, + "grad_norm": 0.0878429189324379, + "learning_rate": 0.00016076, + "loss": 6.1293, + "step": 25450 + }, + { + "epoch": 2.04, + "grad_norm": 0.087430439889431, + "learning_rate": 0.00016009333333333333, + "loss": 6.1532, + "step": 25500 + }, + { + "epoch": 2.044, + "grad_norm": 0.1333465576171875, + "learning_rate": 0.00015942666666666667, + "loss": 6.1123, + "step": 25550 + }, + { + "epoch": 2.048, + "grad_norm": 0.06995461881160736, + "learning_rate": 0.00015876, + "loss": 6.1542, + "step": 25600 + }, + { + "epoch": 2.052, + "grad_norm": 0.07792355120182037, + "learning_rate": 0.00015809333333333334, + "loss": 6.1474, + "step": 25650 + }, + { + "epoch": 2.056, + "grad_norm": 0.08697181940078735, + "learning_rate": 0.00015742666666666668, + "loss": 6.124, + "step": 25700 + }, + { + "epoch": 2.06, + "grad_norm": 0.08021339774131775, + "learning_rate": 0.00015676, + "loss": 6.1047, + "step": 25750 + }, + { + "epoch": 2.064, + "grad_norm": 0.12348254024982452, + "learning_rate": 0.00015609333333333335, + "loss": 6.1103, + "step": 25800 + }, + { + "epoch": 2.068, + "grad_norm": 0.06662772595882416, + "learning_rate": 0.00015542666666666665, + "loss": 6.1452, + "step": 25850 + }, + { + "epoch": 2.072, + "grad_norm": 0.12588684260845184, + "learning_rate": 0.00015476000000000002, + "loss": 6.1124, + "step": 25900 + }, + { + "epoch": 2.076, + "grad_norm": 0.11644891649484634, + "learning_rate": 0.00015409333333333332, + "loss": 6.1105, + "step": 25950 + }, + { + "epoch": 2.08, + "grad_norm": 0.07697271555662155, + "learning_rate": 0.00015342666666666666, + "loss": 6.114, + "step": 26000 + }, + { + "epoch": 2.084, + "grad_norm": 0.08930014073848724, + "learning_rate": 0.00015276000000000002, + "loss": 6.1188, + "step": 26050 + }, + { + "epoch": 2.088, + "grad_norm": 0.06414046883583069, + "learning_rate": 0.00015209333333333333, + "loss": 6.1522, + "step": 26100 + }, + { + "epoch": 2.092, + "grad_norm": 0.10080955177545547, + "learning_rate": 0.00015142666666666666, + "loss": 6.1106, + "step": 26150 + }, + { + "epoch": 2.096, + "grad_norm": 0.11033161729574203, + "learning_rate": 0.00015076, + "loss": 6.1263, + "step": 26200 + }, + { + "epoch": 2.1, + "grad_norm": 0.10036621242761612, + "learning_rate": 0.00015009333333333334, + "loss": 6.1068, + "step": 26250 + }, + { + "epoch": 2.104, + "grad_norm": 0.07702888548374176, + "learning_rate": 0.00014942666666666667, + "loss": 6.1423, + "step": 26300 + }, + { + "epoch": 2.108, + "grad_norm": 0.08677836507558823, + "learning_rate": 0.00014876, + "loss": 6.1404, + "step": 26350 + }, + { + "epoch": 2.112, + "grad_norm": 0.06768970936536789, + "learning_rate": 0.00014809333333333334, + "loss": 6.1434, + "step": 26400 + }, + { + "epoch": 2.116, + "grad_norm": 0.09353494644165039, + "learning_rate": 0.00014742666666666668, + "loss": 6.131, + "step": 26450 + }, + { + "epoch": 2.12, + "grad_norm": 0.07304970920085907, + "learning_rate": 0.00014676, + "loss": 6.1186, + "step": 26500 + }, + { + "epoch": 2.124, + "grad_norm": 0.07797128707170486, + "learning_rate": 0.00014609333333333332, + "loss": 6.1173, + "step": 26550 + }, + { + "epoch": 2.128, + "grad_norm": 0.0868651270866394, + "learning_rate": 0.00014542666666666668, + "loss": 6.1335, + "step": 26600 + }, + { + "epoch": 2.132, + "grad_norm": 0.08054318279027939, + "learning_rate": 0.00014476, + "loss": 6.14, + "step": 26650 + }, + { + "epoch": 2.136, + "grad_norm": 0.12253639101982117, + "learning_rate": 0.00014409333333333332, + "loss": 6.1002, + "step": 26700 + }, + { + "epoch": 2.14, + "grad_norm": 0.09149331599473953, + "learning_rate": 0.0001434266666666667, + "loss": 6.1391, + "step": 26750 + }, + { + "epoch": 2.144, + "grad_norm": 0.10499344021081924, + "learning_rate": 0.00014276, + "loss": 6.1284, + "step": 26800 + }, + { + "epoch": 2.148, + "grad_norm": 0.1407238095998764, + "learning_rate": 0.00014209333333333333, + "loss": 6.1321, + "step": 26850 + }, + { + "epoch": 2.152, + "grad_norm": 0.06485777348279953, + "learning_rate": 0.00014142666666666667, + "loss": 6.1157, + "step": 26900 + }, + { + "epoch": 2.156, + "grad_norm": 0.07151184231042862, + "learning_rate": 0.00014076, + "loss": 6.1093, + "step": 26950 + }, + { + "epoch": 2.16, + "grad_norm": 0.11407412588596344, + "learning_rate": 0.00014009333333333334, + "loss": 6.1138, + "step": 27000 + }, + { + "epoch": 2.164, + "grad_norm": 0.07530222088098526, + "learning_rate": 0.00013942666666666667, + "loss": 6.13, + "step": 27050 + }, + { + "epoch": 2.168, + "grad_norm": 0.08534276485443115, + "learning_rate": 0.00013876, + "loss": 6.1143, + "step": 27100 + }, + { + "epoch": 2.172, + "grad_norm": 0.15576477348804474, + "learning_rate": 0.00013809333333333334, + "loss": 6.1439, + "step": 27150 + }, + { + "epoch": 2.176, + "grad_norm": 0.10401841998100281, + "learning_rate": 0.00013742666666666668, + "loss": 6.1151, + "step": 27200 + }, + { + "epoch": 2.18, + "grad_norm": 0.080635666847229, + "learning_rate": 0.00013675999999999998, + "loss": 6.1496, + "step": 27250 + }, + { + "epoch": 2.184, + "grad_norm": 0.08300676941871643, + "learning_rate": 0.00013609333333333335, + "loss": 6.0916, + "step": 27300 + }, + { + "epoch": 2.188, + "grad_norm": 0.07986236363649368, + "learning_rate": 0.00013542666666666668, + "loss": 6.1161, + "step": 27350 + }, + { + "epoch": 2.192, + "grad_norm": 0.08209098130464554, + "learning_rate": 0.00013477333333333333, + "loss": 6.1413, + "step": 27400 + }, + { + "epoch": 2.196, + "grad_norm": 0.062259335070848465, + "learning_rate": 0.0001341066666666667, + "loss": 6.1241, + "step": 27450 + }, + { + "epoch": 2.2, + "grad_norm": 0.0739581510424614, + "learning_rate": 0.00013344, + "loss": 6.1158, + "step": 27500 + }, + { + "epoch": 2.204, + "grad_norm": 0.12288856506347656, + "learning_rate": 0.00013277333333333333, + "loss": 6.1356, + "step": 27550 + }, + { + "epoch": 2.208, + "grad_norm": 0.08512347936630249, + "learning_rate": 0.0001321066666666667, + "loss": 6.1302, + "step": 27600 + }, + { + "epoch": 2.212, + "grad_norm": 0.08254893869161606, + "learning_rate": 0.00013144, + "loss": 6.0771, + "step": 27650 + }, + { + "epoch": 2.216, + "grad_norm": 0.06493870168924332, + "learning_rate": 0.00013077333333333334, + "loss": 6.1077, + "step": 27700 + }, + { + "epoch": 2.22, + "grad_norm": 0.07300270348787308, + "learning_rate": 0.00013010666666666667, + "loss": 6.1174, + "step": 27750 + }, + { + "epoch": 2.224, + "grad_norm": 0.08073367178440094, + "learning_rate": 0.00012944, + "loss": 6.1259, + "step": 27800 + }, + { + "epoch": 2.228, + "grad_norm": 0.10107994824647903, + "learning_rate": 0.00012877333333333332, + "loss": 6.125, + "step": 27850 + }, + { + "epoch": 2.232, + "grad_norm": 0.12145031243562698, + "learning_rate": 0.00012810666666666668, + "loss": 6.1416, + "step": 27900 + }, + { + "epoch": 2.2359999999999998, + "grad_norm": 0.07834441214799881, + "learning_rate": 0.00012744, + "loss": 6.1045, + "step": 27950 + }, + { + "epoch": 2.24, + "grad_norm": 0.06203557178378105, + "learning_rate": 0.00012677333333333332, + "loss": 6.1398, + "step": 28000 + }, + { + "epoch": 2.2439999999999998, + "grad_norm": 0.06488432735204697, + "learning_rate": 0.00012610666666666668, + "loss": 6.132, + "step": 28050 + }, + { + "epoch": 2.248, + "grad_norm": 0.07347848266363144, + "learning_rate": 0.00012544, + "loss": 6.1585, + "step": 28100 + }, + { + "epoch": 2.252, + "grad_norm": 0.07224209606647491, + "learning_rate": 0.00012477333333333333, + "loss": 6.1095, + "step": 28150 + }, + { + "epoch": 2.2560000000000002, + "grad_norm": 0.07417809963226318, + "learning_rate": 0.00012410666666666666, + "loss": 6.1466, + "step": 28200 + }, + { + "epoch": 2.26, + "grad_norm": 0.07790560275316238, + "learning_rate": 0.00012344, + "loss": 6.108, + "step": 28250 + }, + { + "epoch": 2.2640000000000002, + "grad_norm": 0.10388074815273285, + "learning_rate": 0.00012277333333333333, + "loss": 6.1335, + "step": 28300 + }, + { + "epoch": 2.268, + "grad_norm": 0.07799053937196732, + "learning_rate": 0.00012210666666666667, + "loss": 6.1351, + "step": 28350 + }, + { + "epoch": 2.2720000000000002, + "grad_norm": 0.08679129183292389, + "learning_rate": 0.00012144, + "loss": 6.1132, + "step": 28400 + }, + { + "epoch": 2.276, + "grad_norm": 0.08770238608121872, + "learning_rate": 0.00012077333333333334, + "loss": 6.1152, + "step": 28450 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 0.08993165194988251, + "learning_rate": 0.00012010666666666667, + "loss": 6.1835, + "step": 28500 + }, + { + "epoch": 2.284, + "grad_norm": 0.08055881410837173, + "learning_rate": 0.00011944000000000001, + "loss": 6.1162, + "step": 28550 + }, + { + "epoch": 2.288, + "grad_norm": 0.07416913658380508, + "learning_rate": 0.00011877333333333333, + "loss": 6.1218, + "step": 28600 + }, + { + "epoch": 2.292, + "grad_norm": 0.0740683302283287, + "learning_rate": 0.00011810666666666667, + "loss": 6.1636, + "step": 28650 + }, + { + "epoch": 2.296, + "grad_norm": 0.0906345546245575, + "learning_rate": 0.00011744, + "loss": 6.1467, + "step": 28700 + }, + { + "epoch": 2.3, + "grad_norm": 0.07971388101577759, + "learning_rate": 0.00011677333333333335, + "loss": 6.1478, + "step": 28750 + }, + { + "epoch": 2.304, + "grad_norm": 0.09107048809528351, + "learning_rate": 0.00011610666666666667, + "loss": 6.1389, + "step": 28800 + }, + { + "epoch": 2.308, + "grad_norm": 0.08322587609291077, + "learning_rate": 0.00011544, + "loss": 6.1123, + "step": 28850 + }, + { + "epoch": 2.312, + "grad_norm": 0.06284671276807785, + "learning_rate": 0.00011477333333333334, + "loss": 6.1296, + "step": 28900 + }, + { + "epoch": 2.316, + "grad_norm": 0.09297347068786621, + "learning_rate": 0.00011410666666666666, + "loss": 6.1004, + "step": 28950 + }, + { + "epoch": 2.32, + "grad_norm": 0.07197541743516922, + "learning_rate": 0.00011344, + "loss": 6.1296, + "step": 29000 + }, + { + "epoch": 2.324, + "grad_norm": 0.06683459877967834, + "learning_rate": 0.00011277333333333333, + "loss": 6.126, + "step": 29050 + }, + { + "epoch": 2.328, + "grad_norm": 0.13478904962539673, + "learning_rate": 0.00011210666666666667, + "loss": 6.1019, + "step": 29100 + }, + { + "epoch": 2.332, + "grad_norm": 0.16338612139225006, + "learning_rate": 0.00011144, + "loss": 6.0943, + "step": 29150 + }, + { + "epoch": 2.336, + "grad_norm": 0.09864608943462372, + "learning_rate": 0.00011077333333333334, + "loss": 6.1474, + "step": 29200 + }, + { + "epoch": 2.34, + "grad_norm": 0.07128669321537018, + "learning_rate": 0.00011010666666666667, + "loss": 6.1423, + "step": 29250 + }, + { + "epoch": 2.344, + "grad_norm": 0.07518354058265686, + "learning_rate": 0.00010944, + "loss": 6.1239, + "step": 29300 + }, + { + "epoch": 2.348, + "grad_norm": 0.10487762093544006, + "learning_rate": 0.00010877333333333333, + "loss": 6.1178, + "step": 29350 + }, + { + "epoch": 2.352, + "grad_norm": 0.1072583794593811, + "learning_rate": 0.00010810666666666667, + "loss": 6.126, + "step": 29400 + }, + { + "epoch": 2.356, + "grad_norm": 0.06805001199245453, + "learning_rate": 0.00010744, + "loss": 6.1212, + "step": 29450 + }, + { + "epoch": 2.36, + "grad_norm": 0.1013687252998352, + "learning_rate": 0.00010677333333333334, + "loss": 6.1105, + "step": 29500 + }, + { + "epoch": 2.364, + "grad_norm": 0.08465547114610672, + "learning_rate": 0.00010610666666666667, + "loss": 6.1329, + "step": 29550 + }, + { + "epoch": 2.368, + "grad_norm": 0.061402056366205215, + "learning_rate": 0.00010544000000000001, + "loss": 6.1419, + "step": 29600 + }, + { + "epoch": 2.372, + "grad_norm": 0.08405929058790207, + "learning_rate": 0.00010477333333333333, + "loss": 6.1271, + "step": 29650 + }, + { + "epoch": 2.376, + "grad_norm": 0.08856862783432007, + "learning_rate": 0.00010410666666666666, + "loss": 6.1113, + "step": 29700 + }, + { + "epoch": 2.38, + "grad_norm": 0.08349741250276566, + "learning_rate": 0.00010344000000000001, + "loss": 6.1255, + "step": 29750 + }, + { + "epoch": 2.384, + "grad_norm": 0.07875793427228928, + "learning_rate": 0.00010277333333333333, + "loss": 6.1194, + "step": 29800 + }, + { + "epoch": 2.388, + "grad_norm": 0.0711638480424881, + "learning_rate": 0.00010210666666666667, + "loss": 6.0888, + "step": 29850 + }, + { + "epoch": 2.392, + "grad_norm": 0.08001936227083206, + "learning_rate": 0.00010144, + "loss": 6.1455, + "step": 29900 + }, + { + "epoch": 2.396, + "grad_norm": 0.0748518779873848, + "learning_rate": 0.00010077333333333334, + "loss": 6.1229, + "step": 29950 + }, + { + "epoch": 2.4, + "grad_norm": 0.08015945553779602, + "learning_rate": 0.00010010666666666666, + "loss": 6.1188, + "step": 30000 + }, + { + "epoch": 2.404, + "grad_norm": 0.08094441890716553, + "learning_rate": 9.944e-05, + "loss": 6.0812, + "step": 30050 + }, + { + "epoch": 2.408, + "grad_norm": 0.11894530802965164, + "learning_rate": 9.877333333333335e-05, + "loss": 6.1114, + "step": 30100 + }, + { + "epoch": 2.412, + "grad_norm": 0.12953782081604004, + "learning_rate": 9.810666666666667e-05, + "loss": 6.1237, + "step": 30150 + }, + { + "epoch": 2.416, + "grad_norm": 0.1179390698671341, + "learning_rate": 9.744e-05, + "loss": 6.1532, + "step": 30200 + }, + { + "epoch": 2.42, + "grad_norm": 0.08815969526767731, + "learning_rate": 9.677333333333334e-05, + "loss": 6.0984, + "step": 30250 + }, + { + "epoch": 2.424, + "grad_norm": 0.10429703444242477, + "learning_rate": 9.610666666666667e-05, + "loss": 6.0849, + "step": 30300 + }, + { + "epoch": 2.428, + "grad_norm": 0.08622018992900848, + "learning_rate": 9.544e-05, + "loss": 6.103, + "step": 30350 + }, + { + "epoch": 2.432, + "grad_norm": 0.07483024150133133, + "learning_rate": 9.477333333333334e-05, + "loss": 6.0822, + "step": 30400 + }, + { + "epoch": 2.436, + "grad_norm": 0.09286260604858398, + "learning_rate": 9.410666666666668e-05, + "loss": 6.1541, + "step": 30450 + }, + { + "epoch": 2.44, + "grad_norm": 0.09502577781677246, + "learning_rate": 9.344e-05, + "loss": 6.1217, + "step": 30500 + }, + { + "epoch": 2.444, + "grad_norm": 0.09484914690256119, + "learning_rate": 9.277333333333334e-05, + "loss": 6.1181, + "step": 30550 + }, + { + "epoch": 2.448, + "grad_norm": 0.08857041597366333, + "learning_rate": 9.210666666666667e-05, + "loss": 6.1258, + "step": 30600 + }, + { + "epoch": 2.452, + "grad_norm": 0.09955225884914398, + "learning_rate": 9.143999999999999e-05, + "loss": 6.1348, + "step": 30650 + }, + { + "epoch": 2.456, + "grad_norm": 0.0886455625295639, + "learning_rate": 9.077333333333333e-05, + "loss": 6.1109, + "step": 30700 + }, + { + "epoch": 2.46, + "grad_norm": 0.06572480499744415, + "learning_rate": 9.010666666666668e-05, + "loss": 6.1269, + "step": 30750 + }, + { + "epoch": 2.464, + "grad_norm": 0.10031143575906754, + "learning_rate": 8.944000000000001e-05, + "loss": 6.1279, + "step": 30800 + }, + { + "epoch": 2.468, + "grad_norm": 0.15965846180915833, + "learning_rate": 8.877333333333333e-05, + "loss": 6.1096, + "step": 30850 + }, + { + "epoch": 2.472, + "grad_norm": 0.0908203274011612, + "learning_rate": 8.810666666666667e-05, + "loss": 6.1166, + "step": 30900 + }, + { + "epoch": 2.476, + "grad_norm": 0.0903753861784935, + "learning_rate": 8.744e-05, + "loss": 6.1278, + "step": 30950 + }, + { + "epoch": 2.48, + "grad_norm": 0.07875421643257141, + "learning_rate": 8.677333333333332e-05, + "loss": 6.1339, + "step": 31000 + }, + { + "epoch": 2.484, + "grad_norm": 0.0825008824467659, + "learning_rate": 8.610666666666666e-05, + "loss": 6.1185, + "step": 31050 + }, + { + "epoch": 2.488, + "grad_norm": 0.08276679366827011, + "learning_rate": 8.544000000000001e-05, + "loss": 6.1236, + "step": 31100 }, { - "epoch": 2.0, - "eval_bleu": 0.0, - "eval_cer": 0.9994926085469246, - "eval_f1": 0.0, - "eval_loss": NaN, - "eval_meteor": 0.0, - "eval_runtime": 7.0996, - "eval_samples_per_second": 14.085, - "eval_steps_per_second": 14.085, - "eval_wer": 1.0, - "step": 14 + "epoch": 2.492, + "grad_norm": 0.05768454074859619, + "learning_rate": 8.477333333333334e-05, + "loss": 6.1044, + "step": 31150 + }, + { + "epoch": 2.496, + "grad_norm": 0.09391097724437714, + "learning_rate": 8.410666666666667e-05, + "loss": 6.148, + "step": 31200 + }, + { + "epoch": 2.5, + "grad_norm": 0.07078494876623154, + "learning_rate": 8.344e-05, + "loss": 6.1243, + "step": 31250 + }, + { + "epoch": 2.504, + "grad_norm": 0.0899825170636177, + "learning_rate": 8.277333333333334e-05, + "loss": 6.0961, + "step": 31300 + }, + { + "epoch": 2.508, + "grad_norm": 0.07885388284921646, + "learning_rate": 8.210666666666666e-05, + "loss": 6.1073, + "step": 31350 + }, + { + "epoch": 2.512, + "grad_norm": 0.08273153007030487, + "learning_rate": 8.144e-05, + "loss": 6.1444, + "step": 31400 + }, + { + "epoch": 2.516, + "grad_norm": 0.09709799289703369, + "learning_rate": 8.077333333333334e-05, + "loss": 6.1277, + "step": 31450 + }, + { + "epoch": 2.52, + "grad_norm": 0.08797161281108856, + "learning_rate": 8.010666666666668e-05, + "loss": 6.1334, + "step": 31500 + }, + { + "epoch": 2.524, + "grad_norm": 0.09682651609182358, + "learning_rate": 7.944e-05, + "loss": 6.1285, + "step": 31550 + }, + { + "epoch": 2.528, + "grad_norm": 0.0818781778216362, + "learning_rate": 7.878666666666667e-05, + "loss": 6.0891, + "step": 31600 + }, + { + "epoch": 2.532, + "grad_norm": 0.09894498437643051, + "learning_rate": 7.811999999999999e-05, + "loss": 6.1213, + "step": 31650 + }, + { + "epoch": 2.536, + "grad_norm": 0.09085531532764435, + "learning_rate": 7.745333333333334e-05, + "loss": 6.1099, + "step": 31700 + }, + { + "epoch": 2.54, + "grad_norm": 0.11227796971797943, + "learning_rate": 7.68e-05, + "loss": 6.1299, + "step": 31750 + }, + { + "epoch": 2.544, + "grad_norm": 0.22741074860095978, + "learning_rate": 7.613333333333333e-05, + "loss": 6.1243, + "step": 31800 + }, + { + "epoch": 2.548, + "grad_norm": 0.10024499893188477, + "learning_rate": 7.546666666666667e-05, + "loss": 6.1114, + "step": 31850 + }, + { + "epoch": 2.552, + "grad_norm": 0.10150467604398727, + "learning_rate": 7.48e-05, + "loss": 6.1092, + "step": 31900 + }, + { + "epoch": 2.556, + "grad_norm": 0.09486008435487747, + "learning_rate": 7.413333333333332e-05, + "loss": 6.135, + "step": 31950 + }, + { + "epoch": 2.56, + "grad_norm": 0.0780709981918335, + "learning_rate": 7.346666666666667e-05, + "loss": 6.1244, + "step": 32000 + }, + { + "epoch": 2.564, + "grad_norm": 0.1019013449549675, + "learning_rate": 7.280000000000001e-05, + "loss": 6.1093, + "step": 32050 + }, + { + "epoch": 2.568, + "grad_norm": 0.11961735039949417, + "learning_rate": 7.213333333333333e-05, + "loss": 6.1304, + "step": 32100 + }, + { + "epoch": 2.572, + "grad_norm": 0.08705875277519226, + "learning_rate": 7.146666666666666e-05, + "loss": 6.1192, + "step": 32150 + }, + { + "epoch": 2.576, + "grad_norm": 0.12665317952632904, + "learning_rate": 7.08e-05, + "loss": 6.0916, + "step": 32200 + }, + { + "epoch": 2.58, + "grad_norm": 0.0883328914642334, + "learning_rate": 7.013333333333333e-05, + "loss": 6.1207, + "step": 32250 + }, + { + "epoch": 2.584, + "grad_norm": 0.08264145255088806, + "learning_rate": 6.946666666666667e-05, + "loss": 6.1208, + "step": 32300 + }, + { + "epoch": 2.588, + "grad_norm": 0.09036853164434433, + "learning_rate": 6.88e-05, + "loss": 6.0958, + "step": 32350 + }, + { + "epoch": 2.592, + "grad_norm": 0.09094643592834473, + "learning_rate": 6.813333333333334e-05, + "loss": 6.1331, + "step": 32400 + }, + { + "epoch": 2.596, + "grad_norm": 0.0750487893819809, + "learning_rate": 6.746666666666666e-05, + "loss": 6.1488, + "step": 32450 + }, + { + "epoch": 2.6, + "grad_norm": 0.07213461399078369, + "learning_rate": 6.68e-05, + "loss": 6.1133, + "step": 32500 + }, + { + "epoch": 2.604, + "grad_norm": 0.06937766820192337, + "learning_rate": 6.613333333333333e-05, + "loss": 6.1435, + "step": 32550 + }, + { + "epoch": 2.608, + "grad_norm": 0.07619757205247879, + "learning_rate": 6.546666666666667e-05, + "loss": 6.1459, + "step": 32600 + }, + { + "epoch": 2.612, + "grad_norm": 0.1678486168384552, + "learning_rate": 6.48e-05, + "loss": 6.1075, + "step": 32650 + }, + { + "epoch": 2.616, + "grad_norm": 0.1153847873210907, + "learning_rate": 6.413333333333334e-05, + "loss": 6.1439, + "step": 32700 + }, + { + "epoch": 2.62, + "grad_norm": 0.07936931401491165, + "learning_rate": 6.346666666666667e-05, + "loss": 6.1384, + "step": 32750 + }, + { + "epoch": 2.624, + "grad_norm": 0.07994566112756729, + "learning_rate": 6.28e-05, + "loss": 6.102, + "step": 32800 + }, + { + "epoch": 2.628, + "grad_norm": 0.10593516379594803, + "learning_rate": 6.213333333333333e-05, + "loss": 6.0923, + "step": 32850 + }, + { + "epoch": 2.632, + "grad_norm": 0.1204606220126152, + "learning_rate": 6.146666666666667e-05, + "loss": 6.138, + "step": 32900 + }, + { + "epoch": 2.636, + "grad_norm": 0.0929812490940094, + "learning_rate": 6.08e-05, + "loss": 6.1157, + "step": 32950 + }, + { + "epoch": 2.64, + "grad_norm": 0.0777197778224945, + "learning_rate": 6.013333333333333e-05, + "loss": 6.1082, + "step": 33000 + }, + { + "epoch": 2.644, + "grad_norm": 0.08290942758321762, + "learning_rate": 5.946666666666667e-05, + "loss": 6.0995, + "step": 33050 + }, + { + "epoch": 2.648, + "grad_norm": 0.08380025625228882, + "learning_rate": 5.88e-05, + "loss": 6.1493, + "step": 33100 + }, + { + "epoch": 2.652, + "grad_norm": 0.07136403024196625, + "learning_rate": 5.8133333333333335e-05, + "loss": 6.1275, + "step": 33150 + }, + { + "epoch": 2.656, + "grad_norm": 0.12185997515916824, + "learning_rate": 5.746666666666667e-05, + "loss": 6.1136, + "step": 33200 + }, + { + "epoch": 2.66, + "grad_norm": 0.07479040324687958, + "learning_rate": 5.6800000000000005e-05, + "loss": 6.1219, + "step": 33250 + }, + { + "epoch": 2.664, + "grad_norm": 0.10638090968132019, + "learning_rate": 5.6133333333333333e-05, + "loss": 6.1086, + "step": 33300 + }, + { + "epoch": 2.668, + "grad_norm": 0.06335128843784332, + "learning_rate": 5.546666666666666e-05, + "loss": 6.1352, + "step": 33350 + }, + { + "epoch": 2.672, + "grad_norm": 0.1248062252998352, + "learning_rate": 5.4800000000000004e-05, + "loss": 6.1026, + "step": 33400 + }, + { + "epoch": 2.676, + "grad_norm": 0.07333755493164062, + "learning_rate": 5.413333333333333e-05, + "loss": 6.1394, + "step": 33450 + }, + { + "epoch": 2.68, + "grad_norm": 0.08243824541568756, + "learning_rate": 5.346666666666667e-05, + "loss": 6.1436, + "step": 33500 + }, + { + "epoch": 2.684, + "grad_norm": 0.09383711218833923, + "learning_rate": 5.28e-05, + "loss": 6.1097, + "step": 33550 + }, + { + "epoch": 2.6879999999999997, + "grad_norm": 0.07421154528856277, + "learning_rate": 5.213333333333333e-05, + "loss": 6.0936, + "step": 33600 + }, + { + "epoch": 2.692, + "grad_norm": 0.06771537661552429, + "learning_rate": 5.1466666666666666e-05, + "loss": 6.1415, + "step": 33650 + }, + { + "epoch": 2.6959999999999997, + "grad_norm": 0.07895960658788681, + "learning_rate": 5.08e-05, + "loss": 6.1062, + "step": 33700 + }, + { + "epoch": 2.7, + "grad_norm": 0.09657388180494308, + "learning_rate": 5.013333333333334e-05, + "loss": 6.1258, + "step": 33750 + }, + { + "epoch": 2.7039999999999997, + "grad_norm": 0.08878295868635178, + "learning_rate": 4.9466666666666665e-05, + "loss": 6.1363, + "step": 33800 + }, + { + "epoch": 2.708, + "grad_norm": 0.07480190694332123, + "learning_rate": 4.880000000000001e-05, + "loss": 6.1273, + "step": 33850 + }, + { + "epoch": 2.7119999999999997, + "grad_norm": 0.0769687369465828, + "learning_rate": 4.8133333333333336e-05, + "loss": 6.1526, + "step": 33900 + }, + { + "epoch": 2.716, + "grad_norm": 0.06957633048295975, + "learning_rate": 4.7466666666666664e-05, + "loss": 6.0944, + "step": 33950 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 0.07221285253763199, + "learning_rate": 4.68e-05, + "loss": 6.1247, + "step": 34000 + }, + { + "epoch": 2.724, + "grad_norm": 0.10650799423456192, + "learning_rate": 4.6133333333333334e-05, + "loss": 6.1196, + "step": 34050 + }, + { + "epoch": 2.7279999999999998, + "grad_norm": 0.0908588171005249, + "learning_rate": 4.546666666666667e-05, + "loss": 6.1404, + "step": 34100 + }, + { + "epoch": 2.732, + "grad_norm": 0.07414235919713974, + "learning_rate": 4.48e-05, + "loss": 6.098, + "step": 34150 + }, + { + "epoch": 2.7359999999999998, + "grad_norm": 0.06906041502952576, + "learning_rate": 4.413333333333333e-05, + "loss": 6.0921, + "step": 34200 + }, + { + "epoch": 2.74, + "grad_norm": 0.09664103388786316, + "learning_rate": 4.346666666666667e-05, + "loss": 6.1286, + "step": 34250 + }, + { + "epoch": 2.7439999999999998, + "grad_norm": 0.10065711289644241, + "learning_rate": 4.28e-05, + "loss": 6.1164, + "step": 34300 + }, + { + "epoch": 2.748, + "grad_norm": 0.09210335463285446, + "learning_rate": 4.213333333333334e-05, + "loss": 6.0872, + "step": 34350 + }, + { + "epoch": 2.752, + "grad_norm": 0.07769734412431717, + "learning_rate": 4.146666666666667e-05, + "loss": 6.1257, + "step": 34400 + }, + { + "epoch": 2.7560000000000002, + "grad_norm": 0.07601581513881683, + "learning_rate": 4.08e-05, + "loss": 6.1089, + "step": 34450 + }, + { + "epoch": 2.76, + "grad_norm": 0.07833178341388702, + "learning_rate": 4.013333333333333e-05, + "loss": 6.1038, + "step": 34500 + }, + { + "epoch": 2.7640000000000002, + "grad_norm": 0.094737209379673, + "learning_rate": 3.9466666666666666e-05, + "loss": 6.1144, + "step": 34550 + }, + { + "epoch": 2.768, + "grad_norm": 0.08095048367977142, + "learning_rate": 3.88e-05, + "loss": 6.1464, + "step": 34600 + }, + { + "epoch": 2.7720000000000002, + "grad_norm": 0.13565805554389954, + "learning_rate": 3.813333333333333e-05, + "loss": 6.1355, + "step": 34650 + }, + { + "epoch": 2.776, + "grad_norm": 0.07718145102262497, + "learning_rate": 3.746666666666667e-05, + "loss": 6.138, + "step": 34700 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 0.06472737342119217, + "learning_rate": 3.68e-05, + "loss": 6.1113, + "step": 34750 + }, + { + "epoch": 2.784, + "grad_norm": 0.08622099459171295, + "learning_rate": 3.6133333333333335e-05, + "loss": 6.1144, + "step": 34800 + }, + { + "epoch": 2.7880000000000003, + "grad_norm": 0.09358719736337662, + "learning_rate": 3.546666666666667e-05, + "loss": 6.1262, + "step": 34850 + }, + { + "epoch": 2.792, + "grad_norm": 0.16408365964889526, + "learning_rate": 3.48e-05, + "loss": 6.1321, + "step": 34900 + }, + { + "epoch": 2.7960000000000003, + "grad_norm": 0.11745186150074005, + "learning_rate": 3.4133333333333334e-05, + "loss": 6.1304, + "step": 34950 + }, + { + "epoch": 2.8, + "grad_norm": 0.08279133588075638, + "learning_rate": 3.346666666666667e-05, + "loss": 6.0924, + "step": 35000 + }, + { + "epoch": 2.8040000000000003, + "grad_norm": 0.06076774373650551, + "learning_rate": 3.2800000000000004e-05, + "loss": 6.1412, + "step": 35050 + }, + { + "epoch": 2.808, + "grad_norm": 0.07990512996912003, + "learning_rate": 3.213333333333333e-05, + "loss": 6.1238, + "step": 35100 + }, + { + "epoch": 2.8120000000000003, + "grad_norm": 0.08230537921190262, + "learning_rate": 3.146666666666666e-05, + "loss": 6.1363, + "step": 35150 + }, + { + "epoch": 2.816, + "grad_norm": 0.08291458338499069, + "learning_rate": 3.08e-05, + "loss": 6.1156, + "step": 35200 + }, + { + "epoch": 2.82, + "grad_norm": 0.07325715571641922, + "learning_rate": 3.0133333333333335e-05, + "loss": 6.1224, + "step": 35250 + }, + { + "epoch": 2.824, + "grad_norm": 0.09400661289691925, + "learning_rate": 2.9466666666666667e-05, + "loss": 6.1278, + "step": 35300 + }, + { + "epoch": 2.828, + "grad_norm": 0.1884516477584839, + "learning_rate": 2.88e-05, + "loss": 6.1445, + "step": 35350 + }, + { + "epoch": 2.832, + "grad_norm": 0.06515152007341385, + "learning_rate": 2.8133333333333334e-05, + "loss": 6.1142, + "step": 35400 + }, + { + "epoch": 2.836, + "grad_norm": 0.07711353152990341, + "learning_rate": 2.746666666666667e-05, + "loss": 6.1232, + "step": 35450 + }, + { + "epoch": 2.84, + "grad_norm": 0.09461166709661484, + "learning_rate": 2.68e-05, + "loss": 6.1388, + "step": 35500 + }, + { + "epoch": 2.844, + "grad_norm": 0.082392118871212, + "learning_rate": 2.6133333333333336e-05, + "loss": 6.1435, + "step": 35550 + }, + { + "epoch": 2.848, + "grad_norm": 0.07653549313545227, + "learning_rate": 2.5466666666666665e-05, + "loss": 6.1097, + "step": 35600 + }, + { + "epoch": 2.852, + "grad_norm": 0.07820391654968262, + "learning_rate": 2.48e-05, + "loss": 6.1171, + "step": 35650 + }, + { + "epoch": 2.856, + "grad_norm": 0.06851961463689804, + "learning_rate": 2.4133333333333335e-05, + "loss": 6.1214, + "step": 35700 + }, + { + "epoch": 2.86, + "grad_norm": 0.08981842547655106, + "learning_rate": 2.3480000000000002e-05, + "loss": 6.1395, + "step": 35750 + }, + { + "epoch": 2.864, + "grad_norm": 0.1014988049864769, + "learning_rate": 2.2813333333333334e-05, + "loss": 6.1069, + "step": 35800 + }, + { + "epoch": 2.868, + "grad_norm": 0.07900381088256836, + "learning_rate": 2.2146666666666666e-05, + "loss": 6.1418, + "step": 35850 + }, + { + "epoch": 2.872, + "grad_norm": 0.06181011348962784, + "learning_rate": 2.148e-05, + "loss": 6.1424, + "step": 35900 + }, + { + "epoch": 2.876, + "grad_norm": 0.07802779972553253, + "learning_rate": 2.0813333333333333e-05, + "loss": 6.1034, + "step": 35950 + }, + { + "epoch": 2.88, + "grad_norm": 0.09636907279491425, + "learning_rate": 2.0146666666666668e-05, + "loss": 6.153, + "step": 36000 + }, + { + "epoch": 2.884, + "grad_norm": 0.092818982899189, + "learning_rate": 1.948e-05, + "loss": 6.1385, + "step": 36050 + }, + { + "epoch": 2.888, + "grad_norm": 0.0894244909286499, + "learning_rate": 1.8813333333333335e-05, + "loss": 6.1141, + "step": 36100 + }, + { + "epoch": 2.892, + "grad_norm": 0.10804655402898788, + "learning_rate": 1.8146666666666667e-05, + "loss": 6.113, + "step": 36150 + }, + { + "epoch": 2.896, + "grad_norm": 0.06478916853666306, + "learning_rate": 1.748e-05, + "loss": 6.1059, + "step": 36200 + }, + { + "epoch": 2.9, + "grad_norm": 0.0848025232553482, + "learning_rate": 1.6813333333333334e-05, + "loss": 6.1335, + "step": 36250 + }, + { + "epoch": 2.904, + "grad_norm": 0.06326540559530258, + "learning_rate": 1.6146666666666666e-05, + "loss": 6.1163, + "step": 36300 + }, + { + "epoch": 2.908, + "grad_norm": 0.0821731835603714, + "learning_rate": 1.548e-05, + "loss": 6.1233, + "step": 36350 + }, + { + "epoch": 2.912, + "grad_norm": 0.12054280191659927, + "learning_rate": 1.4813333333333333e-05, + "loss": 6.0934, + "step": 36400 + }, + { + "epoch": 2.916, + "grad_norm": 0.08681578934192657, + "learning_rate": 1.4146666666666668e-05, + "loss": 6.0843, + "step": 36450 + }, + { + "epoch": 2.92, + "grad_norm": 0.0752846896648407, + "learning_rate": 1.3480000000000001e-05, + "loss": 6.115, + "step": 36500 + }, + { + "epoch": 2.924, + "grad_norm": 0.07184479385614395, + "learning_rate": 1.2813333333333333e-05, + "loss": 6.1023, + "step": 36550 + }, + { + "epoch": 2.928, + "grad_norm": 0.08641932904720306, + "learning_rate": 1.2146666666666667e-05, + "loss": 6.1243, + "step": 36600 + }, + { + "epoch": 2.932, + "grad_norm": 0.06705235689878464, + "learning_rate": 1.148e-05, + "loss": 6.1323, + "step": 36650 + }, + { + "epoch": 2.936, + "grad_norm": 0.08563032746315002, + "learning_rate": 1.0813333333333334e-05, + "loss": 6.076, + "step": 36700 + }, + { + "epoch": 2.94, + "grad_norm": 0.13244807720184326, + "learning_rate": 1.0146666666666667e-05, + "loss": 6.1375, + "step": 36750 + }, + { + "epoch": 2.944, + "grad_norm": 0.08839064091444016, + "learning_rate": 9.48e-06, + "loss": 6.1092, + "step": 36800 + }, + { + "epoch": 2.948, + "grad_norm": 0.0715118795633316, + "learning_rate": 8.813333333333333e-06, + "loss": 6.1459, + "step": 36850 + }, + { + "epoch": 2.952, + "grad_norm": 0.09828780591487885, + "learning_rate": 8.146666666666666e-06, + "loss": 6.1042, + "step": 36900 + }, + { + "epoch": 2.956, + "grad_norm": 0.07532759010791779, + "learning_rate": 7.4799999999999995e-06, + "loss": 6.1102, + "step": 36950 + }, + { + "epoch": 2.96, + "grad_norm": 0.0734458640217781, + "learning_rate": 6.813333333333334e-06, + "loss": 6.0976, + "step": 37000 + }, + { + "epoch": 2.964, + "grad_norm": 0.101185142993927, + "learning_rate": 6.1466666666666665e-06, + "loss": 6.0416, + "step": 37050 + }, + { + "epoch": 2.968, + "grad_norm": 0.08444733917713165, + "learning_rate": 5.48e-06, + "loss": 6.1067, + "step": 37100 + }, + { + "epoch": 2.972, + "grad_norm": 0.09673091769218445, + "learning_rate": 4.8133333333333336e-06, + "loss": 6.1135, + "step": 37150 + }, + { + "epoch": 2.976, + "grad_norm": 0.10287518054246902, + "learning_rate": 4.146666666666667e-06, + "loss": 6.1101, + "step": 37200 + }, + { + "epoch": 2.98, + "grad_norm": 0.10389727354049683, + "learning_rate": 3.48e-06, + "loss": 6.0965, + "step": 37250 + }, + { + "epoch": 2.984, + "grad_norm": 0.07369161397218704, + "learning_rate": 2.8133333333333336e-06, + "loss": 6.1114, + "step": 37300 + }, + { + "epoch": 2.988, + "grad_norm": 0.10401739925146103, + "learning_rate": 2.1466666666666667e-06, + "loss": 6.1387, + "step": 37350 + }, + { + "epoch": 2.992, + "grad_norm": 0.08376054465770721, + "learning_rate": 1.48e-06, + "loss": 6.1146, + "step": 37400 + }, + { + "epoch": 2.996, + "grad_norm": 0.07669202238321304, + "learning_rate": 8.133333333333333e-07, + "loss": 6.1119, + "step": 37450 + }, + { + "epoch": 3.0, + "grad_norm": 0.10313049703836441, + "learning_rate": 1.4666666666666666e-07, + "loss": 6.1012, + "step": 37500 }, { "epoch": 3.0, - "eval_bleu": 0.0, - "eval_cer": 0.9994926085469246, - "eval_f1": 0.0, - "eval_loss": NaN, - "eval_meteor": 0.0, - "eval_runtime": 7.0834, - "eval_samples_per_second": 14.118, - "eval_steps_per_second": 14.118, - "eval_wer": 1.0, - "step": 21 + "eval_bleu": 0.824917705791878, + "eval_cer": 0.02681490368523881, + "eval_f1": 0.923196495238835, + "eval_loss": 6.103950500488281, + "eval_meteor": 0.9148204705294067, + "eval_runtime": 590.0736, + "eval_samples_per_second": 8.474, + "eval_steps_per_second": 0.266, + "eval_wer": 0.08322672667667196, + "step": 37500 }, { "epoch": 3.0, - "step": 21, - "total_flos": 179856919756800.0, - "train_loss": 0.0, - "train_runtime": 52.609, - "train_samples_per_second": 5.702, - "train_steps_per_second": 0.399 + "step": 37500, + "total_flos": 6.544636730199245e+17, + "train_loss": 6.1357289762369795, + "train_runtime": 6359.0647, + "train_samples_per_second": 188.702, + "train_steps_per_second": 5.897 } ], "logging_steps": 50, - "max_steps": 21, + "max_steps": 37500, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, @@ -75,8 +5325,8 @@ "attributes": {} } }, - "total_flos": 179856919756800.0, - "train_batch_size": 16, + "total_flos": 6.544636730199245e+17, + "train_batch_size": 32, "trial_name": null, "trial_params": null }