| [ | |
| { | |
| "loss": 2.2432, | |
| "grad_norm": 21.744905471801758, | |
| "learning_rate": 3e-06, | |
| "epoch": 0.013333333333333334, | |
| "step": 10 | |
| }, | |
| { | |
| "loss": 1.7973, | |
| "grad_norm": 14.733763694763184, | |
| "learning_rate": 8.000000000000001e-06, | |
| "epoch": 0.02666666666666667, | |
| "step": 20 | |
| }, | |
| { | |
| "loss": 1.5026, | |
| "grad_norm": 14.220388412475586, | |
| "learning_rate": 9.96969696969697e-06, | |
| "epoch": 0.04, | |
| "step": 30 | |
| }, | |
| { | |
| "loss": 1.2914, | |
| "grad_norm": 10.948968887329102, | |
| "learning_rate": 9.91919191919192e-06, | |
| "epoch": 0.05333333333333334, | |
| "step": 40 | |
| }, | |
| { | |
| "loss": 1.0386, | |
| "grad_norm": 16.895463943481445, | |
| "learning_rate": 9.86868686868687e-06, | |
| "epoch": 0.06666666666666667, | |
| "step": 50 | |
| }, | |
| { | |
| "loss": 0.7968, | |
| "grad_norm": 12.06560230255127, | |
| "learning_rate": 9.81818181818182e-06, | |
| "epoch": 0.08, | |
| "step": 60 | |
| }, | |
| { | |
| "loss": 0.7156, | |
| "grad_norm": 13.385286331176758, | |
| "learning_rate": 9.767676767676767e-06, | |
| "epoch": 0.09333333333333334, | |
| "step": 70 | |
| }, | |
| { | |
| "loss": 0.6196, | |
| "grad_norm": 11.165105819702148, | |
| "learning_rate": 9.717171717171719e-06, | |
| "epoch": 0.10666666666666667, | |
| "step": 80 | |
| }, | |
| { | |
| "loss": 0.5291, | |
| "grad_norm": 10.339080810546875, | |
| "learning_rate": 9.666666666666667e-06, | |
| "epoch": 0.12, | |
| "step": 90 | |
| }, | |
| { | |
| "loss": 0.4969, | |
| "grad_norm": 12.498907089233398, | |
| "learning_rate": 9.616161616161616e-06, | |
| "epoch": 0.13333333333333333, | |
| "step": 100 | |
| }, | |
| { | |
| "loss": 0.4485, | |
| "grad_norm": 9.328315734863281, | |
| "learning_rate": 9.565656565656566e-06, | |
| "epoch": 0.14666666666666667, | |
| "step": 110 | |
| }, | |
| { | |
| "loss": 0.4159, | |
| "grad_norm": 9.491714477539062, | |
| "learning_rate": 9.515151515151516e-06, | |
| "epoch": 0.16, | |
| "step": 120 | |
| }, | |
| { | |
| "loss": 0.4026, | |
| "grad_norm": 19.850738525390625, | |
| "learning_rate": 9.464646464646466e-06, | |
| "epoch": 0.17333333333333334, | |
| "step": 130 | |
| }, | |
| { | |
| "loss": 0.4116, | |
| "grad_norm": 10.06363296508789, | |
| "learning_rate": 9.414141414141414e-06, | |
| "epoch": 0.18666666666666668, | |
| "step": 140 | |
| }, | |
| { | |
| "loss": 0.3992, | |
| "grad_norm": 6.950311660766602, | |
| "learning_rate": 9.363636363636365e-06, | |
| "epoch": 0.2, | |
| "step": 150 | |
| }, | |
| { | |
| "loss": 0.3622, | |
| "grad_norm": 8.691428184509277, | |
| "learning_rate": 9.313131313131313e-06, | |
| "epoch": 0.21333333333333335, | |
| "step": 160 | |
| }, | |
| { | |
| "loss": 0.361, | |
| "grad_norm": 8.978887557983398, | |
| "learning_rate": 9.262626262626263e-06, | |
| "epoch": 0.22666666666666666, | |
| "step": 170 | |
| }, | |
| { | |
| "loss": 0.3266, | |
| "grad_norm": 7.56756591796875, | |
| "learning_rate": 9.212121212121213e-06, | |
| "epoch": 0.24, | |
| "step": 180 | |
| }, | |
| { | |
| "loss": 0.3168, | |
| "grad_norm": 9.014394760131836, | |
| "learning_rate": 9.161616161616162e-06, | |
| "epoch": 0.25333333333333335, | |
| "step": 190 | |
| }, | |
| { | |
| "loss": 0.2891, | |
| "grad_norm": 6.323943138122559, | |
| "learning_rate": 9.111111111111112e-06, | |
| "epoch": 0.26666666666666666, | |
| "step": 200 | |
| }, | |
| { | |
| "loss": 0.2897, | |
| "grad_norm": 7.0876030921936035, | |
| "learning_rate": 9.06060606060606e-06, | |
| "epoch": 0.28, | |
| "step": 210 | |
| }, | |
| { | |
| "loss": 0.2831, | |
| "grad_norm": 9.165555000305176, | |
| "learning_rate": 9.010101010101012e-06, | |
| "epoch": 0.29333333333333333, | |
| "step": 220 | |
| }, | |
| { | |
| "loss": 0.2762, | |
| "grad_norm": 7.460292816162109, | |
| "learning_rate": 8.95959595959596e-06, | |
| "epoch": 0.30666666666666664, | |
| "step": 230 | |
| }, | |
| { | |
| "loss": 0.2785, | |
| "grad_norm": 10.57375717163086, | |
| "learning_rate": 8.90909090909091e-06, | |
| "epoch": 0.32, | |
| "step": 240 | |
| }, | |
| { | |
| "loss": 0.2643, | |
| "grad_norm": 6.0825419425964355, | |
| "learning_rate": 8.85858585858586e-06, | |
| "epoch": 0.3333333333333333, | |
| "step": 250 | |
| }, | |
| { | |
| "loss": 0.2302, | |
| "grad_norm": 7.762320518493652, | |
| "learning_rate": 8.808080808080809e-06, | |
| "epoch": 0.3466666666666667, | |
| "step": 260 | |
| }, | |
| { | |
| "loss": 0.231, | |
| "grad_norm": 5.677389144897461, | |
| "learning_rate": 8.757575757575759e-06, | |
| "epoch": 0.36, | |
| "step": 270 | |
| }, | |
| { | |
| "loss": 0.2371, | |
| "grad_norm": 7.94091796875, | |
| "learning_rate": 8.707070707070707e-06, | |
| "epoch": 0.37333333333333335, | |
| "step": 280 | |
| }, | |
| { | |
| "loss": 0.2188, | |
| "grad_norm": 6.335744857788086, | |
| "learning_rate": 8.656565656565658e-06, | |
| "epoch": 0.38666666666666666, | |
| "step": 290 | |
| }, | |
| { | |
| "loss": 0.2266, | |
| "grad_norm": 5.985649108886719, | |
| "learning_rate": 8.606060606060606e-06, | |
| "epoch": 0.4, | |
| "step": 300 | |
| }, | |
| { | |
| "loss": 0.1974, | |
| "grad_norm": 6.430419445037842, | |
| "learning_rate": 8.555555555555556e-06, | |
| "epoch": 0.41333333333333333, | |
| "step": 310 | |
| }, | |
| { | |
| "loss": 0.1814, | |
| "grad_norm": 4.81736946105957, | |
| "learning_rate": 8.505050505050506e-06, | |
| "epoch": 0.4266666666666667, | |
| "step": 320 | |
| }, | |
| { | |
| "loss": 0.1762, | |
| "grad_norm": 7.138443946838379, | |
| "learning_rate": 8.454545454545455e-06, | |
| "epoch": 0.44, | |
| "step": 330 | |
| }, | |
| { | |
| "loss": 0.2186, | |
| "grad_norm": 5.675243377685547, | |
| "learning_rate": 8.404040404040405e-06, | |
| "epoch": 0.4533333333333333, | |
| "step": 340 | |
| }, | |
| { | |
| "loss": 0.1654, | |
| "grad_norm": 6.799890518188477, | |
| "learning_rate": 8.353535353535355e-06, | |
| "epoch": 0.4666666666666667, | |
| "step": 350 | |
| }, | |
| { | |
| "loss": 0.1875, | |
| "grad_norm": 7.429632663726807, | |
| "learning_rate": 8.303030303030305e-06, | |
| "epoch": 0.48, | |
| "step": 360 | |
| }, | |
| { | |
| "loss": 0.1751, | |
| "grad_norm": 5.900808334350586, | |
| "learning_rate": 8.252525252525253e-06, | |
| "epoch": 0.49333333333333335, | |
| "step": 370 | |
| }, | |
| { | |
| "loss": 0.1782, | |
| "grad_norm": 6.6987786293029785, | |
| "learning_rate": 8.202020202020202e-06, | |
| "epoch": 0.5066666666666667, | |
| "step": 380 | |
| }, | |
| { | |
| "loss": 0.1923, | |
| "grad_norm": 6.688784122467041, | |
| "learning_rate": 8.151515151515152e-06, | |
| "epoch": 0.52, | |
| "step": 390 | |
| }, | |
| { | |
| "loss": 0.2059, | |
| "grad_norm": 6.698350429534912, | |
| "learning_rate": 8.101010101010102e-06, | |
| "epoch": 0.5333333333333333, | |
| "step": 400 | |
| }, | |
| { | |
| "loss": 0.1859, | |
| "grad_norm": 6.067806720733643, | |
| "learning_rate": 8.050505050505052e-06, | |
| "epoch": 0.5466666666666666, | |
| "step": 410 | |
| }, | |
| { | |
| "loss": 0.2116, | |
| "grad_norm": 5.8718342781066895, | |
| "learning_rate": 8.000000000000001e-06, | |
| "epoch": 0.56, | |
| "step": 420 | |
| }, | |
| { | |
| "loss": 0.1568, | |
| "grad_norm": 6.063828945159912, | |
| "learning_rate": 7.949494949494951e-06, | |
| "epoch": 0.5733333333333334, | |
| "step": 430 | |
| }, | |
| { | |
| "loss": 0.1938, | |
| "grad_norm": 6.0638885498046875, | |
| "learning_rate": 7.898989898989899e-06, | |
| "epoch": 0.5866666666666667, | |
| "step": 440 | |
| }, | |
| { | |
| "loss": 0.1763, | |
| "grad_norm": 5.067079544067383, | |
| "learning_rate": 7.848484848484849e-06, | |
| "epoch": 0.6, | |
| "step": 450 | |
| }, | |
| { | |
| "loss": 0.1852, | |
| "grad_norm": 5.423183441162109, | |
| "learning_rate": 7.797979797979799e-06, | |
| "epoch": 0.6133333333333333, | |
| "step": 460 | |
| }, | |
| { | |
| "loss": 0.1729, | |
| "grad_norm": 6.96974515914917, | |
| "learning_rate": 7.747474747474748e-06, | |
| "epoch": 0.6266666666666667, | |
| "step": 470 | |
| }, | |
| { | |
| "loss": 0.1671, | |
| "grad_norm": 6.261080265045166, | |
| "learning_rate": 7.696969696969696e-06, | |
| "epoch": 0.64, | |
| "step": 480 | |
| }, | |
| { | |
| "loss": 0.1645, | |
| "grad_norm": 6.328644275665283, | |
| "learning_rate": 7.646464646464648e-06, | |
| "epoch": 0.6533333333333333, | |
| "step": 490 | |
| }, | |
| { | |
| "loss": 0.1751, | |
| "grad_norm": 6.327708721160889, | |
| "learning_rate": 7.595959595959597e-06, | |
| "epoch": 0.6666666666666666, | |
| "step": 500 | |
| }, | |
| { | |
| "eval_loss": 0.16899675130844116, | |
| "eval_wer": 0.487629886194953, | |
| "eval_runtime": 297.2109, | |
| "eval_samples_per_second": 1.124, | |
| "eval_steps_per_second": 0.141, | |
| "epoch": 0.6666666666666666, | |
| "step": 500 | |
| }, | |
| { | |
| "loss": 0.1644, | |
| "grad_norm": 5.117833614349365, | |
| "learning_rate": 7.545454545454546e-06, | |
| "epoch": 0.68, | |
| "step": 510 | |
| }, | |
| { | |
| "loss": 0.1991, | |
| "grad_norm": 4.407369613647461, | |
| "learning_rate": 7.494949494949496e-06, | |
| "epoch": 0.6933333333333334, | |
| "step": 520 | |
| }, | |
| { | |
| "loss": 0.1837, | |
| "grad_norm": 7.0209197998046875, | |
| "learning_rate": 7.444444444444445e-06, | |
| "epoch": 0.7066666666666667, | |
| "step": 530 | |
| }, | |
| { | |
| "loss": 0.16, | |
| "grad_norm": 7.45497465133667, | |
| "learning_rate": 7.393939393939395e-06, | |
| "epoch": 0.72, | |
| "step": 540 | |
| }, | |
| { | |
| "loss": 0.1449, | |
| "grad_norm": 5.931302070617676, | |
| "learning_rate": 7.343434343434344e-06, | |
| "epoch": 0.7333333333333333, | |
| "step": 550 | |
| }, | |
| { | |
| "loss": 0.1598, | |
| "grad_norm": 4.769244194030762, | |
| "learning_rate": 7.2929292929292934e-06, | |
| "epoch": 0.7466666666666667, | |
| "step": 560 | |
| }, | |
| { | |
| "loss": 0.1623, | |
| "grad_norm": 7.7779998779296875, | |
| "learning_rate": 7.242424242424243e-06, | |
| "epoch": 0.76, | |
| "step": 570 | |
| }, | |
| { | |
| "loss": 0.1577, | |
| "grad_norm": 6.267203330993652, | |
| "learning_rate": 7.191919191919192e-06, | |
| "epoch": 0.7733333333333333, | |
| "step": 580 | |
| }, | |
| { | |
| "loss": 0.1416, | |
| "grad_norm": 6.511270999908447, | |
| "learning_rate": 7.141414141414143e-06, | |
| "epoch": 0.7866666666666666, | |
| "step": 590 | |
| }, | |
| { | |
| "loss": 0.1386, | |
| "grad_norm": 3.4472644329071045, | |
| "learning_rate": 7.0909090909090916e-06, | |
| "epoch": 0.8, | |
| "step": 600 | |
| }, | |
| { | |
| "loss": 0.1455, | |
| "grad_norm": 5.4273481369018555, | |
| "learning_rate": 7.0404040404040404e-06, | |
| "epoch": 0.8133333333333334, | |
| "step": 610 | |
| }, | |
| { | |
| "loss": 0.1439, | |
| "grad_norm": 4.951779365539551, | |
| "learning_rate": 6.98989898989899e-06, | |
| "epoch": 0.8266666666666667, | |
| "step": 620 | |
| }, | |
| { | |
| "loss": 0.156, | |
| "grad_norm": 6.684361457824707, | |
| "learning_rate": 6.93939393939394e-06, | |
| "epoch": 0.84, | |
| "step": 630 | |
| }, | |
| { | |
| "loss": 0.1463, | |
| "grad_norm": 7.8238139152526855, | |
| "learning_rate": 6.88888888888889e-06, | |
| "epoch": 0.8533333333333334, | |
| "step": 640 | |
| }, | |
| { | |
| "loss": 0.1339, | |
| "grad_norm": 4.42230224609375, | |
| "learning_rate": 6.8383838383838386e-06, | |
| "epoch": 0.8666666666666667, | |
| "step": 650 | |
| }, | |
| { | |
| "loss": 0.14, | |
| "grad_norm": 5.155161380767822, | |
| "learning_rate": 6.787878787878789e-06, | |
| "epoch": 0.88, | |
| "step": 660 | |
| }, | |
| { | |
| "loss": 0.1472, | |
| "grad_norm": 5.219048976898193, | |
| "learning_rate": 6.737373737373738e-06, | |
| "epoch": 0.8933333333333333, | |
| "step": 670 | |
| }, | |
| { | |
| "loss": 0.1561, | |
| "grad_norm": 4.496595859527588, | |
| "learning_rate": 6.686868686868687e-06, | |
| "epoch": 0.9066666666666666, | |
| "step": 680 | |
| }, | |
| { | |
| "loss": 0.1591, | |
| "grad_norm": 5.56928825378418, | |
| "learning_rate": 6.6363636363636375e-06, | |
| "epoch": 0.92, | |
| "step": 690 | |
| }, | |
| { | |
| "loss": 0.1401, | |
| "grad_norm": 3.9802422523498535, | |
| "learning_rate": 6.585858585858586e-06, | |
| "epoch": 0.9333333333333333, | |
| "step": 700 | |
| }, | |
| { | |
| "loss": 0.1583, | |
| "grad_norm": 8.410820960998535, | |
| "learning_rate": 6.535353535353536e-06, | |
| "epoch": 0.9466666666666667, | |
| "step": 710 | |
| }, | |
| { | |
| "loss": 0.1277, | |
| "grad_norm": 5.387331485748291, | |
| "learning_rate": 6.484848484848485e-06, | |
| "epoch": 0.96, | |
| "step": 720 | |
| }, | |
| { | |
| "loss": 0.1318, | |
| "grad_norm": 6.340620517730713, | |
| "learning_rate": 6.434343434343436e-06, | |
| "epoch": 0.9733333333333334, | |
| "step": 730 | |
| }, | |
| { | |
| "loss": 0.1435, | |
| "grad_norm": 6.36068058013916, | |
| "learning_rate": 6.3838383838383845e-06, | |
| "epoch": 0.9866666666666667, | |
| "step": 740 | |
| }, | |
| { | |
| "loss": 0.1267, | |
| "grad_norm": 6.267134189605713, | |
| "learning_rate": 6.333333333333333e-06, | |
| "epoch": 1.0, | |
| "step": 750 | |
| }, | |
| { | |
| "loss": 0.0935, | |
| "grad_norm": 2.937222719192505, | |
| "learning_rate": 6.282828282828284e-06, | |
| "epoch": 1.0133333333333334, | |
| "step": 760 | |
| }, | |
| { | |
| "loss": 0.1018, | |
| "grad_norm": 3.3359508514404297, | |
| "learning_rate": 6.232323232323233e-06, | |
| "epoch": 1.0266666666666666, | |
| "step": 770 | |
| }, | |
| { | |
| "loss": 0.0833, | |
| "grad_norm": 4.2928466796875, | |
| "learning_rate": 6.181818181818182e-06, | |
| "epoch": 1.04, | |
| "step": 780 | |
| }, | |
| { | |
| "loss": 0.1053, | |
| "grad_norm": 4.187559127807617, | |
| "learning_rate": 6.1313131313131315e-06, | |
| "epoch": 1.0533333333333332, | |
| "step": 790 | |
| }, | |
| { | |
| "loss": 0.0916, | |
| "grad_norm": 4.729913711547852, | |
| "learning_rate": 6.080808080808081e-06, | |
| "epoch": 1.0666666666666667, | |
| "step": 800 | |
| }, | |
| { | |
| "loss": 0.0898, | |
| "grad_norm": 3.426358938217163, | |
| "learning_rate": 6.030303030303031e-06, | |
| "epoch": 1.08, | |
| "step": 810 | |
| }, | |
| { | |
| "loss": 0.0806, | |
| "grad_norm": 3.42873477935791, | |
| "learning_rate": 5.97979797979798e-06, | |
| "epoch": 1.0933333333333333, | |
| "step": 820 | |
| }, | |
| { | |
| "loss": 0.0855, | |
| "grad_norm": 5.813981533050537, | |
| "learning_rate": 5.9292929292929305e-06, | |
| "epoch": 1.1066666666666667, | |
| "step": 830 | |
| }, | |
| { | |
| "loss": 0.0807, | |
| "grad_norm": 3.3029656410217285, | |
| "learning_rate": 5.878787878787879e-06, | |
| "epoch": 1.12, | |
| "step": 840 | |
| }, | |
| { | |
| "loss": 0.0881, | |
| "grad_norm": 3.9471054077148438, | |
| "learning_rate": 5.828282828282828e-06, | |
| "epoch": 1.1333333333333333, | |
| "step": 850 | |
| }, | |
| { | |
| "loss": 0.0739, | |
| "grad_norm": 3.7360801696777344, | |
| "learning_rate": 5.777777777777778e-06, | |
| "epoch": 1.1466666666666667, | |
| "step": 860 | |
| }, | |
| { | |
| "loss": 0.0756, | |
| "grad_norm": 2.321897029876709, | |
| "learning_rate": 5.727272727272728e-06, | |
| "epoch": 1.16, | |
| "step": 870 | |
| }, | |
| { | |
| "loss": 0.1089, | |
| "grad_norm": 6.8720269203186035, | |
| "learning_rate": 5.6767676767676775e-06, | |
| "epoch": 1.1733333333333333, | |
| "step": 880 | |
| }, | |
| { | |
| "loss": 0.0852, | |
| "grad_norm": 3.7198221683502197, | |
| "learning_rate": 5.626262626262626e-06, | |
| "epoch": 1.1866666666666668, | |
| "step": 890 | |
| }, | |
| { | |
| "loss": 0.0911, | |
| "grad_norm": 4.52007532119751, | |
| "learning_rate": 5.575757575757577e-06, | |
| "epoch": 1.2, | |
| "step": 900 | |
| }, | |
| { | |
| "loss": 0.1005, | |
| "grad_norm": 5.6622748374938965, | |
| "learning_rate": 5.525252525252526e-06, | |
| "epoch": 1.2133333333333334, | |
| "step": 910 | |
| }, | |
| { | |
| "loss": 0.0885, | |
| "grad_norm": 3.5315425395965576, | |
| "learning_rate": 5.474747474747475e-06, | |
| "epoch": 1.2266666666666666, | |
| "step": 920 | |
| }, | |
| { | |
| "loss": 0.0853, | |
| "grad_norm": 3.7347161769866943, | |
| "learning_rate": 5.424242424242425e-06, | |
| "epoch": 1.24, | |
| "step": 930 | |
| }, | |
| { | |
| "loss": 0.0739, | |
| "grad_norm": 3.897317886352539, | |
| "learning_rate": 5.373737373737374e-06, | |
| "epoch": 1.2533333333333334, | |
| "step": 940 | |
| }, | |
| { | |
| "loss": 0.0932, | |
| "grad_norm": 4.464446067810059, | |
| "learning_rate": 5.323232323232324e-06, | |
| "epoch": 1.2666666666666666, | |
| "step": 950 | |
| }, | |
| { | |
| "loss": 0.109, | |
| "grad_norm": 4.172600269317627, | |
| "learning_rate": 5.272727272727273e-06, | |
| "epoch": 1.28, | |
| "step": 960 | |
| }, | |
| { | |
| "loss": 0.1006, | |
| "grad_norm": 6.423786163330078, | |
| "learning_rate": 5.2222222222222226e-06, | |
| "epoch": 1.2933333333333334, | |
| "step": 970 | |
| }, | |
| { | |
| "loss": 0.0751, | |
| "grad_norm": 5.334788799285889, | |
| "learning_rate": 5.171717171717172e-06, | |
| "epoch": 1.3066666666666666, | |
| "step": 980 | |
| }, | |
| { | |
| "loss": 0.0887, | |
| "grad_norm": 4.050017356872559, | |
| "learning_rate": 5.121212121212121e-06, | |
| "epoch": 1.32, | |
| "step": 990 | |
| }, | |
| { | |
| "loss": 0.0829, | |
| "grad_norm": 4.011457920074463, | |
| "learning_rate": 5.070707070707072e-06, | |
| "epoch": 1.3333333333333333, | |
| "step": 1000 | |
| }, | |
| { | |
| "eval_loss": 0.12301119416952133, | |
| "eval_wer": 0.3809995051954478, | |
| "eval_runtime": 300.5012, | |
| "eval_samples_per_second": 1.111, | |
| "eval_steps_per_second": 0.14, | |
| "epoch": 1.3333333333333333, | |
| "step": 1000 | |
| }, | |
| { | |
| "loss": 0.0765, | |
| "grad_norm": 4.142199516296387, | |
| "learning_rate": 5.020202020202021e-06, | |
| "epoch": 1.3466666666666667, | |
| "step": 1010 | |
| }, | |
| { | |
| "loss": 0.0827, | |
| "grad_norm": 6.005105018615723, | |
| "learning_rate": 4.9696969696969696e-06, | |
| "epoch": 1.3599999999999999, | |
| "step": 1020 | |
| }, | |
| { | |
| "loss": 0.083, | |
| "grad_norm": 3.4381942749023438, | |
| "learning_rate": 4.919191919191919e-06, | |
| "epoch": 1.3733333333333333, | |
| "step": 1030 | |
| }, | |
| { | |
| "loss": 0.0944, | |
| "grad_norm": 2.9297616481781006, | |
| "learning_rate": 4.868686868686869e-06, | |
| "epoch": 1.3866666666666667, | |
| "step": 1040 | |
| }, | |
| { | |
| "loss": 0.0886, | |
| "grad_norm": 3.7134227752685547, | |
| "learning_rate": 4.818181818181819e-06, | |
| "epoch": 1.4, | |
| "step": 1050 | |
| }, | |
| { | |
| "loss": 0.0923, | |
| "grad_norm": 4.643685817718506, | |
| "learning_rate": 4.7676767676767685e-06, | |
| "epoch": 1.4133333333333333, | |
| "step": 1060 | |
| }, | |
| { | |
| "loss": 0.1007, | |
| "grad_norm": 10.541472434997559, | |
| "learning_rate": 4.717171717171717e-06, | |
| "epoch": 1.4266666666666667, | |
| "step": 1070 | |
| }, | |
| { | |
| "loss": 0.0738, | |
| "grad_norm": 2.6130969524383545, | |
| "learning_rate": 4.666666666666667e-06, | |
| "epoch": 1.44, | |
| "step": 1080 | |
| }, | |
| { | |
| "loss": 0.0901, | |
| "grad_norm": 4.330660343170166, | |
| "learning_rate": 4.616161616161616e-06, | |
| "epoch": 1.4533333333333334, | |
| "step": 1090 | |
| }, | |
| { | |
| "loss": 0.0996, | |
| "grad_norm": 5.923006534576416, | |
| "learning_rate": 4.565656565656566e-06, | |
| "epoch": 1.4666666666666668, | |
| "step": 1100 | |
| }, | |
| { | |
| "loss": 0.0834, | |
| "grad_norm": 3.7538375854492188, | |
| "learning_rate": 4.5151515151515155e-06, | |
| "epoch": 1.48, | |
| "step": 1110 | |
| }, | |
| { | |
| "loss": 0.0701, | |
| "grad_norm": 3.5032098293304443, | |
| "learning_rate": 4.464646464646465e-06, | |
| "epoch": 1.4933333333333334, | |
| "step": 1120 | |
| }, | |
| { | |
| "loss": 0.0804, | |
| "grad_norm": 4.298966407775879, | |
| "learning_rate": 4.414141414141415e-06, | |
| "epoch": 1.5066666666666668, | |
| "step": 1130 | |
| }, | |
| { | |
| "loss": 0.0724, | |
| "grad_norm": 3.847870349884033, | |
| "learning_rate": 4.363636363636364e-06, | |
| "epoch": 1.52, | |
| "step": 1140 | |
| }, | |
| { | |
| "loss": 0.0779, | |
| "grad_norm": 3.737017869949341, | |
| "learning_rate": 4.313131313131314e-06, | |
| "epoch": 1.5333333333333332, | |
| "step": 1150 | |
| }, | |
| { | |
| "loss": 0.0847, | |
| "grad_norm": 3.2333316802978516, | |
| "learning_rate": 4.262626262626263e-06, | |
| "epoch": 1.5466666666666666, | |
| "step": 1160 | |
| }, | |
| { | |
| "loss": 0.0787, | |
| "grad_norm": 4.592497825622559, | |
| "learning_rate": 4.212121212121212e-06, | |
| "epoch": 1.56, | |
| "step": 1170 | |
| }, | |
| { | |
| "loss": 0.0794, | |
| "grad_norm": 3.845383644104004, | |
| "learning_rate": 4.161616161616162e-06, | |
| "epoch": 1.5733333333333333, | |
| "step": 1180 | |
| }, | |
| { | |
| "loss": 0.0978, | |
| "grad_norm": 4.334165096282959, | |
| "learning_rate": 4.111111111111111e-06, | |
| "epoch": 1.5866666666666667, | |
| "step": 1190 | |
| }, | |
| { | |
| "loss": 0.0775, | |
| "grad_norm": 4.0656046867370605, | |
| "learning_rate": 4.060606060606061e-06, | |
| "epoch": 1.6, | |
| "step": 1200 | |
| }, | |
| { | |
| "loss": 0.0847, | |
| "grad_norm": 4.935208797454834, | |
| "learning_rate": 4.01010101010101e-06, | |
| "epoch": 1.6133333333333333, | |
| "step": 1210 | |
| }, | |
| { | |
| "loss": 0.0944, | |
| "grad_norm": 3.122648239135742, | |
| "learning_rate": 3.95959595959596e-06, | |
| "epoch": 1.6266666666666667, | |
| "step": 1220 | |
| }, | |
| { | |
| "loss": 0.0714, | |
| "grad_norm": 3.208401918411255, | |
| "learning_rate": 3.90909090909091e-06, | |
| "epoch": 1.6400000000000001, | |
| "step": 1230 | |
| }, | |
| { | |
| "loss": 0.0681, | |
| "grad_norm": 2.0770390033721924, | |
| "learning_rate": 3.858585858585859e-06, | |
| "epoch": 1.6533333333333333, | |
| "step": 1240 | |
| }, | |
| { | |
| "loss": 0.0745, | |
| "grad_norm": 3.3009884357452393, | |
| "learning_rate": 3.8080808080808085e-06, | |
| "epoch": 1.6666666666666665, | |
| "step": 1250 | |
| }, | |
| { | |
| "loss": 0.0935, | |
| "grad_norm": 4.169901371002197, | |
| "learning_rate": 3.757575757575758e-06, | |
| "epoch": 1.6800000000000002, | |
| "step": 1260 | |
| }, | |
| { | |
| "loss": 0.0908, | |
| "grad_norm": 4.098388671875, | |
| "learning_rate": 3.7070707070707075e-06, | |
| "epoch": 1.6933333333333334, | |
| "step": 1270 | |
| }, | |
| { | |
| "loss": 0.0892, | |
| "grad_norm": 3.705352306365967, | |
| "learning_rate": 3.6565656565656573e-06, | |
| "epoch": 1.7066666666666666, | |
| "step": 1280 | |
| }, | |
| { | |
| "loss": 0.0886, | |
| "grad_norm": 4.458006381988525, | |
| "learning_rate": 3.606060606060606e-06, | |
| "epoch": 1.72, | |
| "step": 1290 | |
| }, | |
| { | |
| "loss": 0.0759, | |
| "grad_norm": 4.776914596557617, | |
| "learning_rate": 3.555555555555556e-06, | |
| "epoch": 1.7333333333333334, | |
| "step": 1300 | |
| }, | |
| { | |
| "loss": 0.0687, | |
| "grad_norm": 3.9618778228759766, | |
| "learning_rate": 3.5050505050505052e-06, | |
| "epoch": 1.7466666666666666, | |
| "step": 1310 | |
| }, | |
| { | |
| "loss": 0.0881, | |
| "grad_norm": 4.7500715255737305, | |
| "learning_rate": 3.454545454545455e-06, | |
| "epoch": 1.76, | |
| "step": 1320 | |
| }, | |
| { | |
| "loss": 0.0658, | |
| "grad_norm": 4.474343776702881, | |
| "learning_rate": 3.4040404040404047e-06, | |
| "epoch": 1.7733333333333334, | |
| "step": 1330 | |
| }, | |
| { | |
| "loss": 0.0714, | |
| "grad_norm": 4.381460666656494, | |
| "learning_rate": 3.3535353535353536e-06, | |
| "epoch": 1.7866666666666666, | |
| "step": 1340 | |
| }, | |
| { | |
| "loss": 0.0697, | |
| "grad_norm": 5.2972235679626465, | |
| "learning_rate": 3.3030303030303033e-06, | |
| "epoch": 1.8, | |
| "step": 1350 | |
| }, | |
| { | |
| "loss": 0.0838, | |
| "grad_norm": 3.481915235519409, | |
| "learning_rate": 3.2525252525252527e-06, | |
| "epoch": 1.8133333333333335, | |
| "step": 1360 | |
| }, | |
| { | |
| "loss": 0.0726, | |
| "grad_norm": 3.9586760997772217, | |
| "learning_rate": 3.2020202020202024e-06, | |
| "epoch": 1.8266666666666667, | |
| "step": 1370 | |
| }, | |
| { | |
| "loss": 0.0877, | |
| "grad_norm": 2.909917116165161, | |
| "learning_rate": 3.1515151515151517e-06, | |
| "epoch": 1.8399999999999999, | |
| "step": 1380 | |
| }, | |
| { | |
| "loss": 0.0836, | |
| "grad_norm": 5.644835472106934, | |
| "learning_rate": 3.1010101010101014e-06, | |
| "epoch": 1.8533333333333335, | |
| "step": 1390 | |
| }, | |
| { | |
| "loss": 0.0666, | |
| "grad_norm": 2.045072555541992, | |
| "learning_rate": 3.0505050505050508e-06, | |
| "epoch": 1.8666666666666667, | |
| "step": 1400 | |
| }, | |
| { | |
| "loss": 0.0639, | |
| "grad_norm": 3.4779183864593506, | |
| "learning_rate": 3e-06, | |
| "epoch": 1.88, | |
| "step": 1410 | |
| }, | |
| { | |
| "loss": 0.0791, | |
| "grad_norm": 4.011447429656982, | |
| "learning_rate": 2.94949494949495e-06, | |
| "epoch": 1.8933333333333333, | |
| "step": 1420 | |
| }, | |
| { | |
| "loss": 0.0669, | |
| "grad_norm": 3.508593797683716, | |
| "learning_rate": 2.898989898989899e-06, | |
| "epoch": 1.9066666666666667, | |
| "step": 1430 | |
| }, | |
| { | |
| "loss": 0.0757, | |
| "grad_norm": 7.03428840637207, | |
| "learning_rate": 2.848484848484849e-06, | |
| "epoch": 1.92, | |
| "step": 1440 | |
| }, | |
| { | |
| "loss": 0.0685, | |
| "grad_norm": 3.3509371280670166, | |
| "learning_rate": 2.7979797979797986e-06, | |
| "epoch": 1.9333333333333333, | |
| "step": 1450 | |
| }, | |
| { | |
| "loss": 0.0718, | |
| "grad_norm": 4.13100004196167, | |
| "learning_rate": 2.7474747474747475e-06, | |
| "epoch": 1.9466666666666668, | |
| "step": 1460 | |
| }, | |
| { | |
| "loss": 0.0615, | |
| "grad_norm": 5.1480512619018555, | |
| "learning_rate": 2.6969696969696972e-06, | |
| "epoch": 1.96, | |
| "step": 1470 | |
| }, | |
| { | |
| "loss": 0.089, | |
| "grad_norm": 4.444997310638428, | |
| "learning_rate": 2.6464646464646466e-06, | |
| "epoch": 1.9733333333333334, | |
| "step": 1480 | |
| }, | |
| { | |
| "loss": 0.0699, | |
| "grad_norm": 3.9407005310058594, | |
| "learning_rate": 2.5959595959595963e-06, | |
| "epoch": 1.9866666666666668, | |
| "step": 1490 | |
| }, | |
| { | |
| "loss": 0.0728, | |
| "grad_norm": 6.953798294067383, | |
| "learning_rate": 2.5454545454545456e-06, | |
| "epoch": 2.0, | |
| "step": 1500 | |
| }, | |
| { | |
| "eval_loss": 0.10412880033254623, | |
| "eval_wer": 0.32657100445324094, | |
| "eval_runtime": 300.9073, | |
| "eval_samples_per_second": 1.11, | |
| "eval_steps_per_second": 0.14, | |
| "epoch": 2.0, | |
| "step": 1500 | |
| }, | |
| { | |
| "loss": 0.049, | |
| "grad_norm": 2.8069822788238525, | |
| "learning_rate": 2.494949494949495e-06, | |
| "epoch": 2.013333333333333, | |
| "step": 1510 | |
| }, | |
| { | |
| "loss": 0.0445, | |
| "grad_norm": 3.9860682487487793, | |
| "learning_rate": 2.4444444444444447e-06, | |
| "epoch": 2.026666666666667, | |
| "step": 1520 | |
| }, | |
| { | |
| "loss": 0.044, | |
| "grad_norm": 1.8156518936157227, | |
| "learning_rate": 2.393939393939394e-06, | |
| "epoch": 2.04, | |
| "step": 1530 | |
| }, | |
| { | |
| "loss": 0.0393, | |
| "grad_norm": 3.85343337059021, | |
| "learning_rate": 2.3434343434343437e-06, | |
| "epoch": 2.0533333333333332, | |
| "step": 1540 | |
| }, | |
| { | |
| "loss": 0.0478, | |
| "grad_norm": 3.4633591175079346, | |
| "learning_rate": 2.292929292929293e-06, | |
| "epoch": 2.066666666666667, | |
| "step": 1550 | |
| }, | |
| { | |
| "loss": 0.0369, | |
| "grad_norm": 2.2300124168395996, | |
| "learning_rate": 2.2424242424242428e-06, | |
| "epoch": 2.08, | |
| "step": 1560 | |
| }, | |
| { | |
| "loss": 0.0506, | |
| "grad_norm": 2.8760111331939697, | |
| "learning_rate": 2.191919191919192e-06, | |
| "epoch": 2.0933333333333333, | |
| "step": 1570 | |
| }, | |
| { | |
| "loss": 0.0388, | |
| "grad_norm": 2.558821201324463, | |
| "learning_rate": 2.1414141414141414e-06, | |
| "epoch": 2.1066666666666665, | |
| "step": 1580 | |
| }, | |
| { | |
| "loss": 0.0387, | |
| "grad_norm": 2.146301031112671, | |
| "learning_rate": 2.090909090909091e-06, | |
| "epoch": 2.12, | |
| "step": 1590 | |
| }, | |
| { | |
| "loss": 0.0424, | |
| "grad_norm": 3.9771625995635986, | |
| "learning_rate": 2.0404040404040405e-06, | |
| "epoch": 2.1333333333333333, | |
| "step": 1600 | |
| }, | |
| { | |
| "loss": 0.0575, | |
| "grad_norm": 3.292935371398926, | |
| "learning_rate": 1.98989898989899e-06, | |
| "epoch": 2.1466666666666665, | |
| "step": 1610 | |
| }, | |
| { | |
| "loss": 0.0383, | |
| "grad_norm": 3.045471429824829, | |
| "learning_rate": 1.9393939393939395e-06, | |
| "epoch": 2.16, | |
| "step": 1620 | |
| }, | |
| { | |
| "loss": 0.0316, | |
| "grad_norm": 3.168919086456299, | |
| "learning_rate": 1.888888888888889e-06, | |
| "epoch": 2.1733333333333333, | |
| "step": 1630 | |
| }, | |
| { | |
| "loss": 0.037, | |
| "grad_norm": 2.878878116607666, | |
| "learning_rate": 1.8383838383838384e-06, | |
| "epoch": 2.1866666666666665, | |
| "step": 1640 | |
| }, | |
| { | |
| "loss": 0.0523, | |
| "grad_norm": 2.0924072265625, | |
| "learning_rate": 1.787878787878788e-06, | |
| "epoch": 2.2, | |
| "step": 1650 | |
| }, | |
| { | |
| "loss": 0.0367, | |
| "grad_norm": 4.216643333435059, | |
| "learning_rate": 1.7373737373737376e-06, | |
| "epoch": 2.2133333333333334, | |
| "step": 1660 | |
| }, | |
| { | |
| "loss": 0.0321, | |
| "grad_norm": 2.9497156143188477, | |
| "learning_rate": 1.6868686868686871e-06, | |
| "epoch": 2.2266666666666666, | |
| "step": 1670 | |
| }, | |
| { | |
| "loss": 0.0406, | |
| "grad_norm": 2.8304696083068848, | |
| "learning_rate": 1.6363636363636365e-06, | |
| "epoch": 2.24, | |
| "step": 1680 | |
| }, | |
| { | |
| "loss": 0.0393, | |
| "grad_norm": 2.576051712036133, | |
| "learning_rate": 1.585858585858586e-06, | |
| "epoch": 2.2533333333333334, | |
| "step": 1690 | |
| }, | |
| { | |
| "loss": 0.0284, | |
| "grad_norm": 2.7163302898406982, | |
| "learning_rate": 1.5353535353535353e-06, | |
| "epoch": 2.2666666666666666, | |
| "step": 1700 | |
| }, | |
| { | |
| "loss": 0.0445, | |
| "grad_norm": 1.9396488666534424, | |
| "learning_rate": 1.484848484848485e-06, | |
| "epoch": 2.2800000000000002, | |
| "step": 1710 | |
| }, | |
| { | |
| "loss": 0.0439, | |
| "grad_norm": 3.899765729904175, | |
| "learning_rate": 1.4343434343434346e-06, | |
| "epoch": 2.2933333333333334, | |
| "step": 1720 | |
| }, | |
| { | |
| "loss": 0.0306, | |
| "grad_norm": 2.1854968070983887, | |
| "learning_rate": 1.3838383838383839e-06, | |
| "epoch": 2.3066666666666666, | |
| "step": 1730 | |
| }, | |
| { | |
| "loss": 0.034, | |
| "grad_norm": 2.636538505554199, | |
| "learning_rate": 1.3333333333333334e-06, | |
| "epoch": 2.32, | |
| "step": 1740 | |
| }, | |
| { | |
| "loss": 0.0319, | |
| "grad_norm": 2.022677421569824, | |
| "learning_rate": 1.282828282828283e-06, | |
| "epoch": 2.3333333333333335, | |
| "step": 1750 | |
| }, | |
| { | |
| "loss": 0.0365, | |
| "grad_norm": 3.6239359378814697, | |
| "learning_rate": 1.2323232323232325e-06, | |
| "epoch": 2.3466666666666667, | |
| "step": 1760 | |
| }, | |
| { | |
| "loss": 0.052, | |
| "grad_norm": 4.198002338409424, | |
| "learning_rate": 1.181818181818182e-06, | |
| "epoch": 2.36, | |
| "step": 1770 | |
| }, | |
| { | |
| "loss": 0.0362, | |
| "grad_norm": 2.3800501823425293, | |
| "learning_rate": 1.1313131313131315e-06, | |
| "epoch": 2.3733333333333335, | |
| "step": 1780 | |
| }, | |
| { | |
| "loss": 0.0397, | |
| "grad_norm": 3.785360097885132, | |
| "learning_rate": 1.0808080808080808e-06, | |
| "epoch": 2.3866666666666667, | |
| "step": 1790 | |
| }, | |
| { | |
| "loss": 0.0408, | |
| "grad_norm": 3.217353343963623, | |
| "learning_rate": 1.0303030303030304e-06, | |
| "epoch": 2.4, | |
| "step": 1800 | |
| }, | |
| { | |
| "loss": 0.0388, | |
| "grad_norm": 2.529654026031494, | |
| "learning_rate": 9.797979797979799e-07, | |
| "epoch": 2.413333333333333, | |
| "step": 1810 | |
| }, | |
| { | |
| "loss": 0.0398, | |
| "grad_norm": 2.1262857913970947, | |
| "learning_rate": 9.292929292929294e-07, | |
| "epoch": 2.4266666666666667, | |
| "step": 1820 | |
| }, | |
| { | |
| "loss": 0.0353, | |
| "grad_norm": 2.315272569656372, | |
| "learning_rate": 8.787878787878788e-07, | |
| "epoch": 2.44, | |
| "step": 1830 | |
| }, | |
| { | |
| "loss": 0.0392, | |
| "grad_norm": 2.6445798873901367, | |
| "learning_rate": 8.282828282828284e-07, | |
| "epoch": 2.453333333333333, | |
| "step": 1840 | |
| }, | |
| { | |
| "loss": 0.0404, | |
| "grad_norm": 3.2057223320007324, | |
| "learning_rate": 7.777777777777779e-07, | |
| "epoch": 2.466666666666667, | |
| "step": 1850 | |
| }, | |
| { | |
| "loss": 0.0388, | |
| "grad_norm": 1.7564632892608643, | |
| "learning_rate": 7.272727272727273e-07, | |
| "epoch": 2.48, | |
| "step": 1860 | |
| }, | |
| { | |
| "loss": 0.0389, | |
| "grad_norm": 2.8943591117858887, | |
| "learning_rate": 6.767676767676768e-07, | |
| "epoch": 2.493333333333333, | |
| "step": 1870 | |
| }, | |
| { | |
| "loss": 0.0409, | |
| "grad_norm": 2.3569250106811523, | |
| "learning_rate": 6.262626262626264e-07, | |
| "epoch": 2.506666666666667, | |
| "step": 1880 | |
| }, | |
| { | |
| "loss": 0.0385, | |
| "grad_norm": 2.9522323608398438, | |
| "learning_rate": 5.757575757575758e-07, | |
| "epoch": 2.52, | |
| "step": 1890 | |
| }, | |
| { | |
| "loss": 0.0361, | |
| "grad_norm": 2.06543231010437, | |
| "learning_rate": 5.252525252525253e-07, | |
| "epoch": 2.533333333333333, | |
| "step": 1900 | |
| }, | |
| { | |
| "loss": 0.0409, | |
| "grad_norm": 2.8644039630889893, | |
| "learning_rate": 4.747474747474748e-07, | |
| "epoch": 2.546666666666667, | |
| "step": 1910 | |
| }, | |
| { | |
| "loss": 0.0413, | |
| "grad_norm": 2.930689811706543, | |
| "learning_rate": 4.242424242424243e-07, | |
| "epoch": 2.56, | |
| "step": 1920 | |
| }, | |
| { | |
| "loss": 0.0341, | |
| "grad_norm": 2.808952808380127, | |
| "learning_rate": 3.7373737373737374e-07, | |
| "epoch": 2.5733333333333333, | |
| "step": 1930 | |
| }, | |
| { | |
| "loss": 0.0382, | |
| "grad_norm": 2.888901948928833, | |
| "learning_rate": 3.2323232323232327e-07, | |
| "epoch": 2.586666666666667, | |
| "step": 1940 | |
| }, | |
| { | |
| "loss": 0.0332, | |
| "grad_norm": 3.2837748527526855, | |
| "learning_rate": 2.7272727272727274e-07, | |
| "epoch": 2.6, | |
| "step": 1950 | |
| }, | |
| { | |
| "loss": 0.0389, | |
| "grad_norm": 2.218034505844116, | |
| "learning_rate": 2.2222222222222224e-07, | |
| "epoch": 2.6133333333333333, | |
| "step": 1960 | |
| }, | |
| { | |
| "loss": 0.0319, | |
| "grad_norm": 2.5878612995147705, | |
| "learning_rate": 1.7171717171717172e-07, | |
| "epoch": 2.626666666666667, | |
| "step": 1970 | |
| }, | |
| { | |
| "loss": 0.0451, | |
| "grad_norm": 2.980043411254883, | |
| "learning_rate": 1.2121212121212122e-07, | |
| "epoch": 2.64, | |
| "step": 1980 | |
| }, | |
| { | |
| "loss": 0.0399, | |
| "grad_norm": 4.007762908935547, | |
| "learning_rate": 7.070707070707072e-08, | |
| "epoch": 2.6533333333333333, | |
| "step": 1990 | |
| }, | |
| { | |
| "loss": 0.0369, | |
| "grad_norm": 3.797729969024658, | |
| "learning_rate": 2.0202020202020204e-08, | |
| "epoch": 2.6666666666666665, | |
| "step": 2000 | |
| }, | |
| { | |
| "eval_loss": 0.10373403131961823, | |
| "eval_wer": 0.3080158337456705, | |
| "eval_runtime": 298.3545, | |
| "eval_samples_per_second": 1.119, | |
| "eval_steps_per_second": 0.141, | |
| "epoch": 2.6666666666666665, | |
| "step": 2000 | |
| }, | |
| { | |
| "train_runtime": 2780.7751, | |
| "train_samples_per_second": 2.877, | |
| "train_steps_per_second": 0.719, | |
| "total_flos": 2.30695169015808e+18, | |
| "train_loss": 0.1647129835486412, | |
| "epoch": 2.6666666666666665, | |
| "step": 2000 | |
| }, | |
| { | |
| "eval_loss": 0.10373403131961823, | |
| "eval_wer": 0.3080158337456705, | |
| "eval_runtime": 290.9555, | |
| "eval_samples_per_second": 1.148, | |
| "eval_steps_per_second": 0.144, | |
| "epoch": 2.6666666666666665, | |
| "step": 2000 | |
| } | |
| ] |