[ { "loss": 2.2432, "grad_norm": 21.744905471801758, "learning_rate": 3e-06, "epoch": 0.013333333333333334, "step": 10 }, { "loss": 1.7973, "grad_norm": 14.733763694763184, "learning_rate": 8.000000000000001e-06, "epoch": 0.02666666666666667, "step": 20 }, { "loss": 1.5026, "grad_norm": 14.220388412475586, "learning_rate": 9.96969696969697e-06, "epoch": 0.04, "step": 30 }, { "loss": 1.2914, "grad_norm": 10.948968887329102, "learning_rate": 9.91919191919192e-06, "epoch": 0.05333333333333334, "step": 40 }, { "loss": 1.0386, "grad_norm": 16.895463943481445, "learning_rate": 9.86868686868687e-06, "epoch": 0.06666666666666667, "step": 50 }, { "loss": 0.7968, "grad_norm": 12.06560230255127, "learning_rate": 9.81818181818182e-06, "epoch": 0.08, "step": 60 }, { "loss": 0.7156, "grad_norm": 13.385286331176758, "learning_rate": 9.767676767676767e-06, "epoch": 0.09333333333333334, "step": 70 }, { "loss": 0.6196, "grad_norm": 11.165105819702148, "learning_rate": 9.717171717171719e-06, "epoch": 0.10666666666666667, "step": 80 }, { "loss": 0.5291, "grad_norm": 10.339080810546875, "learning_rate": 9.666666666666667e-06, "epoch": 0.12, "step": 90 }, { "loss": 0.4969, "grad_norm": 12.498907089233398, "learning_rate": 9.616161616161616e-06, "epoch": 0.13333333333333333, "step": 100 }, { "loss": 0.4485, "grad_norm": 9.328315734863281, "learning_rate": 9.565656565656566e-06, "epoch": 0.14666666666666667, "step": 110 }, { "loss": 0.4159, "grad_norm": 9.491714477539062, "learning_rate": 9.515151515151516e-06, "epoch": 0.16, "step": 120 }, { "loss": 0.4026, "grad_norm": 19.850738525390625, "learning_rate": 9.464646464646466e-06, "epoch": 0.17333333333333334, "step": 130 }, { "loss": 0.4116, "grad_norm": 10.06363296508789, "learning_rate": 9.414141414141414e-06, "epoch": 0.18666666666666668, "step": 140 }, { "loss": 0.3992, "grad_norm": 6.950311660766602, "learning_rate": 9.363636363636365e-06, "epoch": 0.2, "step": 150 }, { "loss": 0.3622, "grad_norm": 8.691428184509277, "learning_rate": 9.313131313131313e-06, "epoch": 0.21333333333333335, "step": 160 }, { "loss": 0.361, "grad_norm": 8.978887557983398, "learning_rate": 9.262626262626263e-06, "epoch": 0.22666666666666666, "step": 170 }, { "loss": 0.3266, "grad_norm": 7.56756591796875, "learning_rate": 9.212121212121213e-06, "epoch": 0.24, "step": 180 }, { "loss": 0.3168, "grad_norm": 9.014394760131836, "learning_rate": 9.161616161616162e-06, "epoch": 0.25333333333333335, "step": 190 }, { "loss": 0.2891, "grad_norm": 6.323943138122559, "learning_rate": 9.111111111111112e-06, "epoch": 0.26666666666666666, "step": 200 }, { "loss": 0.2897, "grad_norm": 7.0876030921936035, "learning_rate": 9.06060606060606e-06, "epoch": 0.28, "step": 210 }, { "loss": 0.2831, "grad_norm": 9.165555000305176, "learning_rate": 9.010101010101012e-06, "epoch": 0.29333333333333333, "step": 220 }, { "loss": 0.2762, "grad_norm": 7.460292816162109, "learning_rate": 8.95959595959596e-06, "epoch": 0.30666666666666664, "step": 230 }, { "loss": 0.2785, "grad_norm": 10.57375717163086, "learning_rate": 8.90909090909091e-06, "epoch": 0.32, "step": 240 }, { "loss": 0.2643, "grad_norm": 6.0825419425964355, "learning_rate": 8.85858585858586e-06, "epoch": 0.3333333333333333, "step": 250 }, { "loss": 0.2302, "grad_norm": 7.762320518493652, "learning_rate": 8.808080808080809e-06, "epoch": 0.3466666666666667, "step": 260 }, { "loss": 0.231, "grad_norm": 5.677389144897461, "learning_rate": 8.757575757575759e-06, "epoch": 0.36, "step": 270 }, { "loss": 0.2371, "grad_norm": 7.94091796875, "learning_rate": 8.707070707070707e-06, "epoch": 0.37333333333333335, "step": 280 }, { "loss": 0.2188, "grad_norm": 6.335744857788086, "learning_rate": 8.656565656565658e-06, "epoch": 0.38666666666666666, "step": 290 }, { "loss": 0.2266, "grad_norm": 5.985649108886719, "learning_rate": 8.606060606060606e-06, "epoch": 0.4, "step": 300 }, { "loss": 0.1974, "grad_norm": 6.430419445037842, "learning_rate": 8.555555555555556e-06, "epoch": 0.41333333333333333, "step": 310 }, { "loss": 0.1814, "grad_norm": 4.81736946105957, "learning_rate": 8.505050505050506e-06, "epoch": 0.4266666666666667, "step": 320 }, { "loss": 0.1762, "grad_norm": 7.138443946838379, "learning_rate": 8.454545454545455e-06, "epoch": 0.44, "step": 330 }, { "loss": 0.2186, "grad_norm": 5.675243377685547, "learning_rate": 8.404040404040405e-06, "epoch": 0.4533333333333333, "step": 340 }, { "loss": 0.1654, "grad_norm": 6.799890518188477, "learning_rate": 8.353535353535355e-06, "epoch": 0.4666666666666667, "step": 350 }, { "loss": 0.1875, "grad_norm": 7.429632663726807, "learning_rate": 8.303030303030305e-06, "epoch": 0.48, "step": 360 }, { "loss": 0.1751, "grad_norm": 5.900808334350586, "learning_rate": 8.252525252525253e-06, "epoch": 0.49333333333333335, "step": 370 }, { "loss": 0.1782, "grad_norm": 6.6987786293029785, "learning_rate": 8.202020202020202e-06, "epoch": 0.5066666666666667, "step": 380 }, { "loss": 0.1923, "grad_norm": 6.688784122467041, "learning_rate": 8.151515151515152e-06, "epoch": 0.52, "step": 390 }, { "loss": 0.2059, "grad_norm": 6.698350429534912, "learning_rate": 8.101010101010102e-06, "epoch": 0.5333333333333333, "step": 400 }, { "loss": 0.1859, "grad_norm": 6.067806720733643, "learning_rate": 8.050505050505052e-06, "epoch": 0.5466666666666666, "step": 410 }, { "loss": 0.2116, "grad_norm": 5.8718342781066895, "learning_rate": 8.000000000000001e-06, "epoch": 0.56, "step": 420 }, { "loss": 0.1568, "grad_norm": 6.063828945159912, "learning_rate": 7.949494949494951e-06, "epoch": 0.5733333333333334, "step": 430 }, { "loss": 0.1938, "grad_norm": 6.0638885498046875, "learning_rate": 7.898989898989899e-06, "epoch": 0.5866666666666667, "step": 440 }, { "loss": 0.1763, "grad_norm": 5.067079544067383, "learning_rate": 7.848484848484849e-06, "epoch": 0.6, "step": 450 }, { "loss": 0.1852, "grad_norm": 5.423183441162109, "learning_rate": 7.797979797979799e-06, "epoch": 0.6133333333333333, "step": 460 }, { "loss": 0.1729, "grad_norm": 6.96974515914917, "learning_rate": 7.747474747474748e-06, "epoch": 0.6266666666666667, "step": 470 }, { "loss": 0.1671, "grad_norm": 6.261080265045166, "learning_rate": 7.696969696969696e-06, "epoch": 0.64, "step": 480 }, { "loss": 0.1645, "grad_norm": 6.328644275665283, "learning_rate": 7.646464646464648e-06, "epoch": 0.6533333333333333, "step": 490 }, { "loss": 0.1751, "grad_norm": 6.327708721160889, "learning_rate": 7.595959595959597e-06, "epoch": 0.6666666666666666, "step": 500 }, { "eval_loss": 0.16899675130844116, "eval_wer": 0.487629886194953, "eval_runtime": 297.2109, "eval_samples_per_second": 1.124, "eval_steps_per_second": 0.141, "epoch": 0.6666666666666666, "step": 500 }, { "loss": 0.1644, "grad_norm": 5.117833614349365, "learning_rate": 7.545454545454546e-06, "epoch": 0.68, "step": 510 }, { "loss": 0.1991, "grad_norm": 4.407369613647461, "learning_rate": 7.494949494949496e-06, "epoch": 0.6933333333333334, "step": 520 }, { "loss": 0.1837, "grad_norm": 7.0209197998046875, "learning_rate": 7.444444444444445e-06, "epoch": 0.7066666666666667, "step": 530 }, { "loss": 0.16, "grad_norm": 7.45497465133667, "learning_rate": 7.393939393939395e-06, "epoch": 0.72, "step": 540 }, { "loss": 0.1449, "grad_norm": 5.931302070617676, "learning_rate": 7.343434343434344e-06, "epoch": 0.7333333333333333, "step": 550 }, { "loss": 0.1598, "grad_norm": 4.769244194030762, "learning_rate": 7.2929292929292934e-06, "epoch": 0.7466666666666667, "step": 560 }, { "loss": 0.1623, "grad_norm": 7.7779998779296875, "learning_rate": 7.242424242424243e-06, "epoch": 0.76, "step": 570 }, { "loss": 0.1577, "grad_norm": 6.267203330993652, "learning_rate": 7.191919191919192e-06, "epoch": 0.7733333333333333, "step": 580 }, { "loss": 0.1416, "grad_norm": 6.511270999908447, "learning_rate": 7.141414141414143e-06, "epoch": 0.7866666666666666, "step": 590 }, { "loss": 0.1386, "grad_norm": 3.4472644329071045, "learning_rate": 7.0909090909090916e-06, "epoch": 0.8, "step": 600 }, { "loss": 0.1455, "grad_norm": 5.4273481369018555, "learning_rate": 7.0404040404040404e-06, "epoch": 0.8133333333333334, "step": 610 }, { "loss": 0.1439, "grad_norm": 4.951779365539551, "learning_rate": 6.98989898989899e-06, "epoch": 0.8266666666666667, "step": 620 }, { "loss": 0.156, "grad_norm": 6.684361457824707, "learning_rate": 6.93939393939394e-06, "epoch": 0.84, "step": 630 }, { "loss": 0.1463, "grad_norm": 7.8238139152526855, "learning_rate": 6.88888888888889e-06, "epoch": 0.8533333333333334, "step": 640 }, { "loss": 0.1339, "grad_norm": 4.42230224609375, "learning_rate": 6.8383838383838386e-06, "epoch": 0.8666666666666667, "step": 650 }, { "loss": 0.14, "grad_norm": 5.155161380767822, "learning_rate": 6.787878787878789e-06, "epoch": 0.88, "step": 660 }, { "loss": 0.1472, "grad_norm": 5.219048976898193, "learning_rate": 6.737373737373738e-06, "epoch": 0.8933333333333333, "step": 670 }, { "loss": 0.1561, "grad_norm": 4.496595859527588, "learning_rate": 6.686868686868687e-06, "epoch": 0.9066666666666666, "step": 680 }, { "loss": 0.1591, "grad_norm": 5.56928825378418, "learning_rate": 6.6363636363636375e-06, "epoch": 0.92, "step": 690 }, { "loss": 0.1401, "grad_norm": 3.9802422523498535, "learning_rate": 6.585858585858586e-06, "epoch": 0.9333333333333333, "step": 700 }, { "loss": 0.1583, "grad_norm": 8.410820960998535, "learning_rate": 6.535353535353536e-06, "epoch": 0.9466666666666667, "step": 710 }, { "loss": 0.1277, "grad_norm": 5.387331485748291, "learning_rate": 6.484848484848485e-06, "epoch": 0.96, "step": 720 }, { "loss": 0.1318, "grad_norm": 6.340620517730713, "learning_rate": 6.434343434343436e-06, "epoch": 0.9733333333333334, "step": 730 }, { "loss": 0.1435, "grad_norm": 6.36068058013916, "learning_rate": 6.3838383838383845e-06, "epoch": 0.9866666666666667, "step": 740 }, { "loss": 0.1267, "grad_norm": 6.267134189605713, "learning_rate": 6.333333333333333e-06, "epoch": 1.0, "step": 750 }, { "loss": 0.0935, "grad_norm": 2.937222719192505, "learning_rate": 6.282828282828284e-06, "epoch": 1.0133333333333334, "step": 760 }, { "loss": 0.1018, "grad_norm": 3.3359508514404297, "learning_rate": 6.232323232323233e-06, "epoch": 1.0266666666666666, "step": 770 }, { "loss": 0.0833, "grad_norm": 4.2928466796875, "learning_rate": 6.181818181818182e-06, "epoch": 1.04, "step": 780 }, { "loss": 0.1053, "grad_norm": 4.187559127807617, "learning_rate": 6.1313131313131315e-06, "epoch": 1.0533333333333332, "step": 790 }, { "loss": 0.0916, "grad_norm": 4.729913711547852, "learning_rate": 6.080808080808081e-06, "epoch": 1.0666666666666667, "step": 800 }, { "loss": 0.0898, "grad_norm": 3.426358938217163, "learning_rate": 6.030303030303031e-06, "epoch": 1.08, "step": 810 }, { "loss": 0.0806, "grad_norm": 3.42873477935791, "learning_rate": 5.97979797979798e-06, "epoch": 1.0933333333333333, "step": 820 }, { "loss": 0.0855, "grad_norm": 5.813981533050537, "learning_rate": 5.9292929292929305e-06, "epoch": 1.1066666666666667, "step": 830 }, { "loss": 0.0807, "grad_norm": 3.3029656410217285, "learning_rate": 5.878787878787879e-06, "epoch": 1.12, "step": 840 }, { "loss": 0.0881, "grad_norm": 3.9471054077148438, "learning_rate": 5.828282828282828e-06, "epoch": 1.1333333333333333, "step": 850 }, { "loss": 0.0739, "grad_norm": 3.7360801696777344, "learning_rate": 5.777777777777778e-06, "epoch": 1.1466666666666667, "step": 860 }, { "loss": 0.0756, "grad_norm": 2.321897029876709, "learning_rate": 5.727272727272728e-06, "epoch": 1.16, "step": 870 }, { "loss": 0.1089, "grad_norm": 6.8720269203186035, "learning_rate": 5.6767676767676775e-06, "epoch": 1.1733333333333333, "step": 880 }, { "loss": 0.0852, "grad_norm": 3.7198221683502197, "learning_rate": 5.626262626262626e-06, "epoch": 1.1866666666666668, "step": 890 }, { "loss": 0.0911, "grad_norm": 4.52007532119751, "learning_rate": 5.575757575757577e-06, "epoch": 1.2, "step": 900 }, { "loss": 0.1005, "grad_norm": 5.6622748374938965, "learning_rate": 5.525252525252526e-06, "epoch": 1.2133333333333334, "step": 910 }, { "loss": 0.0885, "grad_norm": 3.5315425395965576, "learning_rate": 5.474747474747475e-06, "epoch": 1.2266666666666666, "step": 920 }, { "loss": 0.0853, "grad_norm": 3.7347161769866943, "learning_rate": 5.424242424242425e-06, "epoch": 1.24, "step": 930 }, { "loss": 0.0739, "grad_norm": 3.897317886352539, "learning_rate": 5.373737373737374e-06, "epoch": 1.2533333333333334, "step": 940 }, { "loss": 0.0932, "grad_norm": 4.464446067810059, "learning_rate": 5.323232323232324e-06, "epoch": 1.2666666666666666, "step": 950 }, { "loss": 0.109, "grad_norm": 4.172600269317627, "learning_rate": 5.272727272727273e-06, "epoch": 1.28, "step": 960 }, { "loss": 0.1006, "grad_norm": 6.423786163330078, "learning_rate": 5.2222222222222226e-06, "epoch": 1.2933333333333334, "step": 970 }, { "loss": 0.0751, "grad_norm": 5.334788799285889, "learning_rate": 5.171717171717172e-06, "epoch": 1.3066666666666666, "step": 980 }, { "loss": 0.0887, "grad_norm": 4.050017356872559, "learning_rate": 5.121212121212121e-06, "epoch": 1.32, "step": 990 }, { "loss": 0.0829, "grad_norm": 4.011457920074463, "learning_rate": 5.070707070707072e-06, "epoch": 1.3333333333333333, "step": 1000 }, { "eval_loss": 0.12301119416952133, "eval_wer": 0.3809995051954478, "eval_runtime": 300.5012, "eval_samples_per_second": 1.111, "eval_steps_per_second": 0.14, "epoch": 1.3333333333333333, "step": 1000 }, { "loss": 0.0765, "grad_norm": 4.142199516296387, "learning_rate": 5.020202020202021e-06, "epoch": 1.3466666666666667, "step": 1010 }, { "loss": 0.0827, "grad_norm": 6.005105018615723, "learning_rate": 4.9696969696969696e-06, "epoch": 1.3599999999999999, "step": 1020 }, { "loss": 0.083, "grad_norm": 3.4381942749023438, "learning_rate": 4.919191919191919e-06, "epoch": 1.3733333333333333, "step": 1030 }, { "loss": 0.0944, "grad_norm": 2.9297616481781006, "learning_rate": 4.868686868686869e-06, "epoch": 1.3866666666666667, "step": 1040 }, { "loss": 0.0886, "grad_norm": 3.7134227752685547, "learning_rate": 4.818181818181819e-06, "epoch": 1.4, "step": 1050 }, { "loss": 0.0923, "grad_norm": 4.643685817718506, "learning_rate": 4.7676767676767685e-06, "epoch": 1.4133333333333333, "step": 1060 }, { "loss": 0.1007, "grad_norm": 10.541472434997559, "learning_rate": 4.717171717171717e-06, "epoch": 1.4266666666666667, "step": 1070 }, { "loss": 0.0738, "grad_norm": 2.6130969524383545, "learning_rate": 4.666666666666667e-06, "epoch": 1.44, "step": 1080 }, { "loss": 0.0901, "grad_norm": 4.330660343170166, "learning_rate": 4.616161616161616e-06, "epoch": 1.4533333333333334, "step": 1090 }, { "loss": 0.0996, "grad_norm": 5.923006534576416, "learning_rate": 4.565656565656566e-06, "epoch": 1.4666666666666668, "step": 1100 }, { "loss": 0.0834, "grad_norm": 3.7538375854492188, "learning_rate": 4.5151515151515155e-06, "epoch": 1.48, "step": 1110 }, { "loss": 0.0701, "grad_norm": 3.5032098293304443, "learning_rate": 4.464646464646465e-06, "epoch": 1.4933333333333334, "step": 1120 }, { "loss": 0.0804, "grad_norm": 4.298966407775879, "learning_rate": 4.414141414141415e-06, "epoch": 1.5066666666666668, "step": 1130 }, { "loss": 0.0724, "grad_norm": 3.847870349884033, "learning_rate": 4.363636363636364e-06, "epoch": 1.52, "step": 1140 }, { "loss": 0.0779, "grad_norm": 3.737017869949341, "learning_rate": 4.313131313131314e-06, "epoch": 1.5333333333333332, "step": 1150 }, { "loss": 0.0847, "grad_norm": 3.2333316802978516, "learning_rate": 4.262626262626263e-06, "epoch": 1.5466666666666666, "step": 1160 }, { "loss": 0.0787, "grad_norm": 4.592497825622559, "learning_rate": 4.212121212121212e-06, "epoch": 1.56, "step": 1170 }, { "loss": 0.0794, "grad_norm": 3.845383644104004, "learning_rate": 4.161616161616162e-06, "epoch": 1.5733333333333333, "step": 1180 }, { "loss": 0.0978, "grad_norm": 4.334165096282959, "learning_rate": 4.111111111111111e-06, "epoch": 1.5866666666666667, "step": 1190 }, { "loss": 0.0775, "grad_norm": 4.0656046867370605, "learning_rate": 4.060606060606061e-06, "epoch": 1.6, "step": 1200 }, { "loss": 0.0847, "grad_norm": 4.935208797454834, "learning_rate": 4.01010101010101e-06, "epoch": 1.6133333333333333, "step": 1210 }, { "loss": 0.0944, "grad_norm": 3.122648239135742, "learning_rate": 3.95959595959596e-06, "epoch": 1.6266666666666667, "step": 1220 }, { "loss": 0.0714, "grad_norm": 3.208401918411255, "learning_rate": 3.90909090909091e-06, "epoch": 1.6400000000000001, "step": 1230 }, { "loss": 0.0681, "grad_norm": 2.0770390033721924, "learning_rate": 3.858585858585859e-06, "epoch": 1.6533333333333333, "step": 1240 }, { "loss": 0.0745, "grad_norm": 3.3009884357452393, "learning_rate": 3.8080808080808085e-06, "epoch": 1.6666666666666665, "step": 1250 }, { "loss": 0.0935, "grad_norm": 4.169901371002197, "learning_rate": 3.757575757575758e-06, "epoch": 1.6800000000000002, "step": 1260 }, { "loss": 0.0908, "grad_norm": 4.098388671875, "learning_rate": 3.7070707070707075e-06, "epoch": 1.6933333333333334, "step": 1270 }, { "loss": 0.0892, "grad_norm": 3.705352306365967, "learning_rate": 3.6565656565656573e-06, "epoch": 1.7066666666666666, "step": 1280 }, { "loss": 0.0886, "grad_norm": 4.458006381988525, "learning_rate": 3.606060606060606e-06, "epoch": 1.72, "step": 1290 }, { "loss": 0.0759, "grad_norm": 4.776914596557617, "learning_rate": 3.555555555555556e-06, "epoch": 1.7333333333333334, "step": 1300 }, { "loss": 0.0687, "grad_norm": 3.9618778228759766, "learning_rate": 3.5050505050505052e-06, "epoch": 1.7466666666666666, "step": 1310 }, { "loss": 0.0881, "grad_norm": 4.7500715255737305, "learning_rate": 3.454545454545455e-06, "epoch": 1.76, "step": 1320 }, { "loss": 0.0658, "grad_norm": 4.474343776702881, "learning_rate": 3.4040404040404047e-06, "epoch": 1.7733333333333334, "step": 1330 }, { "loss": 0.0714, "grad_norm": 4.381460666656494, "learning_rate": 3.3535353535353536e-06, "epoch": 1.7866666666666666, "step": 1340 }, { "loss": 0.0697, "grad_norm": 5.2972235679626465, "learning_rate": 3.3030303030303033e-06, "epoch": 1.8, "step": 1350 }, { "loss": 0.0838, "grad_norm": 3.481915235519409, "learning_rate": 3.2525252525252527e-06, "epoch": 1.8133333333333335, "step": 1360 }, { "loss": 0.0726, "grad_norm": 3.9586760997772217, "learning_rate": 3.2020202020202024e-06, "epoch": 1.8266666666666667, "step": 1370 }, { "loss": 0.0877, "grad_norm": 2.909917116165161, "learning_rate": 3.1515151515151517e-06, "epoch": 1.8399999999999999, "step": 1380 }, { "loss": 0.0836, "grad_norm": 5.644835472106934, "learning_rate": 3.1010101010101014e-06, "epoch": 1.8533333333333335, "step": 1390 }, { "loss": 0.0666, "grad_norm": 2.045072555541992, "learning_rate": 3.0505050505050508e-06, "epoch": 1.8666666666666667, "step": 1400 }, { "loss": 0.0639, "grad_norm": 3.4779183864593506, "learning_rate": 3e-06, "epoch": 1.88, "step": 1410 }, { "loss": 0.0791, "grad_norm": 4.011447429656982, "learning_rate": 2.94949494949495e-06, "epoch": 1.8933333333333333, "step": 1420 }, { "loss": 0.0669, "grad_norm": 3.508593797683716, "learning_rate": 2.898989898989899e-06, "epoch": 1.9066666666666667, "step": 1430 }, { "loss": 0.0757, "grad_norm": 7.03428840637207, "learning_rate": 2.848484848484849e-06, "epoch": 1.92, "step": 1440 }, { "loss": 0.0685, "grad_norm": 3.3509371280670166, "learning_rate": 2.7979797979797986e-06, "epoch": 1.9333333333333333, "step": 1450 }, { "loss": 0.0718, "grad_norm": 4.13100004196167, "learning_rate": 2.7474747474747475e-06, "epoch": 1.9466666666666668, "step": 1460 }, { "loss": 0.0615, "grad_norm": 5.1480512619018555, "learning_rate": 2.6969696969696972e-06, "epoch": 1.96, "step": 1470 }, { "loss": 0.089, "grad_norm": 4.444997310638428, "learning_rate": 2.6464646464646466e-06, "epoch": 1.9733333333333334, "step": 1480 }, { "loss": 0.0699, "grad_norm": 3.9407005310058594, "learning_rate": 2.5959595959595963e-06, "epoch": 1.9866666666666668, "step": 1490 }, { "loss": 0.0728, "grad_norm": 6.953798294067383, "learning_rate": 2.5454545454545456e-06, "epoch": 2.0, "step": 1500 }, { "eval_loss": 0.10412880033254623, "eval_wer": 0.32657100445324094, "eval_runtime": 300.9073, "eval_samples_per_second": 1.11, "eval_steps_per_second": 0.14, "epoch": 2.0, "step": 1500 }, { "loss": 0.049, "grad_norm": 2.8069822788238525, "learning_rate": 2.494949494949495e-06, "epoch": 2.013333333333333, "step": 1510 }, { "loss": 0.0445, "grad_norm": 3.9860682487487793, "learning_rate": 2.4444444444444447e-06, "epoch": 2.026666666666667, "step": 1520 }, { "loss": 0.044, "grad_norm": 1.8156518936157227, "learning_rate": 2.393939393939394e-06, "epoch": 2.04, "step": 1530 }, { "loss": 0.0393, "grad_norm": 3.85343337059021, "learning_rate": 2.3434343434343437e-06, "epoch": 2.0533333333333332, "step": 1540 }, { "loss": 0.0478, "grad_norm": 3.4633591175079346, "learning_rate": 2.292929292929293e-06, "epoch": 2.066666666666667, "step": 1550 }, { "loss": 0.0369, "grad_norm": 2.2300124168395996, "learning_rate": 2.2424242424242428e-06, "epoch": 2.08, "step": 1560 }, { "loss": 0.0506, "grad_norm": 2.8760111331939697, "learning_rate": 2.191919191919192e-06, "epoch": 2.0933333333333333, "step": 1570 }, { "loss": 0.0388, "grad_norm": 2.558821201324463, "learning_rate": 2.1414141414141414e-06, "epoch": 2.1066666666666665, "step": 1580 }, { "loss": 0.0387, "grad_norm": 2.146301031112671, "learning_rate": 2.090909090909091e-06, "epoch": 2.12, "step": 1590 }, { "loss": 0.0424, "grad_norm": 3.9771625995635986, "learning_rate": 2.0404040404040405e-06, "epoch": 2.1333333333333333, "step": 1600 }, { "loss": 0.0575, "grad_norm": 3.292935371398926, "learning_rate": 1.98989898989899e-06, "epoch": 2.1466666666666665, "step": 1610 }, { "loss": 0.0383, "grad_norm": 3.045471429824829, "learning_rate": 1.9393939393939395e-06, "epoch": 2.16, "step": 1620 }, { "loss": 0.0316, "grad_norm": 3.168919086456299, "learning_rate": 1.888888888888889e-06, "epoch": 2.1733333333333333, "step": 1630 }, { "loss": 0.037, "grad_norm": 2.878878116607666, "learning_rate": 1.8383838383838384e-06, "epoch": 2.1866666666666665, "step": 1640 }, { "loss": 0.0523, "grad_norm": 2.0924072265625, "learning_rate": 1.787878787878788e-06, "epoch": 2.2, "step": 1650 }, { "loss": 0.0367, "grad_norm": 4.216643333435059, "learning_rate": 1.7373737373737376e-06, "epoch": 2.2133333333333334, "step": 1660 }, { "loss": 0.0321, "grad_norm": 2.9497156143188477, "learning_rate": 1.6868686868686871e-06, "epoch": 2.2266666666666666, "step": 1670 }, { "loss": 0.0406, "grad_norm": 2.8304696083068848, "learning_rate": 1.6363636363636365e-06, "epoch": 2.24, "step": 1680 }, { "loss": 0.0393, "grad_norm": 2.576051712036133, "learning_rate": 1.585858585858586e-06, "epoch": 2.2533333333333334, "step": 1690 }, { "loss": 0.0284, "grad_norm": 2.7163302898406982, "learning_rate": 1.5353535353535353e-06, "epoch": 2.2666666666666666, "step": 1700 }, { "loss": 0.0445, "grad_norm": 1.9396488666534424, "learning_rate": 1.484848484848485e-06, "epoch": 2.2800000000000002, "step": 1710 }, { "loss": 0.0439, "grad_norm": 3.899765729904175, "learning_rate": 1.4343434343434346e-06, "epoch": 2.2933333333333334, "step": 1720 }, { "loss": 0.0306, "grad_norm": 2.1854968070983887, "learning_rate": 1.3838383838383839e-06, "epoch": 2.3066666666666666, "step": 1730 }, { "loss": 0.034, "grad_norm": 2.636538505554199, "learning_rate": 1.3333333333333334e-06, "epoch": 2.32, "step": 1740 }, { "loss": 0.0319, "grad_norm": 2.022677421569824, "learning_rate": 1.282828282828283e-06, "epoch": 2.3333333333333335, "step": 1750 }, { "loss": 0.0365, "grad_norm": 3.6239359378814697, "learning_rate": 1.2323232323232325e-06, "epoch": 2.3466666666666667, "step": 1760 }, { "loss": 0.052, "grad_norm": 4.198002338409424, "learning_rate": 1.181818181818182e-06, "epoch": 2.36, "step": 1770 }, { "loss": 0.0362, "grad_norm": 2.3800501823425293, "learning_rate": 1.1313131313131315e-06, "epoch": 2.3733333333333335, "step": 1780 }, { "loss": 0.0397, "grad_norm": 3.785360097885132, "learning_rate": 1.0808080808080808e-06, "epoch": 2.3866666666666667, "step": 1790 }, { "loss": 0.0408, "grad_norm": 3.217353343963623, "learning_rate": 1.0303030303030304e-06, "epoch": 2.4, "step": 1800 }, { "loss": 0.0388, "grad_norm": 2.529654026031494, "learning_rate": 9.797979797979799e-07, "epoch": 2.413333333333333, "step": 1810 }, { "loss": 0.0398, "grad_norm": 2.1262857913970947, "learning_rate": 9.292929292929294e-07, "epoch": 2.4266666666666667, "step": 1820 }, { "loss": 0.0353, "grad_norm": 2.315272569656372, "learning_rate": 8.787878787878788e-07, "epoch": 2.44, "step": 1830 }, { "loss": 0.0392, "grad_norm": 2.6445798873901367, "learning_rate": 8.282828282828284e-07, "epoch": 2.453333333333333, "step": 1840 }, { "loss": 0.0404, "grad_norm": 3.2057223320007324, "learning_rate": 7.777777777777779e-07, "epoch": 2.466666666666667, "step": 1850 }, { "loss": 0.0388, "grad_norm": 1.7564632892608643, "learning_rate": 7.272727272727273e-07, "epoch": 2.48, "step": 1860 }, { "loss": 0.0389, "grad_norm": 2.8943591117858887, "learning_rate": 6.767676767676768e-07, "epoch": 2.493333333333333, "step": 1870 }, { "loss": 0.0409, "grad_norm": 2.3569250106811523, "learning_rate": 6.262626262626264e-07, "epoch": 2.506666666666667, "step": 1880 }, { "loss": 0.0385, "grad_norm": 2.9522323608398438, "learning_rate": 5.757575757575758e-07, "epoch": 2.52, "step": 1890 }, { "loss": 0.0361, "grad_norm": 2.06543231010437, "learning_rate": 5.252525252525253e-07, "epoch": 2.533333333333333, "step": 1900 }, { "loss": 0.0409, "grad_norm": 2.8644039630889893, "learning_rate": 4.747474747474748e-07, "epoch": 2.546666666666667, "step": 1910 }, { "loss": 0.0413, "grad_norm": 2.930689811706543, "learning_rate": 4.242424242424243e-07, "epoch": 2.56, "step": 1920 }, { "loss": 0.0341, "grad_norm": 2.808952808380127, "learning_rate": 3.7373737373737374e-07, "epoch": 2.5733333333333333, "step": 1930 }, { "loss": 0.0382, "grad_norm": 2.888901948928833, "learning_rate": 3.2323232323232327e-07, "epoch": 2.586666666666667, "step": 1940 }, { "loss": 0.0332, "grad_norm": 3.2837748527526855, "learning_rate": 2.7272727272727274e-07, "epoch": 2.6, "step": 1950 }, { "loss": 0.0389, "grad_norm": 2.218034505844116, "learning_rate": 2.2222222222222224e-07, "epoch": 2.6133333333333333, "step": 1960 }, { "loss": 0.0319, "grad_norm": 2.5878612995147705, "learning_rate": 1.7171717171717172e-07, "epoch": 2.626666666666667, "step": 1970 }, { "loss": 0.0451, "grad_norm": 2.980043411254883, "learning_rate": 1.2121212121212122e-07, "epoch": 2.64, "step": 1980 }, { "loss": 0.0399, "grad_norm": 4.007762908935547, "learning_rate": 7.070707070707072e-08, "epoch": 2.6533333333333333, "step": 1990 }, { "loss": 0.0369, "grad_norm": 3.797729969024658, "learning_rate": 2.0202020202020204e-08, "epoch": 2.6666666666666665, "step": 2000 }, { "eval_loss": 0.10373403131961823, "eval_wer": 0.3080158337456705, "eval_runtime": 298.3545, "eval_samples_per_second": 1.119, "eval_steps_per_second": 0.141, "epoch": 2.6666666666666665, "step": 2000 }, { "train_runtime": 2780.7751, "train_samples_per_second": 2.877, "train_steps_per_second": 0.719, "total_flos": 2.30695169015808e+18, "train_loss": 0.1647129835486412, "epoch": 2.6666666666666665, "step": 2000 }, { "eval_loss": 0.10373403131961823, "eval_wer": 0.3080158337456705, "eval_runtime": 290.9555, "eval_samples_per_second": 1.148, "eval_steps_per_second": 0.144, "epoch": 2.6666666666666665, "step": 2000 } ]