{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500, "global_step": 3000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0013333333333333333, "grad_norm": 2.609375, "learning_rate": 5.555555555555556e-08, "loss": 1.426961898803711, "step": 2 }, { "epoch": 0.0026666666666666666, "grad_norm": 4.03125, "learning_rate": 1.6666666666666668e-07, "loss": 1.0918725728988647, "step": 4 }, { "epoch": 0.004, "grad_norm": 12.5, "learning_rate": 2.7777777777777776e-07, "loss": 2.423412799835205, "step": 6 }, { "epoch": 0.005333333333333333, "grad_norm": 7.78125, "learning_rate": 3.8888888888888895e-07, "loss": 2.086796760559082, "step": 8 }, { "epoch": 0.006666666666666667, "grad_norm": 18.0, "learning_rate": 5.000000000000001e-07, "loss": 2.240536689758301, "step": 10 }, { "epoch": 0.008, "grad_norm": 7.625, "learning_rate": 6.111111111111112e-07, "loss": 1.9187642335891724, "step": 12 }, { "epoch": 0.009333333333333334, "grad_norm": 11.375, "learning_rate": 7.222222222222222e-07, "loss": 1.9097466468811035, "step": 14 }, { "epoch": 0.010666666666666666, "grad_norm": 10.25, "learning_rate": 8.333333333333333e-07, "loss": 2.225918769836426, "step": 16 }, { "epoch": 0.012, "grad_norm": 14.5, "learning_rate": 9.444444444444445e-07, "loss": 2.5282227993011475, "step": 18 }, { "epoch": 0.013333333333333334, "grad_norm": 10.75, "learning_rate": 1.0555555555555557e-06, "loss": 1.9008896350860596, "step": 20 }, { "epoch": 0.014666666666666666, "grad_norm": 4.71875, "learning_rate": 1.1666666666666668e-06, "loss": 1.7159152030944824, "step": 22 }, { "epoch": 0.016, "grad_norm": 5.21875, "learning_rate": 1.2777777777777779e-06, "loss": 1.7458038330078125, "step": 24 }, { "epoch": 0.017333333333333333, "grad_norm": 2.359375, "learning_rate": 1.3888888888888892e-06, "loss": 1.1576664447784424, "step": 26 }, { "epoch": 0.018666666666666668, "grad_norm": 7.125, "learning_rate": 1.5e-06, "loss": 1.8780293464660645, "step": 28 }, { "epoch": 0.02, "grad_norm": 6.28125, "learning_rate": 1.6111111111111113e-06, "loss": 1.9322218894958496, "step": 30 }, { "epoch": 0.021333333333333333, "grad_norm": 7.5, "learning_rate": 1.7222222222222224e-06, "loss": 1.9480838775634766, "step": 32 }, { "epoch": 0.02266666666666667, "grad_norm": 12.8125, "learning_rate": 1.8333333333333333e-06, "loss": 1.7671797275543213, "step": 34 }, { "epoch": 0.024, "grad_norm": 6.5625, "learning_rate": 1.944444444444445e-06, "loss": 2.0959420204162598, "step": 36 }, { "epoch": 0.025333333333333333, "grad_norm": 2.4375, "learning_rate": 2.0555555555555555e-06, "loss": 1.345461130142212, "step": 38 }, { "epoch": 0.02666666666666667, "grad_norm": 8.4375, "learning_rate": 2.166666666666667e-06, "loss": 1.9457855224609375, "step": 40 }, { "epoch": 0.028, "grad_norm": 10.4375, "learning_rate": 2.277777777777778e-06, "loss": 2.2649214267730713, "step": 42 }, { "epoch": 0.029333333333333333, "grad_norm": 8.875, "learning_rate": 2.388888888888889e-06, "loss": 2.0627341270446777, "step": 44 }, { "epoch": 0.030666666666666665, "grad_norm": 12.0, "learning_rate": 2.5e-06, "loss": 2.0446112155914307, "step": 46 }, { "epoch": 0.032, "grad_norm": 8.5, "learning_rate": 2.6111111111111113e-06, "loss": 2.0606207847595215, "step": 48 }, { "epoch": 0.03333333333333333, "grad_norm": 9.125, "learning_rate": 2.7222222222222224e-06, "loss": 1.1834385395050049, "step": 50 }, { "epoch": 0.034666666666666665, "grad_norm": 14.5625, "learning_rate": 2.8333333333333335e-06, "loss": 2.575603485107422, "step": 52 }, { "epoch": 0.036, "grad_norm": 13.125, "learning_rate": 2.944444444444445e-06, "loss": 2.113842248916626, "step": 54 }, { "epoch": 0.037333333333333336, "grad_norm": 14.1875, "learning_rate": 3.055555555555556e-06, "loss": 2.4097142219543457, "step": 56 }, { "epoch": 0.03866666666666667, "grad_norm": 11.4375, "learning_rate": 3.1666666666666667e-06, "loss": 2.4086174964904785, "step": 58 }, { "epoch": 0.04, "grad_norm": 4.09375, "learning_rate": 3.277777777777778e-06, "loss": 1.1603543758392334, "step": 60 }, { "epoch": 0.04133333333333333, "grad_norm": 31.75, "learning_rate": 3.3888888888888893e-06, "loss": 2.3727102279663086, "step": 62 }, { "epoch": 0.042666666666666665, "grad_norm": 12.875, "learning_rate": 3.5e-06, "loss": 2.0453083515167236, "step": 64 }, { "epoch": 0.044, "grad_norm": 3.890625, "learning_rate": 3.6111111111111115e-06, "loss": 1.0684235095977783, "step": 66 }, { "epoch": 0.04533333333333334, "grad_norm": 2.046875, "learning_rate": 3.7222222222222225e-06, "loss": 1.058991551399231, "step": 68 }, { "epoch": 0.04666666666666667, "grad_norm": 9.3125, "learning_rate": 3.833333333333334e-06, "loss": 1.9442476034164429, "step": 70 }, { "epoch": 0.048, "grad_norm": 22.125, "learning_rate": 3.944444444444445e-06, "loss": 1.7541954517364502, "step": 72 }, { "epoch": 0.04933333333333333, "grad_norm": 2.953125, "learning_rate": 4.055555555555556e-06, "loss": 1.195051908493042, "step": 74 }, { "epoch": 0.050666666666666665, "grad_norm": 14.25, "learning_rate": 4.166666666666667e-06, "loss": 2.3182945251464844, "step": 76 }, { "epoch": 0.052, "grad_norm": 5.59375, "learning_rate": 4.277777777777778e-06, "loss": 1.9007854461669922, "step": 78 }, { "epoch": 0.05333333333333334, "grad_norm": 2.734375, "learning_rate": 4.388888888888889e-06, "loss": 1.282339096069336, "step": 80 }, { "epoch": 0.05466666666666667, "grad_norm": 12.375, "learning_rate": 4.5e-06, "loss": 2.4606080055236816, "step": 82 }, { "epoch": 0.056, "grad_norm": 6.375, "learning_rate": 4.611111111111112e-06, "loss": 1.7879230976104736, "step": 84 }, { "epoch": 0.05733333333333333, "grad_norm": 6.375, "learning_rate": 4.722222222222222e-06, "loss": 1.8923945426940918, "step": 86 }, { "epoch": 0.058666666666666666, "grad_norm": 4.9375, "learning_rate": 4.833333333333333e-06, "loss": 1.7414391040802002, "step": 88 }, { "epoch": 0.06, "grad_norm": 2.5, "learning_rate": 4.944444444444445e-06, "loss": 1.2417337894439697, "step": 90 }, { "epoch": 0.06133333333333333, "grad_norm": 2.15625, "learning_rate": 4.999998834496116e-06, "loss": 1.0121757984161377, "step": 92 }, { "epoch": 0.06266666666666666, "grad_norm": 7.53125, "learning_rate": 4.999989510473192e-06, "loss": 1.7546613216400146, "step": 94 }, { "epoch": 0.064, "grad_norm": 9.4375, "learning_rate": 4.999970862470813e-06, "loss": 2.0210976600646973, "step": 96 }, { "epoch": 0.06533333333333333, "grad_norm": 15.6875, "learning_rate": 4.999942890575916e-06, "loss": 1.8761789798736572, "step": 98 }, { "epoch": 0.06666666666666667, "grad_norm": 5.4375, "learning_rate": 4.999905594918907e-06, "loss": 1.822148084640503, "step": 100 }, { "epoch": 0.068, "grad_norm": 7.03125, "learning_rate": 4.999858975673658e-06, "loss": 1.699061393737793, "step": 102 }, { "epoch": 0.06933333333333333, "grad_norm": 7.0625, "learning_rate": 4.999803033057509e-06, "loss": 1.9554791450500488, "step": 104 }, { "epoch": 0.07066666666666667, "grad_norm": 4.96875, "learning_rate": 4.999737767331265e-06, "loss": 1.9270014762878418, "step": 106 }, { "epoch": 0.072, "grad_norm": 8.0625, "learning_rate": 4.999663178799196e-06, "loss": 1.8165018558502197, "step": 108 }, { "epoch": 0.07333333333333333, "grad_norm": 10.3125, "learning_rate": 4.999579267809035e-06, "loss": 2.142543315887451, "step": 110 }, { "epoch": 0.07466666666666667, "grad_norm": 11.1875, "learning_rate": 4.999486034751976e-06, "loss": 2.3485541343688965, "step": 112 }, { "epoch": 0.076, "grad_norm": 7.78125, "learning_rate": 4.999383480062672e-06, "loss": 1.2716255187988281, "step": 114 }, { "epoch": 0.07733333333333334, "grad_norm": 4.53125, "learning_rate": 4.9992716042192355e-06, "loss": 1.8018227815628052, "step": 116 }, { "epoch": 0.07866666666666666, "grad_norm": 2.1875, "learning_rate": 4.999150407743234e-06, "loss": 1.3383140563964844, "step": 118 }, { "epoch": 0.08, "grad_norm": 8.625, "learning_rate": 4.999019891199685e-06, "loss": 1.7377729415893555, "step": 120 }, { "epoch": 0.08133333333333333, "grad_norm": 7.28125, "learning_rate": 4.9988800551970595e-06, "loss": 1.9425296783447266, "step": 122 }, { "epoch": 0.08266666666666667, "grad_norm": 3.328125, "learning_rate": 4.998730900387276e-06, "loss": 1.3355326652526855, "step": 124 }, { "epoch": 0.084, "grad_norm": 3.84375, "learning_rate": 4.998572427465695e-06, "loss": 1.3544648885726929, "step": 126 }, { "epoch": 0.08533333333333333, "grad_norm": 2.4375, "learning_rate": 4.99840463717112e-06, "loss": 1.1902351379394531, "step": 128 }, { "epoch": 0.08666666666666667, "grad_norm": 3.4375, "learning_rate": 4.998227530285792e-06, "loss": 1.426368236541748, "step": 130 }, { "epoch": 0.088, "grad_norm": 7.90625, "learning_rate": 4.998041107635385e-06, "loss": 2.050642490386963, "step": 132 }, { "epoch": 0.08933333333333333, "grad_norm": 15.3125, "learning_rate": 4.9978453700890035e-06, "loss": 2.2510485649108887, "step": 134 }, { "epoch": 0.09066666666666667, "grad_norm": 5.65625, "learning_rate": 4.997640318559182e-06, "loss": 1.8200645446777344, "step": 136 }, { "epoch": 0.092, "grad_norm": 12.4375, "learning_rate": 4.99742595400187e-06, "loss": 2.2968640327453613, "step": 138 }, { "epoch": 0.09333333333333334, "grad_norm": 3.125, "learning_rate": 4.997202277416439e-06, "loss": 1.460419774055481, "step": 140 }, { "epoch": 0.09466666666666666, "grad_norm": 6.0625, "learning_rate": 4.996969289845675e-06, "loss": 1.9615103006362915, "step": 142 }, { "epoch": 0.096, "grad_norm": 5.875, "learning_rate": 4.9967269923757654e-06, "loss": 1.1230132579803467, "step": 144 }, { "epoch": 0.09733333333333333, "grad_norm": 25.5, "learning_rate": 4.996475386136307e-06, "loss": 2.2492356300354004, "step": 146 }, { "epoch": 0.09866666666666667, "grad_norm": 6.59375, "learning_rate": 4.996214472300291e-06, "loss": 1.7113642692565918, "step": 148 }, { "epoch": 0.1, "grad_norm": 4.75, "learning_rate": 4.995944252084101e-06, "loss": 1.7024157047271729, "step": 150 }, { "epoch": 0.10133333333333333, "grad_norm": 6.1875, "learning_rate": 4.995664726747508e-06, "loss": 2.0609498023986816, "step": 152 }, { "epoch": 0.10266666666666667, "grad_norm": 8.25, "learning_rate": 4.9953758975936614e-06, "loss": 1.9138317108154297, "step": 154 }, { "epoch": 0.104, "grad_norm": 10.9375, "learning_rate": 4.99507776596909e-06, "loss": 1.7415437698364258, "step": 156 }, { "epoch": 0.10533333333333333, "grad_norm": 1.53125, "learning_rate": 4.9947703332636855e-06, "loss": 1.1183407306671143, "step": 158 }, { "epoch": 0.10666666666666667, "grad_norm": 6.1875, "learning_rate": 4.994453600910705e-06, "loss": 1.7093825340270996, "step": 160 }, { "epoch": 0.108, "grad_norm": 4.5625, "learning_rate": 4.994127570386756e-06, "loss": 1.763106107711792, "step": 162 }, { "epoch": 0.10933333333333334, "grad_norm": 4.4375, "learning_rate": 4.993792243211802e-06, "loss": 1.8390214443206787, "step": 164 }, { "epoch": 0.11066666666666666, "grad_norm": 1.890625, "learning_rate": 4.99344762094914e-06, "loss": 1.1439769268035889, "step": 166 }, { "epoch": 0.112, "grad_norm": 4.71875, "learning_rate": 4.993093705205404e-06, "loss": 1.956803560256958, "step": 168 }, { "epoch": 0.11333333333333333, "grad_norm": 4.8125, "learning_rate": 4.992730497630555e-06, "loss": 1.7778558731079102, "step": 170 }, { "epoch": 0.11466666666666667, "grad_norm": 10.6875, "learning_rate": 4.992357999917872e-06, "loss": 1.721332311630249, "step": 172 }, { "epoch": 0.116, "grad_norm": 4.15625, "learning_rate": 4.991976213803943e-06, "loss": 1.1456602811813354, "step": 174 }, { "epoch": 0.11733333333333333, "grad_norm": 3.671875, "learning_rate": 4.991585141068663e-06, "loss": 1.2858262062072754, "step": 176 }, { "epoch": 0.11866666666666667, "grad_norm": 8.3125, "learning_rate": 4.9911847835352165e-06, "loss": 1.947248935699463, "step": 178 }, { "epoch": 0.12, "grad_norm": 7.09375, "learning_rate": 4.990775143070077e-06, "loss": 1.9594460725784302, "step": 180 }, { "epoch": 0.12133333333333333, "grad_norm": 5.21875, "learning_rate": 4.990356221582993e-06, "loss": 1.7351645231246948, "step": 182 }, { "epoch": 0.12266666666666666, "grad_norm": 4.75, "learning_rate": 4.989928021026984e-06, "loss": 1.7385591268539429, "step": 184 }, { "epoch": 0.124, "grad_norm": 4.8125, "learning_rate": 4.989490543398327e-06, "loss": 1.6152522563934326, "step": 186 }, { "epoch": 0.12533333333333332, "grad_norm": 9.1875, "learning_rate": 4.9890437907365475e-06, "loss": 1.811694860458374, "step": 188 }, { "epoch": 0.12666666666666668, "grad_norm": 5.4375, "learning_rate": 4.9885877651244134e-06, "loss": 1.835113525390625, "step": 190 }, { "epoch": 0.128, "grad_norm": 4.75, "learning_rate": 4.988122468687922e-06, "loss": 1.6793406009674072, "step": 192 }, { "epoch": 0.12933333333333333, "grad_norm": 15.625, "learning_rate": 4.9876479035962935e-06, "loss": 1.0911662578582764, "step": 194 }, { "epoch": 0.13066666666666665, "grad_norm": 18.25, "learning_rate": 4.987164072061957e-06, "loss": 2.131570816040039, "step": 196 }, { "epoch": 0.132, "grad_norm": 4.5, "learning_rate": 4.986670976340538e-06, "loss": 1.7224147319793701, "step": 198 }, { "epoch": 0.13333333333333333, "grad_norm": 2.03125, "learning_rate": 4.986168618730861e-06, "loss": 1.1881237030029297, "step": 200 }, { "epoch": 0.13466666666666666, "grad_norm": 9.1875, "learning_rate": 4.9856570015749225e-06, "loss": 1.8460280895233154, "step": 202 }, { "epoch": 0.136, "grad_norm": 9.3125, "learning_rate": 4.985136127257888e-06, "loss": 2.2090723514556885, "step": 204 }, { "epoch": 0.13733333333333334, "grad_norm": 4.4375, "learning_rate": 4.984605998208081e-06, "loss": 1.6706668138504028, "step": 206 }, { "epoch": 0.13866666666666666, "grad_norm": 4.875, "learning_rate": 4.984066616896972e-06, "loss": 1.7842729091644287, "step": 208 }, { "epoch": 0.14, "grad_norm": 2.734375, "learning_rate": 4.9835179858391625e-06, "loss": 1.0649902820587158, "step": 210 }, { "epoch": 0.14133333333333334, "grad_norm": 5.28125, "learning_rate": 4.982960107592379e-06, "loss": 1.7180755138397217, "step": 212 }, { "epoch": 0.14266666666666666, "grad_norm": 8.5, "learning_rate": 4.982392984757459e-06, "loss": 2.1030969619750977, "step": 214 }, { "epoch": 0.144, "grad_norm": 3.359375, "learning_rate": 4.981816619978337e-06, "loss": 1.277032494544983, "step": 216 }, { "epoch": 0.14533333333333334, "grad_norm": 6.78125, "learning_rate": 4.981231015942032e-06, "loss": 2.0104990005493164, "step": 218 }, { "epoch": 0.14666666666666667, "grad_norm": 5.5, "learning_rate": 4.980636175378639e-06, "loss": 1.7849645614624023, "step": 220 }, { "epoch": 0.148, "grad_norm": 9.8125, "learning_rate": 4.980032101061314e-06, "loss": 2.0194921493530273, "step": 222 }, { "epoch": 0.14933333333333335, "grad_norm": 6.6875, "learning_rate": 4.979418795806259e-06, "loss": 1.7740180492401123, "step": 224 }, { "epoch": 0.15066666666666667, "grad_norm": 6.65625, "learning_rate": 4.978796262472713e-06, "loss": 2.1783909797668457, "step": 226 }, { "epoch": 0.152, "grad_norm": 21.125, "learning_rate": 4.978164503962933e-06, "loss": 1.5254769325256348, "step": 228 }, { "epoch": 0.15333333333333332, "grad_norm": 5.375, "learning_rate": 4.9775235232221895e-06, "loss": 1.6781322956085205, "step": 230 }, { "epoch": 0.15466666666666667, "grad_norm": 7.09375, "learning_rate": 4.976873323238741e-06, "loss": 1.8562153577804565, "step": 232 }, { "epoch": 0.156, "grad_norm": 14.6875, "learning_rate": 4.976213907043831e-06, "loss": 1.696861743927002, "step": 234 }, { "epoch": 0.15733333333333333, "grad_norm": 12.5, "learning_rate": 4.975545277711665e-06, "loss": 1.8190127611160278, "step": 236 }, { "epoch": 0.15866666666666668, "grad_norm": 16.75, "learning_rate": 4.974867438359404e-06, "loss": 2.1855759620666504, "step": 238 }, { "epoch": 0.16, "grad_norm": 6.6875, "learning_rate": 4.974180392147145e-06, "loss": 1.3512318134307861, "step": 240 }, { "epoch": 0.16133333333333333, "grad_norm": 6.0, "learning_rate": 4.973484142277905e-06, "loss": 1.6209347248077393, "step": 242 }, { "epoch": 0.16266666666666665, "grad_norm": 7.59375, "learning_rate": 4.9727786919976125e-06, "loss": 2.101145029067993, "step": 244 }, { "epoch": 0.164, "grad_norm": 5.0625, "learning_rate": 4.972064044595087e-06, "loss": 1.5044230222702026, "step": 246 }, { "epoch": 0.16533333333333333, "grad_norm": 3.8125, "learning_rate": 4.971340203402024e-06, "loss": 1.6177122592926025, "step": 248 }, { "epoch": 0.16666666666666666, "grad_norm": 5.0, "learning_rate": 4.970607171792981e-06, "loss": 1.740015983581543, "step": 250 }, { "epoch": 0.168, "grad_norm": 4.46875, "learning_rate": 4.969864953185364e-06, "loss": 1.7631562948226929, "step": 252 }, { "epoch": 0.16933333333333334, "grad_norm": 2.625, "learning_rate": 4.969113551039403e-06, "loss": 1.0950901508331299, "step": 254 }, { "epoch": 0.17066666666666666, "grad_norm": 4.1875, "learning_rate": 4.968352968858149e-06, "loss": 1.806433916091919, "step": 256 }, { "epoch": 0.172, "grad_norm": 4.84375, "learning_rate": 4.967583210187445e-06, "loss": 1.367830753326416, "step": 258 }, { "epoch": 0.17333333333333334, "grad_norm": 5.875, "learning_rate": 4.9668042786159176e-06, "loss": 2.118488073348999, "step": 260 }, { "epoch": 0.17466666666666666, "grad_norm": 6.0625, "learning_rate": 4.966016177774956e-06, "loss": 1.6788520812988281, "step": 262 }, { "epoch": 0.176, "grad_norm": 2.6875, "learning_rate": 4.965218911338698e-06, "loss": 1.3210437297821045, "step": 264 }, { "epoch": 0.17733333333333334, "grad_norm": 6.875, "learning_rate": 4.964412483024012e-06, "loss": 1.92716646194458, "step": 266 }, { "epoch": 0.17866666666666667, "grad_norm": 7.03125, "learning_rate": 4.963596896590476e-06, "loss": 1.7592105865478516, "step": 268 }, { "epoch": 0.18, "grad_norm": 2.5625, "learning_rate": 4.962772155840368e-06, "loss": 1.0765562057495117, "step": 270 }, { "epoch": 0.18133333333333335, "grad_norm": 4.78125, "learning_rate": 4.961938264618638e-06, "loss": 1.4803953170776367, "step": 272 }, { "epoch": 0.18266666666666667, "grad_norm": 3.3125, "learning_rate": 4.961095226812902e-06, "loss": 1.6097404956817627, "step": 274 }, { "epoch": 0.184, "grad_norm": 5.4375, "learning_rate": 4.960243046353411e-06, "loss": 1.7037537097930908, "step": 276 }, { "epoch": 0.18533333333333332, "grad_norm": 14.75, "learning_rate": 4.959381727213046e-06, "loss": 2.05832576751709, "step": 278 }, { "epoch": 0.18666666666666668, "grad_norm": 1.953125, "learning_rate": 4.958511273407287e-06, "loss": 1.2026753425598145, "step": 280 }, { "epoch": 0.188, "grad_norm": 2.484375, "learning_rate": 4.957631688994202e-06, "loss": 1.1111297607421875, "step": 282 }, { "epoch": 0.18933333333333333, "grad_norm": 5.1875, "learning_rate": 4.9567429780744256e-06, "loss": 1.7283909320831299, "step": 284 }, { "epoch": 0.19066666666666668, "grad_norm": 5.125, "learning_rate": 4.955845144791142e-06, "loss": 1.2416884899139404, "step": 286 }, { "epoch": 0.192, "grad_norm": 1.796875, "learning_rate": 4.954938193330061e-06, "loss": 1.023611068725586, "step": 288 }, { "epoch": 0.19333333333333333, "grad_norm": 2.5, "learning_rate": 4.954022127919406e-06, "loss": 1.2488538026809692, "step": 290 }, { "epoch": 0.19466666666666665, "grad_norm": 4.3125, "learning_rate": 4.953096952829883e-06, "loss": 1.7825567722320557, "step": 292 }, { "epoch": 0.196, "grad_norm": 6.96875, "learning_rate": 4.952162672374674e-06, "loss": 1.6962242126464844, "step": 294 }, { "epoch": 0.19733333333333333, "grad_norm": 8.8125, "learning_rate": 4.951219290909408e-06, "loss": 1.8218390941619873, "step": 296 }, { "epoch": 0.19866666666666666, "grad_norm": 4.375, "learning_rate": 4.9502668128321414e-06, "loss": 1.539631724357605, "step": 298 }, { "epoch": 0.2, "grad_norm": 4.6875, "learning_rate": 4.949305242583341e-06, "loss": 1.7179573774337769, "step": 300 }, { "epoch": 0.20133333333333334, "grad_norm": 15.0625, "learning_rate": 4.948334584645861e-06, "loss": 2.0600290298461914, "step": 302 }, { "epoch": 0.20266666666666666, "grad_norm": 31.875, "learning_rate": 4.9473548435449234e-06, "loss": 1.7066545486450195, "step": 304 }, { "epoch": 0.204, "grad_norm": 2.4375, "learning_rate": 4.946366023848093e-06, "loss": 1.2282570600509644, "step": 306 }, { "epoch": 0.20533333333333334, "grad_norm": 21.5, "learning_rate": 4.945368130165262e-06, "loss": 2.1756513118743896, "step": 308 }, { "epoch": 0.20666666666666667, "grad_norm": 4.6875, "learning_rate": 4.944361167148627e-06, "loss": 1.6938464641571045, "step": 310 }, { "epoch": 0.208, "grad_norm": 3.59375, "learning_rate": 4.943345139492662e-06, "loss": 1.200679063796997, "step": 312 }, { "epoch": 0.20933333333333334, "grad_norm": 1.875, "learning_rate": 4.9423200519341e-06, "loss": 1.150309681892395, "step": 314 }, { "epoch": 0.21066666666666667, "grad_norm": 4.90625, "learning_rate": 4.9412859092519195e-06, "loss": 1.66481614112854, "step": 316 }, { "epoch": 0.212, "grad_norm": 6.03125, "learning_rate": 4.9402427162673025e-06, "loss": 1.6321322917938232, "step": 318 }, { "epoch": 0.21333333333333335, "grad_norm": 24.875, "learning_rate": 4.939190477843634e-06, "loss": 1.3526780605316162, "step": 320 }, { "epoch": 0.21466666666666667, "grad_norm": 5.9375, "learning_rate": 4.938129198886462e-06, "loss": 1.9712560176849365, "step": 322 }, { "epoch": 0.216, "grad_norm": 4.6875, "learning_rate": 4.937058884343484e-06, "loss": 1.2531328201293945, "step": 324 }, { "epoch": 0.21733333333333332, "grad_norm": 8.375, "learning_rate": 4.9359795392045214e-06, "loss": 1.63519287109375, "step": 326 }, { "epoch": 0.21866666666666668, "grad_norm": 3.203125, "learning_rate": 4.934891168501499e-06, "loss": 1.183279275894165, "step": 328 }, { "epoch": 0.22, "grad_norm": 5.6875, "learning_rate": 4.933793777308415e-06, "loss": 1.3079423904418945, "step": 330 }, { "epoch": 0.22133333333333333, "grad_norm": 2.703125, "learning_rate": 4.932687370741321e-06, "loss": 1.2213515043258667, "step": 332 }, { "epoch": 0.22266666666666668, "grad_norm": 4.4375, "learning_rate": 4.9315719539583015e-06, "loss": 1.6351184844970703, "step": 334 }, { "epoch": 0.224, "grad_norm": 2.140625, "learning_rate": 4.930447532159446e-06, "loss": 1.0444347858428955, "step": 336 }, { "epoch": 0.22533333333333333, "grad_norm": 2.25, "learning_rate": 4.9293141105868245e-06, "loss": 1.169987678527832, "step": 338 }, { "epoch": 0.22666666666666666, "grad_norm": 7.875, "learning_rate": 4.928171694524464e-06, "loss": 2.0248818397521973, "step": 340 }, { "epoch": 0.228, "grad_norm": 5.21875, "learning_rate": 4.927020289298324e-06, "loss": 1.7401028871536255, "step": 342 }, { "epoch": 0.22933333333333333, "grad_norm": 4.0, "learning_rate": 4.925859900276273e-06, "loss": 1.1736500263214111, "step": 344 }, { "epoch": 0.23066666666666666, "grad_norm": 4.78125, "learning_rate": 4.924690532868062e-06, "loss": 1.6478643417358398, "step": 346 }, { "epoch": 0.232, "grad_norm": 10.75, "learning_rate": 4.923512192525295e-06, "loss": 2.1115689277648926, "step": 348 }, { "epoch": 0.23333333333333334, "grad_norm": 6.25, "learning_rate": 4.922324884741414e-06, "loss": 1.1784987449645996, "step": 350 }, { "epoch": 0.23466666666666666, "grad_norm": 8.875, "learning_rate": 4.921128615051664e-06, "loss": 1.7437598705291748, "step": 352 }, { "epoch": 0.236, "grad_norm": 2.0, "learning_rate": 4.919923389033073e-06, "loss": 1.086277961730957, "step": 354 }, { "epoch": 0.23733333333333334, "grad_norm": 9.0625, "learning_rate": 4.9187092123044185e-06, "loss": 1.7361807823181152, "step": 356 }, { "epoch": 0.23866666666666667, "grad_norm": 10.375, "learning_rate": 4.9174860905262125e-06, "loss": 2.1892127990722656, "step": 358 }, { "epoch": 0.24, "grad_norm": 10.5, "learning_rate": 4.916254029400664e-06, "loss": 1.6337263584136963, "step": 360 }, { "epoch": 0.24133333333333334, "grad_norm": 5.53125, "learning_rate": 4.9150130346716616e-06, "loss": 1.626597285270691, "step": 362 }, { "epoch": 0.24266666666666667, "grad_norm": 4.625, "learning_rate": 4.913763112124739e-06, "loss": 1.7248157262802124, "step": 364 }, { "epoch": 0.244, "grad_norm": 8.6875, "learning_rate": 4.912504267587052e-06, "loss": 2.0670700073242188, "step": 366 }, { "epoch": 0.24533333333333332, "grad_norm": 4.5625, "learning_rate": 4.911236506927353e-06, "loss": 1.2027419805526733, "step": 368 }, { "epoch": 0.24666666666666667, "grad_norm": 4.46875, "learning_rate": 4.909959836055958e-06, "loss": 1.6558904647827148, "step": 370 }, { "epoch": 0.248, "grad_norm": 3.734375, "learning_rate": 4.90867426092473e-06, "loss": 1.0571866035461426, "step": 372 }, { "epoch": 0.24933333333333332, "grad_norm": 4.40625, "learning_rate": 4.907379787527033e-06, "loss": 1.663063883781433, "step": 374 }, { "epoch": 0.25066666666666665, "grad_norm": 7.34375, "learning_rate": 4.906076421897722e-06, "loss": 1.614751935005188, "step": 376 }, { "epoch": 0.252, "grad_norm": 10.375, "learning_rate": 4.904764170113108e-06, "loss": 1.6645468473434448, "step": 378 }, { "epoch": 0.25333333333333335, "grad_norm": 2.9375, "learning_rate": 4.903443038290924e-06, "loss": 1.2448854446411133, "step": 380 }, { "epoch": 0.25466666666666665, "grad_norm": 4.8125, "learning_rate": 4.902113032590307e-06, "loss": 1.1429449319839478, "step": 382 }, { "epoch": 0.256, "grad_norm": 1.9453125, "learning_rate": 4.900774159211764e-06, "loss": 1.2650675773620605, "step": 384 }, { "epoch": 0.25733333333333336, "grad_norm": 4.34375, "learning_rate": 4.899426424397139e-06, "loss": 1.1405256986618042, "step": 386 }, { "epoch": 0.25866666666666666, "grad_norm": 12.0, "learning_rate": 4.898069834429593e-06, "loss": 2.080951690673828, "step": 388 }, { "epoch": 0.26, "grad_norm": 6.5, "learning_rate": 4.896704395633565e-06, "loss": 1.5934624671936035, "step": 390 }, { "epoch": 0.2613333333333333, "grad_norm": 12.25, "learning_rate": 4.895330114374754e-06, "loss": 2.1303348541259766, "step": 392 }, { "epoch": 0.26266666666666666, "grad_norm": 3.953125, "learning_rate": 4.893946997060075e-06, "loss": 1.6423416137695312, "step": 394 }, { "epoch": 0.264, "grad_norm": 5.59375, "learning_rate": 4.892555050137642e-06, "loss": 1.6157931089401245, "step": 396 }, { "epoch": 0.2653333333333333, "grad_norm": 21.375, "learning_rate": 4.891154280096731e-06, "loss": 2.2374486923217773, "step": 398 }, { "epoch": 0.26666666666666666, "grad_norm": 6.34375, "learning_rate": 4.889744693467753e-06, "loss": 0.9960446953773499, "step": 400 }, { "epoch": 0.268, "grad_norm": 14.25, "learning_rate": 4.888326296822219e-06, "loss": 1.7377135753631592, "step": 402 }, { "epoch": 0.2693333333333333, "grad_norm": 2.671875, "learning_rate": 4.886899096772716e-06, "loss": 1.4004313945770264, "step": 404 }, { "epoch": 0.27066666666666667, "grad_norm": 9.625, "learning_rate": 4.885463099972869e-06, "loss": 2.226583480834961, "step": 406 }, { "epoch": 0.272, "grad_norm": 4.25, "learning_rate": 4.884018313117317e-06, "loss": 1.6933379173278809, "step": 408 }, { "epoch": 0.2733333333333333, "grad_norm": 21.0, "learning_rate": 4.882564742941677e-06, "loss": 1.2351548671722412, "step": 410 }, { "epoch": 0.27466666666666667, "grad_norm": 2.28125, "learning_rate": 4.881102396222511e-06, "loss": 1.0993002653121948, "step": 412 }, { "epoch": 0.276, "grad_norm": 2.265625, "learning_rate": 4.879631279777303e-06, "loss": 1.1669058799743652, "step": 414 }, { "epoch": 0.2773333333333333, "grad_norm": 6.25, "learning_rate": 4.878151400464418e-06, "loss": 1.7067842483520508, "step": 416 }, { "epoch": 0.2786666666666667, "grad_norm": 2.890625, "learning_rate": 4.876662765183074e-06, "loss": 1.1911600828170776, "step": 418 }, { "epoch": 0.28, "grad_norm": 1.78125, "learning_rate": 4.875165380873311e-06, "loss": 1.3747963905334473, "step": 420 }, { "epoch": 0.2813333333333333, "grad_norm": 10.6875, "learning_rate": 4.873659254515954e-06, "loss": 1.6159579753875732, "step": 422 }, { "epoch": 0.2826666666666667, "grad_norm": 2.265625, "learning_rate": 4.872144393132588e-06, "loss": 1.1511104106903076, "step": 424 }, { "epoch": 0.284, "grad_norm": 4.25, "learning_rate": 4.870620803785514e-06, "loss": 1.5702983140945435, "step": 426 }, { "epoch": 0.2853333333333333, "grad_norm": 7.25, "learning_rate": 4.869088493577731e-06, "loss": 1.2697384357452393, "step": 428 }, { "epoch": 0.2866666666666667, "grad_norm": 12.75, "learning_rate": 4.86754746965289e-06, "loss": 2.1861681938171387, "step": 430 }, { "epoch": 0.288, "grad_norm": 7.0, "learning_rate": 4.865997739195265e-06, "loss": 1.9876891374588013, "step": 432 }, { "epoch": 0.28933333333333333, "grad_norm": 11.0, "learning_rate": 4.864439309429724e-06, "loss": 1.7558832168579102, "step": 434 }, { "epoch": 0.2906666666666667, "grad_norm": 5.4375, "learning_rate": 4.862872187621685e-06, "loss": 1.9074214696884155, "step": 436 }, { "epoch": 0.292, "grad_norm": 5.28125, "learning_rate": 4.861296381077095e-06, "loss": 1.6114107370376587, "step": 438 }, { "epoch": 0.29333333333333333, "grad_norm": 16.125, "learning_rate": 4.859711897142386e-06, "loss": 1.9621031284332275, "step": 440 }, { "epoch": 0.2946666666666667, "grad_norm": 7.03125, "learning_rate": 4.858118743204444e-06, "loss": 1.6151349544525146, "step": 442 }, { "epoch": 0.296, "grad_norm": 6.21875, "learning_rate": 4.856516926690576e-06, "loss": 1.7121708393096924, "step": 444 }, { "epoch": 0.29733333333333334, "grad_norm": 6.71875, "learning_rate": 4.854906455068471e-06, "loss": 1.1954957246780396, "step": 446 }, { "epoch": 0.2986666666666667, "grad_norm": 9.0, "learning_rate": 4.853287335846174e-06, "loss": 2.0688719749450684, "step": 448 }, { "epoch": 0.3, "grad_norm": 5.40625, "learning_rate": 4.851659576572039e-06, "loss": 1.677027702331543, "step": 450 }, { "epoch": 0.30133333333333334, "grad_norm": 6.03125, "learning_rate": 4.850023184834703e-06, "loss": 1.6223268508911133, "step": 452 }, { "epoch": 0.30266666666666664, "grad_norm": 9.6875, "learning_rate": 4.848378168263051e-06, "loss": 1.6345758438110352, "step": 454 }, { "epoch": 0.304, "grad_norm": 4.21875, "learning_rate": 4.846724534526168e-06, "loss": 1.7275407314300537, "step": 456 }, { "epoch": 0.30533333333333335, "grad_norm": 6.90625, "learning_rate": 4.845062291333322e-06, "loss": 1.756260871887207, "step": 458 }, { "epoch": 0.30666666666666664, "grad_norm": 14.75, "learning_rate": 4.8433914464339136e-06, "loss": 2.080754280090332, "step": 460 }, { "epoch": 0.308, "grad_norm": 20.375, "learning_rate": 4.841712007617445e-06, "loss": 1.7779812812805176, "step": 462 }, { "epoch": 0.30933333333333335, "grad_norm": 4.40625, "learning_rate": 4.840023982713483e-06, "loss": 1.0725421905517578, "step": 464 }, { "epoch": 0.31066666666666665, "grad_norm": 15.1875, "learning_rate": 4.838327379591626e-06, "loss": 1.982491135597229, "step": 466 }, { "epoch": 0.312, "grad_norm": 2.109375, "learning_rate": 4.836622206161458e-06, "loss": 1.088759183883667, "step": 468 }, { "epoch": 0.31333333333333335, "grad_norm": 7.0625, "learning_rate": 4.834908470372525e-06, "loss": 1.4255026578903198, "step": 470 }, { "epoch": 0.31466666666666665, "grad_norm": 11.9375, "learning_rate": 4.833186180214287e-06, "loss": 1.907231330871582, "step": 472 }, { "epoch": 0.316, "grad_norm": 11.9375, "learning_rate": 4.831455343716083e-06, "loss": 2.125192642211914, "step": 474 }, { "epoch": 0.31733333333333336, "grad_norm": 6.09375, "learning_rate": 4.8297159689471e-06, "loss": 1.6836061477661133, "step": 476 }, { "epoch": 0.31866666666666665, "grad_norm": 4.34375, "learning_rate": 4.827968064016326e-06, "loss": 1.5955266952514648, "step": 478 }, { "epoch": 0.32, "grad_norm": 7.53125, "learning_rate": 4.82621163707252e-06, "loss": 1.5531877279281616, "step": 480 }, { "epoch": 0.32133333333333336, "grad_norm": 4.9375, "learning_rate": 4.824446696304168e-06, "loss": 1.5762629508972168, "step": 482 }, { "epoch": 0.32266666666666666, "grad_norm": 20.875, "learning_rate": 4.8226732499394504e-06, "loss": 2.128744125366211, "step": 484 }, { "epoch": 0.324, "grad_norm": 15.875, "learning_rate": 4.820891306246197e-06, "loss": 1.3488337993621826, "step": 486 }, { "epoch": 0.3253333333333333, "grad_norm": 5.0, "learning_rate": 4.8191008735318565e-06, "loss": 1.7257015705108643, "step": 488 }, { "epoch": 0.32666666666666666, "grad_norm": 5.96875, "learning_rate": 4.817301960143453e-06, "loss": 1.6011383533477783, "step": 490 }, { "epoch": 0.328, "grad_norm": 4.28125, "learning_rate": 4.815494574467542e-06, "loss": 1.690148115158081, "step": 492 }, { "epoch": 0.3293333333333333, "grad_norm": 9.0625, "learning_rate": 4.813678724930183e-06, "loss": 1.9120967388153076, "step": 494 }, { "epoch": 0.33066666666666666, "grad_norm": 7.9375, "learning_rate": 4.811854419996894e-06, "loss": 2.227816104888916, "step": 496 }, { "epoch": 0.332, "grad_norm": 6.625, "learning_rate": 4.81002166817261e-06, "loss": 1.061286449432373, "step": 498 }, { "epoch": 0.3333333333333333, "grad_norm": 8.9375, "learning_rate": 4.808180478001644e-06, "loss": 1.9699760675430298, "step": 500 }, { "epoch": 0.33466666666666667, "grad_norm": 5.21875, "learning_rate": 4.806330858067652e-06, "loss": 1.7396867275238037, "step": 502 }, { "epoch": 0.336, "grad_norm": 2.9375, "learning_rate": 4.804472816993587e-06, "loss": 1.083378791809082, "step": 504 }, { "epoch": 0.3373333333333333, "grad_norm": 4.75, "learning_rate": 4.802606363441666e-06, "loss": 1.575303554534912, "step": 506 }, { "epoch": 0.33866666666666667, "grad_norm": 10.25, "learning_rate": 4.800731506113319e-06, "loss": 1.6470720767974854, "step": 508 }, { "epoch": 0.34, "grad_norm": 8.125, "learning_rate": 4.798848253749158e-06, "loss": 1.6459286212921143, "step": 510 }, { "epoch": 0.3413333333333333, "grad_norm": 1.8671875, "learning_rate": 4.796956615128933e-06, "loss": 1.2288987636566162, "step": 512 }, { "epoch": 0.3426666666666667, "grad_norm": 7.09375, "learning_rate": 4.7950565990714894e-06, "loss": 1.6872162818908691, "step": 514 }, { "epoch": 0.344, "grad_norm": 3.765625, "learning_rate": 4.79314821443473e-06, "loss": 1.7207008600234985, "step": 516 }, { "epoch": 0.3453333333333333, "grad_norm": 11.5625, "learning_rate": 4.791231470115571e-06, "loss": 2.0396337509155273, "step": 518 }, { "epoch": 0.3466666666666667, "grad_norm": 2.40625, "learning_rate": 4.7893063750498995e-06, "loss": 1.1848084926605225, "step": 520 }, { "epoch": 0.348, "grad_norm": 5.28125, "learning_rate": 4.787372938212537e-06, "loss": 1.6492676734924316, "step": 522 }, { "epoch": 0.34933333333333333, "grad_norm": 3.640625, "learning_rate": 4.785431168617195e-06, "loss": 1.5428884029388428, "step": 524 }, { "epoch": 0.3506666666666667, "grad_norm": 3.703125, "learning_rate": 4.78348107531643e-06, "loss": 1.6366922855377197, "step": 526 }, { "epoch": 0.352, "grad_norm": 5.40625, "learning_rate": 4.781522667401604e-06, "loss": 1.7472410202026367, "step": 528 }, { "epoch": 0.35333333333333333, "grad_norm": 2.15625, "learning_rate": 4.779555954002843e-06, "loss": 1.2404601573944092, "step": 530 }, { "epoch": 0.3546666666666667, "grad_norm": 15.625, "learning_rate": 4.777580944288991e-06, "loss": 1.88511323928833, "step": 532 }, { "epoch": 0.356, "grad_norm": 2.4375, "learning_rate": 4.775597647467575e-06, "loss": 1.0901260375976562, "step": 534 }, { "epoch": 0.35733333333333334, "grad_norm": 5.25, "learning_rate": 4.77360607278475e-06, "loss": 1.555063009262085, "step": 536 }, { "epoch": 0.3586666666666667, "grad_norm": 8.8125, "learning_rate": 4.771606229525265e-06, "loss": 1.9415209293365479, "step": 538 }, { "epoch": 0.36, "grad_norm": 8.125, "learning_rate": 4.769598127012421e-06, "loss": 1.9015228748321533, "step": 540 }, { "epoch": 0.36133333333333334, "grad_norm": 4.15625, "learning_rate": 4.767581774608016e-06, "loss": 1.6610472202301025, "step": 542 }, { "epoch": 0.3626666666666667, "grad_norm": 2.984375, "learning_rate": 4.765557181712317e-06, "loss": 1.0736007690429688, "step": 544 }, { "epoch": 0.364, "grad_norm": 3.75, "learning_rate": 4.763524357764004e-06, "loss": 1.6187169551849365, "step": 546 }, { "epoch": 0.36533333333333334, "grad_norm": 6.09375, "learning_rate": 4.761483312240129e-06, "loss": 1.6005005836486816, "step": 548 }, { "epoch": 0.36666666666666664, "grad_norm": 15.125, "learning_rate": 4.759434054656078e-06, "loss": 2.02974796295166, "step": 550 }, { "epoch": 0.368, "grad_norm": 6.8125, "learning_rate": 4.757376594565518e-06, "loss": 1.6362042427062988, "step": 552 }, { "epoch": 0.36933333333333335, "grad_norm": 12.5625, "learning_rate": 4.755310941560356e-06, "loss": 1.5618031024932861, "step": 554 }, { "epoch": 0.37066666666666664, "grad_norm": 2.078125, "learning_rate": 4.753237105270696e-06, "loss": 1.2482681274414062, "step": 556 }, { "epoch": 0.372, "grad_norm": 4.09375, "learning_rate": 4.751155095364793e-06, "loss": 1.620242953300476, "step": 558 }, { "epoch": 0.37333333333333335, "grad_norm": 8.3125, "learning_rate": 4.749064921549006e-06, "loss": 2.135446071624756, "step": 560 }, { "epoch": 0.37466666666666665, "grad_norm": 5.40625, "learning_rate": 4.746966593567756e-06, "loss": 1.3215208053588867, "step": 562 }, { "epoch": 0.376, "grad_norm": 8.375, "learning_rate": 4.7448601212034765e-06, "loss": 1.4838060140609741, "step": 564 }, { "epoch": 0.37733333333333335, "grad_norm": 12.4375, "learning_rate": 4.742745514276571e-06, "loss": 1.6796302795410156, "step": 566 }, { "epoch": 0.37866666666666665, "grad_norm": 12.8125, "learning_rate": 4.74062278264537e-06, "loss": 2.027433395385742, "step": 568 }, { "epoch": 0.38, "grad_norm": 12.4375, "learning_rate": 4.738491936206075e-06, "loss": 1.9793848991394043, "step": 570 }, { "epoch": 0.38133333333333336, "grad_norm": 3.046875, "learning_rate": 4.736352984892723e-06, "loss": 0.9984286427497864, "step": 572 }, { "epoch": 0.38266666666666665, "grad_norm": 5.78125, "learning_rate": 4.734205938677139e-06, "loss": 1.686956524848938, "step": 574 }, { "epoch": 0.384, "grad_norm": 4.5, "learning_rate": 4.732050807568878e-06, "loss": 1.7226555347442627, "step": 576 }, { "epoch": 0.38533333333333336, "grad_norm": 12.625, "learning_rate": 4.729887601615194e-06, "loss": 2.1920371055603027, "step": 578 }, { "epoch": 0.38666666666666666, "grad_norm": 21.0, "learning_rate": 4.727716330900984e-06, "loss": 1.6783638000488281, "step": 580 }, { "epoch": 0.388, "grad_norm": 6.15625, "learning_rate": 4.725537005548743e-06, "loss": 1.344970703125, "step": 582 }, { "epoch": 0.3893333333333333, "grad_norm": 3.046875, "learning_rate": 4.723349635718515e-06, "loss": 1.1667028665542603, "step": 584 }, { "epoch": 0.39066666666666666, "grad_norm": 6.875, "learning_rate": 4.721154231607851e-06, "loss": 1.7253570556640625, "step": 586 }, { "epoch": 0.392, "grad_norm": 6.875, "learning_rate": 4.718950803451755e-06, "loss": 1.813482403755188, "step": 588 }, { "epoch": 0.3933333333333333, "grad_norm": 6.59375, "learning_rate": 4.716739361522642e-06, "loss": 1.6438264846801758, "step": 590 }, { "epoch": 0.39466666666666667, "grad_norm": 4.8125, "learning_rate": 4.714519916130283e-06, "loss": 1.6976796388626099, "step": 592 }, { "epoch": 0.396, "grad_norm": 3.671875, "learning_rate": 4.712292477621766e-06, "loss": 1.6207929849624634, "step": 594 }, { "epoch": 0.3973333333333333, "grad_norm": 6.6875, "learning_rate": 4.710057056381439e-06, "loss": 1.5759934186935425, "step": 596 }, { "epoch": 0.39866666666666667, "grad_norm": 28.375, "learning_rate": 4.707813662830871e-06, "loss": 1.3628721237182617, "step": 598 }, { "epoch": 0.4, "grad_norm": 3.46875, "learning_rate": 4.705562307428792e-06, "loss": 1.591555118560791, "step": 600 }, { "epoch": 0.4013333333333333, "grad_norm": 6.125, "learning_rate": 4.703303000671051e-06, "loss": 1.7297916412353516, "step": 602 }, { "epoch": 0.4026666666666667, "grad_norm": 2.375, "learning_rate": 4.7010357530905715e-06, "loss": 1.0203232765197754, "step": 604 }, { "epoch": 0.404, "grad_norm": 7.6875, "learning_rate": 4.698760575257292e-06, "loss": 1.0827909708023071, "step": 606 }, { "epoch": 0.4053333333333333, "grad_norm": 15.625, "learning_rate": 4.6964774777781245e-06, "loss": 1.1942954063415527, "step": 608 }, { "epoch": 0.4066666666666667, "grad_norm": 8.6875, "learning_rate": 4.6941864712969025e-06, "loss": 1.9994385242462158, "step": 610 }, { "epoch": 0.408, "grad_norm": 5.0625, "learning_rate": 4.691887566494328e-06, "loss": 0.9512624740600586, "step": 612 }, { "epoch": 0.4093333333333333, "grad_norm": 5.6875, "learning_rate": 4.689580774087932e-06, "loss": 1.6768784523010254, "step": 614 }, { "epoch": 0.4106666666666667, "grad_norm": 4.875, "learning_rate": 4.68726610483201e-06, "loss": 1.5625501871109009, "step": 616 }, { "epoch": 0.412, "grad_norm": 32.0, "learning_rate": 4.6849435695175835e-06, "loss": 2.0652124881744385, "step": 618 }, { "epoch": 0.41333333333333333, "grad_norm": 5.1875, "learning_rate": 4.682613178972346e-06, "loss": 1.673771619796753, "step": 620 }, { "epoch": 0.4146666666666667, "grad_norm": 22.875, "learning_rate": 4.680274944060611e-06, "loss": 1.8690307140350342, "step": 622 }, { "epoch": 0.416, "grad_norm": 3.5625, "learning_rate": 4.677928875683263e-06, "loss": 1.4643995761871338, "step": 624 }, { "epoch": 0.41733333333333333, "grad_norm": 10.4375, "learning_rate": 4.675574984777705e-06, "loss": 1.976689338684082, "step": 626 }, { "epoch": 0.4186666666666667, "grad_norm": 4.96875, "learning_rate": 4.67321328231781e-06, "loss": 1.1396830081939697, "step": 628 }, { "epoch": 0.42, "grad_norm": 5.40625, "learning_rate": 4.67084377931387e-06, "loss": 1.2085014581680298, "step": 630 }, { "epoch": 0.42133333333333334, "grad_norm": 3.390625, "learning_rate": 4.668466486812539e-06, "loss": 1.0501954555511475, "step": 632 }, { "epoch": 0.4226666666666667, "grad_norm": 8.8125, "learning_rate": 4.66608141589679e-06, "loss": 1.7985272407531738, "step": 634 }, { "epoch": 0.424, "grad_norm": 8.0625, "learning_rate": 4.663688577685859e-06, "loss": 1.6298389434814453, "step": 636 }, { "epoch": 0.42533333333333334, "grad_norm": 30.875, "learning_rate": 4.661287983335188e-06, "loss": 1.0675194263458252, "step": 638 }, { "epoch": 0.4266666666666667, "grad_norm": 9.1875, "learning_rate": 4.658879644036383e-06, "loss": 1.6258975267410278, "step": 640 }, { "epoch": 0.428, "grad_norm": 4.8125, "learning_rate": 4.656463571017159e-06, "loss": 1.4670131206512451, "step": 642 }, { "epoch": 0.42933333333333334, "grad_norm": 12.875, "learning_rate": 4.654039775541279e-06, "loss": 1.5779855251312256, "step": 644 }, { "epoch": 0.43066666666666664, "grad_norm": 5.09375, "learning_rate": 4.651608268908513e-06, "loss": 1.165670394897461, "step": 646 }, { "epoch": 0.432, "grad_norm": 4.03125, "learning_rate": 4.649169062454581e-06, "loss": 1.5870051383972168, "step": 648 }, { "epoch": 0.43333333333333335, "grad_norm": 14.5, "learning_rate": 4.646722167551095e-06, "loss": 2.0407092571258545, "step": 650 }, { "epoch": 0.43466666666666665, "grad_norm": 6.875, "learning_rate": 4.644267595605518e-06, "loss": 1.6178638935089111, "step": 652 }, { "epoch": 0.436, "grad_norm": 6.0625, "learning_rate": 4.6418053580610934e-06, "loss": 1.6280204057693481, "step": 654 }, { "epoch": 0.43733333333333335, "grad_norm": 101.5, "learning_rate": 4.639335466396812e-06, "loss": 1.7070868015289307, "step": 656 }, { "epoch": 0.43866666666666665, "grad_norm": 8.75, "learning_rate": 4.636857932127344e-06, "loss": 1.6747055053710938, "step": 658 }, { "epoch": 0.44, "grad_norm": 9.0, "learning_rate": 4.634372766802986e-06, "loss": 1.4893217086791992, "step": 660 }, { "epoch": 0.44133333333333336, "grad_norm": 12.0, "learning_rate": 4.631879982009617e-06, "loss": 1.6209745407104492, "step": 662 }, { "epoch": 0.44266666666666665, "grad_norm": 2.1875, "learning_rate": 4.6293795893686335e-06, "loss": 1.1486353874206543, "step": 664 }, { "epoch": 0.444, "grad_norm": 5.625, "learning_rate": 4.626871600536901e-06, "loss": 1.9780635833740234, "step": 666 }, { "epoch": 0.44533333333333336, "grad_norm": 4.4375, "learning_rate": 4.6243560272067014e-06, "loss": 1.5998198986053467, "step": 668 }, { "epoch": 0.44666666666666666, "grad_norm": 1.21875, "learning_rate": 4.6218328811056704e-06, "loss": 1.1909828186035156, "step": 670 }, { "epoch": 0.448, "grad_norm": 4.75, "learning_rate": 4.619302173996753e-06, "loss": 1.4504064321517944, "step": 672 }, { "epoch": 0.4493333333333333, "grad_norm": 5.4375, "learning_rate": 4.6167639176781395e-06, "loss": 1.688302993774414, "step": 674 }, { "epoch": 0.45066666666666666, "grad_norm": 6.875, "learning_rate": 4.614218123983219e-06, "loss": 1.7892383337020874, "step": 676 }, { "epoch": 0.452, "grad_norm": 2.0625, "learning_rate": 4.611664804780517e-06, "loss": 1.0726022720336914, "step": 678 }, { "epoch": 0.4533333333333333, "grad_norm": 7.96875, "learning_rate": 4.609103971973644e-06, "loss": 1.877305030822754, "step": 680 }, { "epoch": 0.45466666666666666, "grad_norm": 5.78125, "learning_rate": 4.606535637501238e-06, "loss": 1.6311051845550537, "step": 682 }, { "epoch": 0.456, "grad_norm": 5.125, "learning_rate": 4.603959813336911e-06, "loss": 1.6753770112991333, "step": 684 }, { "epoch": 0.4573333333333333, "grad_norm": 5.09375, "learning_rate": 4.601376511489193e-06, "loss": 1.477659821510315, "step": 686 }, { "epoch": 0.45866666666666667, "grad_norm": 5.125, "learning_rate": 4.598785744001473e-06, "loss": 1.5649811029434204, "step": 688 }, { "epoch": 0.46, "grad_norm": 4.03125, "learning_rate": 4.596187522951945e-06, "loss": 1.5314197540283203, "step": 690 }, { "epoch": 0.4613333333333333, "grad_norm": 29.0, "learning_rate": 4.593581860453553e-06, "loss": 1.951949119567871, "step": 692 }, { "epoch": 0.46266666666666667, "grad_norm": 7.34375, "learning_rate": 4.590968768653933e-06, "loss": 1.8065054416656494, "step": 694 }, { "epoch": 0.464, "grad_norm": 86.5, "learning_rate": 4.5883482597353555e-06, "loss": 1.4217579364776611, "step": 696 }, { "epoch": 0.4653333333333333, "grad_norm": 48.25, "learning_rate": 4.585720345914671e-06, "loss": 1.402038335800171, "step": 698 }, { "epoch": 0.4666666666666667, "grad_norm": 3.515625, "learning_rate": 4.583085039443249e-06, "loss": 1.546642780303955, "step": 700 }, { "epoch": 0.468, "grad_norm": 6.96875, "learning_rate": 4.580442352606928e-06, "loss": 1.8113808631896973, "step": 702 }, { "epoch": 0.4693333333333333, "grad_norm": 3.234375, "learning_rate": 4.57779229772595e-06, "loss": 1.235628366470337, "step": 704 }, { "epoch": 0.4706666666666667, "grad_norm": 4.65625, "learning_rate": 4.575134887154909e-06, "loss": 1.591590166091919, "step": 706 }, { "epoch": 0.472, "grad_norm": 6.125, "learning_rate": 4.572470133282691e-06, "loss": 1.5594894886016846, "step": 708 }, { "epoch": 0.47333333333333333, "grad_norm": 5.4375, "learning_rate": 4.569798048532416e-06, "loss": 1.6119413375854492, "step": 710 }, { "epoch": 0.4746666666666667, "grad_norm": 16.75, "learning_rate": 4.56711864536138e-06, "loss": 2.1140735149383545, "step": 712 }, { "epoch": 0.476, "grad_norm": 3.328125, "learning_rate": 4.564431936261001e-06, "loss": 1.0822668075561523, "step": 714 }, { "epoch": 0.47733333333333333, "grad_norm": 9.6875, "learning_rate": 4.561737933756752e-06, "loss": 1.572784185409546, "step": 716 }, { "epoch": 0.4786666666666667, "grad_norm": 4.0625, "learning_rate": 4.559036650408114e-06, "loss": 1.5953166484832764, "step": 718 }, { "epoch": 0.48, "grad_norm": 4.4375, "learning_rate": 4.556328098808506e-06, "loss": 1.5809223651885986, "step": 720 }, { "epoch": 0.48133333333333334, "grad_norm": 4.9375, "learning_rate": 4.553612291585234e-06, "loss": 1.7776161432266235, "step": 722 }, { "epoch": 0.4826666666666667, "grad_norm": 2.71875, "learning_rate": 4.550889241399431e-06, "loss": 1.1778576374053955, "step": 724 }, { "epoch": 0.484, "grad_norm": 16.375, "learning_rate": 4.5481589609459945e-06, "loss": 1.919342041015625, "step": 726 }, { "epoch": 0.48533333333333334, "grad_norm": 4.03125, "learning_rate": 4.545421462953531e-06, "loss": 1.5503928661346436, "step": 728 }, { "epoch": 0.4866666666666667, "grad_norm": 6.96875, "learning_rate": 4.542676760184296e-06, "loss": 2.023519992828369, "step": 730 }, { "epoch": 0.488, "grad_norm": 4.40625, "learning_rate": 4.539924865434131e-06, "loss": 1.6147465705871582, "step": 732 }, { "epoch": 0.48933333333333334, "grad_norm": 5.4375, "learning_rate": 4.53716579153241e-06, "loss": 1.701406717300415, "step": 734 }, { "epoch": 0.49066666666666664, "grad_norm": 6.03125, "learning_rate": 4.5343995513419725e-06, "loss": 1.9945590496063232, "step": 736 }, { "epoch": 0.492, "grad_norm": 3.046875, "learning_rate": 4.531626157759072e-06, "loss": 1.1337153911590576, "step": 738 }, { "epoch": 0.49333333333333335, "grad_norm": 1.734375, "learning_rate": 4.528845623713307e-06, "loss": 1.0001354217529297, "step": 740 }, { "epoch": 0.49466666666666664, "grad_norm": 7.46875, "learning_rate": 4.526057962167567e-06, "loss": 1.6229677200317383, "step": 742 }, { "epoch": 0.496, "grad_norm": 45.75, "learning_rate": 4.52326318611797e-06, "loss": 1.9723401069641113, "step": 744 }, { "epoch": 0.49733333333333335, "grad_norm": 2.453125, "learning_rate": 4.520461308593801e-06, "loss": 1.0949461460113525, "step": 746 }, { "epoch": 0.49866666666666665, "grad_norm": 1.765625, "learning_rate": 4.5176523426574535e-06, "loss": 1.124253273010254, "step": 748 }, { "epoch": 0.5, "grad_norm": 5.03125, "learning_rate": 4.514836301404367e-06, "loss": 1.6151834726333618, "step": 750 }, { "epoch": 0.5013333333333333, "grad_norm": 11.75, "learning_rate": 4.5120131979629635e-06, "loss": 1.9495484828948975, "step": 752 }, { "epoch": 0.5026666666666667, "grad_norm": 3.515625, "learning_rate": 4.509183045494593e-06, "loss": 1.092561960220337, "step": 754 }, { "epoch": 0.504, "grad_norm": 10.875, "learning_rate": 4.506345857193467e-06, "loss": 2.0824429988861084, "step": 756 }, { "epoch": 0.5053333333333333, "grad_norm": 12.3125, "learning_rate": 4.503501646286596e-06, "loss": 1.9892358779907227, "step": 758 }, { "epoch": 0.5066666666666667, "grad_norm": 2.890625, "learning_rate": 4.500650426033732e-06, "loss": 1.1249581575393677, "step": 760 }, { "epoch": 0.508, "grad_norm": 8.3125, "learning_rate": 4.497792209727304e-06, "loss": 2.0044803619384766, "step": 762 }, { "epoch": 0.5093333333333333, "grad_norm": 3.234375, "learning_rate": 4.494927010692358e-06, "loss": 1.162718415260315, "step": 764 }, { "epoch": 0.5106666666666667, "grad_norm": 10.0625, "learning_rate": 4.492054842286493e-06, "loss": 1.6656391620635986, "step": 766 }, { "epoch": 0.512, "grad_norm": 3.765625, "learning_rate": 4.489175717899796e-06, "loss": 1.6391451358795166, "step": 768 }, { "epoch": 0.5133333333333333, "grad_norm": 5.28125, "learning_rate": 4.486289650954789e-06, "loss": 1.5884838104248047, "step": 770 }, { "epoch": 0.5146666666666667, "grad_norm": 1.2890625, "learning_rate": 4.483396654906356e-06, "loss": 0.9799174070358276, "step": 772 }, { "epoch": 0.516, "grad_norm": 1.703125, "learning_rate": 4.480496743241683e-06, "loss": 1.0725151300430298, "step": 774 }, { "epoch": 0.5173333333333333, "grad_norm": 17.375, "learning_rate": 4.477589929480203e-06, "loss": 2.1492419242858887, "step": 776 }, { "epoch": 0.5186666666666667, "grad_norm": 5.8125, "learning_rate": 4.4746762271735214e-06, "loss": 1.7624104022979736, "step": 778 }, { "epoch": 0.52, "grad_norm": 16.625, "learning_rate": 4.4717556499053584e-06, "loss": 2.1565475463867188, "step": 780 }, { "epoch": 0.5213333333333333, "grad_norm": 3.234375, "learning_rate": 4.46882821129149e-06, "loss": 1.2971224784851074, "step": 782 }, { "epoch": 0.5226666666666666, "grad_norm": 4.90625, "learning_rate": 4.465893924979673e-06, "loss": 1.0319178104400635, "step": 784 }, { "epoch": 0.524, "grad_norm": 8.125, "learning_rate": 4.462952804649593e-06, "loss": 1.9379088878631592, "step": 786 }, { "epoch": 0.5253333333333333, "grad_norm": 5.6875, "learning_rate": 4.460004864012796e-06, "loss": 1.6146807670593262, "step": 788 }, { "epoch": 0.5266666666666666, "grad_norm": 2.296875, "learning_rate": 4.4570501168126205e-06, "loss": 0.9778133630752563, "step": 790 }, { "epoch": 0.528, "grad_norm": 1.640625, "learning_rate": 4.454088576824143e-06, "loss": 1.121327519416809, "step": 792 }, { "epoch": 0.5293333333333333, "grad_norm": 5.90625, "learning_rate": 4.451120257854101e-06, "loss": 1.7932809591293335, "step": 794 }, { "epoch": 0.5306666666666666, "grad_norm": 11.0625, "learning_rate": 4.448145173740844e-06, "loss": 1.5648019313812256, "step": 796 }, { "epoch": 0.532, "grad_norm": 1.5234375, "learning_rate": 4.445163338354253e-06, "loss": 1.1240180730819702, "step": 798 }, { "epoch": 0.5333333333333333, "grad_norm": 1.875, "learning_rate": 4.442174765595688e-06, "loss": 1.1813502311706543, "step": 800 }, { "epoch": 0.5346666666666666, "grad_norm": 13.4375, "learning_rate": 4.439179469397918e-06, "loss": 1.7995562553405762, "step": 802 }, { "epoch": 0.536, "grad_norm": 3.328125, "learning_rate": 4.436177463725057e-06, "loss": 1.1335866451263428, "step": 804 }, { "epoch": 0.5373333333333333, "grad_norm": 11.3125, "learning_rate": 4.433168762572495e-06, "loss": 2.0559403896331787, "step": 806 }, { "epoch": 0.5386666666666666, "grad_norm": 1.8046875, "learning_rate": 4.4301533799668414e-06, "loss": 1.1813790798187256, "step": 808 }, { "epoch": 0.54, "grad_norm": 6.21875, "learning_rate": 4.427131329965854e-06, "loss": 1.7660613059997559, "step": 810 }, { "epoch": 0.5413333333333333, "grad_norm": 10.6875, "learning_rate": 4.4241026266583705e-06, "loss": 1.9616385698318481, "step": 812 }, { "epoch": 0.5426666666666666, "grad_norm": 6.25, "learning_rate": 4.42106728416425e-06, "loss": 1.9410457611083984, "step": 814 }, { "epoch": 0.544, "grad_norm": 6.03125, "learning_rate": 4.418025316634301e-06, "loss": 1.6492912769317627, "step": 816 }, { "epoch": 0.5453333333333333, "grad_norm": 6.1875, "learning_rate": 4.4149767382502205e-06, "loss": 1.769735336303711, "step": 818 }, { "epoch": 0.5466666666666666, "grad_norm": 33.5, "learning_rate": 4.4119215632245235e-06, "loss": 1.4241745471954346, "step": 820 }, { "epoch": 0.548, "grad_norm": 6.3125, "learning_rate": 4.408859805800481e-06, "loss": 1.6003971099853516, "step": 822 }, { "epoch": 0.5493333333333333, "grad_norm": 8.5625, "learning_rate": 4.405791480252046e-06, "loss": 1.998405933380127, "step": 824 }, { "epoch": 0.5506666666666666, "grad_norm": 21.25, "learning_rate": 4.4027166008837996e-06, "loss": 2.0935518741607666, "step": 826 }, { "epoch": 0.552, "grad_norm": 5.71875, "learning_rate": 4.399635182030869e-06, "loss": 1.7479844093322754, "step": 828 }, { "epoch": 0.5533333333333333, "grad_norm": 5.09375, "learning_rate": 4.396547238058876e-06, "loss": 1.6909379959106445, "step": 830 }, { "epoch": 0.5546666666666666, "grad_norm": 7.5, "learning_rate": 4.393452783363857e-06, "loss": 1.9220030307769775, "step": 832 }, { "epoch": 0.556, "grad_norm": 13.375, "learning_rate": 4.390351832372206e-06, "loss": 1.959233045578003, "step": 834 }, { "epoch": 0.5573333333333333, "grad_norm": 6.78125, "learning_rate": 4.387244399540599e-06, "loss": 1.5985342264175415, "step": 836 }, { "epoch": 0.5586666666666666, "grad_norm": 3.359375, "learning_rate": 4.384130499355931e-06, "loss": 1.2405080795288086, "step": 838 }, { "epoch": 0.56, "grad_norm": 33.5, "learning_rate": 4.381010146335249e-06, "loss": 1.2756681442260742, "step": 840 }, { "epoch": 0.5613333333333334, "grad_norm": 72.5, "learning_rate": 4.377883355025686e-06, "loss": 1.2579646110534668, "step": 842 }, { "epoch": 0.5626666666666666, "grad_norm": 16.625, "learning_rate": 4.374750140004383e-06, "loss": 1.0350561141967773, "step": 844 }, { "epoch": 0.564, "grad_norm": 4.78125, "learning_rate": 4.371610515878436e-06, "loss": 1.5376999378204346, "step": 846 }, { "epoch": 0.5653333333333334, "grad_norm": 4.71875, "learning_rate": 4.3684644972848166e-06, "loss": 1.540494680404663, "step": 848 }, { "epoch": 0.5666666666666667, "grad_norm": 3.84375, "learning_rate": 4.365312098890308e-06, "loss": 1.5681653022766113, "step": 850 }, { "epoch": 0.568, "grad_norm": 7.71875, "learning_rate": 4.362153335391436e-06, "loss": 2.0566165447235107, "step": 852 }, { "epoch": 0.5693333333333334, "grad_norm": 1.421875, "learning_rate": 4.358988221514399e-06, "loss": 1.065299391746521, "step": 854 }, { "epoch": 0.5706666666666667, "grad_norm": 8.0625, "learning_rate": 4.355816772015007e-06, "loss": 1.5944557189941406, "step": 856 }, { "epoch": 0.572, "grad_norm": 9.5, "learning_rate": 4.352639001678599e-06, "loss": 1.5592529773712158, "step": 858 }, { "epoch": 0.5733333333333334, "grad_norm": 4.25, "learning_rate": 4.349454925319986e-06, "loss": 1.6201512813568115, "step": 860 }, { "epoch": 0.5746666666666667, "grad_norm": 6.9375, "learning_rate": 4.346264557783379e-06, "loss": 1.5860223770141602, "step": 862 }, { "epoch": 0.576, "grad_norm": 5.34375, "learning_rate": 4.343067913942314e-06, "loss": 1.6586430072784424, "step": 864 }, { "epoch": 0.5773333333333334, "grad_norm": 7.71875, "learning_rate": 4.339865008699592e-06, "loss": 1.4852830171585083, "step": 866 }, { "epoch": 0.5786666666666667, "grad_norm": 3.90625, "learning_rate": 4.336655856987201e-06, "loss": 1.5025522708892822, "step": 868 }, { "epoch": 0.58, "grad_norm": 8.875, "learning_rate": 4.333440473766253e-06, "loss": 1.8594863414764404, "step": 870 }, { "epoch": 0.5813333333333334, "grad_norm": 3.828125, "learning_rate": 4.33021887402691e-06, "loss": 1.5938358306884766, "step": 872 }, { "epoch": 0.5826666666666667, "grad_norm": 7.4375, "learning_rate": 4.326991072788315e-06, "loss": 1.713855266571045, "step": 874 }, { "epoch": 0.584, "grad_norm": 2.890625, "learning_rate": 4.323757085098524e-06, "loss": 0.9895963668823242, "step": 876 }, { "epoch": 0.5853333333333334, "grad_norm": 6.09375, "learning_rate": 4.320516926034434e-06, "loss": 1.524658203125, "step": 878 }, { "epoch": 0.5866666666666667, "grad_norm": 10.0625, "learning_rate": 4.31727061070171e-06, "loss": 1.939576268196106, "step": 880 }, { "epoch": 0.588, "grad_norm": 8.125, "learning_rate": 4.314018154234722e-06, "loss": 1.504568338394165, "step": 882 }, { "epoch": 0.5893333333333334, "grad_norm": 13.25, "learning_rate": 4.310759571796469e-06, "loss": 1.8733505010604858, "step": 884 }, { "epoch": 0.5906666666666667, "grad_norm": 8.9375, "learning_rate": 4.307494878578505e-06, "loss": 2.1683549880981445, "step": 886 }, { "epoch": 0.592, "grad_norm": 3.34375, "learning_rate": 4.3042240898008805e-06, "loss": 1.0660171508789062, "step": 888 }, { "epoch": 0.5933333333333334, "grad_norm": 4.875, "learning_rate": 4.300947220712056e-06, "loss": 1.6291861534118652, "step": 890 }, { "epoch": 0.5946666666666667, "grad_norm": 6.8125, "learning_rate": 4.297664286588844e-06, "loss": 1.6542470455169678, "step": 892 }, { "epoch": 0.596, "grad_norm": 5.53125, "learning_rate": 4.294375302736328e-06, "loss": 1.5474224090576172, "step": 894 }, { "epoch": 0.5973333333333334, "grad_norm": 8.25, "learning_rate": 4.291080284487797e-06, "loss": 1.8157379627227783, "step": 896 }, { "epoch": 0.5986666666666667, "grad_norm": 4.28125, "learning_rate": 4.287779247204675e-06, "loss": 1.239814281463623, "step": 898 }, { "epoch": 0.6, "grad_norm": 6.21875, "learning_rate": 4.284472206276443e-06, "loss": 1.558706283569336, "step": 900 }, { "epoch": 0.6013333333333334, "grad_norm": 8.625, "learning_rate": 4.281159177120574e-06, "loss": 2.167874336242676, "step": 902 }, { "epoch": 0.6026666666666667, "grad_norm": 3.171875, "learning_rate": 4.2778401751824565e-06, "loss": 1.0401667356491089, "step": 904 }, { "epoch": 0.604, "grad_norm": 32.25, "learning_rate": 4.274515215935322e-06, "loss": 1.2682547569274902, "step": 906 }, { "epoch": 0.6053333333333333, "grad_norm": 3.578125, "learning_rate": 4.271184314880181e-06, "loss": 1.533789873123169, "step": 908 }, { "epoch": 0.6066666666666667, "grad_norm": 3.9375, "learning_rate": 4.267847487545741e-06, "loss": 1.5725165605545044, "step": 910 }, { "epoch": 0.608, "grad_norm": 4.875, "learning_rate": 4.264504749488336e-06, "loss": 1.630423665046692, "step": 912 }, { "epoch": 0.6093333333333333, "grad_norm": 4.28125, "learning_rate": 4.261156116291862e-06, "loss": 1.0812149047851562, "step": 914 }, { "epoch": 0.6106666666666667, "grad_norm": 4.3125, "learning_rate": 4.257801603567689e-06, "loss": 1.5762662887573242, "step": 916 }, { "epoch": 0.612, "grad_norm": 7.25, "learning_rate": 4.254441226954608e-06, "loss": 1.642853021621704, "step": 918 }, { "epoch": 0.6133333333333333, "grad_norm": 8.4375, "learning_rate": 4.251075002118741e-06, "loss": 1.8817405700683594, "step": 920 }, { "epoch": 0.6146666666666667, "grad_norm": 8.625, "learning_rate": 4.2477029447534744e-06, "loss": 1.8150745630264282, "step": 922 }, { "epoch": 0.616, "grad_norm": 4.46875, "learning_rate": 4.244325070579391e-06, "loss": 1.6018476486206055, "step": 924 }, { "epoch": 0.6173333333333333, "grad_norm": 11.75, "learning_rate": 4.240941395344182e-06, "loss": 1.8347196578979492, "step": 926 }, { "epoch": 0.6186666666666667, "grad_norm": 9.6875, "learning_rate": 4.2375519348225946e-06, "loss": 1.8900158405303955, "step": 928 }, { "epoch": 0.62, "grad_norm": 4.75, "learning_rate": 4.23415670481634e-06, "loss": 1.5854055881500244, "step": 930 }, { "epoch": 0.6213333333333333, "grad_norm": 15.75, "learning_rate": 4.2307557211540296e-06, "loss": 2.090912342071533, "step": 932 }, { "epoch": 0.6226666666666667, "grad_norm": 5.125, "learning_rate": 4.227348999691096e-06, "loss": 1.1517055034637451, "step": 934 }, { "epoch": 0.624, "grad_norm": 22.5, "learning_rate": 4.223936556309723e-06, "loss": 1.033469796180725, "step": 936 }, { "epoch": 0.6253333333333333, "grad_norm": 5.125, "learning_rate": 4.220518406918771e-06, "loss": 1.536806344985962, "step": 938 }, { "epoch": 0.6266666666666667, "grad_norm": 9.1875, "learning_rate": 4.2170945674537015e-06, "loss": 2.028916835784912, "step": 940 }, { "epoch": 0.628, "grad_norm": 7.0, "learning_rate": 4.2136650538765e-06, "loss": 1.6300554275512695, "step": 942 }, { "epoch": 0.6293333333333333, "grad_norm": 6.71875, "learning_rate": 4.210229882175611e-06, "loss": 1.740851640701294, "step": 944 }, { "epoch": 0.6306666666666667, "grad_norm": 4.90625, "learning_rate": 4.2067890683658495e-06, "loss": 1.5381369590759277, "step": 946 }, { "epoch": 0.632, "grad_norm": 4.84375, "learning_rate": 4.203342628488342e-06, "loss": 1.6090049743652344, "step": 948 }, { "epoch": 0.6333333333333333, "grad_norm": 2.703125, "learning_rate": 4.1998905786104386e-06, "loss": 1.1410777568817139, "step": 950 }, { "epoch": 0.6346666666666667, "grad_norm": 1.90625, "learning_rate": 4.196432934825644e-06, "loss": 1.1576334238052368, "step": 952 }, { "epoch": 0.636, "grad_norm": 8.8125, "learning_rate": 4.192969713253544e-06, "loss": 1.8281700611114502, "step": 954 }, { "epoch": 0.6373333333333333, "grad_norm": 1.8203125, "learning_rate": 4.189500930039726e-06, "loss": 1.1463249921798706, "step": 956 }, { "epoch": 0.6386666666666667, "grad_norm": 11.375, "learning_rate": 4.186026601355706e-06, "loss": 1.3184925317764282, "step": 958 }, { "epoch": 0.64, "grad_norm": 2.375, "learning_rate": 4.182546743398855e-06, "loss": 1.1309475898742676, "step": 960 }, { "epoch": 0.6413333333333333, "grad_norm": 6.28125, "learning_rate": 4.179061372392319e-06, "loss": 2.0938892364501953, "step": 962 }, { "epoch": 0.6426666666666667, "grad_norm": 5.125, "learning_rate": 4.1755705045849474e-06, "loss": 1.8526628017425537, "step": 964 }, { "epoch": 0.644, "grad_norm": 11.5625, "learning_rate": 4.172074156251215e-06, "loss": 1.9665130376815796, "step": 966 }, { "epoch": 0.6453333333333333, "grad_norm": 7.65625, "learning_rate": 4.168572343691147e-06, "loss": 1.5805991888046265, "step": 968 }, { "epoch": 0.6466666666666666, "grad_norm": 103.5, "learning_rate": 4.165065083230245e-06, "loss": 1.496896505355835, "step": 970 }, { "epoch": 0.648, "grad_norm": 19.375, "learning_rate": 4.161552391219406e-06, "loss": 1.1086199283599854, "step": 972 }, { "epoch": 0.6493333333333333, "grad_norm": 26.5, "learning_rate": 4.158034284034849e-06, "loss": 1.9410427808761597, "step": 974 }, { "epoch": 0.6506666666666666, "grad_norm": 11.8125, "learning_rate": 4.154510778078039e-06, "loss": 1.9177557229995728, "step": 976 }, { "epoch": 0.652, "grad_norm": 10.4375, "learning_rate": 4.150981889775614e-06, "loss": 1.9715896844863892, "step": 978 }, { "epoch": 0.6533333333333333, "grad_norm": 18.25, "learning_rate": 4.147447635579299e-06, "loss": 1.1010019779205322, "step": 980 }, { "epoch": 0.6546666666666666, "grad_norm": 4.34375, "learning_rate": 4.143908031965837e-06, "loss": 1.5735809803009033, "step": 982 }, { "epoch": 0.656, "grad_norm": 2.140625, "learning_rate": 4.140363095436912e-06, "loss": 1.1293983459472656, "step": 984 }, { "epoch": 0.6573333333333333, "grad_norm": 5.46875, "learning_rate": 4.136812842519067e-06, "loss": 1.9613256454467773, "step": 986 }, { "epoch": 0.6586666666666666, "grad_norm": 2.421875, "learning_rate": 4.13325728976363e-06, "loss": 0.9995434880256653, "step": 988 }, { "epoch": 0.66, "grad_norm": 4.65625, "learning_rate": 4.129696453746642e-06, "loss": 1.6232421398162842, "step": 990 }, { "epoch": 0.6613333333333333, "grad_norm": 5.09375, "learning_rate": 4.126130351068768e-06, "loss": 1.6333463191986084, "step": 992 }, { "epoch": 0.6626666666666666, "grad_norm": 9.0625, "learning_rate": 4.122558998355229e-06, "loss": 1.931457757949829, "step": 994 }, { "epoch": 0.664, "grad_norm": 2.90625, "learning_rate": 4.118982412255725e-06, "loss": 1.1441792249679565, "step": 996 }, { "epoch": 0.6653333333333333, "grad_norm": 6.375, "learning_rate": 4.115400609444349e-06, "loss": 1.8410940170288086, "step": 998 }, { "epoch": 0.6666666666666666, "grad_norm": 13.25, "learning_rate": 4.111813606619517e-06, "loss": 1.7064735889434814, "step": 1000 }, { "epoch": 0.668, "grad_norm": 21.5, "learning_rate": 4.1082214205038864e-06, "loss": 2.002370834350586, "step": 1002 }, { "epoch": 0.6693333333333333, "grad_norm": 8.0625, "learning_rate": 4.104624067844281e-06, "loss": 1.1194469928741455, "step": 1004 }, { "epoch": 0.6706666666666666, "grad_norm": 5.21875, "learning_rate": 4.1010215654116084e-06, "loss": 1.5584155321121216, "step": 1006 }, { "epoch": 0.672, "grad_norm": 7.375, "learning_rate": 4.0974139300007855e-06, "loss": 1.5594654083251953, "step": 1008 }, { "epoch": 0.6733333333333333, "grad_norm": 17.75, "learning_rate": 4.093801178430663e-06, "loss": 1.9932979345321655, "step": 1010 }, { "epoch": 0.6746666666666666, "grad_norm": 7.75, "learning_rate": 4.090183327543937e-06, "loss": 1.4730606079101562, "step": 1012 }, { "epoch": 0.676, "grad_norm": 24.375, "learning_rate": 4.086560394207081e-06, "loss": 2.038485050201416, "step": 1014 }, { "epoch": 0.6773333333333333, "grad_norm": 9.0625, "learning_rate": 4.082932395310261e-06, "loss": 1.8734180927276611, "step": 1016 }, { "epoch": 0.6786666666666666, "grad_norm": 9.0625, "learning_rate": 4.07929934776726e-06, "loss": 2.1227965354919434, "step": 1018 }, { "epoch": 0.68, "grad_norm": 2.578125, "learning_rate": 4.075661268515395e-06, "loss": 1.21480393409729, "step": 1020 }, { "epoch": 0.6813333333333333, "grad_norm": 9.625, "learning_rate": 4.072018174515446e-06, "loss": 1.6561039686203003, "step": 1022 }, { "epoch": 0.6826666666666666, "grad_norm": 4.09375, "learning_rate": 4.068370082751567e-06, "loss": 1.6361010074615479, "step": 1024 }, { "epoch": 0.684, "grad_norm": 1.8046875, "learning_rate": 4.064717010231214e-06, "loss": 1.1598769426345825, "step": 1026 }, { "epoch": 0.6853333333333333, "grad_norm": 2.90625, "learning_rate": 4.061058973985064e-06, "loss": 1.2839393615722656, "step": 1028 }, { "epoch": 0.6866666666666666, "grad_norm": 10.6875, "learning_rate": 4.0573959910669316e-06, "loss": 1.272928237915039, "step": 1030 }, { "epoch": 0.688, "grad_norm": 3.96875, "learning_rate": 4.0537280785536955e-06, "loss": 1.5582289695739746, "step": 1032 }, { "epoch": 0.6893333333333334, "grad_norm": 8.1875, "learning_rate": 4.050055253545219e-06, "loss": 1.6847953796386719, "step": 1034 }, { "epoch": 0.6906666666666667, "grad_norm": 10.0625, "learning_rate": 4.0463775331642605e-06, "loss": 2.000561237335205, "step": 1036 }, { "epoch": 0.692, "grad_norm": 4.34375, "learning_rate": 4.042694934556407e-06, "loss": 1.596095085144043, "step": 1038 }, { "epoch": 0.6933333333333334, "grad_norm": 8.1875, "learning_rate": 4.039007474889983e-06, "loss": 1.8276232481002808, "step": 1040 }, { "epoch": 0.6946666666666667, "grad_norm": 14.5625, "learning_rate": 4.035315171355981e-06, "loss": 1.7133440971374512, "step": 1042 }, { "epoch": 0.696, "grad_norm": 4.5625, "learning_rate": 4.031618041167969e-06, "loss": 1.6173053979873657, "step": 1044 }, { "epoch": 0.6973333333333334, "grad_norm": 29.625, "learning_rate": 4.027916101562024e-06, "loss": 0.8435451984405518, "step": 1046 }, { "epoch": 0.6986666666666667, "grad_norm": 7.1875, "learning_rate": 4.024209369796638e-06, "loss": 1.728581428527832, "step": 1048 }, { "epoch": 0.7, "grad_norm": 2.453125, "learning_rate": 4.020497863152647e-06, "loss": 1.4456583261489868, "step": 1050 }, { "epoch": 0.7013333333333334, "grad_norm": 20.625, "learning_rate": 4.0167815989331505e-06, "loss": 1.5146148204803467, "step": 1052 }, { "epoch": 0.7026666666666667, "grad_norm": 5.1875, "learning_rate": 4.013060594463422e-06, "loss": 1.0910983085632324, "step": 1054 }, { "epoch": 0.704, "grad_norm": 4.53125, "learning_rate": 4.009334867090839e-06, "loss": 1.5269734859466553, "step": 1056 }, { "epoch": 0.7053333333333334, "grad_norm": 8.375, "learning_rate": 4.005604434184793e-06, "loss": 2.0650410652160645, "step": 1058 }, { "epoch": 0.7066666666666667, "grad_norm": 3.765625, "learning_rate": 4.0018693131366185e-06, "loss": 1.6046576499938965, "step": 1060 }, { "epoch": 0.708, "grad_norm": 3.9375, "learning_rate": 3.998129521359499e-06, "loss": 1.0697150230407715, "step": 1062 }, { "epoch": 0.7093333333333334, "grad_norm": 2.09375, "learning_rate": 3.994385076288399e-06, "loss": 1.048234224319458, "step": 1064 }, { "epoch": 0.7106666666666667, "grad_norm": 2.578125, "learning_rate": 3.990635995379975e-06, "loss": 1.0379292964935303, "step": 1066 }, { "epoch": 0.712, "grad_norm": 8.9375, "learning_rate": 3.986882296112495e-06, "loss": 2.008152961730957, "step": 1068 }, { "epoch": 0.7133333333333334, "grad_norm": 4.21875, "learning_rate": 3.983123995985757e-06, "loss": 1.593372106552124, "step": 1070 }, { "epoch": 0.7146666666666667, "grad_norm": 10.0, "learning_rate": 3.979361112521011e-06, "loss": 1.7745264768600464, "step": 1072 }, { "epoch": 0.716, "grad_norm": 9.6875, "learning_rate": 3.975593663260872e-06, "loss": 1.8867788314819336, "step": 1074 }, { "epoch": 0.7173333333333334, "grad_norm": 8.25, "learning_rate": 3.971821665769241e-06, "loss": 1.751440167427063, "step": 1076 }, { "epoch": 0.7186666666666667, "grad_norm": 22.75, "learning_rate": 3.968045137631226e-06, "loss": 1.5239152908325195, "step": 1078 }, { "epoch": 0.72, "grad_norm": 4.9375, "learning_rate": 3.964264096453055e-06, "loss": 1.5637166500091553, "step": 1080 }, { "epoch": 0.7213333333333334, "grad_norm": 5.65625, "learning_rate": 3.960478559861992e-06, "loss": 1.5539973974227905, "step": 1082 }, { "epoch": 0.7226666666666667, "grad_norm": 31.25, "learning_rate": 3.956688545506266e-06, "loss": 2.123660087585449, "step": 1084 }, { "epoch": 0.724, "grad_norm": 6.625, "learning_rate": 3.952894071054976e-06, "loss": 1.5803725719451904, "step": 1086 }, { "epoch": 0.7253333333333334, "grad_norm": 4.15625, "learning_rate": 3.949095154198015e-06, "loss": 1.592582106590271, "step": 1088 }, { "epoch": 0.7266666666666667, "grad_norm": 4.9375, "learning_rate": 3.945291812645989e-06, "loss": 1.5624558925628662, "step": 1090 }, { "epoch": 0.728, "grad_norm": 31.5, "learning_rate": 3.941484064130129e-06, "loss": 0.7563271522521973, "step": 1092 }, { "epoch": 0.7293333333333333, "grad_norm": 2.25, "learning_rate": 3.937671926402213e-06, "loss": 1.1665401458740234, "step": 1094 }, { "epoch": 0.7306666666666667, "grad_norm": 6.40625, "learning_rate": 3.933855417234481e-06, "loss": 1.601196527481079, "step": 1096 }, { "epoch": 0.732, "grad_norm": 4.59375, "learning_rate": 3.930034554419554e-06, "loss": 1.6145453453063965, "step": 1098 }, { "epoch": 0.7333333333333333, "grad_norm": 1.453125, "learning_rate": 3.926209355770348e-06, "loss": 1.085764765739441, "step": 1100 }, { "epoch": 0.7346666666666667, "grad_norm": 5.1875, "learning_rate": 3.922379839119991e-06, "loss": 1.493807077407837, "step": 1102 }, { "epoch": 0.736, "grad_norm": 11.5625, "learning_rate": 3.9185460223217464e-06, "loss": 1.9608560800552368, "step": 1104 }, { "epoch": 0.7373333333333333, "grad_norm": 2.640625, "learning_rate": 3.914707923248923e-06, "loss": 1.1575837135314941, "step": 1106 }, { "epoch": 0.7386666666666667, "grad_norm": 4.78125, "learning_rate": 3.910865559794791e-06, "loss": 1.6585121154785156, "step": 1108 }, { "epoch": 0.74, "grad_norm": 5.625, "learning_rate": 3.907018949872504e-06, "loss": 1.608562707901001, "step": 1110 }, { "epoch": 0.7413333333333333, "grad_norm": 1.90625, "learning_rate": 3.903168111415013e-06, "loss": 1.0436785221099854, "step": 1112 }, { "epoch": 0.7426666666666667, "grad_norm": 5.09375, "learning_rate": 3.899313062374981e-06, "loss": 1.571044921875, "step": 1114 }, { "epoch": 0.744, "grad_norm": 4.75, "learning_rate": 3.895453820724699e-06, "loss": 1.6325924396514893, "step": 1116 }, { "epoch": 0.7453333333333333, "grad_norm": 7.1875, "learning_rate": 3.891590404456011e-06, "loss": 1.6957452297210693, "step": 1118 }, { "epoch": 0.7466666666666667, "grad_norm": 4.8125, "learning_rate": 3.8877228315802154e-06, "loss": 1.0871795415878296, "step": 1120 }, { "epoch": 0.748, "grad_norm": 2.234375, "learning_rate": 3.883851120127991e-06, "loss": 1.1415892839431763, "step": 1122 }, { "epoch": 0.7493333333333333, "grad_norm": 6.46875, "learning_rate": 3.879975288149313e-06, "loss": 1.5673210620880127, "step": 1124 }, { "epoch": 0.7506666666666667, "grad_norm": 3.0, "learning_rate": 3.876095353713365e-06, "loss": 1.2196298837661743, "step": 1126 }, { "epoch": 0.752, "grad_norm": 5.03125, "learning_rate": 3.872211334908457e-06, "loss": 1.531401515007019, "step": 1128 }, { "epoch": 0.7533333333333333, "grad_norm": 2.921875, "learning_rate": 3.868323249841938e-06, "loss": 1.157065749168396, "step": 1130 }, { "epoch": 0.7546666666666667, "grad_norm": 7.375, "learning_rate": 3.864431116640116e-06, "loss": 1.9410104751586914, "step": 1132 }, { "epoch": 0.756, "grad_norm": 1.8046875, "learning_rate": 3.860534953448172e-06, "loss": 1.1366026401519775, "step": 1134 }, { "epoch": 0.7573333333333333, "grad_norm": 6.59375, "learning_rate": 3.8566347784300736e-06, "loss": 1.7256261110305786, "step": 1136 }, { "epoch": 0.7586666666666667, "grad_norm": 10.25, "learning_rate": 3.852730609768493e-06, "loss": 1.6122360229492188, "step": 1138 }, { "epoch": 0.76, "grad_norm": 5.4375, "learning_rate": 3.8488224656647175e-06, "loss": 1.6505470275878906, "step": 1140 }, { "epoch": 0.7613333333333333, "grad_norm": 4.1875, "learning_rate": 3.844910364338574e-06, "loss": 1.6339609622955322, "step": 1142 }, { "epoch": 0.7626666666666667, "grad_norm": 1.6796875, "learning_rate": 3.84099432402833e-06, "loss": 1.1175481081008911, "step": 1144 }, { "epoch": 0.764, "grad_norm": 9.9375, "learning_rate": 3.837074362990624e-06, "loss": 2.268331527709961, "step": 1146 }, { "epoch": 0.7653333333333333, "grad_norm": 14.125, "learning_rate": 3.833150499500369e-06, "loss": 1.9729036092758179, "step": 1148 }, { "epoch": 0.7666666666666667, "grad_norm": 1.796875, "learning_rate": 3.829222751850673e-06, "loss": 1.1577950716018677, "step": 1150 }, { "epoch": 0.768, "grad_norm": 9.875, "learning_rate": 3.8252911383527505e-06, "loss": 2.0585074424743652, "step": 1152 }, { "epoch": 0.7693333333333333, "grad_norm": 4.46875, "learning_rate": 3.821355677335839e-06, "loss": 1.5769875049591064, "step": 1154 }, { "epoch": 0.7706666666666667, "grad_norm": 8.0625, "learning_rate": 3.817416387147114e-06, "loss": 1.9496655464172363, "step": 1156 }, { "epoch": 0.772, "grad_norm": 6.21875, "learning_rate": 3.813473286151601e-06, "loss": 1.529472827911377, "step": 1158 }, { "epoch": 0.7733333333333333, "grad_norm": 5.9375, "learning_rate": 3.8095263927320945e-06, "loss": 1.6636042594909668, "step": 1160 }, { "epoch": 0.7746666666666666, "grad_norm": 6.78125, "learning_rate": 3.8055757252890677e-06, "loss": 1.729430913925171, "step": 1162 }, { "epoch": 0.776, "grad_norm": 14.125, "learning_rate": 3.801621302240588e-06, "loss": 1.8068076372146606, "step": 1164 }, { "epoch": 0.7773333333333333, "grad_norm": 10.25, "learning_rate": 3.797663142022231e-06, "loss": 2.0321993827819824, "step": 1166 }, { "epoch": 0.7786666666666666, "grad_norm": 7.09375, "learning_rate": 3.793701263086995e-06, "loss": 1.7701747417449951, "step": 1168 }, { "epoch": 0.78, "grad_norm": 9.25, "learning_rate": 3.789735683905218e-06, "loss": 1.120033621788025, "step": 1170 }, { "epoch": 0.7813333333333333, "grad_norm": 4.40625, "learning_rate": 3.785766422964484e-06, "loss": 1.5124024152755737, "step": 1172 }, { "epoch": 0.7826666666666666, "grad_norm": 2.703125, "learning_rate": 3.781793498769546e-06, "loss": 1.2949274778366089, "step": 1174 }, { "epoch": 0.784, "grad_norm": 7.03125, "learning_rate": 3.777816929842232e-06, "loss": 1.6004828214645386, "step": 1176 }, { "epoch": 0.7853333333333333, "grad_norm": 7.0, "learning_rate": 3.7738367347213623e-06, "loss": 1.5260186195373535, "step": 1178 }, { "epoch": 0.7866666666666666, "grad_norm": 2.171875, "learning_rate": 3.7698529319626633e-06, "loss": 1.0432777404785156, "step": 1180 }, { "epoch": 0.788, "grad_norm": 4.5, "learning_rate": 3.765865540138679e-06, "loss": 1.6023154258728027, "step": 1182 }, { "epoch": 0.7893333333333333, "grad_norm": 5.84375, "learning_rate": 3.7618745778386888e-06, "loss": 1.6582971811294556, "step": 1184 }, { "epoch": 0.7906666666666666, "grad_norm": 7.21875, "learning_rate": 3.757880063668614e-06, "loss": 2.0822949409484863, "step": 1186 }, { "epoch": 0.792, "grad_norm": 9.875, "learning_rate": 3.753882016250936e-06, "loss": 1.8574600219726562, "step": 1188 }, { "epoch": 0.7933333333333333, "grad_norm": 3.34375, "learning_rate": 3.74988045422461e-06, "loss": 1.2435466051101685, "step": 1190 }, { "epoch": 0.7946666666666666, "grad_norm": 10.125, "learning_rate": 3.7458753962449747e-06, "loss": 1.7264337539672852, "step": 1192 }, { "epoch": 0.796, "grad_norm": 5.25, "learning_rate": 3.741866860983665e-06, "loss": 1.8587850332260132, "step": 1194 }, { "epoch": 0.7973333333333333, "grad_norm": 7.46875, "learning_rate": 3.737854867128531e-06, "loss": 1.72437584400177, "step": 1196 }, { "epoch": 0.7986666666666666, "grad_norm": 7.65625, "learning_rate": 3.733839433383545e-06, "loss": 1.894095778465271, "step": 1198 }, { "epoch": 0.8, "grad_norm": 1.6796875, "learning_rate": 3.729820578468716e-06, "loss": 1.0513193607330322, "step": 1200 }, { "epoch": 0.8013333333333333, "grad_norm": 1.109375, "learning_rate": 3.725798321120001e-06, "loss": 1.066056728363037, "step": 1202 }, { "epoch": 0.8026666666666666, "grad_norm": 11.625, "learning_rate": 3.7217726800892227e-06, "loss": 1.6573752164840698, "step": 1204 }, { "epoch": 0.804, "grad_norm": 7.65625, "learning_rate": 3.7177436741439755e-06, "loss": 1.9016170501708984, "step": 1206 }, { "epoch": 0.8053333333333333, "grad_norm": 5.84375, "learning_rate": 3.7137113220675436e-06, "loss": 1.5036678314208984, "step": 1208 }, { "epoch": 0.8066666666666666, "grad_norm": 3.8125, "learning_rate": 3.709675642658809e-06, "loss": 1.4776989221572876, "step": 1210 }, { "epoch": 0.808, "grad_norm": 8.25, "learning_rate": 3.7056366547321655e-06, "loss": 1.8003324270248413, "step": 1212 }, { "epoch": 0.8093333333333333, "grad_norm": 4.71875, "learning_rate": 3.701594377117431e-06, "loss": 1.521277666091919, "step": 1214 }, { "epoch": 0.8106666666666666, "grad_norm": 5.34375, "learning_rate": 3.697548828659765e-06, "loss": 1.5993854999542236, "step": 1216 }, { "epoch": 0.812, "grad_norm": 4.4375, "learning_rate": 3.6935000282195687e-06, "loss": 1.6389127969741821, "step": 1218 }, { "epoch": 0.8133333333333334, "grad_norm": 4.9375, "learning_rate": 3.689447994672407e-06, "loss": 1.6071922779083252, "step": 1220 }, { "epoch": 0.8146666666666667, "grad_norm": 6.84375, "learning_rate": 3.68539274690892e-06, "loss": 1.8381483554840088, "step": 1222 }, { "epoch": 0.816, "grad_norm": 6.125, "learning_rate": 3.6813343038347284e-06, "loss": 1.6339752674102783, "step": 1224 }, { "epoch": 0.8173333333333334, "grad_norm": 7.5625, "learning_rate": 3.677272684370352e-06, "loss": 1.5650919675827026, "step": 1226 }, { "epoch": 0.8186666666666667, "grad_norm": 4.71875, "learning_rate": 3.6732079074511186e-06, "loss": 1.6217875480651855, "step": 1228 }, { "epoch": 0.82, "grad_norm": 5.1875, "learning_rate": 3.669139992027074e-06, "loss": 1.3875737190246582, "step": 1230 }, { "epoch": 0.8213333333333334, "grad_norm": 2.5625, "learning_rate": 3.6650689570629005e-06, "loss": 1.1723411083221436, "step": 1232 }, { "epoch": 0.8226666666666667, "grad_norm": 3.03125, "learning_rate": 3.6609948215378176e-06, "loss": 1.1628097295761108, "step": 1234 }, { "epoch": 0.824, "grad_norm": 3.46875, "learning_rate": 3.656917604445506e-06, "loss": 1.2432491779327393, "step": 1236 }, { "epoch": 0.8253333333333334, "grad_norm": 8.4375, "learning_rate": 3.6528373247940085e-06, "loss": 1.8964778184890747, "step": 1238 }, { "epoch": 0.8266666666666667, "grad_norm": 7.65625, "learning_rate": 3.6487540016056455e-06, "loss": 2.0520777702331543, "step": 1240 }, { "epoch": 0.828, "grad_norm": 4.125, "learning_rate": 3.644667653916929e-06, "loss": 1.1067545413970947, "step": 1242 }, { "epoch": 0.8293333333333334, "grad_norm": 4.90625, "learning_rate": 3.640578300778469e-06, "loss": 1.6915913820266724, "step": 1244 }, { "epoch": 0.8306666666666667, "grad_norm": 5.46875, "learning_rate": 3.6364859612548888e-06, "loss": 1.6206862926483154, "step": 1246 }, { "epoch": 0.832, "grad_norm": 4.90625, "learning_rate": 3.6323906544247323e-06, "loss": 1.6607365608215332, "step": 1248 }, { "epoch": 0.8333333333333334, "grad_norm": 8.75, "learning_rate": 3.628292399380379e-06, "loss": 1.6489142179489136, "step": 1250 }, { "epoch": 0.8346666666666667, "grad_norm": 7.59375, "learning_rate": 3.6241912152279492e-06, "loss": 1.9431458711624146, "step": 1252 }, { "epoch": 0.836, "grad_norm": 7.40625, "learning_rate": 3.620087121087226e-06, "loss": 1.875465750694275, "step": 1254 }, { "epoch": 0.8373333333333334, "grad_norm": 4.9375, "learning_rate": 3.6159801360915513e-06, "loss": 1.6114364862442017, "step": 1256 }, { "epoch": 0.8386666666666667, "grad_norm": 7.375, "learning_rate": 3.611870279387748e-06, "loss": 1.6327881813049316, "step": 1258 }, { "epoch": 0.84, "grad_norm": 5.90625, "learning_rate": 3.6077575701360267e-06, "loss": 2.0225255489349365, "step": 1260 }, { "epoch": 0.8413333333333334, "grad_norm": 10.875, "learning_rate": 3.603642027509897e-06, "loss": 1.468903660774231, "step": 1262 }, { "epoch": 0.8426666666666667, "grad_norm": 3.96875, "learning_rate": 3.5995236706960757e-06, "loss": 1.4783247709274292, "step": 1264 }, { "epoch": 0.844, "grad_norm": 5.375, "learning_rate": 3.595402518894402e-06, "loss": 1.5046296119689941, "step": 1266 }, { "epoch": 0.8453333333333334, "grad_norm": 2.3125, "learning_rate": 3.5912785913177417e-06, "loss": 1.090078592300415, "step": 1268 }, { "epoch": 0.8466666666666667, "grad_norm": 1.2421875, "learning_rate": 3.5871519071919058e-06, "loss": 1.0590107440948486, "step": 1270 }, { "epoch": 0.848, "grad_norm": 4.8125, "learning_rate": 3.583022485755554e-06, "loss": 1.0319173336029053, "step": 1272 }, { "epoch": 0.8493333333333334, "grad_norm": 4.4375, "learning_rate": 3.5788903462601065e-06, "loss": 1.6474723815917969, "step": 1274 }, { "epoch": 0.8506666666666667, "grad_norm": 4.375, "learning_rate": 3.574755507969657e-06, "loss": 1.6048872470855713, "step": 1276 }, { "epoch": 0.852, "grad_norm": 6.125, "learning_rate": 3.5706179901608795e-06, "loss": 1.5846049785614014, "step": 1278 }, { "epoch": 0.8533333333333334, "grad_norm": 4.4375, "learning_rate": 3.5664778121229414e-06, "loss": 1.5983173847198486, "step": 1280 }, { "epoch": 0.8546666666666667, "grad_norm": 14.625, "learning_rate": 3.5623349931574113e-06, "loss": 0.8655703067779541, "step": 1282 }, { "epoch": 0.856, "grad_norm": 4.71875, "learning_rate": 3.5581895525781706e-06, "loss": 1.6905121803283691, "step": 1284 }, { "epoch": 0.8573333333333333, "grad_norm": 3.8125, "learning_rate": 3.5540415097113212e-06, "loss": 1.1031184196472168, "step": 1286 }, { "epoch": 0.8586666666666667, "grad_norm": 4.1875, "learning_rate": 3.5498908838950976e-06, "loss": 1.6588813066482544, "step": 1288 }, { "epoch": 0.86, "grad_norm": 9.6875, "learning_rate": 3.545737694479777e-06, "loss": 1.1068980693817139, "step": 1290 }, { "epoch": 0.8613333333333333, "grad_norm": 8.375, "learning_rate": 3.541581960827586e-06, "loss": 1.858797311782837, "step": 1292 }, { "epoch": 0.8626666666666667, "grad_norm": 22.5, "learning_rate": 3.5374237023126157e-06, "loss": 1.3582959175109863, "step": 1294 }, { "epoch": 0.864, "grad_norm": 1.8359375, "learning_rate": 3.533262938320724e-06, "loss": 1.1611998081207275, "step": 1296 }, { "epoch": 0.8653333333333333, "grad_norm": 1.09375, "learning_rate": 3.5290996882494533e-06, "loss": 1.2682225704193115, "step": 1298 }, { "epoch": 0.8666666666666667, "grad_norm": 3.5, "learning_rate": 3.5249339715079343e-06, "loss": 1.1011674404144287, "step": 1300 }, { "epoch": 0.868, "grad_norm": 2.09375, "learning_rate": 3.5207658075167972e-06, "loss": 1.168353796005249, "step": 1302 }, { "epoch": 0.8693333333333333, "grad_norm": 12.375, "learning_rate": 3.516595215708082e-06, "loss": 2.0601859092712402, "step": 1304 }, { "epoch": 0.8706666666666667, "grad_norm": 5.21875, "learning_rate": 3.5124222155251454e-06, "loss": 1.5306146144866943, "step": 1306 }, { "epoch": 0.872, "grad_norm": 5.375, "learning_rate": 3.5082468264225754e-06, "loss": 1.5819231271743774, "step": 1308 }, { "epoch": 0.8733333333333333, "grad_norm": 12.3125, "learning_rate": 3.504069067866094e-06, "loss": 1.9946259260177612, "step": 1310 }, { "epoch": 0.8746666666666667, "grad_norm": 2.875, "learning_rate": 3.4998889593324715e-06, "loss": 1.1388391256332397, "step": 1312 }, { "epoch": 0.876, "grad_norm": 7.8125, "learning_rate": 3.495706520309432e-06, "loss": 1.6211680173873901, "step": 1314 }, { "epoch": 0.8773333333333333, "grad_norm": 7.25, "learning_rate": 3.4915217702955674e-06, "loss": 1.8492045402526855, "step": 1316 }, { "epoch": 0.8786666666666667, "grad_norm": 11.1875, "learning_rate": 3.487334728800239e-06, "loss": 1.5768213272094727, "step": 1318 }, { "epoch": 0.88, "grad_norm": 2.140625, "learning_rate": 3.4831454153434967e-06, "loss": 1.0622522830963135, "step": 1320 }, { "epoch": 0.8813333333333333, "grad_norm": 2.234375, "learning_rate": 3.478953849455977e-06, "loss": 1.1389195919036865, "step": 1322 }, { "epoch": 0.8826666666666667, "grad_norm": 5.71875, "learning_rate": 3.4747600506788206e-06, "loss": 1.699198842048645, "step": 1324 }, { "epoch": 0.884, "grad_norm": 6.21875, "learning_rate": 3.470564038563576e-06, "loss": 1.1638987064361572, "step": 1326 }, { "epoch": 0.8853333333333333, "grad_norm": 9.9375, "learning_rate": 3.466365832672112e-06, "loss": 1.9894802570343018, "step": 1328 }, { "epoch": 0.8866666666666667, "grad_norm": 3.90625, "learning_rate": 3.462165452576523e-06, "loss": 1.5490775108337402, "step": 1330 }, { "epoch": 0.888, "grad_norm": 4.6875, "learning_rate": 3.457962917859041e-06, "loss": 1.6606712341308594, "step": 1332 }, { "epoch": 0.8893333333333333, "grad_norm": 2.21875, "learning_rate": 3.4537582481119435e-06, "loss": 0.9603934288024902, "step": 1334 }, { "epoch": 0.8906666666666667, "grad_norm": 9.625, "learning_rate": 3.4495514629374595e-06, "loss": 1.3755745887756348, "step": 1336 }, { "epoch": 0.892, "grad_norm": 6.75, "learning_rate": 3.4453425819476804e-06, "loss": 1.5730741024017334, "step": 1338 }, { "epoch": 0.8933333333333333, "grad_norm": 5.65625, "learning_rate": 3.441131624764471e-06, "loss": 1.7277932167053223, "step": 1340 }, { "epoch": 0.8946666666666667, "grad_norm": 4.1875, "learning_rate": 3.4369186110193707e-06, "loss": 1.558158278465271, "step": 1342 }, { "epoch": 0.896, "grad_norm": 2.640625, "learning_rate": 3.4327035603535126e-06, "loss": 1.1294000148773193, "step": 1344 }, { "epoch": 0.8973333333333333, "grad_norm": 7.0625, "learning_rate": 3.42848649241752e-06, "loss": 1.7495123147964478, "step": 1346 }, { "epoch": 0.8986666666666666, "grad_norm": 1.5625, "learning_rate": 3.4242674268714243e-06, "loss": 1.104962944984436, "step": 1348 }, { "epoch": 0.9, "grad_norm": 8.625, "learning_rate": 3.42004638338457e-06, "loss": 1.8600108623504639, "step": 1350 }, { "epoch": 0.9013333333333333, "grad_norm": 3.96875, "learning_rate": 3.415823381635519e-06, "loss": 1.2579452991485596, "step": 1352 }, { "epoch": 0.9026666666666666, "grad_norm": 5.53125, "learning_rate": 3.4115984413119676e-06, "loss": 1.4979395866394043, "step": 1354 }, { "epoch": 0.904, "grad_norm": 7.625, "learning_rate": 3.407371582110647e-06, "loss": 1.5508317947387695, "step": 1356 }, { "epoch": 0.9053333333333333, "grad_norm": 11.25, "learning_rate": 3.4031428237372343e-06, "loss": 1.851904034614563, "step": 1358 }, { "epoch": 0.9066666666666666, "grad_norm": 3.34375, "learning_rate": 3.3989121859062624e-06, "loss": 1.0736128091812134, "step": 1360 }, { "epoch": 0.908, "grad_norm": 5.0625, "learning_rate": 3.3946796883410225e-06, "loss": 1.609264850616455, "step": 1362 }, { "epoch": 0.9093333333333333, "grad_norm": 4.8125, "learning_rate": 3.39044535077348e-06, "loss": 1.1035856008529663, "step": 1364 }, { "epoch": 0.9106666666666666, "grad_norm": 2.21875, "learning_rate": 3.3862091929441764e-06, "loss": 1.1078152656555176, "step": 1366 }, { "epoch": 0.912, "grad_norm": 1.984375, "learning_rate": 3.3819712346021392e-06, "loss": 1.1677632331848145, "step": 1368 }, { "epoch": 0.9133333333333333, "grad_norm": 4.8125, "learning_rate": 3.37773149550479e-06, "loss": 1.5922446250915527, "step": 1370 }, { "epoch": 0.9146666666666666, "grad_norm": 13.8125, "learning_rate": 3.3734899954178534e-06, "loss": 1.8471770286560059, "step": 1372 }, { "epoch": 0.916, "grad_norm": 8.625, "learning_rate": 3.369246754115262e-06, "loss": 1.8968651294708252, "step": 1374 }, { "epoch": 0.9173333333333333, "grad_norm": 5.40625, "learning_rate": 3.365001791379068e-06, "loss": 1.5288443565368652, "step": 1376 }, { "epoch": 0.9186666666666666, "grad_norm": 8.9375, "learning_rate": 3.360755126999347e-06, "loss": 1.6761029958724976, "step": 1378 }, { "epoch": 0.92, "grad_norm": 9.375, "learning_rate": 3.3565067807741093e-06, "loss": 1.8433051109313965, "step": 1380 }, { "epoch": 0.9213333333333333, "grad_norm": 8.125, "learning_rate": 3.352256772509205e-06, "loss": 1.642780065536499, "step": 1382 }, { "epoch": 0.9226666666666666, "grad_norm": 9.5, "learning_rate": 3.348005122018232e-06, "loss": 1.9076459407806396, "step": 1384 }, { "epoch": 0.924, "grad_norm": 3.265625, "learning_rate": 3.3437518491224464e-06, "loss": 1.042888879776001, "step": 1386 }, { "epoch": 0.9253333333333333, "grad_norm": 12.0, "learning_rate": 3.3394969736506656e-06, "loss": 2.10634708404541, "step": 1388 }, { "epoch": 0.9266666666666666, "grad_norm": 12.9375, "learning_rate": 3.33524051543918e-06, "loss": 1.8503813743591309, "step": 1390 }, { "epoch": 0.928, "grad_norm": 10.125, "learning_rate": 3.3309824943316593e-06, "loss": 1.7067197561264038, "step": 1392 }, { "epoch": 0.9293333333333333, "grad_norm": 7.84375, "learning_rate": 3.3267229301790562e-06, "loss": 1.9710360765457153, "step": 1394 }, { "epoch": 0.9306666666666666, "grad_norm": 2.125, "learning_rate": 3.32246184283952e-06, "loss": 1.1389985084533691, "step": 1396 }, { "epoch": 0.932, "grad_norm": 10.0625, "learning_rate": 3.3181992521783e-06, "loss": 1.9844406843185425, "step": 1398 }, { "epoch": 0.9333333333333333, "grad_norm": 7.90625, "learning_rate": 3.313935178067656e-06, "loss": 1.700979232788086, "step": 1400 }, { "epoch": 0.9346666666666666, "grad_norm": 3.234375, "learning_rate": 3.30966964038676e-06, "loss": 0.9724457263946533, "step": 1402 }, { "epoch": 0.936, "grad_norm": 5.90625, "learning_rate": 3.3054026590216092e-06, "loss": 1.6514759063720703, "step": 1404 }, { "epoch": 0.9373333333333334, "grad_norm": 3.546875, "learning_rate": 3.3011342538649325e-06, "loss": 1.581580638885498, "step": 1406 }, { "epoch": 0.9386666666666666, "grad_norm": 11.0625, "learning_rate": 3.2968644448160946e-06, "loss": 1.3123493194580078, "step": 1408 }, { "epoch": 0.94, "grad_norm": 20.75, "learning_rate": 3.2925932517810057e-06, "loss": 2.246950149536133, "step": 1410 }, { "epoch": 0.9413333333333334, "grad_norm": 8.375, "learning_rate": 3.288320694672028e-06, "loss": 1.4993822574615479, "step": 1412 }, { "epoch": 0.9426666666666667, "grad_norm": 3.03125, "learning_rate": 3.2840467934078845e-06, "loss": 1.228714942932129, "step": 1414 }, { "epoch": 0.944, "grad_norm": 11.8125, "learning_rate": 3.279771567913562e-06, "loss": 1.83895742893219, "step": 1416 }, { "epoch": 0.9453333333333334, "grad_norm": 1.9453125, "learning_rate": 3.2754950381202243e-06, "loss": 1.0585711002349854, "step": 1418 }, { "epoch": 0.9466666666666667, "grad_norm": 3.421875, "learning_rate": 3.2712172239651106e-06, "loss": 1.1873035430908203, "step": 1420 }, { "epoch": 0.948, "grad_norm": 4.875, "learning_rate": 3.2669381453914552e-06, "loss": 1.6478772163391113, "step": 1422 }, { "epoch": 0.9493333333333334, "grad_norm": 3.9375, "learning_rate": 3.26265782234838e-06, "loss": 1.157041072845459, "step": 1424 }, { "epoch": 0.9506666666666667, "grad_norm": 7.75, "learning_rate": 3.2583762747908134e-06, "loss": 1.9819687604904175, "step": 1426 }, { "epoch": 0.952, "grad_norm": 4.46875, "learning_rate": 3.25409352267939e-06, "loss": 1.4531431198120117, "step": 1428 }, { "epoch": 0.9533333333333334, "grad_norm": 3.90625, "learning_rate": 3.249809585980361e-06, "loss": 1.5999106168746948, "step": 1430 }, { "epoch": 0.9546666666666667, "grad_norm": 7.3125, "learning_rate": 3.245524484665501e-06, "loss": 1.8473896980285645, "step": 1432 }, { "epoch": 0.956, "grad_norm": 4.71875, "learning_rate": 3.2412382387120112e-06, "loss": 1.5177754163742065, "step": 1434 }, { "epoch": 0.9573333333333334, "grad_norm": 2.09375, "learning_rate": 3.236950868102432e-06, "loss": 1.2477397918701172, "step": 1436 }, { "epoch": 0.9586666666666667, "grad_norm": 6.0625, "learning_rate": 3.232662392824547e-06, "loss": 1.6189217567443848, "step": 1438 }, { "epoch": 0.96, "grad_norm": 10.4375, "learning_rate": 3.2283728328712877e-06, "loss": 1.6426982879638672, "step": 1440 }, { "epoch": 0.9613333333333334, "grad_norm": 7.1875, "learning_rate": 3.224082208240643e-06, "loss": 1.27528715133667, "step": 1442 }, { "epoch": 0.9626666666666667, "grad_norm": 22.5, "learning_rate": 3.219790538935566e-06, "loss": 0.6726552248001099, "step": 1444 }, { "epoch": 0.964, "grad_norm": 3.15625, "learning_rate": 3.215497844963881e-06, "loss": 1.2849948406219482, "step": 1446 }, { "epoch": 0.9653333333333334, "grad_norm": 4.84375, "learning_rate": 3.211204146338187e-06, "loss": 1.6178771257400513, "step": 1448 }, { "epoch": 0.9666666666666667, "grad_norm": 1.84375, "learning_rate": 3.206909463075768e-06, "loss": 1.1476926803588867, "step": 1450 }, { "epoch": 0.968, "grad_norm": 9.6875, "learning_rate": 3.2026138151984987e-06, "loss": 1.3063325881958008, "step": 1452 }, { "epoch": 0.9693333333333334, "grad_norm": 3.875, "learning_rate": 3.1983172227327495e-06, "loss": 1.0711333751678467, "step": 1454 }, { "epoch": 0.9706666666666667, "grad_norm": 2.578125, "learning_rate": 3.194019705709297e-06, "loss": 1.2706935405731201, "step": 1456 }, { "epoch": 0.972, "grad_norm": 3.875, "learning_rate": 3.189721284163225e-06, "loss": 1.5907695293426514, "step": 1458 }, { "epoch": 0.9733333333333334, "grad_norm": 5.9375, "learning_rate": 3.1854219781338358e-06, "loss": 1.630199670791626, "step": 1460 }, { "epoch": 0.9746666666666667, "grad_norm": 7.15625, "learning_rate": 3.181121807664556e-06, "loss": 1.8257417678833008, "step": 1462 }, { "epoch": 0.976, "grad_norm": 11.25, "learning_rate": 3.1768207928028405e-06, "loss": 1.8316962718963623, "step": 1464 }, { "epoch": 0.9773333333333334, "grad_norm": 4.28125, "learning_rate": 3.1725189536000823e-06, "loss": 1.4978811740875244, "step": 1466 }, { "epoch": 0.9786666666666667, "grad_norm": 11.625, "learning_rate": 3.168216310111516e-06, "loss": 2.125202178955078, "step": 1468 }, { "epoch": 0.98, "grad_norm": 6.46875, "learning_rate": 3.1639128823961275e-06, "loss": 1.5529388189315796, "step": 1470 }, { "epoch": 0.9813333333333333, "grad_norm": 6.1875, "learning_rate": 3.1596086905165556e-06, "loss": 1.8385839462280273, "step": 1472 }, { "epoch": 0.9826666666666667, "grad_norm": 1.546875, "learning_rate": 3.1553037545390077e-06, "loss": 0.97187340259552, "step": 1474 }, { "epoch": 0.984, "grad_norm": 9.125, "learning_rate": 3.150998094533152e-06, "loss": 2.0341556072235107, "step": 1476 }, { "epoch": 0.9853333333333333, "grad_norm": 5.09375, "learning_rate": 3.146691730572039e-06, "loss": 1.839565396308899, "step": 1478 }, { "epoch": 0.9866666666666667, "grad_norm": 16.625, "learning_rate": 3.1423846827319994e-06, "loss": 1.7883915901184082, "step": 1480 }, { "epoch": 0.988, "grad_norm": 9.75, "learning_rate": 3.1380769710925494e-06, "loss": 1.6055920124053955, "step": 1482 }, { "epoch": 0.9893333333333333, "grad_norm": 1.8515625, "learning_rate": 3.133768615736302e-06, "loss": 1.1589007377624512, "step": 1484 }, { "epoch": 0.9906666666666667, "grad_norm": 7.90625, "learning_rate": 3.1294596367488715e-06, "loss": 1.8504548072814941, "step": 1486 }, { "epoch": 0.992, "grad_norm": 9.0, "learning_rate": 3.1251500542187798e-06, "loss": 1.8369858264923096, "step": 1488 }, { "epoch": 0.9933333333333333, "grad_norm": 5.40625, "learning_rate": 3.12083988823736e-06, "loss": 1.6977782249450684, "step": 1490 }, { "epoch": 0.9946666666666667, "grad_norm": 4.8125, "learning_rate": 3.116529158898668e-06, "loss": 1.6213133335113525, "step": 1492 }, { "epoch": 0.996, "grad_norm": 1.8359375, "learning_rate": 3.112217886299385e-06, "loss": 1.1973605155944824, "step": 1494 }, { "epoch": 0.9973333333333333, "grad_norm": 7.59375, "learning_rate": 3.107906090538725e-06, "loss": 1.7736064195632935, "step": 1496 }, { "epoch": 0.9986666666666667, "grad_norm": 4.4375, "learning_rate": 3.1035937917183414e-06, "loss": 1.4783213138580322, "step": 1498 }, { "epoch": 1.0, "grad_norm": 1.5, "learning_rate": 3.099281009942231e-06, "loss": 1.0851173400878906, "step": 1500 }, { "epoch": 1.0013333333333334, "grad_norm": 0.69921875, "learning_rate": 3.0949677653166453e-06, "loss": 1.3752434253692627, "step": 1502 }, { "epoch": 1.0026666666666666, "grad_norm": 2.171875, "learning_rate": 3.0906540779499916e-06, "loss": 0.9937149286270142, "step": 1504 }, { "epoch": 1.004, "grad_norm": 12.625, "learning_rate": 3.0863399679527408e-06, "loss": 2.0265655517578125, "step": 1506 }, { "epoch": 1.0053333333333334, "grad_norm": 6.75, "learning_rate": 3.0820254554373345e-06, "loss": 1.6888525485992432, "step": 1508 }, { "epoch": 1.0066666666666666, "grad_norm": 18.25, "learning_rate": 3.0777105605180923e-06, "loss": 1.7616627216339111, "step": 1510 }, { "epoch": 1.008, "grad_norm": 5.28125, "learning_rate": 3.0733953033111153e-06, "loss": 1.5890424251556396, "step": 1512 }, { "epoch": 1.0093333333333334, "grad_norm": 4.8125, "learning_rate": 3.0690797039341936e-06, "loss": 1.5777063369750977, "step": 1514 }, { "epoch": 1.0106666666666666, "grad_norm": 7.03125, "learning_rate": 3.0647637825067125e-06, "loss": 1.8093584775924683, "step": 1516 }, { "epoch": 1.012, "grad_norm": 10.4375, "learning_rate": 3.0604475591495587e-06, "loss": 2.03692626953125, "step": 1518 }, { "epoch": 1.0133333333333334, "grad_norm": 6.6875, "learning_rate": 3.056131053985028e-06, "loss": 1.6062037944793701, "step": 1520 }, { "epoch": 1.0146666666666666, "grad_norm": 3.3125, "learning_rate": 3.051814287136727e-06, "loss": 1.497098684310913, "step": 1522 }, { "epoch": 1.016, "grad_norm": 3.609375, "learning_rate": 3.0474972787294852e-06, "loss": 1.5099387168884277, "step": 1524 }, { "epoch": 1.0173333333333334, "grad_norm": 6.75, "learning_rate": 3.043180048889256e-06, "loss": 1.0779247283935547, "step": 1526 }, { "epoch": 1.0186666666666666, "grad_norm": 6.75, "learning_rate": 3.038862617743027e-06, "loss": 1.5594415664672852, "step": 1528 }, { "epoch": 1.02, "grad_norm": 6.125, "learning_rate": 3.034545005418723e-06, "loss": 1.5969600677490234, "step": 1530 }, { "epoch": 1.0213333333333334, "grad_norm": 4.9375, "learning_rate": 3.030227232045114e-06, "loss": 1.633499264717102, "step": 1532 }, { "epoch": 1.0226666666666666, "grad_norm": 10.6875, "learning_rate": 3.0259093177517213e-06, "loss": 1.1812535524368286, "step": 1534 }, { "epoch": 1.024, "grad_norm": 5.875, "learning_rate": 3.021591282668721e-06, "loss": 1.7009207010269165, "step": 1536 }, { "epoch": 1.0253333333333334, "grad_norm": 0.79296875, "learning_rate": 3.0172731469268545e-06, "loss": 1.2874627113342285, "step": 1538 }, { "epoch": 1.0266666666666666, "grad_norm": 6.71875, "learning_rate": 3.0129549306573323e-06, "loss": 1.6079018115997314, "step": 1540 }, { "epoch": 1.028, "grad_norm": 7.46875, "learning_rate": 3.00863665399174e-06, "loss": 1.9101991653442383, "step": 1542 }, { "epoch": 1.0293333333333334, "grad_norm": 20.125, "learning_rate": 3.0043183370619445e-06, "loss": 1.7360703945159912, "step": 1544 }, { "epoch": 1.0306666666666666, "grad_norm": 5.53125, "learning_rate": 3.0000000000000005e-06, "loss": 1.664625644683838, "step": 1546 }, { "epoch": 1.032, "grad_norm": 8.125, "learning_rate": 2.9956816629380557e-06, "loss": 1.6770424842834473, "step": 1548 }, { "epoch": 1.0333333333333334, "grad_norm": 1.8515625, "learning_rate": 2.9913633460082604e-06, "loss": 1.0641461610794067, "step": 1550 }, { "epoch": 1.0346666666666666, "grad_norm": 9.8125, "learning_rate": 2.9870450693426683e-06, "loss": 2.1422629356384277, "step": 1552 }, { "epoch": 1.036, "grad_norm": 9.9375, "learning_rate": 2.982726853073147e-06, "loss": 1.7939167022705078, "step": 1554 }, { "epoch": 1.0373333333333334, "grad_norm": 8.875, "learning_rate": 2.9784087173312804e-06, "loss": 1.9452416896820068, "step": 1556 }, { "epoch": 1.0386666666666666, "grad_norm": 13.9375, "learning_rate": 2.9740906822482797e-06, "loss": 2.0147793292999268, "step": 1558 }, { "epoch": 1.04, "grad_norm": 1.828125, "learning_rate": 2.9697727679548864e-06, "loss": 1.0894575119018555, "step": 1560 }, { "epoch": 1.0413333333333332, "grad_norm": 7.625, "learning_rate": 2.965454994581277e-06, "loss": 1.9521132707595825, "step": 1562 }, { "epoch": 1.0426666666666666, "grad_norm": 17.625, "learning_rate": 2.9611373822569735e-06, "loss": 1.7252278327941895, "step": 1564 }, { "epoch": 1.044, "grad_norm": 2.40625, "learning_rate": 2.9568199511107448e-06, "loss": 0.9713205695152283, "step": 1566 }, { "epoch": 1.0453333333333332, "grad_norm": 2.984375, "learning_rate": 2.9525027212705158e-06, "loss": 0.9757088422775269, "step": 1568 }, { "epoch": 1.0466666666666666, "grad_norm": 5.625, "learning_rate": 2.9481857128632742e-06, "loss": 1.5996389389038086, "step": 1570 }, { "epoch": 1.048, "grad_norm": 28.5, "learning_rate": 2.943868946014973e-06, "loss": 0.7404099106788635, "step": 1572 }, { "epoch": 1.0493333333333332, "grad_norm": 1.59375, "learning_rate": 2.9395524408504427e-06, "loss": 1.0925877094268799, "step": 1574 }, { "epoch": 1.0506666666666666, "grad_norm": 12.625, "learning_rate": 2.935236217493289e-06, "loss": 1.9147734642028809, "step": 1576 }, { "epoch": 1.052, "grad_norm": 8.25, "learning_rate": 2.930920296065808e-06, "loss": 1.5937700271606445, "step": 1578 }, { "epoch": 1.0533333333333332, "grad_norm": 3.0, "learning_rate": 2.926604696688886e-06, "loss": 1.1637517213821411, "step": 1580 }, { "epoch": 1.0546666666666666, "grad_norm": 10.75, "learning_rate": 2.922289439481909e-06, "loss": 1.9980616569519043, "step": 1582 }, { "epoch": 1.056, "grad_norm": 10.6875, "learning_rate": 2.9179745445626673e-06, "loss": 1.5037312507629395, "step": 1584 }, { "epoch": 1.0573333333333332, "grad_norm": 4.78125, "learning_rate": 2.9136600320472606e-06, "loss": 1.5640144348144531, "step": 1586 }, { "epoch": 1.0586666666666666, "grad_norm": 4.75, "learning_rate": 2.90934592205001e-06, "loss": 1.4845762252807617, "step": 1588 }, { "epoch": 1.06, "grad_norm": 1.6796875, "learning_rate": 2.905032234683356e-06, "loss": 1.1452919244766235, "step": 1590 }, { "epoch": 1.0613333333333332, "grad_norm": 1.6875, "learning_rate": 2.9007189900577694e-06, "loss": 0.9397138357162476, "step": 1592 }, { "epoch": 1.0626666666666666, "grad_norm": 6.4375, "learning_rate": 2.896406208281659e-06, "loss": 1.4903689622879028, "step": 1594 }, { "epoch": 1.064, "grad_norm": 6.46875, "learning_rate": 2.8920939094612756e-06, "loss": 1.7486934661865234, "step": 1596 }, { "epoch": 1.0653333333333332, "grad_norm": 6.78125, "learning_rate": 2.8877821137006156e-06, "loss": 1.5886731147766113, "step": 1598 }, { "epoch": 1.0666666666666667, "grad_norm": 4.0625, "learning_rate": 2.8834708411013323e-06, "loss": 1.5811033248901367, "step": 1600 }, { "epoch": 1.068, "grad_norm": 7.03125, "learning_rate": 2.879160111762641e-06, "loss": 1.4661691188812256, "step": 1602 }, { "epoch": 1.0693333333333332, "grad_norm": 4.53125, "learning_rate": 2.8748499457812212e-06, "loss": 1.6812434196472168, "step": 1604 }, { "epoch": 1.0706666666666667, "grad_norm": 6.625, "learning_rate": 2.8705403632511286e-06, "loss": 1.653494119644165, "step": 1606 }, { "epoch": 1.072, "grad_norm": 12.1875, "learning_rate": 2.866231384263698e-06, "loss": 1.531437873840332, "step": 1608 }, { "epoch": 1.0733333333333333, "grad_norm": 7.09375, "learning_rate": 2.8619230289074516e-06, "loss": 1.8403922319412231, "step": 1610 }, { "epoch": 1.0746666666666667, "grad_norm": 7.90625, "learning_rate": 2.857615317268001e-06, "loss": 1.9845728874206543, "step": 1612 }, { "epoch": 1.076, "grad_norm": 5.125, "learning_rate": 2.8533082694279614e-06, "loss": 1.1663343906402588, "step": 1614 }, { "epoch": 1.0773333333333333, "grad_norm": 4.4375, "learning_rate": 2.8490019054668488e-06, "loss": 1.5892982482910156, "step": 1616 }, { "epoch": 1.0786666666666667, "grad_norm": 2.21875, "learning_rate": 2.8446962454609938e-06, "loss": 1.2441880702972412, "step": 1618 }, { "epoch": 1.08, "grad_norm": 3.890625, "learning_rate": 2.8403913094834446e-06, "loss": 1.556786298751831, "step": 1620 }, { "epoch": 1.0813333333333333, "grad_norm": 6.65625, "learning_rate": 2.836087117603874e-06, "loss": 1.6569768190383911, "step": 1622 }, { "epoch": 1.0826666666666667, "grad_norm": 7.875, "learning_rate": 2.831783689888485e-06, "loss": 1.2390692234039307, "step": 1624 }, { "epoch": 1.084, "grad_norm": 3.21875, "learning_rate": 2.827481046399919e-06, "loss": 1.24364173412323, "step": 1626 }, { "epoch": 1.0853333333333333, "grad_norm": 3.953125, "learning_rate": 2.8231792071971596e-06, "loss": 1.1136494874954224, "step": 1628 }, { "epoch": 1.0866666666666667, "grad_norm": 2.46875, "learning_rate": 2.818878192335445e-06, "loss": 1.3179781436920166, "step": 1630 }, { "epoch": 1.088, "grad_norm": 6.0, "learning_rate": 2.8145780218661652e-06, "loss": 1.8306783437728882, "step": 1632 }, { "epoch": 1.0893333333333333, "grad_norm": 7.40625, "learning_rate": 2.8102787158367762e-06, "loss": 1.8992735147476196, "step": 1634 }, { "epoch": 1.0906666666666667, "grad_norm": 5.78125, "learning_rate": 2.8059802942907045e-06, "loss": 1.5470423698425293, "step": 1636 }, { "epoch": 1.092, "grad_norm": 7.03125, "learning_rate": 2.8016827772672515e-06, "loss": 1.8855934143066406, "step": 1638 }, { "epoch": 1.0933333333333333, "grad_norm": 1.9375, "learning_rate": 2.7973861848015028e-06, "loss": 1.3518332242965698, "step": 1640 }, { "epoch": 1.0946666666666667, "grad_norm": 7.0, "learning_rate": 2.793090536924233e-06, "loss": 1.6882765293121338, "step": 1642 }, { "epoch": 1.096, "grad_norm": 1.625, "learning_rate": 2.7887958536618143e-06, "loss": 1.0547984838485718, "step": 1644 }, { "epoch": 1.0973333333333333, "grad_norm": 21.875, "learning_rate": 2.78450215503612e-06, "loss": 0.577151894569397, "step": 1646 }, { "epoch": 1.0986666666666667, "grad_norm": 4.75, "learning_rate": 2.7802094610644346e-06, "loss": 1.5353561639785767, "step": 1648 }, { "epoch": 1.1, "grad_norm": 4.96875, "learning_rate": 2.775917791759358e-06, "loss": 1.4958857297897339, "step": 1650 }, { "epoch": 1.1013333333333333, "grad_norm": 7.0625, "learning_rate": 2.7716271671287133e-06, "loss": 1.8528183698654175, "step": 1652 }, { "epoch": 1.1026666666666667, "grad_norm": 4.34375, "learning_rate": 2.767337607175454e-06, "loss": 1.679598331451416, "step": 1654 }, { "epoch": 1.104, "grad_norm": 8.0625, "learning_rate": 2.7630491318975683e-06, "loss": 1.5526305437088013, "step": 1656 }, { "epoch": 1.1053333333333333, "grad_norm": 1.6171875, "learning_rate": 2.75876176128799e-06, "loss": 1.0565264225006104, "step": 1658 }, { "epoch": 1.1066666666666667, "grad_norm": 11.5, "learning_rate": 2.7544755153345004e-06, "loss": 1.4916378259658813, "step": 1660 }, { "epoch": 1.108, "grad_norm": 4.78125, "learning_rate": 2.75019041401964e-06, "loss": 1.5577830076217651, "step": 1662 }, { "epoch": 1.1093333333333333, "grad_norm": 4.65625, "learning_rate": 2.7459064773206112e-06, "loss": 1.6151214838027954, "step": 1664 }, { "epoch": 1.1106666666666667, "grad_norm": 1.40625, "learning_rate": 2.741623725209188e-06, "loss": 1.078333854675293, "step": 1666 }, { "epoch": 1.112, "grad_norm": 5.40625, "learning_rate": 2.737342177651621e-06, "loss": 1.70587158203125, "step": 1668 }, { "epoch": 1.1133333333333333, "grad_norm": 6.28125, "learning_rate": 2.733061854608546e-06, "loss": 1.6127488613128662, "step": 1670 }, { "epoch": 1.1146666666666667, "grad_norm": 5.28125, "learning_rate": 2.7287827760348895e-06, "loss": 1.5487406253814697, "step": 1672 }, { "epoch": 1.116, "grad_norm": 4.125, "learning_rate": 2.7245049618797776e-06, "loss": 1.0803545713424683, "step": 1674 }, { "epoch": 1.1173333333333333, "grad_norm": 2.90625, "learning_rate": 2.7202284320864393e-06, "loss": 1.207014799118042, "step": 1676 }, { "epoch": 1.1186666666666667, "grad_norm": 6.90625, "learning_rate": 2.715953206592117e-06, "loss": 1.7723512649536133, "step": 1678 }, { "epoch": 1.12, "grad_norm": 11.3125, "learning_rate": 2.711679305327973e-06, "loss": 1.7852306365966797, "step": 1680 }, { "epoch": 1.1213333333333333, "grad_norm": 5.09375, "learning_rate": 2.7074067482189957e-06, "loss": 1.533666968345642, "step": 1682 }, { "epoch": 1.1226666666666667, "grad_norm": 5.96875, "learning_rate": 2.7031355551839056e-06, "loss": 1.528637409210205, "step": 1684 }, { "epoch": 1.124, "grad_norm": 3.796875, "learning_rate": 2.6988657461350676e-06, "loss": 1.445178508758545, "step": 1686 }, { "epoch": 1.1253333333333333, "grad_norm": 17.875, "learning_rate": 2.694597340978391e-06, "loss": 1.4634462594985962, "step": 1688 }, { "epoch": 1.1266666666666667, "grad_norm": 5.75, "learning_rate": 2.690330359613241e-06, "loss": 1.637460470199585, "step": 1690 }, { "epoch": 1.1280000000000001, "grad_norm": 6.8125, "learning_rate": 2.686064821932345e-06, "loss": 1.4969818592071533, "step": 1692 }, { "epoch": 1.1293333333333333, "grad_norm": 3.28125, "learning_rate": 2.6818007478217e-06, "loss": 1.0365345478057861, "step": 1694 }, { "epoch": 1.1306666666666667, "grad_norm": 5.84375, "learning_rate": 2.677538157160481e-06, "loss": 1.9270894527435303, "step": 1696 }, { "epoch": 1.1320000000000001, "grad_norm": 5.78125, "learning_rate": 2.6732770698209448e-06, "loss": 1.5478744506835938, "step": 1698 }, { "epoch": 1.1333333333333333, "grad_norm": 1.390625, "learning_rate": 2.6690175056683417e-06, "loss": 1.1369259357452393, "step": 1700 }, { "epoch": 1.1346666666666667, "grad_norm": 7.0625, "learning_rate": 2.6647594845608204e-06, "loss": 1.628596305847168, "step": 1702 }, { "epoch": 1.1360000000000001, "grad_norm": 16.125, "learning_rate": 2.660503026349335e-06, "loss": 2.0064220428466797, "step": 1704 }, { "epoch": 1.1373333333333333, "grad_norm": 7.9375, "learning_rate": 2.6562481508775546e-06, "loss": 1.5023362636566162, "step": 1706 }, { "epoch": 1.1386666666666667, "grad_norm": 5.6875, "learning_rate": 2.6519948779817685e-06, "loss": 1.6183425188064575, "step": 1708 }, { "epoch": 1.1400000000000001, "grad_norm": 2.09375, "learning_rate": 2.647743227490796e-06, "loss": 1.0072540044784546, "step": 1710 }, { "epoch": 1.1413333333333333, "grad_norm": 5.21875, "learning_rate": 2.6434932192258912e-06, "loss": 1.5038986206054688, "step": 1712 }, { "epoch": 1.1426666666666667, "grad_norm": 8.0625, "learning_rate": 2.6392448730006536e-06, "loss": 1.941042423248291, "step": 1714 }, { "epoch": 1.144, "grad_norm": 3.84375, "learning_rate": 2.6349982086209324e-06, "loss": 1.1978323459625244, "step": 1716 }, { "epoch": 1.1453333333333333, "grad_norm": 8.0625, "learning_rate": 2.6307532458847386e-06, "loss": 1.8174412250518799, "step": 1718 }, { "epoch": 1.1466666666666667, "grad_norm": 6.125, "learning_rate": 2.626510004582148e-06, "loss": 1.5800225734710693, "step": 1720 }, { "epoch": 1.148, "grad_norm": 7.78125, "learning_rate": 2.6222685044952106e-06, "loss": 1.6541552543640137, "step": 1722 }, { "epoch": 1.1493333333333333, "grad_norm": 6.6875, "learning_rate": 2.618028765397862e-06, "loss": 1.5724791288375854, "step": 1724 }, { "epoch": 1.1506666666666667, "grad_norm": 9.0625, "learning_rate": 2.613790807055825e-06, "loss": 1.9914119243621826, "step": 1726 }, { "epoch": 1.152, "grad_norm": 24.5, "learning_rate": 2.6095546492265204e-06, "loss": 0.9788597822189331, "step": 1728 }, { "epoch": 1.1533333333333333, "grad_norm": 4.90625, "learning_rate": 2.605320311658978e-06, "loss": 1.5182876586914062, "step": 1730 }, { "epoch": 1.1546666666666667, "grad_norm": 6.1875, "learning_rate": 2.601087814093739e-06, "loss": 1.6977787017822266, "step": 1732 }, { "epoch": 1.156, "grad_norm": 21.0, "learning_rate": 2.596857176262766e-06, "loss": 1.313176155090332, "step": 1734 }, { "epoch": 1.1573333333333333, "grad_norm": 4.65625, "learning_rate": 2.5926284178893533e-06, "loss": 1.6549556255340576, "step": 1736 }, { "epoch": 1.1586666666666667, "grad_norm": 13.0625, "learning_rate": 2.588401558688033e-06, "loss": 2.004779577255249, "step": 1738 }, { "epoch": 1.16, "grad_norm": 3.21875, "learning_rate": 2.5841766183644824e-06, "loss": 1.2679145336151123, "step": 1740 }, { "epoch": 1.1613333333333333, "grad_norm": 9.125, "learning_rate": 2.5799536166154314e-06, "loss": 1.4783008098602295, "step": 1742 }, { "epoch": 1.1626666666666667, "grad_norm": 10.875, "learning_rate": 2.5757325731285767e-06, "loss": 1.916029691696167, "step": 1744 }, { "epoch": 1.164, "grad_norm": 4.34375, "learning_rate": 2.571513507582481e-06, "loss": 1.3801783323287964, "step": 1746 }, { "epoch": 1.1653333333333333, "grad_norm": 3.921875, "learning_rate": 2.5672964396464884e-06, "loss": 1.4577257633209229, "step": 1748 }, { "epoch": 1.1666666666666667, "grad_norm": 6.03125, "learning_rate": 2.5630813889806294e-06, "loss": 1.5916978120803833, "step": 1750 }, { "epoch": 1.168, "grad_norm": 6.875, "learning_rate": 2.55886837523553e-06, "loss": 1.5933470726013184, "step": 1752 }, { "epoch": 1.1693333333333333, "grad_norm": 1.2578125, "learning_rate": 2.554657418052321e-06, "loss": 1.0478358268737793, "step": 1754 }, { "epoch": 1.1706666666666667, "grad_norm": 4.53125, "learning_rate": 2.550448537062542e-06, "loss": 1.6661409139633179, "step": 1756 }, { "epoch": 1.172, "grad_norm": 4.09375, "learning_rate": 2.546241751888058e-06, "loss": 1.266357421875, "step": 1758 }, { "epoch": 1.1733333333333333, "grad_norm": 5.875, "learning_rate": 2.5420370821409603e-06, "loss": 1.9419959783554077, "step": 1760 }, { "epoch": 1.1746666666666667, "grad_norm": 4.28125, "learning_rate": 2.5378345474234777e-06, "loss": 1.5483953952789307, "step": 1762 }, { "epoch": 1.176, "grad_norm": 1.703125, "learning_rate": 2.5336341673278896e-06, "loss": 1.253208875656128, "step": 1764 }, { "epoch": 1.1773333333333333, "grad_norm": 11.0, "learning_rate": 2.529435961436425e-06, "loss": 1.7776868343353271, "step": 1766 }, { "epoch": 1.1786666666666668, "grad_norm": 7.21875, "learning_rate": 2.525239949321181e-06, "loss": 1.5882803201675415, "step": 1768 }, { "epoch": 1.18, "grad_norm": 75.0, "learning_rate": 2.5210461505440243e-06, "loss": 1.0166734457015991, "step": 1770 }, { "epoch": 1.1813333333333333, "grad_norm": 2.59375, "learning_rate": 2.516854584656505e-06, "loss": 1.4092483520507812, "step": 1772 }, { "epoch": 1.1826666666666668, "grad_norm": 3.625, "learning_rate": 2.5126652711997613e-06, "loss": 1.493394136428833, "step": 1774 }, { "epoch": 1.184, "grad_norm": 5.9375, "learning_rate": 2.508478229704434e-06, "loss": 1.5544865131378174, "step": 1776 }, { "epoch": 1.1853333333333333, "grad_norm": 8.75, "learning_rate": 2.5042934796905682e-06, "loss": 1.7734179496765137, "step": 1778 }, { "epoch": 1.1866666666666668, "grad_norm": 1.9296875, "learning_rate": 2.50011104066753e-06, "loss": 1.1469995975494385, "step": 1780 }, { "epoch": 1.188, "grad_norm": 1.9375, "learning_rate": 2.495930932133907e-06, "loss": 1.056424617767334, "step": 1782 }, { "epoch": 1.1893333333333334, "grad_norm": 4.5, "learning_rate": 2.491753173577426e-06, "loss": 1.584565281867981, "step": 1784 }, { "epoch": 1.1906666666666668, "grad_norm": 7.03125, "learning_rate": 2.4875777844748556e-06, "loss": 1.1618425846099854, "step": 1786 }, { "epoch": 1.192, "grad_norm": 2.453125, "learning_rate": 2.4834047842919195e-06, "loss": 0.9867179989814758, "step": 1788 }, { "epoch": 1.1933333333333334, "grad_norm": 2.59375, "learning_rate": 2.479234192483204e-06, "loss": 1.1931567192077637, "step": 1790 }, { "epoch": 1.1946666666666665, "grad_norm": 4.0, "learning_rate": 2.4750660284920663e-06, "loss": 1.6453449726104736, "step": 1792 }, { "epoch": 1.196, "grad_norm": 7.59375, "learning_rate": 2.4709003117505473e-06, "loss": 1.5443363189697266, "step": 1794 }, { "epoch": 1.1973333333333334, "grad_norm": 5.15625, "learning_rate": 2.466737061679277e-06, "loss": 1.6797435283660889, "step": 1796 }, { "epoch": 1.1986666666666665, "grad_norm": 5.28125, "learning_rate": 2.4625762976873857e-06, "loss": 1.4136509895324707, "step": 1798 }, { "epoch": 1.2, "grad_norm": 9.3125, "learning_rate": 2.4584180391724148e-06, "loss": 1.5729784965515137, "step": 1800 }, { "epoch": 1.2013333333333334, "grad_norm": 12.75, "learning_rate": 2.4542623055202242e-06, "loss": 1.860079288482666, "step": 1802 }, { "epoch": 1.2026666666666666, "grad_norm": 7.03125, "learning_rate": 2.450109116104903e-06, "loss": 1.5427799224853516, "step": 1804 }, { "epoch": 1.204, "grad_norm": 1.9375, "learning_rate": 2.4459584902886798e-06, "loss": 1.1774003505706787, "step": 1806 }, { "epoch": 1.2053333333333334, "grad_norm": 7.9375, "learning_rate": 2.44181044742183e-06, "loss": 1.9959464073181152, "step": 1808 }, { "epoch": 1.2066666666666666, "grad_norm": 5.4375, "learning_rate": 2.437665006842589e-06, "loss": 1.5742697715759277, "step": 1810 }, { "epoch": 1.208, "grad_norm": 1.9921875, "learning_rate": 2.433522187877059e-06, "loss": 1.152430772781372, "step": 1812 }, { "epoch": 1.2093333333333334, "grad_norm": 1.6640625, "learning_rate": 2.4293820098391206e-06, "loss": 1.106142282485962, "step": 1814 }, { "epoch": 1.2106666666666666, "grad_norm": 7.09375, "learning_rate": 2.4252444920303442e-06, "loss": 1.5196865797042847, "step": 1816 }, { "epoch": 1.212, "grad_norm": 4.46875, "learning_rate": 2.4211096537398945e-06, "loss": 1.5185796022415161, "step": 1818 }, { "epoch": 1.2133333333333334, "grad_norm": 10.5625, "learning_rate": 2.4169775142444472e-06, "loss": 0.9786717295646667, "step": 1820 }, { "epoch": 1.2146666666666666, "grad_norm": 5.1875, "learning_rate": 2.412848092808095e-06, "loss": 1.836982011795044, "step": 1822 }, { "epoch": 1.216, "grad_norm": 3.953125, "learning_rate": 2.408721408682259e-06, "loss": 1.1979806423187256, "step": 1824 }, { "epoch": 1.2173333333333334, "grad_norm": 4.8125, "learning_rate": 2.4045974811055995e-06, "loss": 1.5440890789031982, "step": 1826 }, { "epoch": 1.2186666666666666, "grad_norm": 3.65625, "learning_rate": 2.4004763293039253e-06, "loss": 1.1417531967163086, "step": 1828 }, { "epoch": 1.22, "grad_norm": 2.796875, "learning_rate": 2.396357972490104e-06, "loss": 1.2566338777542114, "step": 1830 }, { "epoch": 1.2213333333333334, "grad_norm": 5.71875, "learning_rate": 2.392242429863974e-06, "loss": 1.178492546081543, "step": 1832 }, { "epoch": 1.2226666666666666, "grad_norm": 5.09375, "learning_rate": 2.3881297206122526e-06, "loss": 1.5269526243209839, "step": 1834 }, { "epoch": 1.224, "grad_norm": 3.171875, "learning_rate": 2.38401986390845e-06, "loss": 1.0146985054016113, "step": 1836 }, { "epoch": 1.2253333333333334, "grad_norm": 2.359375, "learning_rate": 2.3799128789127756e-06, "loss": 1.1452817916870117, "step": 1838 }, { "epoch": 1.2266666666666666, "grad_norm": 5.0625, "learning_rate": 2.3758087847720518e-06, "loss": 1.9190927743911743, "step": 1840 }, { "epoch": 1.228, "grad_norm": 6.0, "learning_rate": 2.3717076006196234e-06, "loss": 1.6128742694854736, "step": 1842 }, { "epoch": 1.2293333333333334, "grad_norm": 2.015625, "learning_rate": 2.3676093455752695e-06, "loss": 1.142547845840454, "step": 1844 }, { "epoch": 1.2306666666666666, "grad_norm": 5.0625, "learning_rate": 2.363514038745113e-06, "loss": 1.5303454399108887, "step": 1846 }, { "epoch": 1.232, "grad_norm": 7.0625, "learning_rate": 2.3594216992215324e-06, "loss": 1.9574984312057495, "step": 1848 }, { "epoch": 1.2333333333333334, "grad_norm": 3.125, "learning_rate": 2.3553323460830723e-06, "loss": 1.140625238418579, "step": 1850 }, { "epoch": 1.2346666666666666, "grad_norm": 4.375, "learning_rate": 2.351245998394356e-06, "loss": 1.6304525136947632, "step": 1852 }, { "epoch": 1.236, "grad_norm": 6.84375, "learning_rate": 2.347162675205993e-06, "loss": 1.058687448501587, "step": 1854 }, { "epoch": 1.2373333333333334, "grad_norm": 8.9375, "learning_rate": 2.3430823955544947e-06, "loss": 1.610640287399292, "step": 1856 }, { "epoch": 1.2386666666666666, "grad_norm": 11.875, "learning_rate": 2.339005178462183e-06, "loss": 2.0690908432006836, "step": 1858 }, { "epoch": 1.24, "grad_norm": 4.9375, "learning_rate": 2.3349310429371014e-06, "loss": 1.5361344814300537, "step": 1860 }, { "epoch": 1.2413333333333334, "grad_norm": 6.46875, "learning_rate": 2.330860007972927e-06, "loss": 1.52693510055542, "step": 1862 }, { "epoch": 1.2426666666666666, "grad_norm": 3.9375, "learning_rate": 2.3267920925488833e-06, "loss": 1.5994844436645508, "step": 1864 }, { "epoch": 1.244, "grad_norm": 7.53125, "learning_rate": 2.3227273156296486e-06, "loss": 1.8968441486358643, "step": 1866 }, { "epoch": 1.2453333333333334, "grad_norm": 4.71875, "learning_rate": 2.3186656961652722e-06, "loss": 1.1545343399047852, "step": 1868 }, { "epoch": 1.2466666666666666, "grad_norm": 10.6875, "learning_rate": 2.3146072530910804e-06, "loss": 1.5420873165130615, "step": 1870 }, { "epoch": 1.248, "grad_norm": 1.4296875, "learning_rate": 2.3105520053275928e-06, "loss": 1.0231177806854248, "step": 1872 }, { "epoch": 1.2493333333333334, "grad_norm": 15.6875, "learning_rate": 2.306499971780432e-06, "loss": 1.553828239440918, "step": 1874 }, { "epoch": 1.2506666666666666, "grad_norm": 4.84375, "learning_rate": 2.3024511713402358e-06, "loss": 1.510333776473999, "step": 1876 }, { "epoch": 1.252, "grad_norm": 4.59375, "learning_rate": 2.298405622882569e-06, "loss": 1.556577444076538, "step": 1878 }, { "epoch": 1.2533333333333334, "grad_norm": 1.875, "learning_rate": 2.294363345267836e-06, "loss": 1.2078943252563477, "step": 1880 }, { "epoch": 1.2546666666666666, "grad_norm": 1.640625, "learning_rate": 2.2903243573411926e-06, "loss": 1.112194299697876, "step": 1882 }, { "epoch": 1.256, "grad_norm": 1.7734375, "learning_rate": 2.286288677932457e-06, "loss": 1.247178554534912, "step": 1884 }, { "epoch": 1.2573333333333334, "grad_norm": 2.4375, "learning_rate": 2.282256325856025e-06, "loss": 1.1059410572052002, "step": 1886 }, { "epoch": 1.2586666666666666, "grad_norm": 8.0, "learning_rate": 2.2782273199107783e-06, "loss": 1.9317150115966797, "step": 1888 }, { "epoch": 1.26, "grad_norm": 5.25, "learning_rate": 2.2742016788799996e-06, "loss": 1.4922699928283691, "step": 1890 }, { "epoch": 1.2613333333333334, "grad_norm": 11.5, "learning_rate": 2.2701794215312854e-06, "loss": 1.8612873554229736, "step": 1892 }, { "epoch": 1.2626666666666666, "grad_norm": 6.53125, "learning_rate": 2.266160566616456e-06, "loss": 1.5477168560028076, "step": 1894 }, { "epoch": 1.264, "grad_norm": 4.65625, "learning_rate": 2.26214513287147e-06, "loss": 1.510019063949585, "step": 1896 }, { "epoch": 1.2653333333333334, "grad_norm": 9.0625, "learning_rate": 2.2581331390163364e-06, "loss": 2.0930213928222656, "step": 1898 }, { "epoch": 1.2666666666666666, "grad_norm": 3.0625, "learning_rate": 2.254124603755027e-06, "loss": 0.9632862210273743, "step": 1900 }, { "epoch": 1.268, "grad_norm": 4.84375, "learning_rate": 2.2501195457753912e-06, "loss": 1.6332876682281494, "step": 1902 }, { "epoch": 1.2693333333333334, "grad_norm": 8.5625, "learning_rate": 2.2461179837490648e-06, "loss": 1.3594850301742554, "step": 1904 }, { "epoch": 1.2706666666666666, "grad_norm": 10.4375, "learning_rate": 2.242119936331387e-06, "loss": 2.073132038116455, "step": 1906 }, { "epoch": 1.272, "grad_norm": 9.3125, "learning_rate": 2.2381254221613122e-06, "loss": 1.5879173278808594, "step": 1908 }, { "epoch": 1.2733333333333334, "grad_norm": 31.875, "learning_rate": 2.2341344598613212e-06, "loss": 0.8240858912467957, "step": 1910 }, { "epoch": 1.2746666666666666, "grad_norm": 2.84375, "learning_rate": 2.230147068037338e-06, "loss": 1.0706063508987427, "step": 1912 }, { "epoch": 1.276, "grad_norm": 2.828125, "learning_rate": 2.226163265278639e-06, "loss": 1.1408822536468506, "step": 1914 }, { "epoch": 1.2773333333333334, "grad_norm": 27.25, "learning_rate": 2.2221830701577695e-06, "loss": 1.6000707149505615, "step": 1916 }, { "epoch": 1.2786666666666666, "grad_norm": 2.640625, "learning_rate": 2.218206501230455e-06, "loss": 1.1268792152404785, "step": 1918 }, { "epoch": 1.28, "grad_norm": 3.234375, "learning_rate": 2.2142335770355166e-06, "loss": 1.3399468660354614, "step": 1920 }, { "epoch": 1.2813333333333334, "grad_norm": 6.09375, "learning_rate": 2.2102643160947834e-06, "loss": 1.5325706005096436, "step": 1922 }, { "epoch": 1.2826666666666666, "grad_norm": 1.640625, "learning_rate": 2.2062987369130062e-06, "loss": 1.1318565607070923, "step": 1924 }, { "epoch": 1.284, "grad_norm": 6.0625, "learning_rate": 2.2023368579777706e-06, "loss": 1.484031319618225, "step": 1926 }, { "epoch": 1.2853333333333334, "grad_norm": 2.8125, "learning_rate": 2.198378697759413e-06, "loss": 1.2130866050720215, "step": 1928 }, { "epoch": 1.2866666666666666, "grad_norm": 9.4375, "learning_rate": 2.1944242747109333e-06, "loss": 2.0494606494903564, "step": 1930 }, { "epoch": 1.288, "grad_norm": 5.8125, "learning_rate": 2.190473607267906e-06, "loss": 1.8861929178237915, "step": 1932 }, { "epoch": 1.2893333333333334, "grad_norm": 4.90625, "learning_rate": 2.1865267138484004e-06, "loss": 1.6522796154022217, "step": 1934 }, { "epoch": 1.2906666666666666, "grad_norm": 5.9375, "learning_rate": 2.1825836128528884e-06, "loss": 1.8132810592651367, "step": 1936 }, { "epoch": 1.292, "grad_norm": 4.3125, "learning_rate": 2.178644322664163e-06, "loss": 1.5035209655761719, "step": 1938 }, { "epoch": 1.2933333333333334, "grad_norm": 15.1875, "learning_rate": 2.1747088616472517e-06, "loss": 1.7719671726226807, "step": 1940 }, { "epoch": 1.2946666666666666, "grad_norm": 4.0625, "learning_rate": 2.1707772481493286e-06, "loss": 1.5210639238357544, "step": 1942 }, { "epoch": 1.296, "grad_norm": 6.0625, "learning_rate": 2.166849500499632e-06, "loss": 1.6196399927139282, "step": 1944 }, { "epoch": 1.2973333333333334, "grad_norm": 7.4375, "learning_rate": 2.162925637009377e-06, "loss": 1.1646780967712402, "step": 1946 }, { "epoch": 1.2986666666666666, "grad_norm": 11.5625, "learning_rate": 2.1590056759716712e-06, "loss": 1.9841561317443848, "step": 1948 }, { "epoch": 1.3, "grad_norm": 6.8125, "learning_rate": 2.1550896356614282e-06, "loss": 1.5786137580871582, "step": 1950 }, { "epoch": 1.3013333333333335, "grad_norm": 5.375, "learning_rate": 2.1511775343352835e-06, "loss": 1.5352140665054321, "step": 1952 }, { "epoch": 1.3026666666666666, "grad_norm": 6.75, "learning_rate": 2.147269390231509e-06, "loss": 1.5395886898040771, "step": 1954 }, { "epoch": 1.304, "grad_norm": 6.25, "learning_rate": 2.143365221569927e-06, "loss": 1.6343798637390137, "step": 1956 }, { "epoch": 1.3053333333333335, "grad_norm": 6.0, "learning_rate": 2.139465046551829e-06, "loss": 1.6449880599975586, "step": 1958 }, { "epoch": 1.3066666666666666, "grad_norm": 11.375, "learning_rate": 2.135568883359885e-06, "loss": 1.9318366050720215, "step": 1960 }, { "epoch": 1.308, "grad_norm": 17.875, "learning_rate": 2.1316767501580636e-06, "loss": 1.664994478225708, "step": 1962 }, { "epoch": 1.3093333333333335, "grad_norm": 1.9765625, "learning_rate": 2.127788665091545e-06, "loss": 1.0485271215438843, "step": 1964 }, { "epoch": 1.3106666666666666, "grad_norm": 15.9375, "learning_rate": 2.1239046462866358e-06, "loss": 1.8190348148345947, "step": 1966 }, { "epoch": 1.312, "grad_norm": 1.796875, "learning_rate": 2.120024711850688e-06, "loss": 1.0631358623504639, "step": 1968 }, { "epoch": 1.3133333333333335, "grad_norm": 6.71875, "learning_rate": 2.11614887987201e-06, "loss": 1.3473261594772339, "step": 1970 }, { "epoch": 1.3146666666666667, "grad_norm": 8.625, "learning_rate": 2.1122771684197864e-06, "loss": 1.7255139350891113, "step": 1972 }, { "epoch": 1.316, "grad_norm": 10.5, "learning_rate": 2.10840959554399e-06, "loss": 2.001613140106201, "step": 1974 }, { "epoch": 1.3173333333333335, "grad_norm": 5.5, "learning_rate": 2.104546179275301e-06, "loss": 1.5933119058609009, "step": 1976 }, { "epoch": 1.3186666666666667, "grad_norm": 5.15625, "learning_rate": 2.100686937625021e-06, "loss": 1.5122944116592407, "step": 1978 }, { "epoch": 1.32, "grad_norm": 7.46875, "learning_rate": 2.0968318885849885e-06, "loss": 1.4772236347198486, "step": 1980 }, { "epoch": 1.3213333333333335, "grad_norm": 4.8125, "learning_rate": 2.0929810501274973e-06, "loss": 1.4999642372131348, "step": 1982 }, { "epoch": 1.3226666666666667, "grad_norm": 14.125, "learning_rate": 2.089134440205211e-06, "loss": 2.0060179233551025, "step": 1984 }, { "epoch": 1.324, "grad_norm": 3.34375, "learning_rate": 2.085292076751079e-06, "loss": 1.3181127309799194, "step": 1986 }, { "epoch": 1.3253333333333333, "grad_norm": 5.28125, "learning_rate": 2.081453977678254e-06, "loss": 1.6507904529571533, "step": 1988 }, { "epoch": 1.3266666666666667, "grad_norm": 7.125, "learning_rate": 2.07762016088001e-06, "loss": 1.5215134620666504, "step": 1990 }, { "epoch": 1.328, "grad_norm": 4.6875, "learning_rate": 2.073790644229654e-06, "loss": 1.5981347560882568, "step": 1992 }, { "epoch": 1.3293333333333333, "grad_norm": 33.5, "learning_rate": 2.0699654455804467e-06, "loss": 1.7263144254684448, "step": 1994 }, { "epoch": 1.3306666666666667, "grad_norm": 7.59375, "learning_rate": 2.0661445827655193e-06, "loss": 2.1011343002319336, "step": 1996 }, { "epoch": 1.332, "grad_norm": 2.984375, "learning_rate": 2.062328073597787e-06, "loss": 1.034977674484253, "step": 1998 }, { "epoch": 1.3333333333333333, "grad_norm": 8.875, "learning_rate": 2.0585159358698712e-06, "loss": 1.8760616779327393, "step": 2000 }, { "epoch": 1.3346666666666667, "grad_norm": 5.65625, "learning_rate": 2.054708187354012e-06, "loss": 1.6555390357971191, "step": 2002 }, { "epoch": 1.336, "grad_norm": 1.5703125, "learning_rate": 2.0509048458019854e-06, "loss": 1.060708999633789, "step": 2004 }, { "epoch": 1.3373333333333333, "grad_norm": 4.96875, "learning_rate": 2.0471059289450255e-06, "loss": 1.4976744651794434, "step": 2006 }, { "epoch": 1.3386666666666667, "grad_norm": 5.53125, "learning_rate": 2.0433114544937353e-06, "loss": 1.5674824714660645, "step": 2008 }, { "epoch": 1.34, "grad_norm": 6.09375, "learning_rate": 2.0395214401380087e-06, "loss": 1.5714900493621826, "step": 2010 }, { "epoch": 1.3413333333333333, "grad_norm": 5.6875, "learning_rate": 2.0357359035469467e-06, "loss": 1.2028818130493164, "step": 2012 }, { "epoch": 1.3426666666666667, "grad_norm": 25.0, "learning_rate": 2.0319548623687746e-06, "loss": 1.6153771877288818, "step": 2014 }, { "epoch": 1.3439999999999999, "grad_norm": 6.125, "learning_rate": 2.0281783342307596e-06, "loss": 1.6412135362625122, "step": 2016 }, { "epoch": 1.3453333333333333, "grad_norm": 7.125, "learning_rate": 2.0244063367391296e-06, "loss": 1.9324005842208862, "step": 2018 }, { "epoch": 1.3466666666666667, "grad_norm": 1.9453125, "learning_rate": 2.0206388874789907e-06, "loss": 1.1473610401153564, "step": 2020 }, { "epoch": 1.3479999999999999, "grad_norm": 7.40625, "learning_rate": 2.0168760040142444e-06, "loss": 1.558716058731079, "step": 2022 }, { "epoch": 1.3493333333333333, "grad_norm": 4.09375, "learning_rate": 2.0131177038875065e-06, "loss": 1.479658842086792, "step": 2024 }, { "epoch": 1.3506666666666667, "grad_norm": 5.25, "learning_rate": 2.0093640046200256e-06, "loss": 1.5598819255828857, "step": 2026 }, { "epoch": 1.3519999999999999, "grad_norm": 6.40625, "learning_rate": 2.0056149237116016e-06, "loss": 1.6746928691864014, "step": 2028 }, { "epoch": 1.3533333333333333, "grad_norm": 2.46875, "learning_rate": 2.0018704786405014e-06, "loss": 1.2208452224731445, "step": 2030 }, { "epoch": 1.3546666666666667, "grad_norm": 22.25, "learning_rate": 1.9981306868633833e-06, "loss": 1.6869182586669922, "step": 2032 }, { "epoch": 1.3559999999999999, "grad_norm": 2.203125, "learning_rate": 1.9943955658152076e-06, "loss": 1.0717189311981201, "step": 2034 }, { "epoch": 1.3573333333333333, "grad_norm": 4.59375, "learning_rate": 1.990665132909163e-06, "loss": 1.4844554662704468, "step": 2036 }, { "epoch": 1.3586666666666667, "grad_norm": 7.4375, "learning_rate": 1.986939405536579e-06, "loss": 1.8831037282943726, "step": 2038 }, { "epoch": 1.3599999999999999, "grad_norm": 6.40625, "learning_rate": 1.983218401066851e-06, "loss": 1.8292875289916992, "step": 2040 }, { "epoch": 1.3613333333333333, "grad_norm": 3.921875, "learning_rate": 1.979502136847353e-06, "loss": 1.5935251712799072, "step": 2042 }, { "epoch": 1.3626666666666667, "grad_norm": 2.6875, "learning_rate": 1.9757906302033636e-06, "loss": 1.0542124509811401, "step": 2044 }, { "epoch": 1.3639999999999999, "grad_norm": 5.03125, "learning_rate": 1.9720838984379774e-06, "loss": 1.5523146390914917, "step": 2046 }, { "epoch": 1.3653333333333333, "grad_norm": 5.5, "learning_rate": 1.9683819588320308e-06, "loss": 1.5258020162582397, "step": 2048 }, { "epoch": 1.3666666666666667, "grad_norm": 6.28125, "learning_rate": 1.9646848286440195e-06, "loss": 1.9182220697402954, "step": 2050 }, { "epoch": 1.3679999999999999, "grad_norm": 4.53125, "learning_rate": 1.960992525110017e-06, "loss": 1.5669327974319458, "step": 2052 }, { "epoch": 1.3693333333333333, "grad_norm": 4.40625, "learning_rate": 1.957305065443594e-06, "loss": 1.4941010475158691, "step": 2054 }, { "epoch": 1.3706666666666667, "grad_norm": 3.203125, "learning_rate": 1.95362246683574e-06, "loss": 1.2234654426574707, "step": 2056 }, { "epoch": 1.3719999999999999, "grad_norm": 5.4375, "learning_rate": 1.949944746454782e-06, "loss": 1.5590747594833374, "step": 2058 }, { "epoch": 1.3733333333333333, "grad_norm": 13.1875, "learning_rate": 1.946271921446304e-06, "loss": 2.0392696857452393, "step": 2060 }, { "epoch": 1.3746666666666667, "grad_norm": 1.8359375, "learning_rate": 1.94260400893307e-06, "loss": 1.2967076301574707, "step": 2062 }, { "epoch": 1.376, "grad_norm": 10.4375, "learning_rate": 1.9389410260149376e-06, "loss": 1.4139618873596191, "step": 2064 }, { "epoch": 1.3773333333333333, "grad_norm": 6.25, "learning_rate": 1.935282989768787e-06, "loss": 1.6094778776168823, "step": 2066 }, { "epoch": 1.3786666666666667, "grad_norm": 7.4375, "learning_rate": 1.931629917248434e-06, "loss": 1.943546175956726, "step": 2068 }, { "epoch": 1.38, "grad_norm": 7.46875, "learning_rate": 1.9279818254845554e-06, "loss": 1.8869085311889648, "step": 2070 }, { "epoch": 1.3813333333333333, "grad_norm": 1.8984375, "learning_rate": 1.924338731484606e-06, "loss": 0.9827399253845215, "step": 2072 }, { "epoch": 1.3826666666666667, "grad_norm": 13.875, "learning_rate": 1.920700652232742e-06, "loss": 1.617384910583496, "step": 2074 }, { "epoch": 1.384, "grad_norm": 4.6875, "learning_rate": 1.9170676046897407e-06, "loss": 1.644477367401123, "step": 2076 }, { "epoch": 1.3853333333333333, "grad_norm": 20.0, "learning_rate": 1.9134396057929204e-06, "loss": 2.099134922027588, "step": 2078 }, { "epoch": 1.3866666666666667, "grad_norm": 5.59375, "learning_rate": 1.909816672456064e-06, "loss": 1.6014119386672974, "step": 2080 }, { "epoch": 1.388, "grad_norm": 3.34375, "learning_rate": 1.906198821569338e-06, "loss": 1.2930165529251099, "step": 2082 }, { "epoch": 1.3893333333333333, "grad_norm": 3.4375, "learning_rate": 1.9025860699992149e-06, "loss": 1.1446359157562256, "step": 2084 }, { "epoch": 1.3906666666666667, "grad_norm": 8.5, "learning_rate": 1.8989784345883932e-06, "loss": 1.6573563814163208, "step": 2086 }, { "epoch": 1.392, "grad_norm": 13.6875, "learning_rate": 1.8953759321557205e-06, "loss": 1.7369401454925537, "step": 2088 }, { "epoch": 1.3933333333333333, "grad_norm": 5.34375, "learning_rate": 1.8917785794961143e-06, "loss": 1.5765206813812256, "step": 2090 }, { "epoch": 1.3946666666666667, "grad_norm": 8.125, "learning_rate": 1.8881863933804839e-06, "loss": 1.629734754562378, "step": 2092 }, { "epoch": 1.396, "grad_norm": 7.21875, "learning_rate": 1.8845993905556515e-06, "loss": 1.5609703063964844, "step": 2094 }, { "epoch": 1.3973333333333333, "grad_norm": 8.5625, "learning_rate": 1.8810175877442754e-06, "loss": 1.5186164379119873, "step": 2096 }, { "epoch": 1.3986666666666667, "grad_norm": 17.375, "learning_rate": 1.8774410016447708e-06, "loss": 0.563239574432373, "step": 2098 }, { "epoch": 1.4, "grad_norm": 8.9375, "learning_rate": 1.8738696489312333e-06, "loss": 1.5320698022842407, "step": 2100 }, { "epoch": 1.4013333333333333, "grad_norm": 7.59375, "learning_rate": 1.8703035462533593e-06, "loss": 1.6705598831176758, "step": 2102 }, { "epoch": 1.4026666666666667, "grad_norm": 2.375, "learning_rate": 1.8667427102363705e-06, "loss": 1.0009243488311768, "step": 2104 }, { "epoch": 1.404, "grad_norm": 1.3359375, "learning_rate": 1.8631871574809346e-06, "loss": 1.0675292015075684, "step": 2106 }, { "epoch": 1.4053333333333333, "grad_norm": 12.9375, "learning_rate": 1.859636904563089e-06, "loss": 0.8650450706481934, "step": 2108 }, { "epoch": 1.4066666666666667, "grad_norm": 12.875, "learning_rate": 1.8560919680341638e-06, "loss": 1.9227575063705444, "step": 2110 }, { "epoch": 1.408, "grad_norm": 2.34375, "learning_rate": 1.8525523644207023e-06, "loss": 0.9330441951751709, "step": 2112 }, { "epoch": 1.4093333333333333, "grad_norm": 5.875, "learning_rate": 1.8490181102243873e-06, "loss": 1.6113357543945312, "step": 2114 }, { "epoch": 1.4106666666666667, "grad_norm": 5.96875, "learning_rate": 1.845489221921962e-06, "loss": 1.504434585571289, "step": 2116 }, { "epoch": 1.412, "grad_norm": 8.5, "learning_rate": 1.8419657159651535e-06, "loss": 1.9374301433563232, "step": 2118 }, { "epoch": 1.4133333333333333, "grad_norm": 8.625, "learning_rate": 1.8384476087805967e-06, "loss": 1.6084973812103271, "step": 2120 }, { "epoch": 1.4146666666666667, "grad_norm": 7.5, "learning_rate": 1.834934916769756e-06, "loss": 1.7915997505187988, "step": 2122 }, { "epoch": 1.416, "grad_norm": 4.53125, "learning_rate": 1.831427656308854e-06, "loss": 1.4243714809417725, "step": 2124 }, { "epoch": 1.4173333333333333, "grad_norm": 10.0625, "learning_rate": 1.8279258437487866e-06, "loss": 1.8718931674957275, "step": 2126 }, { "epoch": 1.4186666666666667, "grad_norm": 6.875, "learning_rate": 1.8244294954150544e-06, "loss": 1.1055264472961426, "step": 2128 }, { "epoch": 1.42, "grad_norm": 3.046875, "learning_rate": 1.8209386276076824e-06, "loss": 1.1865965127944946, "step": 2130 }, { "epoch": 1.4213333333333333, "grad_norm": 1.84375, "learning_rate": 1.817453256601146e-06, "loss": 1.0315593481063843, "step": 2132 }, { "epoch": 1.4226666666666667, "grad_norm": 30.25, "learning_rate": 1.8139733986442947e-06, "loss": 1.6489253044128418, "step": 2134 }, { "epoch": 1.424, "grad_norm": 20.0, "learning_rate": 1.8104990699602753e-06, "loss": 1.575264811515808, "step": 2136 }, { "epoch": 1.4253333333333333, "grad_norm": 3.234375, "learning_rate": 1.8070302867464562e-06, "loss": 1.0482765436172485, "step": 2138 }, { "epoch": 1.4266666666666667, "grad_norm": 5.6875, "learning_rate": 1.8035670651743565e-06, "loss": 1.56797456741333, "step": 2140 }, { "epoch": 1.428, "grad_norm": 10.9375, "learning_rate": 1.800109421389562e-06, "loss": 1.4143714904785156, "step": 2142 }, { "epoch": 1.4293333333333333, "grad_norm": 9.8125, "learning_rate": 1.7966573715116587e-06, "loss": 1.5282375812530518, "step": 2144 }, { "epoch": 1.4306666666666668, "grad_norm": 3.9375, "learning_rate": 1.793210931634151e-06, "loss": 1.146159291267395, "step": 2146 }, { "epoch": 1.432, "grad_norm": 7.375, "learning_rate": 1.7897701178243906e-06, "loss": 1.529174566268921, "step": 2148 }, { "epoch": 1.4333333333333333, "grad_norm": 16.75, "learning_rate": 1.7863349461235005e-06, "loss": 1.9610891342163086, "step": 2150 }, { "epoch": 1.4346666666666668, "grad_norm": 3.375, "learning_rate": 1.7829054325463e-06, "loss": 1.559476375579834, "step": 2152 }, { "epoch": 1.436, "grad_norm": 5.4375, "learning_rate": 1.7794815930812295e-06, "loss": 1.5697715282440186, "step": 2154 }, { "epoch": 1.4373333333333334, "grad_norm": 6.59375, "learning_rate": 1.776063443690278e-06, "loss": 1.6537988185882568, "step": 2156 }, { "epoch": 1.4386666666666668, "grad_norm": 5.4375, "learning_rate": 1.7726510003089054e-06, "loss": 1.6215872764587402, "step": 2158 }, { "epoch": 1.44, "grad_norm": 8.125, "learning_rate": 1.7692442788459719e-06, "loss": 1.3466334342956543, "step": 2160 }, { "epoch": 1.4413333333333334, "grad_norm": 15.0625, "learning_rate": 1.7658432951836608e-06, "loss": 1.5198026895523071, "step": 2162 }, { "epoch": 1.4426666666666668, "grad_norm": 1.8203125, "learning_rate": 1.7624480651774062e-06, "loss": 1.1337813138961792, "step": 2164 }, { "epoch": 1.444, "grad_norm": 7.6875, "learning_rate": 1.7590586046558189e-06, "loss": 1.928809642791748, "step": 2166 }, { "epoch": 1.4453333333333334, "grad_norm": 4.46875, "learning_rate": 1.7556749294206116e-06, "loss": 1.5531928539276123, "step": 2168 }, { "epoch": 1.4466666666666668, "grad_norm": 1.3984375, "learning_rate": 1.7522970552465263e-06, "loss": 1.1785309314727783, "step": 2170 }, { "epoch": 1.448, "grad_norm": 4.90625, "learning_rate": 1.7489249978812595e-06, "loss": 1.4006869792938232, "step": 2172 }, { "epoch": 1.4493333333333334, "grad_norm": 6.3125, "learning_rate": 1.7455587730453922e-06, "loss": 1.6306333541870117, "step": 2174 }, { "epoch": 1.4506666666666668, "grad_norm": 4.875, "learning_rate": 1.7421983964323111e-06, "loss": 1.730469822883606, "step": 2176 }, { "epoch": 1.452, "grad_norm": 2.234375, "learning_rate": 1.7388438837081401e-06, "loss": 1.0633964538574219, "step": 2178 }, { "epoch": 1.4533333333333334, "grad_norm": 8.5, "learning_rate": 1.7354952505116645e-06, "loss": 1.817662000656128, "step": 2180 }, { "epoch": 1.4546666666666668, "grad_norm": 5.03125, "learning_rate": 1.7321525124542604e-06, "loss": 1.5825237035751343, "step": 2182 }, { "epoch": 1.456, "grad_norm": 6.375, "learning_rate": 1.7288156851198195e-06, "loss": 1.6220369338989258, "step": 2184 }, { "epoch": 1.4573333333333334, "grad_norm": 6.1875, "learning_rate": 1.7254847840646785e-06, "loss": 1.4336154460906982, "step": 2186 }, { "epoch": 1.4586666666666668, "grad_norm": 5.09375, "learning_rate": 1.7221598248175454e-06, "loss": 1.5189586877822876, "step": 2188 }, { "epoch": 1.46, "grad_norm": 9.0625, "learning_rate": 1.7188408228794267e-06, "loss": 1.481834888458252, "step": 2190 }, { "epoch": 1.4613333333333334, "grad_norm": 157.0, "learning_rate": 1.715527793723557e-06, "loss": 1.8635661602020264, "step": 2192 }, { "epoch": 1.4626666666666668, "grad_norm": 4.1875, "learning_rate": 1.7122207527953256e-06, "loss": 1.7555880546569824, "step": 2194 }, { "epoch": 1.464, "grad_norm": 3.859375, "learning_rate": 1.7089197155122035e-06, "loss": 1.4021992683410645, "step": 2196 }, { "epoch": 1.4653333333333334, "grad_norm": 44.75, "learning_rate": 1.7056246972636737e-06, "loss": 0.6922065615653992, "step": 2198 }, { "epoch": 1.4666666666666668, "grad_norm": 4.34375, "learning_rate": 1.7023357134111573e-06, "loss": 1.5009167194366455, "step": 2200 }, { "epoch": 1.468, "grad_norm": 5.71875, "learning_rate": 1.6990527792879447e-06, "loss": 1.750756025314331, "step": 2202 }, { "epoch": 1.4693333333333334, "grad_norm": 7.59375, "learning_rate": 1.6957759101991205e-06, "loss": 1.1939451694488525, "step": 2204 }, { "epoch": 1.4706666666666668, "grad_norm": 5.125, "learning_rate": 1.6925051214214954e-06, "loss": 1.539292335510254, "step": 2206 }, { "epoch": 1.472, "grad_norm": 4.90625, "learning_rate": 1.6892404282035335e-06, "loss": 1.5177375078201294, "step": 2208 }, { "epoch": 1.4733333333333334, "grad_norm": 6.65625, "learning_rate": 1.6859818457652794e-06, "loss": 1.5623188018798828, "step": 2210 }, { "epoch": 1.4746666666666668, "grad_norm": 8.25, "learning_rate": 1.6827293892982915e-06, "loss": 2.06575870513916, "step": 2212 }, { "epoch": 1.476, "grad_norm": 2.328125, "learning_rate": 1.6794830739655677e-06, "loss": 1.0674209594726562, "step": 2214 }, { "epoch": 1.4773333333333334, "grad_norm": 6.71875, "learning_rate": 1.676242914901477e-06, "loss": 1.5208603143692017, "step": 2216 }, { "epoch": 1.4786666666666668, "grad_norm": 4.125, "learning_rate": 1.6730089272116856e-06, "loss": 1.5469597578048706, "step": 2218 }, { "epoch": 1.48, "grad_norm": 3.703125, "learning_rate": 1.6697811259730913e-06, "loss": 1.5321767330169678, "step": 2220 }, { "epoch": 1.4813333333333334, "grad_norm": 15.875, "learning_rate": 1.666559526233748e-06, "loss": 1.7308143377304077, "step": 2222 }, { "epoch": 1.4826666666666668, "grad_norm": 2.734375, "learning_rate": 1.6633441430128001e-06, "loss": 1.159908413887024, "step": 2224 }, { "epoch": 1.484, "grad_norm": 10.125, "learning_rate": 1.6601349913004095e-06, "loss": 1.8157732486724854, "step": 2226 }, { "epoch": 1.4853333333333334, "grad_norm": 4.71875, "learning_rate": 1.656932086057687e-06, "loss": 1.50502347946167, "step": 2228 }, { "epoch": 1.4866666666666668, "grad_norm": 8.25, "learning_rate": 1.6537354422166219e-06, "loss": 1.9679980278015137, "step": 2230 }, { "epoch": 1.488, "grad_norm": 6.3125, "learning_rate": 1.6505450746800139e-06, "loss": 1.5686023235321045, "step": 2232 }, { "epoch": 1.4893333333333334, "grad_norm": 5.28125, "learning_rate": 1.6473609983214016e-06, "loss": 1.6479158401489258, "step": 2234 }, { "epoch": 1.4906666666666666, "grad_norm": 5.78125, "learning_rate": 1.6441832279849938e-06, "loss": 1.948946237564087, "step": 2236 }, { "epoch": 1.492, "grad_norm": 2.03125, "learning_rate": 1.6410117784856006e-06, "loss": 1.118719458580017, "step": 2238 }, { "epoch": 1.4933333333333334, "grad_norm": 3.265625, "learning_rate": 1.637846664608565e-06, "loss": 0.9887099266052246, "step": 2240 }, { "epoch": 1.4946666666666666, "grad_norm": 5.625, "learning_rate": 1.6346879011096927e-06, "loss": 1.574345588684082, "step": 2242 }, { "epoch": 1.496, "grad_norm": 9.8125, "learning_rate": 1.6315355027151836e-06, "loss": 1.878307580947876, "step": 2244 }, { "epoch": 1.4973333333333334, "grad_norm": 2.515625, "learning_rate": 1.6283894841215642e-06, "loss": 1.0803532600402832, "step": 2246 }, { "epoch": 1.4986666666666666, "grad_norm": 2.296875, "learning_rate": 1.6252498599956174e-06, "loss": 1.1133677959442139, "step": 2248 }, { "epoch": 1.5, "grad_norm": 4.71875, "learning_rate": 1.6221166449743157e-06, "loss": 1.5767303705215454, "step": 2250 }, { "epoch": 1.5013333333333332, "grad_norm": 7.0, "learning_rate": 1.6189898536647513e-06, "loss": 1.894281029701233, "step": 2252 }, { "epoch": 1.5026666666666668, "grad_norm": 2.921875, "learning_rate": 1.6158695006440705e-06, "loss": 1.0772048234939575, "step": 2254 }, { "epoch": 1.504, "grad_norm": 13.5, "learning_rate": 1.6127556004594028e-06, "loss": 2.036059856414795, "step": 2256 }, { "epoch": 1.5053333333333332, "grad_norm": 10.125, "learning_rate": 1.6096481676277953e-06, "loss": 1.9206452369689941, "step": 2258 }, { "epoch": 1.5066666666666668, "grad_norm": 3.3125, "learning_rate": 1.6065472166361435e-06, "loss": 1.1090811491012573, "step": 2260 }, { "epoch": 1.508, "grad_norm": 16.875, "learning_rate": 1.6034527619411252e-06, "loss": 1.9479446411132812, "step": 2262 }, { "epoch": 1.5093333333333332, "grad_norm": 2.359375, "learning_rate": 1.6003648179691312e-06, "loss": 1.1486694812774658, "step": 2264 }, { "epoch": 1.5106666666666668, "grad_norm": 10.8125, "learning_rate": 1.5972833991162019e-06, "loss": 1.6257998943328857, "step": 2266 }, { "epoch": 1.512, "grad_norm": 8.75, "learning_rate": 1.5942085197479542e-06, "loss": 1.5967451333999634, "step": 2268 }, { "epoch": 1.5133333333333332, "grad_norm": 8.1875, "learning_rate": 1.5911401941995203e-06, "loss": 1.5518248081207275, "step": 2270 }, { "epoch": 1.5146666666666668, "grad_norm": 1.015625, "learning_rate": 1.5880784367754765e-06, "loss": 0.9718266725540161, "step": 2272 }, { "epoch": 1.516, "grad_norm": 1.578125, "learning_rate": 1.5850232617497799e-06, "loss": 1.0614995956420898, "step": 2274 }, { "epoch": 1.5173333333333332, "grad_norm": 9.0, "learning_rate": 1.5819746833656995e-06, "loss": 2.10675048828125, "step": 2276 }, { "epoch": 1.5186666666666668, "grad_norm": 9.875, "learning_rate": 1.5789327158357511e-06, "loss": 1.713383674621582, "step": 2278 }, { "epoch": 1.52, "grad_norm": 10.875, "learning_rate": 1.5758973733416305e-06, "loss": 2.0925493240356445, "step": 2280 }, { "epoch": 1.5213333333333332, "grad_norm": 1.6640625, "learning_rate": 1.5728686700341471e-06, "loss": 1.2812188863754272, "step": 2282 }, { "epoch": 1.5226666666666666, "grad_norm": 1.75, "learning_rate": 1.5698466200331591e-06, "loss": 1.0207161903381348, "step": 2284 }, { "epoch": 1.524, "grad_norm": 13.9375, "learning_rate": 1.5668312374275063e-06, "loss": 1.8525854349136353, "step": 2286 }, { "epoch": 1.5253333333333332, "grad_norm": 5.125, "learning_rate": 1.5638225362749452e-06, "loss": 1.5748333930969238, "step": 2288 }, { "epoch": 1.5266666666666666, "grad_norm": 1.875, "learning_rate": 1.560820530602083e-06, "loss": 0.9696911573410034, "step": 2290 }, { "epoch": 1.528, "grad_norm": 1.859375, "learning_rate": 1.557825234404313e-06, "loss": 1.1080089807510376, "step": 2292 }, { "epoch": 1.5293333333333332, "grad_norm": 8.625, "learning_rate": 1.5548366616457483e-06, "loss": 1.7507381439208984, "step": 2294 }, { "epoch": 1.5306666666666666, "grad_norm": 4.59375, "learning_rate": 1.5518548262591577e-06, "loss": 1.5224215984344482, "step": 2296 }, { "epoch": 1.532, "grad_norm": 4.15625, "learning_rate": 1.5488797421458998e-06, "loss": 1.1142975091934204, "step": 2298 }, { "epoch": 1.5333333333333332, "grad_norm": 1.78125, "learning_rate": 1.545911423175859e-06, "loss": 1.172170877456665, "step": 2300 }, { "epoch": 1.5346666666666666, "grad_norm": 47.0, "learning_rate": 1.542949883187381e-06, "loss": 1.7134714126586914, "step": 2302 }, { "epoch": 1.536, "grad_norm": 2.171875, "learning_rate": 1.5399951359872062e-06, "loss": 1.122593641281128, "step": 2304 }, { "epoch": 1.5373333333333332, "grad_norm": 15.8125, "learning_rate": 1.5370471953504078e-06, "loss": 1.9810711145401, "step": 2306 }, { "epoch": 1.5386666666666666, "grad_norm": 1.1875, "learning_rate": 1.5341060750203285e-06, "loss": 1.174625277519226, "step": 2308 }, { "epoch": 1.54, "grad_norm": 6.6875, "learning_rate": 1.5311717887085117e-06, "loss": 1.7289341688156128, "step": 2310 }, { "epoch": 1.5413333333333332, "grad_norm": 11.5625, "learning_rate": 1.528244350094642e-06, "loss": 1.8983392715454102, "step": 2312 }, { "epoch": 1.5426666666666666, "grad_norm": 7.34375, "learning_rate": 1.5253237728264802e-06, "loss": 1.8950591087341309, "step": 2314 }, { "epoch": 1.544, "grad_norm": 4.21875, "learning_rate": 1.522410070519798e-06, "loss": 1.6132075786590576, "step": 2316 }, { "epoch": 1.5453333333333332, "grad_norm": 6.375, "learning_rate": 1.5195032567583179e-06, "loss": 1.7312850952148438, "step": 2318 }, { "epoch": 1.5466666666666666, "grad_norm": 29.375, "learning_rate": 1.5166033450936454e-06, "loss": 0.7591425776481628, "step": 2320 }, { "epoch": 1.548, "grad_norm": 6.1875, "learning_rate": 1.5137103490452116e-06, "loss": 1.5598540306091309, "step": 2322 }, { "epoch": 1.5493333333333332, "grad_norm": 6.96875, "learning_rate": 1.510824282100204e-06, "loss": 1.9549357891082764, "step": 2324 }, { "epoch": 1.5506666666666666, "grad_norm": 5.8125, "learning_rate": 1.5079451577135082e-06, "loss": 2.056565284729004, "step": 2326 }, { "epoch": 1.552, "grad_norm": 65.0, "learning_rate": 1.5050729893076421e-06, "loss": 1.716827154159546, "step": 2328 }, { "epoch": 1.5533333333333332, "grad_norm": 5.46875, "learning_rate": 1.5022077902726964e-06, "loss": 1.6515603065490723, "step": 2330 }, { "epoch": 1.5546666666666666, "grad_norm": 7.0625, "learning_rate": 1.4993495739662693e-06, "loss": 1.8558051586151123, "step": 2332 }, { "epoch": 1.556, "grad_norm": 10.25, "learning_rate": 1.4964983537134053e-06, "loss": 1.906949520111084, "step": 2334 }, { "epoch": 1.5573333333333332, "grad_norm": 5.125, "learning_rate": 1.4936541428065343e-06, "loss": 1.5600132942199707, "step": 2336 }, { "epoch": 1.5586666666666666, "grad_norm": 2.5625, "learning_rate": 1.4908169545054077e-06, "loss": 1.2310209274291992, "step": 2338 }, { "epoch": 1.56, "grad_norm": 22.875, "learning_rate": 1.4879868020370375e-06, "loss": 0.6177462935447693, "step": 2340 }, { "epoch": 1.5613333333333332, "grad_norm": 29.875, "learning_rate": 1.4851636985956344e-06, "loss": 0.6061275005340576, "step": 2342 }, { "epoch": 1.5626666666666666, "grad_norm": 68.5, "learning_rate": 1.482347657342547e-06, "loss": 0.8461488485336304, "step": 2344 }, { "epoch": 1.564, "grad_norm": 3.828125, "learning_rate": 1.4795386914061996e-06, "loss": 1.4999845027923584, "step": 2346 }, { "epoch": 1.5653333333333332, "grad_norm": 3.796875, "learning_rate": 1.4767368138820313e-06, "loss": 1.50132155418396, "step": 2348 }, { "epoch": 1.5666666666666667, "grad_norm": 6.28125, "learning_rate": 1.4739420378324342e-06, "loss": 1.525911569595337, "step": 2350 }, { "epoch": 1.568, "grad_norm": 12.75, "learning_rate": 1.4711543762866943e-06, "loss": 2.013495445251465, "step": 2352 }, { "epoch": 1.5693333333333332, "grad_norm": 2.90625, "learning_rate": 1.4683738422409294e-06, "loss": 1.0588361024856567, "step": 2354 }, { "epoch": 1.5706666666666667, "grad_norm": 5.375, "learning_rate": 1.4656004486580278e-06, "loss": 1.5528647899627686, "step": 2356 }, { "epoch": 1.572, "grad_norm": 3.84375, "learning_rate": 1.4628342084675912e-06, "loss": 1.523222804069519, "step": 2358 }, { "epoch": 1.5733333333333333, "grad_norm": 5.4375, "learning_rate": 1.4600751345658695e-06, "loss": 1.581688642501831, "step": 2360 }, { "epoch": 1.5746666666666667, "grad_norm": 5.90625, "learning_rate": 1.4573232398157047e-06, "loss": 1.5545933246612549, "step": 2362 }, { "epoch": 1.576, "grad_norm": 5.0, "learning_rate": 1.4545785370464693e-06, "loss": 1.620265245437622, "step": 2364 }, { "epoch": 1.5773333333333333, "grad_norm": 4.84375, "learning_rate": 1.451841039054006e-06, "loss": 1.459843397140503, "step": 2366 }, { "epoch": 1.5786666666666667, "grad_norm": 7.1875, "learning_rate": 1.4491107586005702e-06, "loss": 1.4685808420181274, "step": 2368 }, { "epoch": 1.58, "grad_norm": 15.75, "learning_rate": 1.4463877084147667e-06, "loss": 1.824225664138794, "step": 2370 }, { "epoch": 1.5813333333333333, "grad_norm": 4.25, "learning_rate": 1.4436719011914952e-06, "loss": 1.5579168796539307, "step": 2372 }, { "epoch": 1.5826666666666667, "grad_norm": 5.9375, "learning_rate": 1.4409633495918871e-06, "loss": 1.678511381149292, "step": 2374 }, { "epoch": 1.584, "grad_norm": 1.4609375, "learning_rate": 1.438262066243248e-06, "loss": 0.9821925163269043, "step": 2376 }, { "epoch": 1.5853333333333333, "grad_norm": 8.125, "learning_rate": 1.4355680637390002e-06, "loss": 1.4981456995010376, "step": 2378 }, { "epoch": 1.5866666666666667, "grad_norm": 12.0, "learning_rate": 1.4328813546386203e-06, "loss": 1.8860352039337158, "step": 2380 }, { "epoch": 1.588, "grad_norm": 4.9375, "learning_rate": 1.4302019514675851e-06, "loss": 1.470839023590088, "step": 2382 }, { "epoch": 1.5893333333333333, "grad_norm": 20.875, "learning_rate": 1.4275298667173099e-06, "loss": 1.8443596363067627, "step": 2384 }, { "epoch": 1.5906666666666667, "grad_norm": 9.5625, "learning_rate": 1.424865112845092e-06, "loss": 2.1072330474853516, "step": 2386 }, { "epoch": 1.592, "grad_norm": 1.3515625, "learning_rate": 1.422207702274051e-06, "loss": 1.0557342767715454, "step": 2388 }, { "epoch": 1.5933333333333333, "grad_norm": 6.375, "learning_rate": 1.419557647393073e-06, "loss": 1.6008689403533936, "step": 2390 }, { "epoch": 1.5946666666666667, "grad_norm": 5.5625, "learning_rate": 1.416914960556752e-06, "loss": 1.618016242980957, "step": 2392 }, { "epoch": 1.596, "grad_norm": 4.8125, "learning_rate": 1.4142796540853308e-06, "loss": 1.5180994272232056, "step": 2394 }, { "epoch": 1.5973333333333333, "grad_norm": 10.375, "learning_rate": 1.4116517402646457e-06, "loss": 1.7874457836151123, "step": 2396 }, { "epoch": 1.5986666666666667, "grad_norm": 4.21875, "learning_rate": 1.4090312313460677e-06, "loss": 1.2136869430541992, "step": 2398 }, { "epoch": 1.6, "grad_norm": 6.03125, "learning_rate": 1.4064181395464477e-06, "loss": 1.5290756225585938, "step": 2400 }, { "epoch": 1.6013333333333333, "grad_norm": 11.5, "learning_rate": 1.403812477048056e-06, "loss": 2.132098913192749, "step": 2402 }, { "epoch": 1.6026666666666667, "grad_norm": 16.5, "learning_rate": 1.4012142559985284e-06, "loss": 1.031418800354004, "step": 2404 }, { "epoch": 1.604, "grad_norm": 2.96875, "learning_rate": 1.398623488510808e-06, "loss": 1.2537906169891357, "step": 2406 }, { "epoch": 1.6053333333333333, "grad_norm": 3.515625, "learning_rate": 1.3960401866630895e-06, "loss": 1.501905083656311, "step": 2408 }, { "epoch": 1.6066666666666667, "grad_norm": 7.125, "learning_rate": 1.3934643624987628e-06, "loss": 1.5386528968811035, "step": 2410 }, { "epoch": 1.608, "grad_norm": 4.5, "learning_rate": 1.390896028026357e-06, "loss": 1.5996134281158447, "step": 2412 }, { "epoch": 1.6093333333333333, "grad_norm": 2.03125, "learning_rate": 1.3883351952194834e-06, "loss": 1.073486089706421, "step": 2414 }, { "epoch": 1.6106666666666667, "grad_norm": 4.65625, "learning_rate": 1.3857818760167815e-06, "loss": 1.541170358657837, "step": 2416 }, { "epoch": 1.612, "grad_norm": 6.625, "learning_rate": 1.383236082321861e-06, "loss": 1.6134498119354248, "step": 2418 }, { "epoch": 1.6133333333333333, "grad_norm": 10.75, "learning_rate": 1.3806978260032483e-06, "loss": 1.8399434089660645, "step": 2420 }, { "epoch": 1.6146666666666667, "grad_norm": 8.25, "learning_rate": 1.3781671188943306e-06, "loss": 1.7731807231903076, "step": 2422 }, { "epoch": 1.616, "grad_norm": 6.71875, "learning_rate": 1.3756439727933e-06, "loss": 1.5749328136444092, "step": 2424 }, { "epoch": 1.6173333333333333, "grad_norm": 6.34375, "learning_rate": 1.3731283994630994e-06, "loss": 1.8089914321899414, "step": 2426 }, { "epoch": 1.6186666666666667, "grad_norm": 11.5625, "learning_rate": 1.3706204106313677e-06, "loss": 1.8553075790405273, "step": 2428 }, { "epoch": 1.62, "grad_norm": 5.65625, "learning_rate": 1.3681200179903841e-06, "loss": 1.5557477474212646, "step": 2430 }, { "epoch": 1.6213333333333333, "grad_norm": 9.5, "learning_rate": 1.3656272331970147e-06, "loss": 2.0387516021728516, "step": 2432 }, { "epoch": 1.6226666666666667, "grad_norm": 7.53125, "learning_rate": 1.3631420678726575e-06, "loss": 1.1420713663101196, "step": 2434 }, { "epoch": 1.624, "grad_norm": 15.125, "learning_rate": 1.3606645336031884e-06, "loss": 0.822184681892395, "step": 2436 }, { "epoch": 1.6253333333333333, "grad_norm": 4.40625, "learning_rate": 1.3581946419389071e-06, "loss": 1.5058057308197021, "step": 2438 }, { "epoch": 1.6266666666666667, "grad_norm": 11.0625, "learning_rate": 1.3557324043944842e-06, "loss": 1.9923133850097656, "step": 2440 }, { "epoch": 1.6280000000000001, "grad_norm": 6.6875, "learning_rate": 1.3532778324489057e-06, "loss": 1.6043286323547363, "step": 2442 }, { "epoch": 1.6293333333333333, "grad_norm": 12.25, "learning_rate": 1.3508309375454203e-06, "loss": 1.7089390754699707, "step": 2444 }, { "epoch": 1.6306666666666667, "grad_norm": 10.375, "learning_rate": 1.3483917310914874e-06, "loss": 1.5101563930511475, "step": 2446 }, { "epoch": 1.6320000000000001, "grad_norm": 4.3125, "learning_rate": 1.3459602244587213e-06, "loss": 1.580566644668579, "step": 2448 }, { "epoch": 1.6333333333333333, "grad_norm": 1.8515625, "learning_rate": 1.3435364289828417e-06, "loss": 1.1323513984680176, "step": 2450 }, { "epoch": 1.6346666666666667, "grad_norm": 2.78125, "learning_rate": 1.3411203559636167e-06, "loss": 1.149007797241211, "step": 2452 }, { "epoch": 1.6360000000000001, "grad_norm": 11.875, "learning_rate": 1.338712016664813e-06, "loss": 1.757912278175354, "step": 2454 }, { "epoch": 1.6373333333333333, "grad_norm": 1.8984375, "learning_rate": 1.3363114223141424e-06, "loss": 1.1383402347564697, "step": 2456 }, { "epoch": 1.6386666666666667, "grad_norm": 8.25, "learning_rate": 1.3339185841032098e-06, "loss": 1.2369120121002197, "step": 2458 }, { "epoch": 1.6400000000000001, "grad_norm": 10.5, "learning_rate": 1.3315335131874615e-06, "loss": 1.1226749420166016, "step": 2460 }, { "epoch": 1.6413333333333333, "grad_norm": 6.65625, "learning_rate": 1.3291562206861313e-06, "loss": 2.066049814224243, "step": 2462 }, { "epoch": 1.6426666666666667, "grad_norm": 6.21875, "learning_rate": 1.3267867176821905e-06, "loss": 1.8269095420837402, "step": 2464 }, { "epoch": 1.6440000000000001, "grad_norm": 13.75, "learning_rate": 1.3244250152222962e-06, "loss": 1.9400553703308105, "step": 2466 }, { "epoch": 1.6453333333333333, "grad_norm": 10.125, "learning_rate": 1.3220711243167383e-06, "loss": 1.5360229015350342, "step": 2468 }, { "epoch": 1.6466666666666665, "grad_norm": 5.3125, "learning_rate": 1.3197250559393898e-06, "loss": 1.47464919090271, "step": 2470 }, { "epoch": 1.6480000000000001, "grad_norm": 47.0, "learning_rate": 1.3173868210276546e-06, "loss": 1.0298049449920654, "step": 2472 }, { "epoch": 1.6493333333333333, "grad_norm": 10.625, "learning_rate": 1.3150564304824173e-06, "loss": 1.9129880666732788, "step": 2474 }, { "epoch": 1.6506666666666665, "grad_norm": 10.6875, "learning_rate": 1.3127338951679914e-06, "loss": 1.8743722438812256, "step": 2476 }, { "epoch": 1.6520000000000001, "grad_norm": 20.125, "learning_rate": 1.3104192259120696e-06, "loss": 1.9373652935028076, "step": 2478 }, { "epoch": 1.6533333333333333, "grad_norm": 3.34375, "learning_rate": 1.3081124335056724e-06, "loss": 1.0924056768417358, "step": 2480 }, { "epoch": 1.6546666666666665, "grad_norm": 3.5625, "learning_rate": 1.3058135287030994e-06, "loss": 1.5548295974731445, "step": 2482 }, { "epoch": 1.6560000000000001, "grad_norm": 3.296875, "learning_rate": 1.3035225222218763e-06, "loss": 1.1189805269241333, "step": 2484 }, { "epoch": 1.6573333333333333, "grad_norm": 6.96875, "learning_rate": 1.3012394247427094e-06, "loss": 1.9380686283111572, "step": 2486 }, { "epoch": 1.6586666666666665, "grad_norm": 1.953125, "learning_rate": 1.29896424690943e-06, "loss": 0.9920519590377808, "step": 2488 }, { "epoch": 1.6600000000000001, "grad_norm": 4.0, "learning_rate": 1.29669699932895e-06, "loss": 1.6043567657470703, "step": 2490 }, { "epoch": 1.6613333333333333, "grad_norm": 55.5, "learning_rate": 1.2944376925712098e-06, "loss": 1.60878324508667, "step": 2492 }, { "epoch": 1.6626666666666665, "grad_norm": 10.5, "learning_rate": 1.29218633716913e-06, "loss": 1.898872971534729, "step": 2494 }, { "epoch": 1.6640000000000001, "grad_norm": 8.625, "learning_rate": 1.2899429436185606e-06, "loss": 1.1359686851501465, "step": 2496 }, { "epoch": 1.6653333333333333, "grad_norm": 7.0, "learning_rate": 1.2877075223782349e-06, "loss": 1.8120665550231934, "step": 2498 }, { "epoch": 1.6666666666666665, "grad_norm": 5.5, "learning_rate": 1.2854800838697178e-06, "loss": 1.6861441135406494, "step": 2500 }, { "epoch": 1.6680000000000001, "grad_norm": 9.4375, "learning_rate": 1.2832606384773588e-06, "loss": 1.9833118915557861, "step": 2502 }, { "epoch": 1.6693333333333333, "grad_norm": 2.15625, "learning_rate": 1.2810491965482453e-06, "loss": 1.1113640069961548, "step": 2504 }, { "epoch": 1.6706666666666665, "grad_norm": 5.125, "learning_rate": 1.2788457683921495e-06, "loss": 1.5374150276184082, "step": 2506 }, { "epoch": 1.6720000000000002, "grad_norm": 8.75, "learning_rate": 1.2766503642814853e-06, "loss": 1.532484769821167, "step": 2508 }, { "epoch": 1.6733333333333333, "grad_norm": 9.25, "learning_rate": 1.2744629944512581e-06, "loss": 1.9680659770965576, "step": 2510 }, { "epoch": 1.6746666666666665, "grad_norm": 4.90625, "learning_rate": 1.2722836690990167e-06, "loss": 1.4476611614227295, "step": 2512 }, { "epoch": 1.6760000000000002, "grad_norm": 10.3125, "learning_rate": 1.2701123983848066e-06, "loss": 2.006901264190674, "step": 2514 }, { "epoch": 1.6773333333333333, "grad_norm": 15.0, "learning_rate": 1.2679491924311227e-06, "loss": 1.826201319694519, "step": 2516 }, { "epoch": 1.6786666666666665, "grad_norm": 9.75, "learning_rate": 1.2657940613228625e-06, "loss": 2.085049629211426, "step": 2518 }, { "epoch": 1.6800000000000002, "grad_norm": 2.921875, "learning_rate": 1.2636470151072766e-06, "loss": 1.2014029026031494, "step": 2520 }, { "epoch": 1.6813333333333333, "grad_norm": 13.4375, "learning_rate": 1.261508063793926e-06, "loss": 1.615051031112671, "step": 2522 }, { "epoch": 1.6826666666666665, "grad_norm": 4.5625, "learning_rate": 1.2593772173546315e-06, "loss": 1.611379861831665, "step": 2524 }, { "epoch": 1.6840000000000002, "grad_norm": 1.921875, "learning_rate": 1.2572544857234294e-06, "loss": 1.1507315635681152, "step": 2526 }, { "epoch": 1.6853333333333333, "grad_norm": 2.484375, "learning_rate": 1.2551398787965249e-06, "loss": 1.275776982307434, "step": 2528 }, { "epoch": 1.6866666666666665, "grad_norm": 13.1875, "learning_rate": 1.2530334064322455e-06, "loss": 1.2164192199707031, "step": 2530 }, { "epoch": 1.688, "grad_norm": 5.53125, "learning_rate": 1.250935078450995e-06, "loss": 1.5331335067749023, "step": 2532 }, { "epoch": 1.6893333333333334, "grad_norm": 13.0, "learning_rate": 1.248844904635208e-06, "loss": 1.6550445556640625, "step": 2534 }, { "epoch": 1.6906666666666665, "grad_norm": 6.96875, "learning_rate": 1.2467628947293048e-06, "loss": 1.9799119234085083, "step": 2536 }, { "epoch": 1.692, "grad_norm": 4.65625, "learning_rate": 1.2446890584396453e-06, "loss": 1.5746979713439941, "step": 2538 }, { "epoch": 1.6933333333333334, "grad_norm": 11.125, "learning_rate": 1.242623405434483e-06, "loss": 1.7918205261230469, "step": 2540 }, { "epoch": 1.6946666666666665, "grad_norm": 13.375, "learning_rate": 1.2405659453439223e-06, "loss": 1.6811120510101318, "step": 2542 }, { "epoch": 1.696, "grad_norm": 4.84375, "learning_rate": 1.2385166877598709e-06, "loss": 1.591151475906372, "step": 2544 }, { "epoch": 1.6973333333333334, "grad_norm": 29.125, "learning_rate": 1.236475642235997e-06, "loss": 0.6545977592468262, "step": 2546 }, { "epoch": 1.6986666666666665, "grad_norm": 5.53125, "learning_rate": 1.2344428182876834e-06, "loss": 1.7109073400497437, "step": 2548 }, { "epoch": 1.7, "grad_norm": 2.234375, "learning_rate": 1.2324182253919842e-06, "loss": 1.4369351863861084, "step": 2550 }, { "epoch": 1.7013333333333334, "grad_norm": 40.5, "learning_rate": 1.2304018729875806e-06, "loss": 1.494368076324463, "step": 2552 }, { "epoch": 1.7026666666666666, "grad_norm": 1.84375, "learning_rate": 1.2283937704747353e-06, "loss": 1.085021734237671, "step": 2554 }, { "epoch": 1.704, "grad_norm": 4.3125, "learning_rate": 1.2263939272152513e-06, "loss": 1.5085113048553467, "step": 2556 }, { "epoch": 1.7053333333333334, "grad_norm": 11.4375, "learning_rate": 1.2244023525324266e-06, "loss": 2.0440781116485596, "step": 2558 }, { "epoch": 1.7066666666666666, "grad_norm": 9.875, "learning_rate": 1.2224190557110097e-06, "loss": 1.5847303867340088, "step": 2560 }, { "epoch": 1.708, "grad_norm": 3.375, "learning_rate": 1.220444045997159e-06, "loss": 1.0622501373291016, "step": 2562 }, { "epoch": 1.7093333333333334, "grad_norm": 1.6484375, "learning_rate": 1.2184773325983976e-06, "loss": 1.0417931079864502, "step": 2564 }, { "epoch": 1.7106666666666666, "grad_norm": 18.375, "learning_rate": 1.2165189246835716e-06, "loss": 1.0322291851043701, "step": 2566 }, { "epoch": 1.712, "grad_norm": 16.625, "learning_rate": 1.2145688313828058e-06, "loss": 1.9865806102752686, "step": 2568 }, { "epoch": 1.7133333333333334, "grad_norm": 5.59375, "learning_rate": 1.212627061787464e-06, "loss": 1.5734801292419434, "step": 2570 }, { "epoch": 1.7146666666666666, "grad_norm": 20.5, "learning_rate": 1.2106936249501023e-06, "loss": 1.7474571466445923, "step": 2572 }, { "epoch": 1.716, "grad_norm": 11.5625, "learning_rate": 1.2087685298844312e-06, "loss": 1.8723552227020264, "step": 2574 }, { "epoch": 1.7173333333333334, "grad_norm": 35.0, "learning_rate": 1.2068517855652712e-06, "loss": 1.7286386489868164, "step": 2576 }, { "epoch": 1.7186666666666666, "grad_norm": 6.40625, "learning_rate": 1.2049434009285116e-06, "loss": 1.5056369304656982, "step": 2578 }, { "epoch": 1.72, "grad_norm": 7.0, "learning_rate": 1.2030433848710684e-06, "loss": 1.538612961769104, "step": 2580 }, { "epoch": 1.7213333333333334, "grad_norm": 5.9375, "learning_rate": 1.2011517462508432e-06, "loss": 1.5303728580474854, "step": 2582 }, { "epoch": 1.7226666666666666, "grad_norm": 6.15625, "learning_rate": 1.1992684938866826e-06, "loss": 2.1096715927124023, "step": 2584 }, { "epoch": 1.724, "grad_norm": 8.125, "learning_rate": 1.1973936365583357e-06, "loss": 1.557473063468933, "step": 2586 }, { "epoch": 1.7253333333333334, "grad_norm": 3.765625, "learning_rate": 1.1955271830064138e-06, "loss": 1.5712800025939941, "step": 2588 }, { "epoch": 1.7266666666666666, "grad_norm": 6.5, "learning_rate": 1.1936691419323498e-06, "loss": 1.5366168022155762, "step": 2590 }, { "epoch": 1.728, "grad_norm": 30.625, "learning_rate": 1.1918195219983574e-06, "loss": 0.6057420969009399, "step": 2592 }, { "epoch": 1.7293333333333334, "grad_norm": 4.125, "learning_rate": 1.1899783318273914e-06, "loss": 1.158643126487732, "step": 2594 }, { "epoch": 1.7306666666666666, "grad_norm": 10.625, "learning_rate": 1.1881455800031064e-06, "loss": 1.5761902332305908, "step": 2596 }, { "epoch": 1.732, "grad_norm": 5.40625, "learning_rate": 1.186321275069817e-06, "loss": 1.595426082611084, "step": 2598 }, { "epoch": 1.7333333333333334, "grad_norm": 1.1796875, "learning_rate": 1.184505425532459e-06, "loss": 1.0814518928527832, "step": 2600 }, { "epoch": 1.7346666666666666, "grad_norm": 6.25, "learning_rate": 1.1826980398565486e-06, "loss": 1.4769387245178223, "step": 2602 }, { "epoch": 1.736, "grad_norm": 12.625, "learning_rate": 1.1808991264681435e-06, "loss": 1.9360644817352295, "step": 2604 }, { "epoch": 1.7373333333333334, "grad_norm": 1.59375, "learning_rate": 1.1791086937538032e-06, "loss": 1.1510602235794067, "step": 2606 }, { "epoch": 1.7386666666666666, "grad_norm": 4.875, "learning_rate": 1.1773267500605506e-06, "loss": 1.640676736831665, "step": 2608 }, { "epoch": 1.74, "grad_norm": 5.4375, "learning_rate": 1.1755533036958324e-06, "loss": 1.586723804473877, "step": 2610 }, { "epoch": 1.7413333333333334, "grad_norm": 2.1875, "learning_rate": 1.173788362927481e-06, "loss": 1.03817617893219, "step": 2612 }, { "epoch": 1.7426666666666666, "grad_norm": 15.875, "learning_rate": 1.1720319359836747e-06, "loss": 1.5527381896972656, "step": 2614 }, { "epoch": 1.744, "grad_norm": 7.375, "learning_rate": 1.1702840310529013e-06, "loss": 1.6147454977035522, "step": 2616 }, { "epoch": 1.7453333333333334, "grad_norm": 8.0, "learning_rate": 1.168544656283918e-06, "loss": 1.6725919246673584, "step": 2618 }, { "epoch": 1.7466666666666666, "grad_norm": 7.53125, "learning_rate": 1.1668138197857148e-06, "loss": 1.081732988357544, "step": 2620 }, { "epoch": 1.748, "grad_norm": 4.5625, "learning_rate": 1.1650915296274762e-06, "loss": 1.1363911628723145, "step": 2622 }, { "epoch": 1.7493333333333334, "grad_norm": 4.875, "learning_rate": 1.1633777938385429e-06, "loss": 1.5501255989074707, "step": 2624 }, { "epoch": 1.7506666666666666, "grad_norm": 2.484375, "learning_rate": 1.161672620408376e-06, "loss": 1.2060632705688477, "step": 2626 }, { "epoch": 1.752, "grad_norm": 5.0625, "learning_rate": 1.1599760172865176e-06, "loss": 1.5151984691619873, "step": 2628 }, { "epoch": 1.7533333333333334, "grad_norm": 2.765625, "learning_rate": 1.1582879923825561e-06, "loss": 1.1503922939300537, "step": 2630 }, { "epoch": 1.7546666666666666, "grad_norm": 7.21875, "learning_rate": 1.1566085535660872e-06, "loss": 1.9271504878997803, "step": 2632 }, { "epoch": 1.756, "grad_norm": 2.25, "learning_rate": 1.154937708666678e-06, "loss": 1.130241870880127, "step": 2634 }, { "epoch": 1.7573333333333334, "grad_norm": 5.0625, "learning_rate": 1.153275465473832e-06, "loss": 1.7080326080322266, "step": 2636 }, { "epoch": 1.7586666666666666, "grad_norm": 4.5, "learning_rate": 1.1516218317369506e-06, "loss": 1.5953943729400635, "step": 2638 }, { "epoch": 1.76, "grad_norm": 7.1875, "learning_rate": 1.149976815165297e-06, "loss": 1.6334452629089355, "step": 2640 }, { "epoch": 1.7613333333333334, "grad_norm": 4.6875, "learning_rate": 1.1483404234279622e-06, "loss": 1.616743564605713, "step": 2642 }, { "epoch": 1.7626666666666666, "grad_norm": 2.6875, "learning_rate": 1.1467126641538273e-06, "loss": 1.1109144687652588, "step": 2644 }, { "epoch": 1.764, "grad_norm": 15.6875, "learning_rate": 1.1450935449315295e-06, "loss": 2.251559019088745, "step": 2646 }, { "epoch": 1.7653333333333334, "grad_norm": 11.25, "learning_rate": 1.1434830733094256e-06, "loss": 1.9472830295562744, "step": 2648 }, { "epoch": 1.7666666666666666, "grad_norm": 1.625, "learning_rate": 1.1418812567955569e-06, "loss": 1.1540098190307617, "step": 2650 }, { "epoch": 1.768, "grad_norm": 11.125, "learning_rate": 1.1402881028576147e-06, "loss": 2.0404562950134277, "step": 2652 }, { "epoch": 1.7693333333333334, "grad_norm": 7.5625, "learning_rate": 1.1387036189229055e-06, "loss": 1.558046579360962, "step": 2654 }, { "epoch": 1.7706666666666666, "grad_norm": 8.5625, "learning_rate": 1.1371278123783156e-06, "loss": 1.9174463748931885, "step": 2656 }, { "epoch": 1.772, "grad_norm": 11.1875, "learning_rate": 1.1355606905702775e-06, "loss": 1.5161430835723877, "step": 2658 }, { "epoch": 1.7733333333333334, "grad_norm": 6.625, "learning_rate": 1.1340022608047357e-06, "loss": 1.64548659324646, "step": 2660 }, { "epoch": 1.7746666666666666, "grad_norm": 7.0, "learning_rate": 1.1324525303471113e-06, "loss": 1.71232271194458, "step": 2662 }, { "epoch": 1.776, "grad_norm": 10.625, "learning_rate": 1.1309115064222697e-06, "loss": 1.7835891246795654, "step": 2664 }, { "epoch": 1.7773333333333334, "grad_norm": 7.8125, "learning_rate": 1.1293791962144868e-06, "loss": 2.010854721069336, "step": 2666 }, { "epoch": 1.7786666666666666, "grad_norm": 6.375, "learning_rate": 1.127855606867414e-06, "loss": 1.7522506713867188, "step": 2668 }, { "epoch": 1.78, "grad_norm": 1.7734375, "learning_rate": 1.1263407454840465e-06, "loss": 1.1171356439590454, "step": 2670 }, { "epoch": 1.7813333333333334, "grad_norm": 3.765625, "learning_rate": 1.12483461912669e-06, "loss": 1.498163104057312, "step": 2672 }, { "epoch": 1.7826666666666666, "grad_norm": 2.046875, "learning_rate": 1.123337234816926e-06, "loss": 1.2884820699691772, "step": 2674 }, { "epoch": 1.784, "grad_norm": 6.59375, "learning_rate": 1.1218485995355823e-06, "loss": 1.5873327255249023, "step": 2676 }, { "epoch": 1.7853333333333334, "grad_norm": 10.625, "learning_rate": 1.1203687202226976e-06, "loss": 1.5103931427001953, "step": 2678 }, { "epoch": 1.7866666666666666, "grad_norm": 4.71875, "learning_rate": 1.1188976037774897e-06, "loss": 1.0384002923965454, "step": 2680 }, { "epoch": 1.788, "grad_norm": 4.9375, "learning_rate": 1.117435257058325e-06, "loss": 1.5868349075317383, "step": 2682 }, { "epoch": 1.7893333333333334, "grad_norm": 5.09375, "learning_rate": 1.1159816868826838e-06, "loss": 1.6466984748840332, "step": 2684 }, { "epoch": 1.7906666666666666, "grad_norm": 10.25, "learning_rate": 1.1145369000271316e-06, "loss": 2.061450719833374, "step": 2686 }, { "epoch": 1.792, "grad_norm": 24.75, "learning_rate": 1.113100903227285e-06, "loss": 1.8428632020950317, "step": 2688 }, { "epoch": 1.7933333333333334, "grad_norm": 3.4375, "learning_rate": 1.1116737031777813e-06, "loss": 1.237999439239502, "step": 2690 }, { "epoch": 1.7946666666666666, "grad_norm": 12.875, "learning_rate": 1.1102553065322478e-06, "loss": 1.7113702297210693, "step": 2692 }, { "epoch": 1.796, "grad_norm": 5.09375, "learning_rate": 1.108845719903269e-06, "loss": 1.8466413021087646, "step": 2694 }, { "epoch": 1.7973333333333334, "grad_norm": 9.875, "learning_rate": 1.1074449498623586e-06, "loss": 1.71107816696167, "step": 2696 }, { "epoch": 1.7986666666666666, "grad_norm": 8.4375, "learning_rate": 1.1060530029399259e-06, "loss": 1.8808412551879883, "step": 2698 }, { "epoch": 1.8, "grad_norm": 2.90625, "learning_rate": 1.1046698856252468e-06, "loss": 1.0465705394744873, "step": 2700 }, { "epoch": 1.8013333333333335, "grad_norm": 2.65625, "learning_rate": 1.1032956043664347e-06, "loss": 1.0618107318878174, "step": 2702 }, { "epoch": 1.8026666666666666, "grad_norm": 8.0625, "learning_rate": 1.101930165570408e-06, "loss": 1.6237022876739502, "step": 2704 }, { "epoch": 1.804, "grad_norm": 7.59375, "learning_rate": 1.1005735756028614e-06, "loss": 1.8877501487731934, "step": 2706 }, { "epoch": 1.8053333333333335, "grad_norm": 8.1875, "learning_rate": 1.099225840788237e-06, "loss": 1.4899542331695557, "step": 2708 }, { "epoch": 1.8066666666666666, "grad_norm": 3.609375, "learning_rate": 1.097886967409693e-06, "loss": 1.4635686874389648, "step": 2710 }, { "epoch": 1.808, "grad_norm": 35.25, "learning_rate": 1.0965569617090768e-06, "loss": 1.7736328840255737, "step": 2712 }, { "epoch": 1.8093333333333335, "grad_norm": 4.09375, "learning_rate": 1.0952358298868936e-06, "loss": 1.506758451461792, "step": 2714 }, { "epoch": 1.8106666666666666, "grad_norm": 4.8125, "learning_rate": 1.0939235781022784e-06, "loss": 1.5824058055877686, "step": 2716 }, { "epoch": 1.812, "grad_norm": 4.59375, "learning_rate": 1.092620212472968e-06, "loss": 1.6231698989868164, "step": 2718 }, { "epoch": 1.8133333333333335, "grad_norm": 6.375, "learning_rate": 1.0913257390752713e-06, "loss": 1.5913381576538086, "step": 2720 }, { "epoch": 1.8146666666666667, "grad_norm": 9.75, "learning_rate": 1.0900401639440416e-06, "loss": 1.8220431804656982, "step": 2722 }, { "epoch": 1.8159999999999998, "grad_norm": 16.625, "learning_rate": 1.0887634930726484e-06, "loss": 1.6188863515853882, "step": 2724 }, { "epoch": 1.8173333333333335, "grad_norm": 4.4375, "learning_rate": 1.087495732412949e-06, "loss": 1.551790714263916, "step": 2726 }, { "epoch": 1.8186666666666667, "grad_norm": 5.21875, "learning_rate": 1.0862368878752624e-06, "loss": 1.6060757637023926, "step": 2728 }, { "epoch": 1.8199999999999998, "grad_norm": 6.9375, "learning_rate": 1.0849869653283392e-06, "loss": 1.3745307922363281, "step": 2730 }, { "epoch": 1.8213333333333335, "grad_norm": 5.5625, "learning_rate": 1.0837459705993362e-06, "loss": 1.1677099466323853, "step": 2732 }, { "epoch": 1.8226666666666667, "grad_norm": 3.8125, "learning_rate": 1.0825139094737883e-06, "loss": 1.1494688987731934, "step": 2734 }, { "epoch": 1.8239999999999998, "grad_norm": 1.7890625, "learning_rate": 1.081290787695582e-06, "loss": 1.2367225885391235, "step": 2736 }, { "epoch": 1.8253333333333335, "grad_norm": 6.5, "learning_rate": 1.080076610966928e-06, "loss": 1.8836338520050049, "step": 2738 }, { "epoch": 1.8266666666666667, "grad_norm": 7.53125, "learning_rate": 1.0788713849483363e-06, "loss": 2.0381829738616943, "step": 2740 }, { "epoch": 1.8279999999999998, "grad_norm": 5.9375, "learning_rate": 1.0776751152585866e-06, "loss": 1.1025861501693726, "step": 2742 }, { "epoch": 1.8293333333333335, "grad_norm": 4.71875, "learning_rate": 1.076487807474706e-06, "loss": 1.677769422531128, "step": 2744 }, { "epoch": 1.8306666666666667, "grad_norm": 15.375, "learning_rate": 1.0753094671319398e-06, "loss": 1.6080399751663208, "step": 2746 }, { "epoch": 1.8319999999999999, "grad_norm": 6.46875, "learning_rate": 1.0741400997237275e-06, "loss": 1.648935317993164, "step": 2748 }, { "epoch": 1.8333333333333335, "grad_norm": 7.9375, "learning_rate": 1.0729797107016766e-06, "loss": 1.6360926628112793, "step": 2750 }, { "epoch": 1.8346666666666667, "grad_norm": 6.8125, "learning_rate": 1.0718283054755373e-06, "loss": 1.93143630027771, "step": 2752 }, { "epoch": 1.8359999999999999, "grad_norm": 11.3125, "learning_rate": 1.0706858894131767e-06, "loss": 1.8639891147613525, "step": 2754 }, { "epoch": 1.8373333333333335, "grad_norm": 4.15625, "learning_rate": 1.069552467840555e-06, "loss": 1.6008312702178955, "step": 2756 }, { "epoch": 1.8386666666666667, "grad_norm": 4.34375, "learning_rate": 1.0684280460416991e-06, "loss": 1.6185994148254395, "step": 2758 }, { "epoch": 1.8399999999999999, "grad_norm": 5.65625, "learning_rate": 1.0673126292586806e-06, "loss": 2.011725902557373, "step": 2760 }, { "epoch": 1.8413333333333335, "grad_norm": 4.15625, "learning_rate": 1.066206222691587e-06, "loss": 1.4604053497314453, "step": 2762 }, { "epoch": 1.8426666666666667, "grad_norm": 5.40625, "learning_rate": 1.065108831498502e-06, "loss": 1.4645023345947266, "step": 2764 }, { "epoch": 1.8439999999999999, "grad_norm": 3.625, "learning_rate": 1.0640204607954785e-06, "loss": 1.495434045791626, "step": 2766 }, { "epoch": 1.8453333333333335, "grad_norm": 5.40625, "learning_rate": 1.062941115656517e-06, "loss": 1.0852596759796143, "step": 2768 }, { "epoch": 1.8466666666666667, "grad_norm": 2.703125, "learning_rate": 1.0618708011135393e-06, "loss": 1.0549116134643555, "step": 2770 }, { "epoch": 1.8479999999999999, "grad_norm": 3.515625, "learning_rate": 1.060809522156367e-06, "loss": 1.0271042585372925, "step": 2772 }, { "epoch": 1.8493333333333335, "grad_norm": 5.9375, "learning_rate": 1.0597572837326978e-06, "loss": 1.6348028182983398, "step": 2774 }, { "epoch": 1.8506666666666667, "grad_norm": 4.3125, "learning_rate": 1.058714090748082e-06, "loss": 1.5930371284484863, "step": 2776 }, { "epoch": 1.8519999999999999, "grad_norm": 5.5625, "learning_rate": 1.0576799480658997e-06, "loss": 1.5753302574157715, "step": 2778 }, { "epoch": 1.8533333333333335, "grad_norm": 5.5625, "learning_rate": 1.0566548605073396e-06, "loss": 1.590511679649353, "step": 2780 }, { "epoch": 1.8546666666666667, "grad_norm": 12.5, "learning_rate": 1.055638832851374e-06, "loss": 0.809339165687561, "step": 2782 }, { "epoch": 1.8559999999999999, "grad_norm": 5.0, "learning_rate": 1.054631869834738e-06, "loss": 1.6788489818572998, "step": 2784 }, { "epoch": 1.8573333333333333, "grad_norm": 2.03125, "learning_rate": 1.0536339761519077e-06, "loss": 1.0987229347229004, "step": 2786 }, { "epoch": 1.8586666666666667, "grad_norm": 6.625, "learning_rate": 1.0526451564550778e-06, "loss": 1.648554801940918, "step": 2788 }, { "epoch": 1.8599999999999999, "grad_norm": 1.46875, "learning_rate": 1.0516654153541392e-06, "loss": 1.1031792163848877, "step": 2790 }, { "epoch": 1.8613333333333333, "grad_norm": 6.34375, "learning_rate": 1.0506947574166596e-06, "loss": 1.8444862365722656, "step": 2792 }, { "epoch": 1.8626666666666667, "grad_norm": 9.875, "learning_rate": 1.0497331871678592e-06, "loss": 1.3348501920700073, "step": 2794 }, { "epoch": 1.8639999999999999, "grad_norm": 6.46875, "learning_rate": 1.0487807090905927e-06, "loss": 1.156570315361023, "step": 2796 }, { "epoch": 1.8653333333333333, "grad_norm": 2.625, "learning_rate": 1.0478373276253262e-06, "loss": 1.2651017904281616, "step": 2798 }, { "epoch": 1.8666666666666667, "grad_norm": 3.421875, "learning_rate": 1.0469030471701177e-06, "loss": 1.0961531400680542, "step": 2800 }, { "epoch": 1.8679999999999999, "grad_norm": 2.75, "learning_rate": 1.0459778720805956e-06, "loss": 1.1647145748138428, "step": 2802 }, { "epoch": 1.8693333333333333, "grad_norm": 9.0625, "learning_rate": 1.0450618066699392e-06, "loss": 2.051912784576416, "step": 2804 }, { "epoch": 1.8706666666666667, "grad_norm": 5.25, "learning_rate": 1.044154855208859e-06, "loss": 1.5181958675384521, "step": 2806 }, { "epoch": 1.8719999999999999, "grad_norm": 6.1875, "learning_rate": 1.043257021925575e-06, "loss": 1.5700154304504395, "step": 2808 }, { "epoch": 1.8733333333333333, "grad_norm": 8.0625, "learning_rate": 1.042368311005799e-06, "loss": 1.986337423324585, "step": 2810 }, { "epoch": 1.8746666666666667, "grad_norm": 10.8125, "learning_rate": 1.041488726592714e-06, "loss": 1.1347825527191162, "step": 2812 }, { "epoch": 1.876, "grad_norm": 7.90625, "learning_rate": 1.0406182727869546e-06, "loss": 1.611783504486084, "step": 2814 }, { "epoch": 1.8773333333333333, "grad_norm": 8.9375, "learning_rate": 1.039756953646589e-06, "loss": 1.8373312950134277, "step": 2816 }, { "epoch": 1.8786666666666667, "grad_norm": 14.9375, "learning_rate": 1.0389047731870992e-06, "loss": 1.55556058883667, "step": 2818 }, { "epoch": 1.88, "grad_norm": 3.84375, "learning_rate": 1.0380617353813627e-06, "loss": 1.0587745904922485, "step": 2820 }, { "epoch": 1.8813333333333333, "grad_norm": 2.671875, "learning_rate": 1.0372278441596337e-06, "loss": 1.1342324018478394, "step": 2822 }, { "epoch": 1.8826666666666667, "grad_norm": 4.96875, "learning_rate": 1.036403103409525e-06, "loss": 1.688795804977417, "step": 2824 }, { "epoch": 1.884, "grad_norm": 2.25, "learning_rate": 1.0355875169759896e-06, "loss": 1.1600544452667236, "step": 2826 }, { "epoch": 1.8853333333333333, "grad_norm": 111.5, "learning_rate": 1.0347810886613026e-06, "loss": 1.9772312641143799, "step": 2828 }, { "epoch": 1.8866666666666667, "grad_norm": 5.0, "learning_rate": 1.033983822225045e-06, "loss": 1.5392059087753296, "step": 2830 }, { "epoch": 1.888, "grad_norm": 5.46875, "learning_rate": 1.0331957213840832e-06, "loss": 1.646643877029419, "step": 2832 }, { "epoch": 1.8893333333333333, "grad_norm": 2.34375, "learning_rate": 1.0324167898125558e-06, "loss": 0.9575203657150269, "step": 2834 }, { "epoch": 1.8906666666666667, "grad_norm": 9.9375, "learning_rate": 1.0316470311418516e-06, "loss": 1.3466911315917969, "step": 2836 }, { "epoch": 1.892, "grad_norm": 5.6875, "learning_rate": 1.0308864489605973e-06, "loss": 1.5627878904342651, "step": 2838 }, { "epoch": 1.8933333333333333, "grad_norm": 5.875, "learning_rate": 1.0301350468146375e-06, "loss": 1.72072434425354, "step": 2840 }, { "epoch": 1.8946666666666667, "grad_norm": 7.8125, "learning_rate": 1.0293928282070194e-06, "loss": 1.5522115230560303, "step": 2842 }, { "epoch": 1.896, "grad_norm": 1.9921875, "learning_rate": 1.0286597965979772e-06, "loss": 1.1265590190887451, "step": 2844 }, { "epoch": 1.8973333333333333, "grad_norm": 5.625, "learning_rate": 1.027935955404914e-06, "loss": 1.7390642166137695, "step": 2846 }, { "epoch": 1.8986666666666667, "grad_norm": 1.8984375, "learning_rate": 1.027221308002388e-06, "loss": 1.1018836498260498, "step": 2848 }, { "epoch": 1.9, "grad_norm": 11.625, "learning_rate": 1.026515857722096e-06, "loss": 1.848306655883789, "step": 2850 }, { "epoch": 1.9013333333333333, "grad_norm": 3.953125, "learning_rate": 1.0258196078528566e-06, "loss": 1.251272201538086, "step": 2852 }, { "epoch": 1.9026666666666667, "grad_norm": 5.71875, "learning_rate": 1.025132561640597e-06, "loss": 1.4891345500946045, "step": 2854 }, { "epoch": 1.904, "grad_norm": 6.53125, "learning_rate": 1.024454722288336e-06, "loss": 1.540061354637146, "step": 2856 }, { "epoch": 1.9053333333333333, "grad_norm": 5.71875, "learning_rate": 1.0237860929561704e-06, "loss": 1.8440475463867188, "step": 2858 }, { "epoch": 1.9066666666666667, "grad_norm": 2.625, "learning_rate": 1.0231266767612594e-06, "loss": 1.0713839530944824, "step": 2860 }, { "epoch": 1.908, "grad_norm": 3.65625, "learning_rate": 1.0224764767778113e-06, "loss": 1.6007473468780518, "step": 2862 }, { "epoch": 1.9093333333333333, "grad_norm": 1.7265625, "learning_rate": 1.021835496037067e-06, "loss": 1.0999369621276855, "step": 2864 }, { "epoch": 1.9106666666666667, "grad_norm": 3.3125, "learning_rate": 1.0212037375272881e-06, "loss": 1.103971242904663, "step": 2866 }, { "epoch": 1.912, "grad_norm": 5.4375, "learning_rate": 1.0205812041937417e-06, "loss": 1.1634551286697388, "step": 2868 }, { "epoch": 1.9133333333333333, "grad_norm": 6.71875, "learning_rate": 1.019967898938687e-06, "loss": 1.581654667854309, "step": 2870 }, { "epoch": 1.9146666666666667, "grad_norm": 9.8125, "learning_rate": 1.0193638246213618e-06, "loss": 1.8337488174438477, "step": 2872 }, { "epoch": 1.916, "grad_norm": 8.375, "learning_rate": 1.018768984057969e-06, "loss": 1.8890583515167236, "step": 2874 }, { "epoch": 1.9173333333333333, "grad_norm": 5.21875, "learning_rate": 1.018183380021664e-06, "loss": 1.5187124013900757, "step": 2876 }, { "epoch": 1.9186666666666667, "grad_norm": 4.6875, "learning_rate": 1.0176070152425413e-06, "loss": 1.6645336151123047, "step": 2878 }, { "epoch": 1.92, "grad_norm": 8.75, "learning_rate": 1.017039892407621e-06, "loss": 1.8335323333740234, "step": 2880 }, { "epoch": 1.9213333333333333, "grad_norm": 7.21875, "learning_rate": 1.0164820141608383e-06, "loss": 1.634657621383667, "step": 2882 }, { "epoch": 1.9226666666666667, "grad_norm": 27.5, "learning_rate": 1.0159333831030292e-06, "loss": 1.8966856002807617, "step": 2884 }, { "epoch": 1.924, "grad_norm": 2.390625, "learning_rate": 1.0153940017919197e-06, "loss": 1.0390410423278809, "step": 2886 }, { "epoch": 1.9253333333333333, "grad_norm": 9.875, "learning_rate": 1.014863872742113e-06, "loss": 2.089475154876709, "step": 2888 }, { "epoch": 1.9266666666666667, "grad_norm": 12.4375, "learning_rate": 1.0143429984250785e-06, "loss": 1.8373076915740967, "step": 2890 }, { "epoch": 1.928, "grad_norm": 9.375, "learning_rate": 1.0138313812691392e-06, "loss": 1.692418098449707, "step": 2892 }, { "epoch": 1.9293333333333333, "grad_norm": 6.28125, "learning_rate": 1.013329023659462e-06, "loss": 1.9604231119155884, "step": 2894 }, { "epoch": 1.9306666666666668, "grad_norm": 5.125, "learning_rate": 1.012835927938045e-06, "loss": 1.1355175971984863, "step": 2896 }, { "epoch": 1.932, "grad_norm": 8.3125, "learning_rate": 1.012352096403707e-06, "loss": 1.9712469577789307, "step": 2898 }, { "epoch": 1.9333333333333333, "grad_norm": 5.84375, "learning_rate": 1.0118775313120784e-06, "loss": 1.6969237327575684, "step": 2900 }, { "epoch": 1.9346666666666668, "grad_norm": 4.84375, "learning_rate": 1.0114122348755876e-06, "loss": 0.9692869186401367, "step": 2902 }, { "epoch": 1.936, "grad_norm": 6.0625, "learning_rate": 1.0109562092634535e-06, "loss": 1.644775629043579, "step": 2904 }, { "epoch": 1.9373333333333334, "grad_norm": 4.46875, "learning_rate": 1.010509456601674e-06, "loss": 1.5736973285675049, "step": 2906 }, { "epoch": 1.9386666666666668, "grad_norm": 2.4375, "learning_rate": 1.0100719789730163e-06, "loss": 1.3084485530853271, "step": 2908 }, { "epoch": 1.94, "grad_norm": 17.25, "learning_rate": 1.009643778417007e-06, "loss": 2.2242865562438965, "step": 2910 }, { "epoch": 1.9413333333333334, "grad_norm": 5.0, "learning_rate": 1.0092248569299238e-06, "loss": 1.4924943447113037, "step": 2912 }, { "epoch": 1.9426666666666668, "grad_norm": 2.96875, "learning_rate": 1.0088152164647842e-06, "loss": 1.2267329692840576, "step": 2914 }, { "epoch": 1.944, "grad_norm": 13.875, "learning_rate": 1.008414858931338e-06, "loss": 1.8327943086624146, "step": 2916 }, { "epoch": 1.9453333333333334, "grad_norm": 2.890625, "learning_rate": 1.0080237861960574e-06, "loss": 1.055860996246338, "step": 2918 }, { "epoch": 1.9466666666666668, "grad_norm": 8.25, "learning_rate": 1.0076420000821292e-06, "loss": 1.1839380264282227, "step": 2920 }, { "epoch": 1.948, "grad_norm": 5.0, "learning_rate": 1.0072695023694461e-06, "loss": 1.640027403831482, "step": 2922 }, { "epoch": 1.9493333333333334, "grad_norm": 2.5625, "learning_rate": 1.0069062947945972e-06, "loss": 1.1517518758773804, "step": 2924 }, { "epoch": 1.9506666666666668, "grad_norm": 8.1875, "learning_rate": 1.0065523790508613e-06, "loss": 1.9767742156982422, "step": 2926 }, { "epoch": 1.952, "grad_norm": 4.03125, "learning_rate": 1.0062077567881989e-06, "loss": 1.4458882808685303, "step": 2928 }, { "epoch": 1.9533333333333334, "grad_norm": 7.96875, "learning_rate": 1.005872429613244e-06, "loss": 1.592308759689331, "step": 2930 }, { "epoch": 1.9546666666666668, "grad_norm": 7.375, "learning_rate": 1.0055463990892966e-06, "loss": 1.8392659425735474, "step": 2932 }, { "epoch": 1.956, "grad_norm": 3.96875, "learning_rate": 1.005229666736315e-06, "loss": 1.507871389389038, "step": 2934 }, { "epoch": 1.9573333333333334, "grad_norm": 2.453125, "learning_rate": 1.0049222340309106e-06, "loss": 1.244297742843628, "step": 2936 }, { "epoch": 1.9586666666666668, "grad_norm": 7.6875, "learning_rate": 1.004624102406339e-06, "loss": 1.6086117029190063, "step": 2938 }, { "epoch": 1.96, "grad_norm": 7.15625, "learning_rate": 1.0043352732524935e-06, "loss": 1.6359131336212158, "step": 2940 }, { "epoch": 1.9613333333333334, "grad_norm": 1.875, "learning_rate": 1.0040557479159003e-06, "loss": 1.2712523937225342, "step": 2942 }, { "epoch": 1.9626666666666668, "grad_norm": 24.875, "learning_rate": 1.0037855276997106e-06, "loss": 0.6201294660568237, "step": 2944 }, { "epoch": 1.964, "grad_norm": 3.015625, "learning_rate": 1.0035246138636941e-06, "loss": 1.2836215496063232, "step": 2946 }, { "epoch": 1.9653333333333334, "grad_norm": 5.1875, "learning_rate": 1.0032730076242353e-06, "loss": 1.6064057350158691, "step": 2948 }, { "epoch": 1.9666666666666668, "grad_norm": 2.984375, "learning_rate": 1.0030307101543262e-06, "loss": 1.145121455192566, "step": 2950 }, { "epoch": 1.968, "grad_norm": 2.296875, "learning_rate": 1.0027977225835608e-06, "loss": 1.3030688762664795, "step": 2952 }, { "epoch": 1.9693333333333334, "grad_norm": 3.328125, "learning_rate": 1.0025740459981304e-06, "loss": 1.0687862634658813, "step": 2954 }, { "epoch": 1.9706666666666668, "grad_norm": 1.640625, "learning_rate": 1.0023596814408187e-06, "loss": 1.2677333354949951, "step": 2956 }, { "epoch": 1.972, "grad_norm": 4.3125, "learning_rate": 1.0021546299109962e-06, "loss": 1.583560585975647, "step": 2958 }, { "epoch": 1.9733333333333334, "grad_norm": 6.25, "learning_rate": 1.0019588923646156e-06, "loss": 1.6230509281158447, "step": 2960 }, { "epoch": 1.9746666666666668, "grad_norm": 6.875, "learning_rate": 1.001772469714209e-06, "loss": 1.819795846939087, "step": 2962 }, { "epoch": 1.976, "grad_norm": 12.1875, "learning_rate": 1.0015953628288804e-06, "loss": 1.8233575820922852, "step": 2964 }, { "epoch": 1.9773333333333334, "grad_norm": 4.09375, "learning_rate": 1.0014275725343055e-06, "loss": 1.4905637502670288, "step": 2966 }, { "epoch": 1.9786666666666668, "grad_norm": 11.875, "learning_rate": 1.0012690996127247e-06, "loss": 2.1141586303710938, "step": 2968 }, { "epoch": 1.98, "grad_norm": 5.375, "learning_rate": 1.0011199448029408e-06, "loss": 1.5464224815368652, "step": 2970 }, { "epoch": 1.9813333333333332, "grad_norm": 9.5625, "learning_rate": 1.0009801088003158e-06, "loss": 1.8328592777252197, "step": 2972 }, { "epoch": 1.9826666666666668, "grad_norm": 3.09375, "learning_rate": 1.0008495922567672e-06, "loss": 0.9700523614883423, "step": 2974 }, { "epoch": 1.984, "grad_norm": 10.6875, "learning_rate": 1.000728395780765e-06, "loss": 2.0305562019348145, "step": 2976 }, { "epoch": 1.9853333333333332, "grad_norm": 8.4375, "learning_rate": 1.0006165199373289e-06, "loss": 1.8336513042449951, "step": 2978 }, { "epoch": 1.9866666666666668, "grad_norm": 21.25, "learning_rate": 1.0005139652480254e-06, "loss": 1.7808666229248047, "step": 2980 }, { "epoch": 1.988, "grad_norm": 6.25, "learning_rate": 1.0004207321909661e-06, "loss": 1.5985544919967651, "step": 2982 }, { "epoch": 1.9893333333333332, "grad_norm": 2.84375, "learning_rate": 1.0003368212008047e-06, "loss": 1.156212568283081, "step": 2984 }, { "epoch": 1.9906666666666668, "grad_norm": 14.375, "learning_rate": 1.0002622326687357e-06, "loss": 1.836974859237671, "step": 2986 }, { "epoch": 1.992, "grad_norm": 11.0, "learning_rate": 1.0001969669424918e-06, "loss": 1.831178903579712, "step": 2988 }, { "epoch": 1.9933333333333332, "grad_norm": 5.59375, "learning_rate": 1.0001410243263429e-06, "loss": 1.6922175884246826, "step": 2990 }, { "epoch": 1.9946666666666668, "grad_norm": 6.3125, "learning_rate": 1.0000944050810938e-06, "loss": 1.612062931060791, "step": 2992 }, { "epoch": 1.996, "grad_norm": 3.03125, "learning_rate": 1.0000571094240841e-06, "loss": 1.1941561698913574, "step": 2994 }, { "epoch": 1.9973333333333332, "grad_norm": 9.625, "learning_rate": 1.0000291375291873e-06, "loss": 1.7619390487670898, "step": 2996 }, { "epoch": 1.9986666666666668, "grad_norm": 4.5625, "learning_rate": 1.0000104895268083e-06, "loss": 1.4703645706176758, "step": 2998 }, { "epoch": 2.0, "grad_norm": 2.875, "learning_rate": 1.0000011655038843e-06, "loss": 1.0833406448364258, "step": 3000 } ], "logging_steps": 2, "max_steps": 3000, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 9999999, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.464576238203699e+18, "train_batch_size": 1, "trial_name": null, "trial_params": null }