diff --git "a/checkpoint-3000/trainer_state.json" "b/checkpoint-3000/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-3000/trainer_state.json" @@ -0,0 +1,10534 @@ +{ + "best_global_step": null, + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 2.0, + "eval_steps": 500, + "global_step": 3000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0013333333333333333, + "grad_norm": 2.609375, + "learning_rate": 5.555555555555556e-08, + "loss": 1.426961898803711, + "step": 2 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 4.03125, + "learning_rate": 1.6666666666666668e-07, + "loss": 1.0918725728988647, + "step": 4 + }, + { + "epoch": 0.004, + "grad_norm": 12.5, + "learning_rate": 2.7777777777777776e-07, + "loss": 2.423412799835205, + "step": 6 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 7.78125, + "learning_rate": 3.8888888888888895e-07, + "loss": 2.086796760559082, + "step": 8 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 18.0, + "learning_rate": 5.000000000000001e-07, + "loss": 2.240536689758301, + "step": 10 + }, + { + "epoch": 0.008, + "grad_norm": 7.625, + "learning_rate": 6.111111111111112e-07, + "loss": 1.9187642335891724, + "step": 12 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 11.375, + "learning_rate": 7.222222222222222e-07, + "loss": 1.9097466468811035, + "step": 14 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 10.25, + "learning_rate": 8.333333333333333e-07, + "loss": 2.225918769836426, + "step": 16 + }, + { + "epoch": 0.012, + "grad_norm": 14.5, + "learning_rate": 9.444444444444445e-07, + "loss": 2.5282227993011475, + "step": 18 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 10.75, + "learning_rate": 1.0555555555555557e-06, + "loss": 1.9008896350860596, + "step": 20 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 4.71875, + "learning_rate": 1.1666666666666668e-06, + "loss": 1.7159152030944824, + "step": 22 + }, + { + "epoch": 0.016, + "grad_norm": 5.21875, + "learning_rate": 1.2777777777777779e-06, + "loss": 1.7458038330078125, + "step": 24 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 2.359375, + "learning_rate": 1.3888888888888892e-06, + "loss": 1.1576664447784424, + "step": 26 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 7.125, + "learning_rate": 1.5e-06, + "loss": 1.8780293464660645, + "step": 28 + }, + { + "epoch": 0.02, + "grad_norm": 6.28125, + "learning_rate": 1.6111111111111113e-06, + "loss": 1.9322218894958496, + "step": 30 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 7.5, + "learning_rate": 1.7222222222222224e-06, + "loss": 1.9480838775634766, + "step": 32 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 12.8125, + "learning_rate": 1.8333333333333333e-06, + "loss": 1.7671797275543213, + "step": 34 + }, + { + "epoch": 0.024, + "grad_norm": 6.5625, + "learning_rate": 1.944444444444445e-06, + "loss": 2.0959420204162598, + "step": 36 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 2.4375, + "learning_rate": 2.0555555555555555e-06, + "loss": 1.345461130142212, + "step": 38 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 8.4375, + "learning_rate": 2.166666666666667e-06, + "loss": 1.9457855224609375, + "step": 40 + }, + { + "epoch": 0.028, + "grad_norm": 10.4375, + "learning_rate": 2.277777777777778e-06, + "loss": 2.2649214267730713, + "step": 42 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 8.875, + "learning_rate": 2.388888888888889e-06, + "loss": 2.0627341270446777, + "step": 44 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 12.0, + "learning_rate": 2.5e-06, + "loss": 2.0446112155914307, + "step": 46 + }, + { + "epoch": 0.032, + "grad_norm": 8.5, + "learning_rate": 2.6111111111111113e-06, + "loss": 2.0606207847595215, + "step": 48 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 9.125, + "learning_rate": 2.7222222222222224e-06, + "loss": 1.1834385395050049, + "step": 50 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 14.5625, + "learning_rate": 2.8333333333333335e-06, + "loss": 2.575603485107422, + "step": 52 + }, + { + "epoch": 0.036, + "grad_norm": 13.125, + "learning_rate": 2.944444444444445e-06, + "loss": 2.113842248916626, + "step": 54 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 14.1875, + "learning_rate": 3.055555555555556e-06, + "loss": 2.4097142219543457, + "step": 56 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 11.4375, + "learning_rate": 3.1666666666666667e-06, + "loss": 2.4086174964904785, + "step": 58 + }, + { + "epoch": 0.04, + "grad_norm": 4.09375, + "learning_rate": 3.277777777777778e-06, + "loss": 1.1603543758392334, + "step": 60 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 31.75, + "learning_rate": 3.3888888888888893e-06, + "loss": 2.3727102279663086, + "step": 62 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 12.875, + "learning_rate": 3.5e-06, + "loss": 2.0453083515167236, + "step": 64 + }, + { + "epoch": 0.044, + "grad_norm": 3.890625, + "learning_rate": 3.6111111111111115e-06, + "loss": 1.0684235095977783, + "step": 66 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 2.046875, + "learning_rate": 3.7222222222222225e-06, + "loss": 1.058991551399231, + "step": 68 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 9.3125, + "learning_rate": 3.833333333333334e-06, + "loss": 1.9442476034164429, + "step": 70 + }, + { + "epoch": 0.048, + "grad_norm": 22.125, + "learning_rate": 3.944444444444445e-06, + "loss": 1.7541954517364502, + "step": 72 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 2.953125, + "learning_rate": 4.055555555555556e-06, + "loss": 1.195051908493042, + "step": 74 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 14.25, + "learning_rate": 4.166666666666667e-06, + "loss": 2.3182945251464844, + "step": 76 + }, + { + "epoch": 0.052, + "grad_norm": 5.59375, + "learning_rate": 4.277777777777778e-06, + "loss": 1.9007854461669922, + "step": 78 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 2.734375, + "learning_rate": 4.388888888888889e-06, + "loss": 1.282339096069336, + "step": 80 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 12.375, + "learning_rate": 4.5e-06, + "loss": 2.4606080055236816, + "step": 82 + }, + { + "epoch": 0.056, + "grad_norm": 6.375, + "learning_rate": 4.611111111111112e-06, + "loss": 1.7879230976104736, + "step": 84 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 6.375, + "learning_rate": 4.722222222222222e-06, + "loss": 1.8923945426940918, + "step": 86 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 4.9375, + "learning_rate": 4.833333333333333e-06, + "loss": 1.7414391040802002, + "step": 88 + }, + { + "epoch": 0.06, + "grad_norm": 2.5, + "learning_rate": 4.944444444444445e-06, + "loss": 1.2417337894439697, + "step": 90 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 2.15625, + "learning_rate": 4.999998834496116e-06, + "loss": 1.0121757984161377, + "step": 92 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 7.53125, + "learning_rate": 4.999989510473192e-06, + "loss": 1.7546613216400146, + "step": 94 + }, + { + "epoch": 0.064, + "grad_norm": 9.4375, + "learning_rate": 4.999970862470813e-06, + "loss": 2.0210976600646973, + "step": 96 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 15.6875, + "learning_rate": 4.999942890575916e-06, + "loss": 1.8761789798736572, + "step": 98 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 5.4375, + "learning_rate": 4.999905594918907e-06, + "loss": 1.822148084640503, + "step": 100 + }, + { + "epoch": 0.068, + "grad_norm": 7.03125, + "learning_rate": 4.999858975673658e-06, + "loss": 1.699061393737793, + "step": 102 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 7.0625, + "learning_rate": 4.999803033057509e-06, + "loss": 1.9554791450500488, + "step": 104 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 4.96875, + "learning_rate": 4.999737767331265e-06, + "loss": 1.9270014762878418, + "step": 106 + }, + { + "epoch": 0.072, + "grad_norm": 8.0625, + "learning_rate": 4.999663178799196e-06, + "loss": 1.8165018558502197, + "step": 108 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 10.3125, + "learning_rate": 4.999579267809035e-06, + "loss": 2.142543315887451, + "step": 110 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 11.1875, + "learning_rate": 4.999486034751976e-06, + "loss": 2.3485541343688965, + "step": 112 + }, + { + "epoch": 0.076, + "grad_norm": 7.78125, + "learning_rate": 4.999383480062672e-06, + "loss": 1.2716255187988281, + "step": 114 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 4.53125, + "learning_rate": 4.9992716042192355e-06, + "loss": 1.8018227815628052, + "step": 116 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 2.1875, + "learning_rate": 4.999150407743234e-06, + "loss": 1.3383140563964844, + "step": 118 + }, + { + "epoch": 0.08, + "grad_norm": 8.625, + "learning_rate": 4.999019891199685e-06, + "loss": 1.7377729415893555, + "step": 120 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 7.28125, + "learning_rate": 4.9988800551970595e-06, + "loss": 1.9425296783447266, + "step": 122 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 3.328125, + "learning_rate": 4.998730900387276e-06, + "loss": 1.3355326652526855, + "step": 124 + }, + { + "epoch": 0.084, + "grad_norm": 3.84375, + "learning_rate": 4.998572427465695e-06, + "loss": 1.3544648885726929, + "step": 126 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 2.4375, + "learning_rate": 4.99840463717112e-06, + "loss": 1.1902351379394531, + "step": 128 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 3.4375, + "learning_rate": 4.998227530285792e-06, + "loss": 1.426368236541748, + "step": 130 + }, + { + "epoch": 0.088, + "grad_norm": 7.90625, + "learning_rate": 4.998041107635385e-06, + "loss": 2.050642490386963, + "step": 132 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 15.3125, + "learning_rate": 4.9978453700890035e-06, + "loss": 2.2510485649108887, + "step": 134 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 5.65625, + "learning_rate": 4.997640318559182e-06, + "loss": 1.8200645446777344, + "step": 136 + }, + { + "epoch": 0.092, + "grad_norm": 12.4375, + "learning_rate": 4.99742595400187e-06, + "loss": 2.2968640327453613, + "step": 138 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 3.125, + "learning_rate": 4.997202277416439e-06, + "loss": 1.460419774055481, + "step": 140 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 6.0625, + "learning_rate": 4.996969289845675e-06, + "loss": 1.9615103006362915, + "step": 142 + }, + { + "epoch": 0.096, + "grad_norm": 5.875, + "learning_rate": 4.9967269923757654e-06, + "loss": 1.1230132579803467, + "step": 144 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 25.5, + "learning_rate": 4.996475386136307e-06, + "loss": 2.2492356300354004, + "step": 146 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 6.59375, + "learning_rate": 4.996214472300291e-06, + "loss": 1.7113642692565918, + "step": 148 + }, + { + "epoch": 0.1, + "grad_norm": 4.75, + "learning_rate": 4.995944252084101e-06, + "loss": 1.7024157047271729, + "step": 150 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 6.1875, + "learning_rate": 4.995664726747508e-06, + "loss": 2.0609498023986816, + "step": 152 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 8.25, + "learning_rate": 4.9953758975936614e-06, + "loss": 1.9138317108154297, + "step": 154 + }, + { + "epoch": 0.104, + "grad_norm": 10.9375, + "learning_rate": 4.99507776596909e-06, + "loss": 1.7415437698364258, + "step": 156 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 1.53125, + "learning_rate": 4.9947703332636855e-06, + "loss": 1.1183407306671143, + "step": 158 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 6.1875, + "learning_rate": 4.994453600910705e-06, + "loss": 1.7093825340270996, + "step": 160 + }, + { + "epoch": 0.108, + "grad_norm": 4.5625, + "learning_rate": 4.994127570386756e-06, + "loss": 1.763106107711792, + "step": 162 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 4.4375, + "learning_rate": 4.993792243211802e-06, + "loss": 1.8390214443206787, + "step": 164 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 1.890625, + "learning_rate": 4.99344762094914e-06, + "loss": 1.1439769268035889, + "step": 166 + }, + { + "epoch": 0.112, + "grad_norm": 4.71875, + "learning_rate": 4.993093705205404e-06, + "loss": 1.956803560256958, + "step": 168 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 4.8125, + "learning_rate": 4.992730497630555e-06, + "loss": 1.7778558731079102, + "step": 170 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 10.6875, + "learning_rate": 4.992357999917872e-06, + "loss": 1.721332311630249, + "step": 172 + }, + { + "epoch": 0.116, + "grad_norm": 4.15625, + "learning_rate": 4.991976213803943e-06, + "loss": 1.1456602811813354, + "step": 174 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 3.671875, + "learning_rate": 4.991585141068663e-06, + "loss": 1.2858262062072754, + "step": 176 + }, + { + "epoch": 0.11866666666666667, + "grad_norm": 8.3125, + "learning_rate": 4.9911847835352165e-06, + "loss": 1.947248935699463, + "step": 178 + }, + { + "epoch": 0.12, + "grad_norm": 7.09375, + "learning_rate": 4.990775143070077e-06, + "loss": 1.9594460725784302, + "step": 180 + }, + { + "epoch": 0.12133333333333333, + "grad_norm": 5.21875, + "learning_rate": 4.990356221582993e-06, + "loss": 1.7351645231246948, + "step": 182 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 4.75, + "learning_rate": 4.989928021026984e-06, + "loss": 1.7385591268539429, + "step": 184 + }, + { + "epoch": 0.124, + "grad_norm": 4.8125, + "learning_rate": 4.989490543398327e-06, + "loss": 1.6152522563934326, + "step": 186 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 9.1875, + "learning_rate": 4.9890437907365475e-06, + "loss": 1.811694860458374, + "step": 188 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 5.4375, + "learning_rate": 4.9885877651244134e-06, + "loss": 1.835113525390625, + "step": 190 + }, + { + "epoch": 0.128, + "grad_norm": 4.75, + "learning_rate": 4.988122468687922e-06, + "loss": 1.6793406009674072, + "step": 192 + }, + { + "epoch": 0.12933333333333333, + "grad_norm": 15.625, + "learning_rate": 4.9876479035962935e-06, + "loss": 1.0911662578582764, + "step": 194 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 18.25, + "learning_rate": 4.987164072061957e-06, + "loss": 2.131570816040039, + "step": 196 + }, + { + "epoch": 0.132, + "grad_norm": 4.5, + "learning_rate": 4.986670976340538e-06, + "loss": 1.7224147319793701, + "step": 198 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 2.03125, + "learning_rate": 4.986168618730861e-06, + "loss": 1.1881237030029297, + "step": 200 + }, + { + "epoch": 0.13466666666666666, + "grad_norm": 9.1875, + "learning_rate": 4.9856570015749225e-06, + "loss": 1.8460280895233154, + "step": 202 + }, + { + "epoch": 0.136, + "grad_norm": 9.3125, + "learning_rate": 4.985136127257888e-06, + "loss": 2.2090723514556885, + "step": 204 + }, + { + "epoch": 0.13733333333333334, + "grad_norm": 4.4375, + "learning_rate": 4.984605998208081e-06, + "loss": 1.6706668138504028, + "step": 206 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 4.875, + "learning_rate": 4.984066616896972e-06, + "loss": 1.7842729091644287, + "step": 208 + }, + { + "epoch": 0.14, + "grad_norm": 2.734375, + "learning_rate": 4.9835179858391625e-06, + "loss": 1.0649902820587158, + "step": 210 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 5.28125, + "learning_rate": 4.982960107592379e-06, + "loss": 1.7180755138397217, + "step": 212 + }, + { + "epoch": 0.14266666666666666, + "grad_norm": 8.5, + "learning_rate": 4.982392984757459e-06, + "loss": 2.1030969619750977, + "step": 214 + }, + { + "epoch": 0.144, + "grad_norm": 3.359375, + "learning_rate": 4.981816619978337e-06, + "loss": 1.277032494544983, + "step": 216 + }, + { + "epoch": 0.14533333333333334, + "grad_norm": 6.78125, + "learning_rate": 4.981231015942032e-06, + "loss": 2.0104990005493164, + "step": 218 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 5.5, + "learning_rate": 4.980636175378639e-06, + "loss": 1.7849645614624023, + "step": 220 + }, + { + "epoch": 0.148, + "grad_norm": 9.8125, + "learning_rate": 4.980032101061314e-06, + "loss": 2.0194921493530273, + "step": 222 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 6.6875, + "learning_rate": 4.979418795806259e-06, + "loss": 1.7740180492401123, + "step": 224 + }, + { + "epoch": 0.15066666666666667, + "grad_norm": 6.65625, + "learning_rate": 4.978796262472713e-06, + "loss": 2.1783909797668457, + "step": 226 + }, + { + "epoch": 0.152, + "grad_norm": 21.125, + "learning_rate": 4.978164503962933e-06, + "loss": 1.5254769325256348, + "step": 228 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 5.375, + "learning_rate": 4.9775235232221895e-06, + "loss": 1.6781322956085205, + "step": 230 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 7.09375, + "learning_rate": 4.976873323238741e-06, + "loss": 1.8562153577804565, + "step": 232 + }, + { + "epoch": 0.156, + "grad_norm": 14.6875, + "learning_rate": 4.976213907043831e-06, + "loss": 1.696861743927002, + "step": 234 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 12.5, + "learning_rate": 4.975545277711665e-06, + "loss": 1.8190127611160278, + "step": 236 + }, + { + "epoch": 0.15866666666666668, + "grad_norm": 16.75, + "learning_rate": 4.974867438359404e-06, + "loss": 2.1855759620666504, + "step": 238 + }, + { + "epoch": 0.16, + "grad_norm": 6.6875, + "learning_rate": 4.974180392147145e-06, + "loss": 1.3512318134307861, + "step": 240 + }, + { + "epoch": 0.16133333333333333, + "grad_norm": 6.0, + "learning_rate": 4.973484142277905e-06, + "loss": 1.6209347248077393, + "step": 242 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 7.59375, + "learning_rate": 4.9727786919976125e-06, + "loss": 2.101145029067993, + "step": 244 + }, + { + "epoch": 0.164, + "grad_norm": 5.0625, + "learning_rate": 4.972064044595087e-06, + "loss": 1.5044230222702026, + "step": 246 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 3.8125, + "learning_rate": 4.971340203402024e-06, + "loss": 1.6177122592926025, + "step": 248 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 5.0, + "learning_rate": 4.970607171792981e-06, + "loss": 1.740015983581543, + "step": 250 + }, + { + "epoch": 0.168, + "grad_norm": 4.46875, + "learning_rate": 4.969864953185364e-06, + "loss": 1.7631562948226929, + "step": 252 + }, + { + "epoch": 0.16933333333333334, + "grad_norm": 2.625, + "learning_rate": 4.969113551039403e-06, + "loss": 1.0950901508331299, + "step": 254 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 4.1875, + "learning_rate": 4.968352968858149e-06, + "loss": 1.806433916091919, + "step": 256 + }, + { + "epoch": 0.172, + "grad_norm": 4.84375, + "learning_rate": 4.967583210187445e-06, + "loss": 1.367830753326416, + "step": 258 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 5.875, + "learning_rate": 4.9668042786159176e-06, + "loss": 2.118488073348999, + "step": 260 + }, + { + "epoch": 0.17466666666666666, + "grad_norm": 6.0625, + "learning_rate": 4.966016177774956e-06, + "loss": 1.6788520812988281, + "step": 262 + }, + { + "epoch": 0.176, + "grad_norm": 2.6875, + "learning_rate": 4.965218911338698e-06, + "loss": 1.3210437297821045, + "step": 264 + }, + { + "epoch": 0.17733333333333334, + "grad_norm": 6.875, + "learning_rate": 4.964412483024012e-06, + "loss": 1.92716646194458, + "step": 266 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 7.03125, + "learning_rate": 4.963596896590476e-06, + "loss": 1.7592105865478516, + "step": 268 + }, + { + "epoch": 0.18, + "grad_norm": 2.5625, + "learning_rate": 4.962772155840368e-06, + "loss": 1.0765562057495117, + "step": 270 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 4.78125, + "learning_rate": 4.961938264618638e-06, + "loss": 1.4803953170776367, + "step": 272 + }, + { + "epoch": 0.18266666666666667, + "grad_norm": 3.3125, + "learning_rate": 4.961095226812902e-06, + "loss": 1.6097404956817627, + "step": 274 + }, + { + "epoch": 0.184, + "grad_norm": 5.4375, + "learning_rate": 4.960243046353411e-06, + "loss": 1.7037537097930908, + "step": 276 + }, + { + "epoch": 0.18533333333333332, + "grad_norm": 14.75, + "learning_rate": 4.959381727213046e-06, + "loss": 2.05832576751709, + "step": 278 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 1.953125, + "learning_rate": 4.958511273407287e-06, + "loss": 1.2026753425598145, + "step": 280 + }, + { + "epoch": 0.188, + "grad_norm": 2.484375, + "learning_rate": 4.957631688994202e-06, + "loss": 1.1111297607421875, + "step": 282 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 5.1875, + "learning_rate": 4.9567429780744256e-06, + "loss": 1.7283909320831299, + "step": 284 + }, + { + "epoch": 0.19066666666666668, + "grad_norm": 5.125, + "learning_rate": 4.955845144791142e-06, + "loss": 1.2416884899139404, + "step": 286 + }, + { + "epoch": 0.192, + "grad_norm": 1.796875, + "learning_rate": 4.954938193330061e-06, + "loss": 1.023611068725586, + "step": 288 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 2.5, + "learning_rate": 4.954022127919406e-06, + "loss": 1.2488538026809692, + "step": 290 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 4.3125, + "learning_rate": 4.953096952829883e-06, + "loss": 1.7825567722320557, + "step": 292 + }, + { + "epoch": 0.196, + "grad_norm": 6.96875, + "learning_rate": 4.952162672374674e-06, + "loss": 1.6962242126464844, + "step": 294 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 8.8125, + "learning_rate": 4.951219290909408e-06, + "loss": 1.8218390941619873, + "step": 296 + }, + { + "epoch": 0.19866666666666666, + "grad_norm": 4.375, + "learning_rate": 4.9502668128321414e-06, + "loss": 1.539631724357605, + "step": 298 + }, + { + "epoch": 0.2, + "grad_norm": 4.6875, + "learning_rate": 4.949305242583341e-06, + "loss": 1.7179573774337769, + "step": 300 + }, + { + "epoch": 0.20133333333333334, + "grad_norm": 15.0625, + "learning_rate": 4.948334584645861e-06, + "loss": 2.0600290298461914, + "step": 302 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 31.875, + "learning_rate": 4.9473548435449234e-06, + "loss": 1.7066545486450195, + "step": 304 + }, + { + "epoch": 0.204, + "grad_norm": 2.4375, + "learning_rate": 4.946366023848093e-06, + "loss": 1.2282570600509644, + "step": 306 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 21.5, + "learning_rate": 4.945368130165262e-06, + "loss": 2.1756513118743896, + "step": 308 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 4.6875, + "learning_rate": 4.944361167148627e-06, + "loss": 1.6938464641571045, + "step": 310 + }, + { + "epoch": 0.208, + "grad_norm": 3.59375, + "learning_rate": 4.943345139492662e-06, + "loss": 1.200679063796997, + "step": 312 + }, + { + "epoch": 0.20933333333333334, + "grad_norm": 1.875, + "learning_rate": 4.9423200519341e-06, + "loss": 1.150309681892395, + "step": 314 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 4.90625, + "learning_rate": 4.9412859092519195e-06, + "loss": 1.66481614112854, + "step": 316 + }, + { + "epoch": 0.212, + "grad_norm": 6.03125, + "learning_rate": 4.9402427162673025e-06, + "loss": 1.6321322917938232, + "step": 318 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 24.875, + "learning_rate": 4.939190477843634e-06, + "loss": 1.3526780605316162, + "step": 320 + }, + { + "epoch": 0.21466666666666667, + "grad_norm": 5.9375, + "learning_rate": 4.938129198886462e-06, + "loss": 1.9712560176849365, + "step": 322 + }, + { + "epoch": 0.216, + "grad_norm": 4.6875, + "learning_rate": 4.937058884343484e-06, + "loss": 1.2531328201293945, + "step": 324 + }, + { + "epoch": 0.21733333333333332, + "grad_norm": 8.375, + "learning_rate": 4.9359795392045214e-06, + "loss": 1.63519287109375, + "step": 326 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 3.203125, + "learning_rate": 4.934891168501499e-06, + "loss": 1.183279275894165, + "step": 328 + }, + { + "epoch": 0.22, + "grad_norm": 5.6875, + "learning_rate": 4.933793777308415e-06, + "loss": 1.3079423904418945, + "step": 330 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 2.703125, + "learning_rate": 4.932687370741321e-06, + "loss": 1.2213515043258667, + "step": 332 + }, + { + "epoch": 0.22266666666666668, + "grad_norm": 4.4375, + "learning_rate": 4.9315719539583015e-06, + "loss": 1.6351184844970703, + "step": 334 + }, + { + "epoch": 0.224, + "grad_norm": 2.140625, + "learning_rate": 4.930447532159446e-06, + "loss": 1.0444347858428955, + "step": 336 + }, + { + "epoch": 0.22533333333333333, + "grad_norm": 2.25, + "learning_rate": 4.9293141105868245e-06, + "loss": 1.169987678527832, + "step": 338 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 7.875, + "learning_rate": 4.928171694524464e-06, + "loss": 2.0248818397521973, + "step": 340 + }, + { + "epoch": 0.228, + "grad_norm": 5.21875, + "learning_rate": 4.927020289298324e-06, + "loss": 1.7401028871536255, + "step": 342 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 4.0, + "learning_rate": 4.925859900276273e-06, + "loss": 1.1736500263214111, + "step": 344 + }, + { + "epoch": 0.23066666666666666, + "grad_norm": 4.78125, + "learning_rate": 4.924690532868062e-06, + "loss": 1.6478643417358398, + "step": 346 + }, + { + "epoch": 0.232, + "grad_norm": 10.75, + "learning_rate": 4.923512192525295e-06, + "loss": 2.1115689277648926, + "step": 348 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 6.25, + "learning_rate": 4.922324884741414e-06, + "loss": 1.1784987449645996, + "step": 350 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 8.875, + "learning_rate": 4.921128615051664e-06, + "loss": 1.7437598705291748, + "step": 352 + }, + { + "epoch": 0.236, + "grad_norm": 2.0, + "learning_rate": 4.919923389033073e-06, + "loss": 1.086277961730957, + "step": 354 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 9.0625, + "learning_rate": 4.9187092123044185e-06, + "loss": 1.7361807823181152, + "step": 356 + }, + { + "epoch": 0.23866666666666667, + "grad_norm": 10.375, + "learning_rate": 4.9174860905262125e-06, + "loss": 2.1892127990722656, + "step": 358 + }, + { + "epoch": 0.24, + "grad_norm": 10.5, + "learning_rate": 4.916254029400664e-06, + "loss": 1.6337263584136963, + "step": 360 + }, + { + "epoch": 0.24133333333333334, + "grad_norm": 5.53125, + "learning_rate": 4.9150130346716616e-06, + "loss": 1.626597285270691, + "step": 362 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 4.625, + "learning_rate": 4.913763112124739e-06, + "loss": 1.7248157262802124, + "step": 364 + }, + { + "epoch": 0.244, + "grad_norm": 8.6875, + "learning_rate": 4.912504267587052e-06, + "loss": 2.0670700073242188, + "step": 366 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 4.5625, + "learning_rate": 4.911236506927353e-06, + "loss": 1.2027419805526733, + "step": 368 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 4.46875, + "learning_rate": 4.909959836055958e-06, + "loss": 1.6558904647827148, + "step": 370 + }, + { + "epoch": 0.248, + "grad_norm": 3.734375, + "learning_rate": 4.90867426092473e-06, + "loss": 1.0571866035461426, + "step": 372 + }, + { + "epoch": 0.24933333333333332, + "grad_norm": 4.40625, + "learning_rate": 4.907379787527033e-06, + "loss": 1.663063883781433, + "step": 374 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 7.34375, + "learning_rate": 4.906076421897722e-06, + "loss": 1.614751935005188, + "step": 376 + }, + { + "epoch": 0.252, + "grad_norm": 10.375, + "learning_rate": 4.904764170113108e-06, + "loss": 1.6645468473434448, + "step": 378 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 2.9375, + "learning_rate": 4.903443038290924e-06, + "loss": 1.2448854446411133, + "step": 380 + }, + { + "epoch": 0.25466666666666665, + "grad_norm": 4.8125, + "learning_rate": 4.902113032590307e-06, + "loss": 1.1429449319839478, + "step": 382 + }, + { + "epoch": 0.256, + "grad_norm": 1.9453125, + "learning_rate": 4.900774159211764e-06, + "loss": 1.2650675773620605, + "step": 384 + }, + { + "epoch": 0.25733333333333336, + "grad_norm": 4.34375, + "learning_rate": 4.899426424397139e-06, + "loss": 1.1405256986618042, + "step": 386 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 12.0, + "learning_rate": 4.898069834429593e-06, + "loss": 2.080951690673828, + "step": 388 + }, + { + "epoch": 0.26, + "grad_norm": 6.5, + "learning_rate": 4.896704395633565e-06, + "loss": 1.5934624671936035, + "step": 390 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 12.25, + "learning_rate": 4.895330114374754e-06, + "loss": 2.1303348541259766, + "step": 392 + }, + { + "epoch": 0.26266666666666666, + "grad_norm": 3.953125, + "learning_rate": 4.893946997060075e-06, + "loss": 1.6423416137695312, + "step": 394 + }, + { + "epoch": 0.264, + "grad_norm": 5.59375, + "learning_rate": 4.892555050137642e-06, + "loss": 1.6157931089401245, + "step": 396 + }, + { + "epoch": 0.2653333333333333, + "grad_norm": 21.375, + "learning_rate": 4.891154280096731e-06, + "loss": 2.2374486923217773, + "step": 398 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 6.34375, + "learning_rate": 4.889744693467753e-06, + "loss": 0.9960446953773499, + "step": 400 + }, + { + "epoch": 0.268, + "grad_norm": 14.25, + "learning_rate": 4.888326296822219e-06, + "loss": 1.7377135753631592, + "step": 402 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 2.671875, + "learning_rate": 4.886899096772716e-06, + "loss": 1.4004313945770264, + "step": 404 + }, + { + "epoch": 0.27066666666666667, + "grad_norm": 9.625, + "learning_rate": 4.885463099972869e-06, + "loss": 2.226583480834961, + "step": 406 + }, + { + "epoch": 0.272, + "grad_norm": 4.25, + "learning_rate": 4.884018313117317e-06, + "loss": 1.6933379173278809, + "step": 408 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 21.0, + "learning_rate": 4.882564742941677e-06, + "loss": 1.2351548671722412, + "step": 410 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 2.28125, + "learning_rate": 4.881102396222511e-06, + "loss": 1.0993002653121948, + "step": 412 + }, + { + "epoch": 0.276, + "grad_norm": 2.265625, + "learning_rate": 4.879631279777303e-06, + "loss": 1.1669058799743652, + "step": 414 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 6.25, + "learning_rate": 4.878151400464418e-06, + "loss": 1.7067842483520508, + "step": 416 + }, + { + "epoch": 0.2786666666666667, + "grad_norm": 2.890625, + "learning_rate": 4.876662765183074e-06, + "loss": 1.1911600828170776, + "step": 418 + }, + { + "epoch": 0.28, + "grad_norm": 1.78125, + "learning_rate": 4.875165380873311e-06, + "loss": 1.3747963905334473, + "step": 420 + }, + { + "epoch": 0.2813333333333333, + "grad_norm": 10.6875, + "learning_rate": 4.873659254515954e-06, + "loss": 1.6159579753875732, + "step": 422 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 2.265625, + "learning_rate": 4.872144393132588e-06, + "loss": 1.1511104106903076, + "step": 424 + }, + { + "epoch": 0.284, + "grad_norm": 4.25, + "learning_rate": 4.870620803785514e-06, + "loss": 1.5702983140945435, + "step": 426 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 7.25, + "learning_rate": 4.869088493577731e-06, + "loss": 1.2697384357452393, + "step": 428 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 12.75, + "learning_rate": 4.86754746965289e-06, + "loss": 2.1861681938171387, + "step": 430 + }, + { + "epoch": 0.288, + "grad_norm": 7.0, + "learning_rate": 4.865997739195265e-06, + "loss": 1.9876891374588013, + "step": 432 + }, + { + "epoch": 0.28933333333333333, + "grad_norm": 11.0, + "learning_rate": 4.864439309429724e-06, + "loss": 1.7558832168579102, + "step": 434 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 5.4375, + "learning_rate": 4.862872187621685e-06, + "loss": 1.9074214696884155, + "step": 436 + }, + { + "epoch": 0.292, + "grad_norm": 5.28125, + "learning_rate": 4.861296381077095e-06, + "loss": 1.6114107370376587, + "step": 438 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 16.125, + "learning_rate": 4.859711897142386e-06, + "loss": 1.9621031284332275, + "step": 440 + }, + { + "epoch": 0.2946666666666667, + "grad_norm": 7.03125, + "learning_rate": 4.858118743204444e-06, + "loss": 1.6151349544525146, + "step": 442 + }, + { + "epoch": 0.296, + "grad_norm": 6.21875, + "learning_rate": 4.856516926690576e-06, + "loss": 1.7121708393096924, + "step": 444 + }, + { + "epoch": 0.29733333333333334, + "grad_norm": 6.71875, + "learning_rate": 4.854906455068471e-06, + "loss": 1.1954957246780396, + "step": 446 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 9.0, + "learning_rate": 4.853287335846174e-06, + "loss": 2.0688719749450684, + "step": 448 + }, + { + "epoch": 0.3, + "grad_norm": 5.40625, + "learning_rate": 4.851659576572039e-06, + "loss": 1.677027702331543, + "step": 450 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 6.03125, + "learning_rate": 4.850023184834703e-06, + "loss": 1.6223268508911133, + "step": 452 + }, + { + "epoch": 0.30266666666666664, + "grad_norm": 9.6875, + "learning_rate": 4.848378168263051e-06, + "loss": 1.6345758438110352, + "step": 454 + }, + { + "epoch": 0.304, + "grad_norm": 4.21875, + "learning_rate": 4.846724534526168e-06, + "loss": 1.7275407314300537, + "step": 456 + }, + { + "epoch": 0.30533333333333335, + "grad_norm": 6.90625, + "learning_rate": 4.845062291333322e-06, + "loss": 1.756260871887207, + "step": 458 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 14.75, + "learning_rate": 4.8433914464339136e-06, + "loss": 2.080754280090332, + "step": 460 + }, + { + "epoch": 0.308, + "grad_norm": 20.375, + "learning_rate": 4.841712007617445e-06, + "loss": 1.7779812812805176, + "step": 462 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 4.40625, + "learning_rate": 4.840023982713483e-06, + "loss": 1.0725421905517578, + "step": 464 + }, + { + "epoch": 0.31066666666666665, + "grad_norm": 15.1875, + "learning_rate": 4.838327379591626e-06, + "loss": 1.982491135597229, + "step": 466 + }, + { + "epoch": 0.312, + "grad_norm": 2.109375, + "learning_rate": 4.836622206161458e-06, + "loss": 1.088759183883667, + "step": 468 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 7.0625, + "learning_rate": 4.834908470372525e-06, + "loss": 1.4255026578903198, + "step": 470 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 11.9375, + "learning_rate": 4.833186180214287e-06, + "loss": 1.907231330871582, + "step": 472 + }, + { + "epoch": 0.316, + "grad_norm": 11.9375, + "learning_rate": 4.831455343716083e-06, + "loss": 2.125192642211914, + "step": 474 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 6.09375, + "learning_rate": 4.8297159689471e-06, + "loss": 1.6836061477661133, + "step": 476 + }, + { + "epoch": 0.31866666666666665, + "grad_norm": 4.34375, + "learning_rate": 4.827968064016326e-06, + "loss": 1.5955266952514648, + "step": 478 + }, + { + "epoch": 0.32, + "grad_norm": 7.53125, + "learning_rate": 4.82621163707252e-06, + "loss": 1.5531877279281616, + "step": 480 + }, + { + "epoch": 0.32133333333333336, + "grad_norm": 4.9375, + "learning_rate": 4.824446696304168e-06, + "loss": 1.5762629508972168, + "step": 482 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 20.875, + "learning_rate": 4.8226732499394504e-06, + "loss": 2.128744125366211, + "step": 484 + }, + { + "epoch": 0.324, + "grad_norm": 15.875, + "learning_rate": 4.820891306246197e-06, + "loss": 1.3488337993621826, + "step": 486 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 5.0, + "learning_rate": 4.8191008735318565e-06, + "loss": 1.7257015705108643, + "step": 488 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 5.96875, + "learning_rate": 4.817301960143453e-06, + "loss": 1.6011383533477783, + "step": 490 + }, + { + "epoch": 0.328, + "grad_norm": 4.28125, + "learning_rate": 4.815494574467542e-06, + "loss": 1.690148115158081, + "step": 492 + }, + { + "epoch": 0.3293333333333333, + "grad_norm": 9.0625, + "learning_rate": 4.813678724930183e-06, + "loss": 1.9120967388153076, + "step": 494 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 7.9375, + "learning_rate": 4.811854419996894e-06, + "loss": 2.227816104888916, + "step": 496 + }, + { + "epoch": 0.332, + "grad_norm": 6.625, + "learning_rate": 4.81002166817261e-06, + "loss": 1.061286449432373, + "step": 498 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 8.9375, + "learning_rate": 4.808180478001644e-06, + "loss": 1.9699760675430298, + "step": 500 + }, + { + "epoch": 0.33466666666666667, + "grad_norm": 5.21875, + "learning_rate": 4.806330858067652e-06, + "loss": 1.7396867275238037, + "step": 502 + }, + { + "epoch": 0.336, + "grad_norm": 2.9375, + "learning_rate": 4.804472816993587e-06, + "loss": 1.083378791809082, + "step": 504 + }, + { + "epoch": 0.3373333333333333, + "grad_norm": 4.75, + "learning_rate": 4.802606363441666e-06, + "loss": 1.575303554534912, + "step": 506 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 10.25, + "learning_rate": 4.800731506113319e-06, + "loss": 1.6470720767974854, + "step": 508 + }, + { + "epoch": 0.34, + "grad_norm": 8.125, + "learning_rate": 4.798848253749158e-06, + "loss": 1.6459286212921143, + "step": 510 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 1.8671875, + "learning_rate": 4.796956615128933e-06, + "loss": 1.2288987636566162, + "step": 512 + }, + { + "epoch": 0.3426666666666667, + "grad_norm": 7.09375, + "learning_rate": 4.7950565990714894e-06, + "loss": 1.6872162818908691, + "step": 514 + }, + { + "epoch": 0.344, + "grad_norm": 3.765625, + "learning_rate": 4.79314821443473e-06, + "loss": 1.7207008600234985, + "step": 516 + }, + { + "epoch": 0.3453333333333333, + "grad_norm": 11.5625, + "learning_rate": 4.791231470115571e-06, + "loss": 2.0396337509155273, + "step": 518 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 2.40625, + "learning_rate": 4.7893063750498995e-06, + "loss": 1.1848084926605225, + "step": 520 + }, + { + "epoch": 0.348, + "grad_norm": 5.28125, + "learning_rate": 4.787372938212537e-06, + "loss": 1.6492676734924316, + "step": 522 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 3.640625, + "learning_rate": 4.785431168617195e-06, + "loss": 1.5428884029388428, + "step": 524 + }, + { + "epoch": 0.3506666666666667, + "grad_norm": 3.703125, + "learning_rate": 4.78348107531643e-06, + "loss": 1.6366922855377197, + "step": 526 + }, + { + "epoch": 0.352, + "grad_norm": 5.40625, + "learning_rate": 4.781522667401604e-06, + "loss": 1.7472410202026367, + "step": 528 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 2.15625, + "learning_rate": 4.779555954002843e-06, + "loss": 1.2404601573944092, + "step": 530 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 15.625, + "learning_rate": 4.777580944288991e-06, + "loss": 1.88511323928833, + "step": 532 + }, + { + "epoch": 0.356, + "grad_norm": 2.4375, + "learning_rate": 4.775597647467575e-06, + "loss": 1.0901260375976562, + "step": 534 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 5.25, + "learning_rate": 4.77360607278475e-06, + "loss": 1.555063009262085, + "step": 536 + }, + { + "epoch": 0.3586666666666667, + "grad_norm": 8.8125, + "learning_rate": 4.771606229525265e-06, + "loss": 1.9415209293365479, + "step": 538 + }, + { + "epoch": 0.36, + "grad_norm": 8.125, + "learning_rate": 4.769598127012421e-06, + "loss": 1.9015228748321533, + "step": 540 + }, + { + "epoch": 0.36133333333333334, + "grad_norm": 4.15625, + "learning_rate": 4.767581774608016e-06, + "loss": 1.6610472202301025, + "step": 542 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 2.984375, + "learning_rate": 4.765557181712317e-06, + "loss": 1.0736007690429688, + "step": 544 + }, + { + "epoch": 0.364, + "grad_norm": 3.75, + "learning_rate": 4.763524357764004e-06, + "loss": 1.6187169551849365, + "step": 546 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 6.09375, + "learning_rate": 4.761483312240129e-06, + "loss": 1.6005005836486816, + "step": 548 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 15.125, + "learning_rate": 4.759434054656078e-06, + "loss": 2.02974796295166, + "step": 550 + }, + { + "epoch": 0.368, + "grad_norm": 6.8125, + "learning_rate": 4.757376594565518e-06, + "loss": 1.6362042427062988, + "step": 552 + }, + { + "epoch": 0.36933333333333335, + "grad_norm": 12.5625, + "learning_rate": 4.755310941560356e-06, + "loss": 1.5618031024932861, + "step": 554 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 2.078125, + "learning_rate": 4.753237105270696e-06, + "loss": 1.2482681274414062, + "step": 556 + }, + { + "epoch": 0.372, + "grad_norm": 4.09375, + "learning_rate": 4.751155095364793e-06, + "loss": 1.620242953300476, + "step": 558 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 8.3125, + "learning_rate": 4.749064921549006e-06, + "loss": 2.135446071624756, + "step": 560 + }, + { + "epoch": 0.37466666666666665, + "grad_norm": 5.40625, + "learning_rate": 4.746966593567756e-06, + "loss": 1.3215208053588867, + "step": 562 + }, + { + "epoch": 0.376, + "grad_norm": 8.375, + "learning_rate": 4.7448601212034765e-06, + "loss": 1.4838060140609741, + "step": 564 + }, + { + "epoch": 0.37733333333333335, + "grad_norm": 12.4375, + "learning_rate": 4.742745514276571e-06, + "loss": 1.6796302795410156, + "step": 566 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 12.8125, + "learning_rate": 4.74062278264537e-06, + "loss": 2.027433395385742, + "step": 568 + }, + { + "epoch": 0.38, + "grad_norm": 12.4375, + "learning_rate": 4.738491936206075e-06, + "loss": 1.9793848991394043, + "step": 570 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 3.046875, + "learning_rate": 4.736352984892723e-06, + "loss": 0.9984286427497864, + "step": 572 + }, + { + "epoch": 0.38266666666666665, + "grad_norm": 5.78125, + "learning_rate": 4.734205938677139e-06, + "loss": 1.686956524848938, + "step": 574 + }, + { + "epoch": 0.384, + "grad_norm": 4.5, + "learning_rate": 4.732050807568878e-06, + "loss": 1.7226555347442627, + "step": 576 + }, + { + "epoch": 0.38533333333333336, + "grad_norm": 12.625, + "learning_rate": 4.729887601615194e-06, + "loss": 2.1920371055603027, + "step": 578 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 21.0, + "learning_rate": 4.727716330900984e-06, + "loss": 1.6783638000488281, + "step": 580 + }, + { + "epoch": 0.388, + "grad_norm": 6.15625, + "learning_rate": 4.725537005548743e-06, + "loss": 1.344970703125, + "step": 582 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 3.046875, + "learning_rate": 4.723349635718515e-06, + "loss": 1.1667028665542603, + "step": 584 + }, + { + "epoch": 0.39066666666666666, + "grad_norm": 6.875, + "learning_rate": 4.721154231607851e-06, + "loss": 1.7253570556640625, + "step": 586 + }, + { + "epoch": 0.392, + "grad_norm": 6.875, + "learning_rate": 4.718950803451755e-06, + "loss": 1.813482403755188, + "step": 588 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 6.59375, + "learning_rate": 4.716739361522642e-06, + "loss": 1.6438264846801758, + "step": 590 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 4.8125, + "learning_rate": 4.714519916130283e-06, + "loss": 1.6976796388626099, + "step": 592 + }, + { + "epoch": 0.396, + "grad_norm": 3.671875, + "learning_rate": 4.712292477621766e-06, + "loss": 1.6207929849624634, + "step": 594 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 6.6875, + "learning_rate": 4.710057056381439e-06, + "loss": 1.5759934186935425, + "step": 596 + }, + { + "epoch": 0.39866666666666667, + "grad_norm": 28.375, + "learning_rate": 4.707813662830871e-06, + "loss": 1.3628721237182617, + "step": 598 + }, + { + "epoch": 0.4, + "grad_norm": 3.46875, + "learning_rate": 4.705562307428792e-06, + "loss": 1.591555118560791, + "step": 600 + }, + { + "epoch": 0.4013333333333333, + "grad_norm": 6.125, + "learning_rate": 4.703303000671051e-06, + "loss": 1.7297916412353516, + "step": 602 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 2.375, + "learning_rate": 4.7010357530905715e-06, + "loss": 1.0203232765197754, + "step": 604 + }, + { + "epoch": 0.404, + "grad_norm": 7.6875, + "learning_rate": 4.698760575257292e-06, + "loss": 1.0827909708023071, + "step": 606 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 15.625, + "learning_rate": 4.6964774777781245e-06, + "loss": 1.1942954063415527, + "step": 608 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 8.6875, + "learning_rate": 4.6941864712969025e-06, + "loss": 1.9994385242462158, + "step": 610 + }, + { + "epoch": 0.408, + "grad_norm": 5.0625, + "learning_rate": 4.691887566494328e-06, + "loss": 0.9512624740600586, + "step": 612 + }, + { + "epoch": 0.4093333333333333, + "grad_norm": 5.6875, + "learning_rate": 4.689580774087932e-06, + "loss": 1.6768784523010254, + "step": 614 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 4.875, + "learning_rate": 4.68726610483201e-06, + "loss": 1.5625501871109009, + "step": 616 + }, + { + "epoch": 0.412, + "grad_norm": 32.0, + "learning_rate": 4.6849435695175835e-06, + "loss": 2.0652124881744385, + "step": 618 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 5.1875, + "learning_rate": 4.682613178972346e-06, + "loss": 1.673771619796753, + "step": 620 + }, + { + "epoch": 0.4146666666666667, + "grad_norm": 22.875, + "learning_rate": 4.680274944060611e-06, + "loss": 1.8690307140350342, + "step": 622 + }, + { + "epoch": 0.416, + "grad_norm": 3.5625, + "learning_rate": 4.677928875683263e-06, + "loss": 1.4643995761871338, + "step": 624 + }, + { + "epoch": 0.41733333333333333, + "grad_norm": 10.4375, + "learning_rate": 4.675574984777705e-06, + "loss": 1.976689338684082, + "step": 626 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 4.96875, + "learning_rate": 4.67321328231781e-06, + "loss": 1.1396830081939697, + "step": 628 + }, + { + "epoch": 0.42, + "grad_norm": 5.40625, + "learning_rate": 4.67084377931387e-06, + "loss": 1.2085014581680298, + "step": 630 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 3.390625, + "learning_rate": 4.668466486812539e-06, + "loss": 1.0501954555511475, + "step": 632 + }, + { + "epoch": 0.4226666666666667, + "grad_norm": 8.8125, + "learning_rate": 4.66608141589679e-06, + "loss": 1.7985272407531738, + "step": 634 + }, + { + "epoch": 0.424, + "grad_norm": 8.0625, + "learning_rate": 4.663688577685859e-06, + "loss": 1.6298389434814453, + "step": 636 + }, + { + "epoch": 0.42533333333333334, + "grad_norm": 30.875, + "learning_rate": 4.661287983335188e-06, + "loss": 1.0675194263458252, + "step": 638 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 9.1875, + "learning_rate": 4.658879644036383e-06, + "loss": 1.6258975267410278, + "step": 640 + }, + { + "epoch": 0.428, + "grad_norm": 4.8125, + "learning_rate": 4.656463571017159e-06, + "loss": 1.4670131206512451, + "step": 642 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 12.875, + "learning_rate": 4.654039775541279e-06, + "loss": 1.5779855251312256, + "step": 644 + }, + { + "epoch": 0.43066666666666664, + "grad_norm": 5.09375, + "learning_rate": 4.651608268908513e-06, + "loss": 1.165670394897461, + "step": 646 + }, + { + "epoch": 0.432, + "grad_norm": 4.03125, + "learning_rate": 4.649169062454581e-06, + "loss": 1.5870051383972168, + "step": 648 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 14.5, + "learning_rate": 4.646722167551095e-06, + "loss": 2.0407092571258545, + "step": 650 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 6.875, + "learning_rate": 4.644267595605518e-06, + "loss": 1.6178638935089111, + "step": 652 + }, + { + "epoch": 0.436, + "grad_norm": 6.0625, + "learning_rate": 4.6418053580610934e-06, + "loss": 1.6280204057693481, + "step": 654 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 101.5, + "learning_rate": 4.639335466396812e-06, + "loss": 1.7070868015289307, + "step": 656 + }, + { + "epoch": 0.43866666666666665, + "grad_norm": 8.75, + "learning_rate": 4.636857932127344e-06, + "loss": 1.6747055053710938, + "step": 658 + }, + { + "epoch": 0.44, + "grad_norm": 9.0, + "learning_rate": 4.634372766802986e-06, + "loss": 1.4893217086791992, + "step": 660 + }, + { + "epoch": 0.44133333333333336, + "grad_norm": 12.0, + "learning_rate": 4.631879982009617e-06, + "loss": 1.6209745407104492, + "step": 662 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 2.1875, + "learning_rate": 4.6293795893686335e-06, + "loss": 1.1486353874206543, + "step": 664 + }, + { + "epoch": 0.444, + "grad_norm": 5.625, + "learning_rate": 4.626871600536901e-06, + "loss": 1.9780635833740234, + "step": 666 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 4.4375, + "learning_rate": 4.6243560272067014e-06, + "loss": 1.5998198986053467, + "step": 668 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 1.21875, + "learning_rate": 4.6218328811056704e-06, + "loss": 1.1909828186035156, + "step": 670 + }, + { + "epoch": 0.448, + "grad_norm": 4.75, + "learning_rate": 4.619302173996753e-06, + "loss": 1.4504064321517944, + "step": 672 + }, + { + "epoch": 0.4493333333333333, + "grad_norm": 5.4375, + "learning_rate": 4.6167639176781395e-06, + "loss": 1.688302993774414, + "step": 674 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 6.875, + "learning_rate": 4.614218123983219e-06, + "loss": 1.7892383337020874, + "step": 676 + }, + { + "epoch": 0.452, + "grad_norm": 2.0625, + "learning_rate": 4.611664804780517e-06, + "loss": 1.0726022720336914, + "step": 678 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 7.96875, + "learning_rate": 4.609103971973644e-06, + "loss": 1.877305030822754, + "step": 680 + }, + { + "epoch": 0.45466666666666666, + "grad_norm": 5.78125, + "learning_rate": 4.606535637501238e-06, + "loss": 1.6311051845550537, + "step": 682 + }, + { + "epoch": 0.456, + "grad_norm": 5.125, + "learning_rate": 4.603959813336911e-06, + "loss": 1.6753770112991333, + "step": 684 + }, + { + "epoch": 0.4573333333333333, + "grad_norm": 5.09375, + "learning_rate": 4.601376511489193e-06, + "loss": 1.477659821510315, + "step": 686 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 5.125, + "learning_rate": 4.598785744001473e-06, + "loss": 1.5649811029434204, + "step": 688 + }, + { + "epoch": 0.46, + "grad_norm": 4.03125, + "learning_rate": 4.596187522951945e-06, + "loss": 1.5314197540283203, + "step": 690 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 29.0, + "learning_rate": 4.593581860453553e-06, + "loss": 1.951949119567871, + "step": 692 + }, + { + "epoch": 0.46266666666666667, + "grad_norm": 7.34375, + "learning_rate": 4.590968768653933e-06, + "loss": 1.8065054416656494, + "step": 694 + }, + { + "epoch": 0.464, + "grad_norm": 86.5, + "learning_rate": 4.5883482597353555e-06, + "loss": 1.4217579364776611, + "step": 696 + }, + { + "epoch": 0.4653333333333333, + "grad_norm": 48.25, + "learning_rate": 4.585720345914671e-06, + "loss": 1.402038335800171, + "step": 698 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 3.515625, + "learning_rate": 4.583085039443249e-06, + "loss": 1.546642780303955, + "step": 700 + }, + { + "epoch": 0.468, + "grad_norm": 6.96875, + "learning_rate": 4.580442352606928e-06, + "loss": 1.8113808631896973, + "step": 702 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 3.234375, + "learning_rate": 4.57779229772595e-06, + "loss": 1.235628366470337, + "step": 704 + }, + { + "epoch": 0.4706666666666667, + "grad_norm": 4.65625, + "learning_rate": 4.575134887154909e-06, + "loss": 1.591590166091919, + "step": 706 + }, + { + "epoch": 0.472, + "grad_norm": 6.125, + "learning_rate": 4.572470133282691e-06, + "loss": 1.5594894886016846, + "step": 708 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 5.4375, + "learning_rate": 4.569798048532416e-06, + "loss": 1.6119413375854492, + "step": 710 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 16.75, + "learning_rate": 4.56711864536138e-06, + "loss": 2.1140735149383545, + "step": 712 + }, + { + "epoch": 0.476, + "grad_norm": 3.328125, + "learning_rate": 4.564431936261001e-06, + "loss": 1.0822668075561523, + "step": 714 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 9.6875, + "learning_rate": 4.561737933756752e-06, + "loss": 1.572784185409546, + "step": 716 + }, + { + "epoch": 0.4786666666666667, + "grad_norm": 4.0625, + "learning_rate": 4.559036650408114e-06, + "loss": 1.5953166484832764, + "step": 718 + }, + { + "epoch": 0.48, + "grad_norm": 4.4375, + "learning_rate": 4.556328098808506e-06, + "loss": 1.5809223651885986, + "step": 720 + }, + { + "epoch": 0.48133333333333334, + "grad_norm": 4.9375, + "learning_rate": 4.553612291585234e-06, + "loss": 1.7776161432266235, + "step": 722 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 2.71875, + "learning_rate": 4.550889241399431e-06, + "loss": 1.1778576374053955, + "step": 724 + }, + { + "epoch": 0.484, + "grad_norm": 16.375, + "learning_rate": 4.5481589609459945e-06, + "loss": 1.919342041015625, + "step": 726 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 4.03125, + "learning_rate": 4.545421462953531e-06, + "loss": 1.5503928661346436, + "step": 728 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 6.96875, + "learning_rate": 4.542676760184296e-06, + "loss": 2.023519992828369, + "step": 730 + }, + { + "epoch": 0.488, + "grad_norm": 4.40625, + "learning_rate": 4.539924865434131e-06, + "loss": 1.6147465705871582, + "step": 732 + }, + { + "epoch": 0.48933333333333334, + "grad_norm": 5.4375, + "learning_rate": 4.53716579153241e-06, + "loss": 1.701406717300415, + "step": 734 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 6.03125, + "learning_rate": 4.5343995513419725e-06, + "loss": 1.9945590496063232, + "step": 736 + }, + { + "epoch": 0.492, + "grad_norm": 3.046875, + "learning_rate": 4.531626157759072e-06, + "loss": 1.1337153911590576, + "step": 738 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 1.734375, + "learning_rate": 4.528845623713307e-06, + "loss": 1.0001354217529297, + "step": 740 + }, + { + "epoch": 0.49466666666666664, + "grad_norm": 7.46875, + "learning_rate": 4.526057962167567e-06, + "loss": 1.6229677200317383, + "step": 742 + }, + { + "epoch": 0.496, + "grad_norm": 45.75, + "learning_rate": 4.52326318611797e-06, + "loss": 1.9723401069641113, + "step": 744 + }, + { + "epoch": 0.49733333333333335, + "grad_norm": 2.453125, + "learning_rate": 4.520461308593801e-06, + "loss": 1.0949461460113525, + "step": 746 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 1.765625, + "learning_rate": 4.5176523426574535e-06, + "loss": 1.124253273010254, + "step": 748 + }, + { + "epoch": 0.5, + "grad_norm": 5.03125, + "learning_rate": 4.514836301404367e-06, + "loss": 1.6151834726333618, + "step": 750 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 11.75, + "learning_rate": 4.5120131979629635e-06, + "loss": 1.9495484828948975, + "step": 752 + }, + { + "epoch": 0.5026666666666667, + "grad_norm": 3.515625, + "learning_rate": 4.509183045494593e-06, + "loss": 1.092561960220337, + "step": 754 + }, + { + "epoch": 0.504, + "grad_norm": 10.875, + "learning_rate": 4.506345857193467e-06, + "loss": 2.0824429988861084, + "step": 756 + }, + { + "epoch": 0.5053333333333333, + "grad_norm": 12.3125, + "learning_rate": 4.503501646286596e-06, + "loss": 1.9892358779907227, + "step": 758 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 2.890625, + "learning_rate": 4.500650426033732e-06, + "loss": 1.1249581575393677, + "step": 760 + }, + { + "epoch": 0.508, + "grad_norm": 8.3125, + "learning_rate": 4.497792209727304e-06, + "loss": 2.0044803619384766, + "step": 762 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 3.234375, + "learning_rate": 4.494927010692358e-06, + "loss": 1.162718415260315, + "step": 764 + }, + { + "epoch": 0.5106666666666667, + "grad_norm": 10.0625, + "learning_rate": 4.492054842286493e-06, + "loss": 1.6656391620635986, + "step": 766 + }, + { + "epoch": 0.512, + "grad_norm": 3.765625, + "learning_rate": 4.489175717899796e-06, + "loss": 1.6391451358795166, + "step": 768 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 5.28125, + "learning_rate": 4.486289650954789e-06, + "loss": 1.5884838104248047, + "step": 770 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 1.2890625, + "learning_rate": 4.483396654906356e-06, + "loss": 0.9799174070358276, + "step": 772 + }, + { + "epoch": 0.516, + "grad_norm": 1.703125, + "learning_rate": 4.480496743241683e-06, + "loss": 1.0725151300430298, + "step": 774 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 17.375, + "learning_rate": 4.477589929480203e-06, + "loss": 2.1492419242858887, + "step": 776 + }, + { + "epoch": 0.5186666666666667, + "grad_norm": 5.8125, + "learning_rate": 4.4746762271735214e-06, + "loss": 1.7624104022979736, + "step": 778 + }, + { + "epoch": 0.52, + "grad_norm": 16.625, + "learning_rate": 4.4717556499053584e-06, + "loss": 2.1565475463867188, + "step": 780 + }, + { + "epoch": 0.5213333333333333, + "grad_norm": 3.234375, + "learning_rate": 4.46882821129149e-06, + "loss": 1.2971224784851074, + "step": 782 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 4.90625, + "learning_rate": 4.465893924979673e-06, + "loss": 1.0319178104400635, + "step": 784 + }, + { + "epoch": 0.524, + "grad_norm": 8.125, + "learning_rate": 4.462952804649593e-06, + "loss": 1.9379088878631592, + "step": 786 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 5.6875, + "learning_rate": 4.460004864012796e-06, + "loss": 1.6146807670593262, + "step": 788 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 2.296875, + "learning_rate": 4.4570501168126205e-06, + "loss": 0.9778133630752563, + "step": 790 + }, + { + "epoch": 0.528, + "grad_norm": 1.640625, + "learning_rate": 4.454088576824143e-06, + "loss": 1.121327519416809, + "step": 792 + }, + { + "epoch": 0.5293333333333333, + "grad_norm": 5.90625, + "learning_rate": 4.451120257854101e-06, + "loss": 1.7932809591293335, + "step": 794 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 11.0625, + "learning_rate": 4.448145173740844e-06, + "loss": 1.5648019313812256, + "step": 796 + }, + { + "epoch": 0.532, + "grad_norm": 1.5234375, + "learning_rate": 4.445163338354253e-06, + "loss": 1.1240180730819702, + "step": 798 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 1.875, + "learning_rate": 4.442174765595688e-06, + "loss": 1.1813502311706543, + "step": 800 + }, + { + "epoch": 0.5346666666666666, + "grad_norm": 13.4375, + "learning_rate": 4.439179469397918e-06, + "loss": 1.7995562553405762, + "step": 802 + }, + { + "epoch": 0.536, + "grad_norm": 3.328125, + "learning_rate": 4.436177463725057e-06, + "loss": 1.1335866451263428, + "step": 804 + }, + { + "epoch": 0.5373333333333333, + "grad_norm": 11.3125, + "learning_rate": 4.433168762572495e-06, + "loss": 2.0559403896331787, + "step": 806 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 1.8046875, + "learning_rate": 4.4301533799668414e-06, + "loss": 1.1813790798187256, + "step": 808 + }, + { + "epoch": 0.54, + "grad_norm": 6.21875, + "learning_rate": 4.427131329965854e-06, + "loss": 1.7660613059997559, + "step": 810 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 10.6875, + "learning_rate": 4.4241026266583705e-06, + "loss": 1.9616385698318481, + "step": 812 + }, + { + "epoch": 0.5426666666666666, + "grad_norm": 6.25, + "learning_rate": 4.42106728416425e-06, + "loss": 1.9410457611083984, + "step": 814 + }, + { + "epoch": 0.544, + "grad_norm": 6.03125, + "learning_rate": 4.418025316634301e-06, + "loss": 1.6492912769317627, + "step": 816 + }, + { + "epoch": 0.5453333333333333, + "grad_norm": 6.1875, + "learning_rate": 4.4149767382502205e-06, + "loss": 1.769735336303711, + "step": 818 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 33.5, + "learning_rate": 4.4119215632245235e-06, + "loss": 1.4241745471954346, + "step": 820 + }, + { + "epoch": 0.548, + "grad_norm": 6.3125, + "learning_rate": 4.408859805800481e-06, + "loss": 1.6003971099853516, + "step": 822 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 8.5625, + "learning_rate": 4.405791480252046e-06, + "loss": 1.998405933380127, + "step": 824 + }, + { + "epoch": 0.5506666666666666, + "grad_norm": 21.25, + "learning_rate": 4.4027166008837996e-06, + "loss": 2.0935518741607666, + "step": 826 + }, + { + "epoch": 0.552, + "grad_norm": 5.71875, + "learning_rate": 4.399635182030869e-06, + "loss": 1.7479844093322754, + "step": 828 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 5.09375, + "learning_rate": 4.396547238058876e-06, + "loss": 1.6909379959106445, + "step": 830 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 7.5, + "learning_rate": 4.393452783363857e-06, + "loss": 1.9220030307769775, + "step": 832 + }, + { + "epoch": 0.556, + "grad_norm": 13.375, + "learning_rate": 4.390351832372206e-06, + "loss": 1.959233045578003, + "step": 834 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 6.78125, + "learning_rate": 4.387244399540599e-06, + "loss": 1.5985342264175415, + "step": 836 + }, + { + "epoch": 0.5586666666666666, + "grad_norm": 3.359375, + "learning_rate": 4.384130499355931e-06, + "loss": 1.2405080795288086, + "step": 838 + }, + { + "epoch": 0.56, + "grad_norm": 33.5, + "learning_rate": 4.381010146335249e-06, + "loss": 1.2756681442260742, + "step": 840 + }, + { + "epoch": 0.5613333333333334, + "grad_norm": 72.5, + "learning_rate": 4.377883355025686e-06, + "loss": 1.2579646110534668, + "step": 842 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 16.625, + "learning_rate": 4.374750140004383e-06, + "loss": 1.0350561141967773, + "step": 844 + }, + { + "epoch": 0.564, + "grad_norm": 4.78125, + "learning_rate": 4.371610515878436e-06, + "loss": 1.5376999378204346, + "step": 846 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 4.71875, + "learning_rate": 4.3684644972848166e-06, + "loss": 1.540494680404663, + "step": 848 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 3.84375, + "learning_rate": 4.365312098890308e-06, + "loss": 1.5681653022766113, + "step": 850 + }, + { + "epoch": 0.568, + "grad_norm": 7.71875, + "learning_rate": 4.362153335391436e-06, + "loss": 2.0566165447235107, + "step": 852 + }, + { + "epoch": 0.5693333333333334, + "grad_norm": 1.421875, + "learning_rate": 4.358988221514399e-06, + "loss": 1.065299391746521, + "step": 854 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 8.0625, + "learning_rate": 4.355816772015007e-06, + "loss": 1.5944557189941406, + "step": 856 + }, + { + "epoch": 0.572, + "grad_norm": 9.5, + "learning_rate": 4.352639001678599e-06, + "loss": 1.5592529773712158, + "step": 858 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 4.25, + "learning_rate": 4.349454925319986e-06, + "loss": 1.6201512813568115, + "step": 860 + }, + { + "epoch": 0.5746666666666667, + "grad_norm": 6.9375, + "learning_rate": 4.346264557783379e-06, + "loss": 1.5860223770141602, + "step": 862 + }, + { + "epoch": 0.576, + "grad_norm": 5.34375, + "learning_rate": 4.343067913942314e-06, + "loss": 1.6586430072784424, + "step": 864 + }, + { + "epoch": 0.5773333333333334, + "grad_norm": 7.71875, + "learning_rate": 4.339865008699592e-06, + "loss": 1.4852830171585083, + "step": 866 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 3.90625, + "learning_rate": 4.336655856987201e-06, + "loss": 1.5025522708892822, + "step": 868 + }, + { + "epoch": 0.58, + "grad_norm": 8.875, + "learning_rate": 4.333440473766253e-06, + "loss": 1.8594863414764404, + "step": 870 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 3.828125, + "learning_rate": 4.33021887402691e-06, + "loss": 1.5938358306884766, + "step": 872 + }, + { + "epoch": 0.5826666666666667, + "grad_norm": 7.4375, + "learning_rate": 4.326991072788315e-06, + "loss": 1.713855266571045, + "step": 874 + }, + { + "epoch": 0.584, + "grad_norm": 2.890625, + "learning_rate": 4.323757085098524e-06, + "loss": 0.9895963668823242, + "step": 876 + }, + { + "epoch": 0.5853333333333334, + "grad_norm": 6.09375, + "learning_rate": 4.320516926034434e-06, + "loss": 1.524658203125, + "step": 878 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 10.0625, + "learning_rate": 4.31727061070171e-06, + "loss": 1.939576268196106, + "step": 880 + }, + { + "epoch": 0.588, + "grad_norm": 8.125, + "learning_rate": 4.314018154234722e-06, + "loss": 1.504568338394165, + "step": 882 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 13.25, + "learning_rate": 4.310759571796469e-06, + "loss": 1.8733505010604858, + "step": 884 + }, + { + "epoch": 0.5906666666666667, + "grad_norm": 8.9375, + "learning_rate": 4.307494878578505e-06, + "loss": 2.1683549880981445, + "step": 886 + }, + { + "epoch": 0.592, + "grad_norm": 3.34375, + "learning_rate": 4.3042240898008805e-06, + "loss": 1.0660171508789062, + "step": 888 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 4.875, + "learning_rate": 4.300947220712056e-06, + "loss": 1.6291861534118652, + "step": 890 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 6.8125, + "learning_rate": 4.297664286588844e-06, + "loss": 1.6542470455169678, + "step": 892 + }, + { + "epoch": 0.596, + "grad_norm": 5.53125, + "learning_rate": 4.294375302736328e-06, + "loss": 1.5474224090576172, + "step": 894 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 8.25, + "learning_rate": 4.291080284487797e-06, + "loss": 1.8157379627227783, + "step": 896 + }, + { + "epoch": 0.5986666666666667, + "grad_norm": 4.28125, + "learning_rate": 4.287779247204675e-06, + "loss": 1.239814281463623, + "step": 898 + }, + { + "epoch": 0.6, + "grad_norm": 6.21875, + "learning_rate": 4.284472206276443e-06, + "loss": 1.558706283569336, + "step": 900 + }, + { + "epoch": 0.6013333333333334, + "grad_norm": 8.625, + "learning_rate": 4.281159177120574e-06, + "loss": 2.167874336242676, + "step": 902 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 3.171875, + "learning_rate": 4.2778401751824565e-06, + "loss": 1.0401667356491089, + "step": 904 + }, + { + "epoch": 0.604, + "grad_norm": 32.25, + "learning_rate": 4.274515215935322e-06, + "loss": 1.2682547569274902, + "step": 906 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 3.578125, + "learning_rate": 4.271184314880181e-06, + "loss": 1.533789873123169, + "step": 908 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 3.9375, + "learning_rate": 4.267847487545741e-06, + "loss": 1.5725165605545044, + "step": 910 + }, + { + "epoch": 0.608, + "grad_norm": 4.875, + "learning_rate": 4.264504749488336e-06, + "loss": 1.630423665046692, + "step": 912 + }, + { + "epoch": 0.6093333333333333, + "grad_norm": 4.28125, + "learning_rate": 4.261156116291862e-06, + "loss": 1.0812149047851562, + "step": 914 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 4.3125, + "learning_rate": 4.257801603567689e-06, + "loss": 1.5762662887573242, + "step": 916 + }, + { + "epoch": 0.612, + "grad_norm": 7.25, + "learning_rate": 4.254441226954608e-06, + "loss": 1.642853021621704, + "step": 918 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 8.4375, + "learning_rate": 4.251075002118741e-06, + "loss": 1.8817405700683594, + "step": 920 + }, + { + "epoch": 0.6146666666666667, + "grad_norm": 8.625, + "learning_rate": 4.2477029447534744e-06, + "loss": 1.8150745630264282, + "step": 922 + }, + { + "epoch": 0.616, + "grad_norm": 4.46875, + "learning_rate": 4.244325070579391e-06, + "loss": 1.6018476486206055, + "step": 924 + }, + { + "epoch": 0.6173333333333333, + "grad_norm": 11.75, + "learning_rate": 4.240941395344182e-06, + "loss": 1.8347196578979492, + "step": 926 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 9.6875, + "learning_rate": 4.2375519348225946e-06, + "loss": 1.8900158405303955, + "step": 928 + }, + { + "epoch": 0.62, + "grad_norm": 4.75, + "learning_rate": 4.23415670481634e-06, + "loss": 1.5854055881500244, + "step": 930 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 15.75, + "learning_rate": 4.2307557211540296e-06, + "loss": 2.090912342071533, + "step": 932 + }, + { + "epoch": 0.6226666666666667, + "grad_norm": 5.125, + "learning_rate": 4.227348999691096e-06, + "loss": 1.1517055034637451, + "step": 934 + }, + { + "epoch": 0.624, + "grad_norm": 22.5, + "learning_rate": 4.223936556309723e-06, + "loss": 1.033469796180725, + "step": 936 + }, + { + "epoch": 0.6253333333333333, + "grad_norm": 5.125, + "learning_rate": 4.220518406918771e-06, + "loss": 1.536806344985962, + "step": 938 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 9.1875, + "learning_rate": 4.2170945674537015e-06, + "loss": 2.028916835784912, + "step": 940 + }, + { + "epoch": 0.628, + "grad_norm": 7.0, + "learning_rate": 4.2136650538765e-06, + "loss": 1.6300554275512695, + "step": 942 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 6.71875, + "learning_rate": 4.210229882175611e-06, + "loss": 1.740851640701294, + "step": 944 + }, + { + "epoch": 0.6306666666666667, + "grad_norm": 4.90625, + "learning_rate": 4.2067890683658495e-06, + "loss": 1.5381369590759277, + "step": 946 + }, + { + "epoch": 0.632, + "grad_norm": 4.84375, + "learning_rate": 4.203342628488342e-06, + "loss": 1.6090049743652344, + "step": 948 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 2.703125, + "learning_rate": 4.1998905786104386e-06, + "loss": 1.1410777568817139, + "step": 950 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 1.90625, + "learning_rate": 4.196432934825644e-06, + "loss": 1.1576334238052368, + "step": 952 + }, + { + "epoch": 0.636, + "grad_norm": 8.8125, + "learning_rate": 4.192969713253544e-06, + "loss": 1.8281700611114502, + "step": 954 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 1.8203125, + "learning_rate": 4.189500930039726e-06, + "loss": 1.1463249921798706, + "step": 956 + }, + { + "epoch": 0.6386666666666667, + "grad_norm": 11.375, + "learning_rate": 4.186026601355706e-06, + "loss": 1.3184925317764282, + "step": 958 + }, + { + "epoch": 0.64, + "grad_norm": 2.375, + "learning_rate": 4.182546743398855e-06, + "loss": 1.1309475898742676, + "step": 960 + }, + { + "epoch": 0.6413333333333333, + "grad_norm": 6.28125, + "learning_rate": 4.179061372392319e-06, + "loss": 2.0938892364501953, + "step": 962 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 5.125, + "learning_rate": 4.1755705045849474e-06, + "loss": 1.8526628017425537, + "step": 964 + }, + { + "epoch": 0.644, + "grad_norm": 11.5625, + "learning_rate": 4.172074156251215e-06, + "loss": 1.9665130376815796, + "step": 966 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 7.65625, + "learning_rate": 4.168572343691147e-06, + "loss": 1.5805991888046265, + "step": 968 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 103.5, + "learning_rate": 4.165065083230245e-06, + "loss": 1.496896505355835, + "step": 970 + }, + { + "epoch": 0.648, + "grad_norm": 19.375, + "learning_rate": 4.161552391219406e-06, + "loss": 1.1086199283599854, + "step": 972 + }, + { + "epoch": 0.6493333333333333, + "grad_norm": 26.5, + "learning_rate": 4.158034284034849e-06, + "loss": 1.9410427808761597, + "step": 974 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 11.8125, + "learning_rate": 4.154510778078039e-06, + "loss": 1.9177557229995728, + "step": 976 + }, + { + "epoch": 0.652, + "grad_norm": 10.4375, + "learning_rate": 4.150981889775614e-06, + "loss": 1.9715896844863892, + "step": 978 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 18.25, + "learning_rate": 4.147447635579299e-06, + "loss": 1.1010019779205322, + "step": 980 + }, + { + "epoch": 0.6546666666666666, + "grad_norm": 4.34375, + "learning_rate": 4.143908031965837e-06, + "loss": 1.5735809803009033, + "step": 982 + }, + { + "epoch": 0.656, + "grad_norm": 2.140625, + "learning_rate": 4.140363095436912e-06, + "loss": 1.1293983459472656, + "step": 984 + }, + { + "epoch": 0.6573333333333333, + "grad_norm": 5.46875, + "learning_rate": 4.136812842519067e-06, + "loss": 1.9613256454467773, + "step": 986 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 2.421875, + "learning_rate": 4.13325728976363e-06, + "loss": 0.9995434880256653, + "step": 988 + }, + { + "epoch": 0.66, + "grad_norm": 4.65625, + "learning_rate": 4.129696453746642e-06, + "loss": 1.6232421398162842, + "step": 990 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 5.09375, + "learning_rate": 4.126130351068768e-06, + "loss": 1.6333463191986084, + "step": 992 + }, + { + "epoch": 0.6626666666666666, + "grad_norm": 9.0625, + "learning_rate": 4.122558998355229e-06, + "loss": 1.931457757949829, + "step": 994 + }, + { + "epoch": 0.664, + "grad_norm": 2.90625, + "learning_rate": 4.118982412255725e-06, + "loss": 1.1441792249679565, + "step": 996 + }, + { + "epoch": 0.6653333333333333, + "grad_norm": 6.375, + "learning_rate": 4.115400609444349e-06, + "loss": 1.8410940170288086, + "step": 998 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 13.25, + "learning_rate": 4.111813606619517e-06, + "loss": 1.7064735889434814, + "step": 1000 + }, + { + "epoch": 0.668, + "grad_norm": 21.5, + "learning_rate": 4.1082214205038864e-06, + "loss": 2.002370834350586, + "step": 1002 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 8.0625, + "learning_rate": 4.104624067844281e-06, + "loss": 1.1194469928741455, + "step": 1004 + }, + { + "epoch": 0.6706666666666666, + "grad_norm": 5.21875, + "learning_rate": 4.1010215654116084e-06, + "loss": 1.5584155321121216, + "step": 1006 + }, + { + "epoch": 0.672, + "grad_norm": 7.375, + "learning_rate": 4.0974139300007855e-06, + "loss": 1.5594654083251953, + "step": 1008 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 17.75, + "learning_rate": 4.093801178430663e-06, + "loss": 1.9932979345321655, + "step": 1010 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 7.75, + "learning_rate": 4.090183327543937e-06, + "loss": 1.4730606079101562, + "step": 1012 + }, + { + "epoch": 0.676, + "grad_norm": 24.375, + "learning_rate": 4.086560394207081e-06, + "loss": 2.038485050201416, + "step": 1014 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 9.0625, + "learning_rate": 4.082932395310261e-06, + "loss": 1.8734180927276611, + "step": 1016 + }, + { + "epoch": 0.6786666666666666, + "grad_norm": 9.0625, + "learning_rate": 4.07929934776726e-06, + "loss": 2.1227965354919434, + "step": 1018 + }, + { + "epoch": 0.68, + "grad_norm": 2.578125, + "learning_rate": 4.075661268515395e-06, + "loss": 1.21480393409729, + "step": 1020 + }, + { + "epoch": 0.6813333333333333, + "grad_norm": 9.625, + "learning_rate": 4.072018174515446e-06, + "loss": 1.6561039686203003, + "step": 1022 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 4.09375, + "learning_rate": 4.068370082751567e-06, + "loss": 1.6361010074615479, + "step": 1024 + }, + { + "epoch": 0.684, + "grad_norm": 1.8046875, + "learning_rate": 4.064717010231214e-06, + "loss": 1.1598769426345825, + "step": 1026 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 2.90625, + "learning_rate": 4.061058973985064e-06, + "loss": 1.2839393615722656, + "step": 1028 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 10.6875, + "learning_rate": 4.0573959910669316e-06, + "loss": 1.272928237915039, + "step": 1030 + }, + { + "epoch": 0.688, + "grad_norm": 3.96875, + "learning_rate": 4.0537280785536955e-06, + "loss": 1.5582289695739746, + "step": 1032 + }, + { + "epoch": 0.6893333333333334, + "grad_norm": 8.1875, + "learning_rate": 4.050055253545219e-06, + "loss": 1.6847953796386719, + "step": 1034 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 10.0625, + "learning_rate": 4.0463775331642605e-06, + "loss": 2.000561237335205, + "step": 1036 + }, + { + "epoch": 0.692, + "grad_norm": 4.34375, + "learning_rate": 4.042694934556407e-06, + "loss": 1.596095085144043, + "step": 1038 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 8.1875, + "learning_rate": 4.039007474889983e-06, + "loss": 1.8276232481002808, + "step": 1040 + }, + { + "epoch": 0.6946666666666667, + "grad_norm": 14.5625, + "learning_rate": 4.035315171355981e-06, + "loss": 1.7133440971374512, + "step": 1042 + }, + { + "epoch": 0.696, + "grad_norm": 4.5625, + "learning_rate": 4.031618041167969e-06, + "loss": 1.6173053979873657, + "step": 1044 + }, + { + "epoch": 0.6973333333333334, + "grad_norm": 29.625, + "learning_rate": 4.027916101562024e-06, + "loss": 0.8435451984405518, + "step": 1046 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 7.1875, + "learning_rate": 4.024209369796638e-06, + "loss": 1.728581428527832, + "step": 1048 + }, + { + "epoch": 0.7, + "grad_norm": 2.453125, + "learning_rate": 4.020497863152647e-06, + "loss": 1.4456583261489868, + "step": 1050 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 20.625, + "learning_rate": 4.0167815989331505e-06, + "loss": 1.5146148204803467, + "step": 1052 + }, + { + "epoch": 0.7026666666666667, + "grad_norm": 5.1875, + "learning_rate": 4.013060594463422e-06, + "loss": 1.0910983085632324, + "step": 1054 + }, + { + "epoch": 0.704, + "grad_norm": 4.53125, + "learning_rate": 4.009334867090839e-06, + "loss": 1.5269734859466553, + "step": 1056 + }, + { + "epoch": 0.7053333333333334, + "grad_norm": 8.375, + "learning_rate": 4.005604434184793e-06, + "loss": 2.0650410652160645, + "step": 1058 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 3.765625, + "learning_rate": 4.0018693131366185e-06, + "loss": 1.6046576499938965, + "step": 1060 + }, + { + "epoch": 0.708, + "grad_norm": 3.9375, + "learning_rate": 3.998129521359499e-06, + "loss": 1.0697150230407715, + "step": 1062 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 2.09375, + "learning_rate": 3.994385076288399e-06, + "loss": 1.048234224319458, + "step": 1064 + }, + { + "epoch": 0.7106666666666667, + "grad_norm": 2.578125, + "learning_rate": 3.990635995379975e-06, + "loss": 1.0379292964935303, + "step": 1066 + }, + { + "epoch": 0.712, + "grad_norm": 8.9375, + "learning_rate": 3.986882296112495e-06, + "loss": 2.008152961730957, + "step": 1068 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 4.21875, + "learning_rate": 3.983123995985757e-06, + "loss": 1.593372106552124, + "step": 1070 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 10.0, + "learning_rate": 3.979361112521011e-06, + "loss": 1.7745264768600464, + "step": 1072 + }, + { + "epoch": 0.716, + "grad_norm": 9.6875, + "learning_rate": 3.975593663260872e-06, + "loss": 1.8867788314819336, + "step": 1074 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 8.25, + "learning_rate": 3.971821665769241e-06, + "loss": 1.751440167427063, + "step": 1076 + }, + { + "epoch": 0.7186666666666667, + "grad_norm": 22.75, + "learning_rate": 3.968045137631226e-06, + "loss": 1.5239152908325195, + "step": 1078 + }, + { + "epoch": 0.72, + "grad_norm": 4.9375, + "learning_rate": 3.964264096453055e-06, + "loss": 1.5637166500091553, + "step": 1080 + }, + { + "epoch": 0.7213333333333334, + "grad_norm": 5.65625, + "learning_rate": 3.960478559861992e-06, + "loss": 1.5539973974227905, + "step": 1082 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 31.25, + "learning_rate": 3.956688545506266e-06, + "loss": 2.123660087585449, + "step": 1084 + }, + { + "epoch": 0.724, + "grad_norm": 6.625, + "learning_rate": 3.952894071054976e-06, + "loss": 1.5803725719451904, + "step": 1086 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 4.15625, + "learning_rate": 3.949095154198015e-06, + "loss": 1.592582106590271, + "step": 1088 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 4.9375, + "learning_rate": 3.945291812645989e-06, + "loss": 1.5624558925628662, + "step": 1090 + }, + { + "epoch": 0.728, + "grad_norm": 31.5, + "learning_rate": 3.941484064130129e-06, + "loss": 0.7563271522521973, + "step": 1092 + }, + { + "epoch": 0.7293333333333333, + "grad_norm": 2.25, + "learning_rate": 3.937671926402213e-06, + "loss": 1.1665401458740234, + "step": 1094 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 6.40625, + "learning_rate": 3.933855417234481e-06, + "loss": 1.601196527481079, + "step": 1096 + }, + { + "epoch": 0.732, + "grad_norm": 4.59375, + "learning_rate": 3.930034554419554e-06, + "loss": 1.6145453453063965, + "step": 1098 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 1.453125, + "learning_rate": 3.926209355770348e-06, + "loss": 1.085764765739441, + "step": 1100 + }, + { + "epoch": 0.7346666666666667, + "grad_norm": 5.1875, + "learning_rate": 3.922379839119991e-06, + "loss": 1.493807077407837, + "step": 1102 + }, + { + "epoch": 0.736, + "grad_norm": 11.5625, + "learning_rate": 3.9185460223217464e-06, + "loss": 1.9608560800552368, + "step": 1104 + }, + { + "epoch": 0.7373333333333333, + "grad_norm": 2.640625, + "learning_rate": 3.914707923248923e-06, + "loss": 1.1575837135314941, + "step": 1106 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 4.78125, + "learning_rate": 3.910865559794791e-06, + "loss": 1.6585121154785156, + "step": 1108 + }, + { + "epoch": 0.74, + "grad_norm": 5.625, + "learning_rate": 3.907018949872504e-06, + "loss": 1.608562707901001, + "step": 1110 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 1.90625, + "learning_rate": 3.903168111415013e-06, + "loss": 1.0436785221099854, + "step": 1112 + }, + { + "epoch": 0.7426666666666667, + "grad_norm": 5.09375, + "learning_rate": 3.899313062374981e-06, + "loss": 1.571044921875, + "step": 1114 + }, + { + "epoch": 0.744, + "grad_norm": 4.75, + "learning_rate": 3.895453820724699e-06, + "loss": 1.6325924396514893, + "step": 1116 + }, + { + "epoch": 0.7453333333333333, + "grad_norm": 7.1875, + "learning_rate": 3.891590404456011e-06, + "loss": 1.6957452297210693, + "step": 1118 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 4.8125, + "learning_rate": 3.8877228315802154e-06, + "loss": 1.0871795415878296, + "step": 1120 + }, + { + "epoch": 0.748, + "grad_norm": 2.234375, + "learning_rate": 3.883851120127991e-06, + "loss": 1.1415892839431763, + "step": 1122 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 6.46875, + "learning_rate": 3.879975288149313e-06, + "loss": 1.5673210620880127, + "step": 1124 + }, + { + "epoch": 0.7506666666666667, + "grad_norm": 3.0, + "learning_rate": 3.876095353713365e-06, + "loss": 1.2196298837661743, + "step": 1126 + }, + { + "epoch": 0.752, + "grad_norm": 5.03125, + "learning_rate": 3.872211334908457e-06, + "loss": 1.531401515007019, + "step": 1128 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 2.921875, + "learning_rate": 3.868323249841938e-06, + "loss": 1.157065749168396, + "step": 1130 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 7.375, + "learning_rate": 3.864431116640116e-06, + "loss": 1.9410104751586914, + "step": 1132 + }, + { + "epoch": 0.756, + "grad_norm": 1.8046875, + "learning_rate": 3.860534953448172e-06, + "loss": 1.1366026401519775, + "step": 1134 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 6.59375, + "learning_rate": 3.8566347784300736e-06, + "loss": 1.7256261110305786, + "step": 1136 + }, + { + "epoch": 0.7586666666666667, + "grad_norm": 10.25, + "learning_rate": 3.852730609768493e-06, + "loss": 1.6122360229492188, + "step": 1138 + }, + { + "epoch": 0.76, + "grad_norm": 5.4375, + "learning_rate": 3.8488224656647175e-06, + "loss": 1.6505470275878906, + "step": 1140 + }, + { + "epoch": 0.7613333333333333, + "grad_norm": 4.1875, + "learning_rate": 3.844910364338574e-06, + "loss": 1.6339609622955322, + "step": 1142 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 1.6796875, + "learning_rate": 3.84099432402833e-06, + "loss": 1.1175481081008911, + "step": 1144 + }, + { + "epoch": 0.764, + "grad_norm": 9.9375, + "learning_rate": 3.837074362990624e-06, + "loss": 2.268331527709961, + "step": 1146 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 14.125, + "learning_rate": 3.833150499500369e-06, + "loss": 1.9729036092758179, + "step": 1148 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 1.796875, + "learning_rate": 3.829222751850673e-06, + "loss": 1.1577950716018677, + "step": 1150 + }, + { + "epoch": 0.768, + "grad_norm": 9.875, + "learning_rate": 3.8252911383527505e-06, + "loss": 2.0585074424743652, + "step": 1152 + }, + { + "epoch": 0.7693333333333333, + "grad_norm": 4.46875, + "learning_rate": 3.821355677335839e-06, + "loss": 1.5769875049591064, + "step": 1154 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 8.0625, + "learning_rate": 3.817416387147114e-06, + "loss": 1.9496655464172363, + "step": 1156 + }, + { + "epoch": 0.772, + "grad_norm": 6.21875, + "learning_rate": 3.813473286151601e-06, + "loss": 1.529472827911377, + "step": 1158 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 5.9375, + "learning_rate": 3.8095263927320945e-06, + "loss": 1.6636042594909668, + "step": 1160 + }, + { + "epoch": 0.7746666666666666, + "grad_norm": 6.78125, + "learning_rate": 3.8055757252890677e-06, + "loss": 1.729430913925171, + "step": 1162 + }, + { + "epoch": 0.776, + "grad_norm": 14.125, + "learning_rate": 3.801621302240588e-06, + "loss": 1.8068076372146606, + "step": 1164 + }, + { + "epoch": 0.7773333333333333, + "grad_norm": 10.25, + "learning_rate": 3.797663142022231e-06, + "loss": 2.0321993827819824, + "step": 1166 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 7.09375, + "learning_rate": 3.793701263086995e-06, + "loss": 1.7701747417449951, + "step": 1168 + }, + { + "epoch": 0.78, + "grad_norm": 9.25, + "learning_rate": 3.789735683905218e-06, + "loss": 1.120033621788025, + "step": 1170 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 4.40625, + "learning_rate": 3.785766422964484e-06, + "loss": 1.5124024152755737, + "step": 1172 + }, + { + "epoch": 0.7826666666666666, + "grad_norm": 2.703125, + "learning_rate": 3.781793498769546e-06, + "loss": 1.2949274778366089, + "step": 1174 + }, + { + "epoch": 0.784, + "grad_norm": 7.03125, + "learning_rate": 3.777816929842232e-06, + "loss": 1.6004828214645386, + "step": 1176 + }, + { + "epoch": 0.7853333333333333, + "grad_norm": 7.0, + "learning_rate": 3.7738367347213623e-06, + "loss": 1.5260186195373535, + "step": 1178 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 2.171875, + "learning_rate": 3.7698529319626633e-06, + "loss": 1.0432777404785156, + "step": 1180 + }, + { + "epoch": 0.788, + "grad_norm": 4.5, + "learning_rate": 3.765865540138679e-06, + "loss": 1.6023154258728027, + "step": 1182 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 5.84375, + "learning_rate": 3.7618745778386888e-06, + "loss": 1.6582971811294556, + "step": 1184 + }, + { + "epoch": 0.7906666666666666, + "grad_norm": 7.21875, + "learning_rate": 3.757880063668614e-06, + "loss": 2.0822949409484863, + "step": 1186 + }, + { + "epoch": 0.792, + "grad_norm": 9.875, + "learning_rate": 3.753882016250936e-06, + "loss": 1.8574600219726562, + "step": 1188 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 3.34375, + "learning_rate": 3.74988045422461e-06, + "loss": 1.2435466051101685, + "step": 1190 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 10.125, + "learning_rate": 3.7458753962449747e-06, + "loss": 1.7264337539672852, + "step": 1192 + }, + { + "epoch": 0.796, + "grad_norm": 5.25, + "learning_rate": 3.741866860983665e-06, + "loss": 1.8587850332260132, + "step": 1194 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 7.46875, + "learning_rate": 3.737854867128531e-06, + "loss": 1.72437584400177, + "step": 1196 + }, + { + "epoch": 0.7986666666666666, + "grad_norm": 7.65625, + "learning_rate": 3.733839433383545e-06, + "loss": 1.894095778465271, + "step": 1198 + }, + { + "epoch": 0.8, + "grad_norm": 1.6796875, + "learning_rate": 3.729820578468716e-06, + "loss": 1.0513193607330322, + "step": 1200 + }, + { + "epoch": 0.8013333333333333, + "grad_norm": 1.109375, + "learning_rate": 3.725798321120001e-06, + "loss": 1.066056728363037, + "step": 1202 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 11.625, + "learning_rate": 3.7217726800892227e-06, + "loss": 1.6573752164840698, + "step": 1204 + }, + { + "epoch": 0.804, + "grad_norm": 7.65625, + "learning_rate": 3.7177436741439755e-06, + "loss": 1.9016170501708984, + "step": 1206 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 5.84375, + "learning_rate": 3.7137113220675436e-06, + "loss": 1.5036678314208984, + "step": 1208 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 3.8125, + "learning_rate": 3.709675642658809e-06, + "loss": 1.4776989221572876, + "step": 1210 + }, + { + "epoch": 0.808, + "grad_norm": 8.25, + "learning_rate": 3.7056366547321655e-06, + "loss": 1.8003324270248413, + "step": 1212 + }, + { + "epoch": 0.8093333333333333, + "grad_norm": 4.71875, + "learning_rate": 3.701594377117431e-06, + "loss": 1.521277666091919, + "step": 1214 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 5.34375, + "learning_rate": 3.697548828659765e-06, + "loss": 1.5993854999542236, + "step": 1216 + }, + { + "epoch": 0.812, + "grad_norm": 4.4375, + "learning_rate": 3.6935000282195687e-06, + "loss": 1.6389127969741821, + "step": 1218 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 4.9375, + "learning_rate": 3.689447994672407e-06, + "loss": 1.6071922779083252, + "step": 1220 + }, + { + "epoch": 0.8146666666666667, + "grad_norm": 6.84375, + "learning_rate": 3.68539274690892e-06, + "loss": 1.8381483554840088, + "step": 1222 + }, + { + "epoch": 0.816, + "grad_norm": 6.125, + "learning_rate": 3.6813343038347284e-06, + "loss": 1.6339752674102783, + "step": 1224 + }, + { + "epoch": 0.8173333333333334, + "grad_norm": 7.5625, + "learning_rate": 3.677272684370352e-06, + "loss": 1.5650919675827026, + "step": 1226 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 4.71875, + "learning_rate": 3.6732079074511186e-06, + "loss": 1.6217875480651855, + "step": 1228 + }, + { + "epoch": 0.82, + "grad_norm": 5.1875, + "learning_rate": 3.669139992027074e-06, + "loss": 1.3875737190246582, + "step": 1230 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 2.5625, + "learning_rate": 3.6650689570629005e-06, + "loss": 1.1723411083221436, + "step": 1232 + }, + { + "epoch": 0.8226666666666667, + "grad_norm": 3.03125, + "learning_rate": 3.6609948215378176e-06, + "loss": 1.1628097295761108, + "step": 1234 + }, + { + "epoch": 0.824, + "grad_norm": 3.46875, + "learning_rate": 3.656917604445506e-06, + "loss": 1.2432491779327393, + "step": 1236 + }, + { + "epoch": 0.8253333333333334, + "grad_norm": 8.4375, + "learning_rate": 3.6528373247940085e-06, + "loss": 1.8964778184890747, + "step": 1238 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 7.65625, + "learning_rate": 3.6487540016056455e-06, + "loss": 2.0520777702331543, + "step": 1240 + }, + { + "epoch": 0.828, + "grad_norm": 4.125, + "learning_rate": 3.644667653916929e-06, + "loss": 1.1067545413970947, + "step": 1242 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 4.90625, + "learning_rate": 3.640578300778469e-06, + "loss": 1.6915913820266724, + "step": 1244 + }, + { + "epoch": 0.8306666666666667, + "grad_norm": 5.46875, + "learning_rate": 3.6364859612548888e-06, + "loss": 1.6206862926483154, + "step": 1246 + }, + { + "epoch": 0.832, + "grad_norm": 4.90625, + "learning_rate": 3.6323906544247323e-06, + "loss": 1.6607365608215332, + "step": 1248 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 8.75, + "learning_rate": 3.628292399380379e-06, + "loss": 1.6489142179489136, + "step": 1250 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 7.59375, + "learning_rate": 3.6241912152279492e-06, + "loss": 1.9431458711624146, + "step": 1252 + }, + { + "epoch": 0.836, + "grad_norm": 7.40625, + "learning_rate": 3.620087121087226e-06, + "loss": 1.875465750694275, + "step": 1254 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 4.9375, + "learning_rate": 3.6159801360915513e-06, + "loss": 1.6114364862442017, + "step": 1256 + }, + { + "epoch": 0.8386666666666667, + "grad_norm": 7.375, + "learning_rate": 3.611870279387748e-06, + "loss": 1.6327881813049316, + "step": 1258 + }, + { + "epoch": 0.84, + "grad_norm": 5.90625, + "learning_rate": 3.6077575701360267e-06, + "loss": 2.0225255489349365, + "step": 1260 + }, + { + "epoch": 0.8413333333333334, + "grad_norm": 10.875, + "learning_rate": 3.603642027509897e-06, + "loss": 1.468903660774231, + "step": 1262 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 3.96875, + "learning_rate": 3.5995236706960757e-06, + "loss": 1.4783247709274292, + "step": 1264 + }, + { + "epoch": 0.844, + "grad_norm": 5.375, + "learning_rate": 3.595402518894402e-06, + "loss": 1.5046296119689941, + "step": 1266 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 2.3125, + "learning_rate": 3.5912785913177417e-06, + "loss": 1.090078592300415, + "step": 1268 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 1.2421875, + "learning_rate": 3.5871519071919058e-06, + "loss": 1.0590107440948486, + "step": 1270 + }, + { + "epoch": 0.848, + "grad_norm": 4.8125, + "learning_rate": 3.583022485755554e-06, + "loss": 1.0319173336029053, + "step": 1272 + }, + { + "epoch": 0.8493333333333334, + "grad_norm": 4.4375, + "learning_rate": 3.5788903462601065e-06, + "loss": 1.6474723815917969, + "step": 1274 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 4.375, + "learning_rate": 3.574755507969657e-06, + "loss": 1.6048872470855713, + "step": 1276 + }, + { + "epoch": 0.852, + "grad_norm": 6.125, + "learning_rate": 3.5706179901608795e-06, + "loss": 1.5846049785614014, + "step": 1278 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 4.4375, + "learning_rate": 3.5664778121229414e-06, + "loss": 1.5983173847198486, + "step": 1280 + }, + { + "epoch": 0.8546666666666667, + "grad_norm": 14.625, + "learning_rate": 3.5623349931574113e-06, + "loss": 0.8655703067779541, + "step": 1282 + }, + { + "epoch": 0.856, + "grad_norm": 4.71875, + "learning_rate": 3.5581895525781706e-06, + "loss": 1.6905121803283691, + "step": 1284 + }, + { + "epoch": 0.8573333333333333, + "grad_norm": 3.8125, + "learning_rate": 3.5540415097113212e-06, + "loss": 1.1031184196472168, + "step": 1286 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 4.1875, + "learning_rate": 3.5498908838950976e-06, + "loss": 1.6588813066482544, + "step": 1288 + }, + { + "epoch": 0.86, + "grad_norm": 9.6875, + "learning_rate": 3.545737694479777e-06, + "loss": 1.1068980693817139, + "step": 1290 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 8.375, + "learning_rate": 3.541581960827586e-06, + "loss": 1.858797311782837, + "step": 1292 + }, + { + "epoch": 0.8626666666666667, + "grad_norm": 22.5, + "learning_rate": 3.5374237023126157e-06, + "loss": 1.3582959175109863, + "step": 1294 + }, + { + "epoch": 0.864, + "grad_norm": 1.8359375, + "learning_rate": 3.533262938320724e-06, + "loss": 1.1611998081207275, + "step": 1296 + }, + { + "epoch": 0.8653333333333333, + "grad_norm": 1.09375, + "learning_rate": 3.5290996882494533e-06, + "loss": 1.2682225704193115, + "step": 1298 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 3.5, + "learning_rate": 3.5249339715079343e-06, + "loss": 1.1011674404144287, + "step": 1300 + }, + { + "epoch": 0.868, + "grad_norm": 2.09375, + "learning_rate": 3.5207658075167972e-06, + "loss": 1.168353796005249, + "step": 1302 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 12.375, + "learning_rate": 3.516595215708082e-06, + "loss": 2.0601859092712402, + "step": 1304 + }, + { + "epoch": 0.8706666666666667, + "grad_norm": 5.21875, + "learning_rate": 3.5124222155251454e-06, + "loss": 1.5306146144866943, + "step": 1306 + }, + { + "epoch": 0.872, + "grad_norm": 5.375, + "learning_rate": 3.5082468264225754e-06, + "loss": 1.5819231271743774, + "step": 1308 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 12.3125, + "learning_rate": 3.504069067866094e-06, + "loss": 1.9946259260177612, + "step": 1310 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 2.875, + "learning_rate": 3.4998889593324715e-06, + "loss": 1.1388391256332397, + "step": 1312 + }, + { + "epoch": 0.876, + "grad_norm": 7.8125, + "learning_rate": 3.495706520309432e-06, + "loss": 1.6211680173873901, + "step": 1314 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 7.25, + "learning_rate": 3.4915217702955674e-06, + "loss": 1.8492045402526855, + "step": 1316 + }, + { + "epoch": 0.8786666666666667, + "grad_norm": 11.1875, + "learning_rate": 3.487334728800239e-06, + "loss": 1.5768213272094727, + "step": 1318 + }, + { + "epoch": 0.88, + "grad_norm": 2.140625, + "learning_rate": 3.4831454153434967e-06, + "loss": 1.0622522830963135, + "step": 1320 + }, + { + "epoch": 0.8813333333333333, + "grad_norm": 2.234375, + "learning_rate": 3.478953849455977e-06, + "loss": 1.1389195919036865, + "step": 1322 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 5.71875, + "learning_rate": 3.4747600506788206e-06, + "loss": 1.699198842048645, + "step": 1324 + }, + { + "epoch": 0.884, + "grad_norm": 6.21875, + "learning_rate": 3.470564038563576e-06, + "loss": 1.1638987064361572, + "step": 1326 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 9.9375, + "learning_rate": 3.466365832672112e-06, + "loss": 1.9894802570343018, + "step": 1328 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 3.90625, + "learning_rate": 3.462165452576523e-06, + "loss": 1.5490775108337402, + "step": 1330 + }, + { + "epoch": 0.888, + "grad_norm": 4.6875, + "learning_rate": 3.457962917859041e-06, + "loss": 1.6606712341308594, + "step": 1332 + }, + { + "epoch": 0.8893333333333333, + "grad_norm": 2.21875, + "learning_rate": 3.4537582481119435e-06, + "loss": 0.9603934288024902, + "step": 1334 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 9.625, + "learning_rate": 3.4495514629374595e-06, + "loss": 1.3755745887756348, + "step": 1336 + }, + { + "epoch": 0.892, + "grad_norm": 6.75, + "learning_rate": 3.4453425819476804e-06, + "loss": 1.5730741024017334, + "step": 1338 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 5.65625, + "learning_rate": 3.441131624764471e-06, + "loss": 1.7277932167053223, + "step": 1340 + }, + { + "epoch": 0.8946666666666667, + "grad_norm": 4.1875, + "learning_rate": 3.4369186110193707e-06, + "loss": 1.558158278465271, + "step": 1342 + }, + { + "epoch": 0.896, + "grad_norm": 2.640625, + "learning_rate": 3.4327035603535126e-06, + "loss": 1.1294000148773193, + "step": 1344 + }, + { + "epoch": 0.8973333333333333, + "grad_norm": 7.0625, + "learning_rate": 3.42848649241752e-06, + "loss": 1.7495123147964478, + "step": 1346 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 1.5625, + "learning_rate": 3.4242674268714243e-06, + "loss": 1.104962944984436, + "step": 1348 + }, + { + "epoch": 0.9, + "grad_norm": 8.625, + "learning_rate": 3.42004638338457e-06, + "loss": 1.8600108623504639, + "step": 1350 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 3.96875, + "learning_rate": 3.415823381635519e-06, + "loss": 1.2579452991485596, + "step": 1352 + }, + { + "epoch": 0.9026666666666666, + "grad_norm": 5.53125, + "learning_rate": 3.4115984413119676e-06, + "loss": 1.4979395866394043, + "step": 1354 + }, + { + "epoch": 0.904, + "grad_norm": 7.625, + "learning_rate": 3.407371582110647e-06, + "loss": 1.5508317947387695, + "step": 1356 + }, + { + "epoch": 0.9053333333333333, + "grad_norm": 11.25, + "learning_rate": 3.4031428237372343e-06, + "loss": 1.851904034614563, + "step": 1358 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 3.34375, + "learning_rate": 3.3989121859062624e-06, + "loss": 1.0736128091812134, + "step": 1360 + }, + { + "epoch": 0.908, + "grad_norm": 5.0625, + "learning_rate": 3.3946796883410225e-06, + "loss": 1.609264850616455, + "step": 1362 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 4.8125, + "learning_rate": 3.39044535077348e-06, + "loss": 1.1035856008529663, + "step": 1364 + }, + { + "epoch": 0.9106666666666666, + "grad_norm": 2.21875, + "learning_rate": 3.3862091929441764e-06, + "loss": 1.1078152656555176, + "step": 1366 + }, + { + "epoch": 0.912, + "grad_norm": 1.984375, + "learning_rate": 3.3819712346021392e-06, + "loss": 1.1677632331848145, + "step": 1368 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 4.8125, + "learning_rate": 3.37773149550479e-06, + "loss": 1.5922446250915527, + "step": 1370 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 13.8125, + "learning_rate": 3.3734899954178534e-06, + "loss": 1.8471770286560059, + "step": 1372 + }, + { + "epoch": 0.916, + "grad_norm": 8.625, + "learning_rate": 3.369246754115262e-06, + "loss": 1.8968651294708252, + "step": 1374 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 5.40625, + "learning_rate": 3.365001791379068e-06, + "loss": 1.5288443565368652, + "step": 1376 + }, + { + "epoch": 0.9186666666666666, + "grad_norm": 8.9375, + "learning_rate": 3.360755126999347e-06, + "loss": 1.6761029958724976, + "step": 1378 + }, + { + "epoch": 0.92, + "grad_norm": 9.375, + "learning_rate": 3.3565067807741093e-06, + "loss": 1.8433051109313965, + "step": 1380 + }, + { + "epoch": 0.9213333333333333, + "grad_norm": 8.125, + "learning_rate": 3.352256772509205e-06, + "loss": 1.642780065536499, + "step": 1382 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 9.5, + "learning_rate": 3.348005122018232e-06, + "loss": 1.9076459407806396, + "step": 1384 + }, + { + "epoch": 0.924, + "grad_norm": 3.265625, + "learning_rate": 3.3437518491224464e-06, + "loss": 1.042888879776001, + "step": 1386 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 12.0, + "learning_rate": 3.3394969736506656e-06, + "loss": 2.10634708404541, + "step": 1388 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 12.9375, + "learning_rate": 3.33524051543918e-06, + "loss": 1.8503813743591309, + "step": 1390 + }, + { + "epoch": 0.928, + "grad_norm": 10.125, + "learning_rate": 3.3309824943316593e-06, + "loss": 1.7067197561264038, + "step": 1392 + }, + { + "epoch": 0.9293333333333333, + "grad_norm": 7.84375, + "learning_rate": 3.3267229301790562e-06, + "loss": 1.9710360765457153, + "step": 1394 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 2.125, + "learning_rate": 3.32246184283952e-06, + "loss": 1.1389985084533691, + "step": 1396 + }, + { + "epoch": 0.932, + "grad_norm": 10.0625, + "learning_rate": 3.3181992521783e-06, + "loss": 1.9844406843185425, + "step": 1398 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 7.90625, + "learning_rate": 3.313935178067656e-06, + "loss": 1.700979232788086, + "step": 1400 + }, + { + "epoch": 0.9346666666666666, + "grad_norm": 3.234375, + "learning_rate": 3.30966964038676e-06, + "loss": 0.9724457263946533, + "step": 1402 + }, + { + "epoch": 0.936, + "grad_norm": 5.90625, + "learning_rate": 3.3054026590216092e-06, + "loss": 1.6514759063720703, + "step": 1404 + }, + { + "epoch": 0.9373333333333334, + "grad_norm": 3.546875, + "learning_rate": 3.3011342538649325e-06, + "loss": 1.581580638885498, + "step": 1406 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 11.0625, + "learning_rate": 3.2968644448160946e-06, + "loss": 1.3123493194580078, + "step": 1408 + }, + { + "epoch": 0.94, + "grad_norm": 20.75, + "learning_rate": 3.2925932517810057e-06, + "loss": 2.246950149536133, + "step": 1410 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 8.375, + "learning_rate": 3.288320694672028e-06, + "loss": 1.4993822574615479, + "step": 1412 + }, + { + "epoch": 0.9426666666666667, + "grad_norm": 3.03125, + "learning_rate": 3.2840467934078845e-06, + "loss": 1.228714942932129, + "step": 1414 + }, + { + "epoch": 0.944, + "grad_norm": 11.8125, + "learning_rate": 3.279771567913562e-06, + "loss": 1.83895742893219, + "step": 1416 + }, + { + "epoch": 0.9453333333333334, + "grad_norm": 1.9453125, + "learning_rate": 3.2754950381202243e-06, + "loss": 1.0585711002349854, + "step": 1418 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 3.421875, + "learning_rate": 3.2712172239651106e-06, + "loss": 1.1873035430908203, + "step": 1420 + }, + { + "epoch": 0.948, + "grad_norm": 4.875, + "learning_rate": 3.2669381453914552e-06, + "loss": 1.6478772163391113, + "step": 1422 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 3.9375, + "learning_rate": 3.26265782234838e-06, + "loss": 1.157041072845459, + "step": 1424 + }, + { + "epoch": 0.9506666666666667, + "grad_norm": 7.75, + "learning_rate": 3.2583762747908134e-06, + "loss": 1.9819687604904175, + "step": 1426 + }, + { + "epoch": 0.952, + "grad_norm": 4.46875, + "learning_rate": 3.25409352267939e-06, + "loss": 1.4531431198120117, + "step": 1428 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 3.90625, + "learning_rate": 3.249809585980361e-06, + "loss": 1.5999106168746948, + "step": 1430 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 7.3125, + "learning_rate": 3.245524484665501e-06, + "loss": 1.8473896980285645, + "step": 1432 + }, + { + "epoch": 0.956, + "grad_norm": 4.71875, + "learning_rate": 3.2412382387120112e-06, + "loss": 1.5177754163742065, + "step": 1434 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 2.09375, + "learning_rate": 3.236950868102432e-06, + "loss": 1.2477397918701172, + "step": 1436 + }, + { + "epoch": 0.9586666666666667, + "grad_norm": 6.0625, + "learning_rate": 3.232662392824547e-06, + "loss": 1.6189217567443848, + "step": 1438 + }, + { + "epoch": 0.96, + "grad_norm": 10.4375, + "learning_rate": 3.2283728328712877e-06, + "loss": 1.6426982879638672, + "step": 1440 + }, + { + "epoch": 0.9613333333333334, + "grad_norm": 7.1875, + "learning_rate": 3.224082208240643e-06, + "loss": 1.27528715133667, + "step": 1442 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 22.5, + "learning_rate": 3.219790538935566e-06, + "loss": 0.6726552248001099, + "step": 1444 + }, + { + "epoch": 0.964, + "grad_norm": 3.15625, + "learning_rate": 3.215497844963881e-06, + "loss": 1.2849948406219482, + "step": 1446 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 4.84375, + "learning_rate": 3.211204146338187e-06, + "loss": 1.6178771257400513, + "step": 1448 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 1.84375, + "learning_rate": 3.206909463075768e-06, + "loss": 1.1476926803588867, + "step": 1450 + }, + { + "epoch": 0.968, + "grad_norm": 9.6875, + "learning_rate": 3.2026138151984987e-06, + "loss": 1.3063325881958008, + "step": 1452 + }, + { + "epoch": 0.9693333333333334, + "grad_norm": 3.875, + "learning_rate": 3.1983172227327495e-06, + "loss": 1.0711333751678467, + "step": 1454 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 2.578125, + "learning_rate": 3.194019705709297e-06, + "loss": 1.2706935405731201, + "step": 1456 + }, + { + "epoch": 0.972, + "grad_norm": 3.875, + "learning_rate": 3.189721284163225e-06, + "loss": 1.5907695293426514, + "step": 1458 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 5.9375, + "learning_rate": 3.1854219781338358e-06, + "loss": 1.630199670791626, + "step": 1460 + }, + { + "epoch": 0.9746666666666667, + "grad_norm": 7.15625, + "learning_rate": 3.181121807664556e-06, + "loss": 1.8257417678833008, + "step": 1462 + }, + { + "epoch": 0.976, + "grad_norm": 11.25, + "learning_rate": 3.1768207928028405e-06, + "loss": 1.8316962718963623, + "step": 1464 + }, + { + "epoch": 0.9773333333333334, + "grad_norm": 4.28125, + "learning_rate": 3.1725189536000823e-06, + "loss": 1.4978811740875244, + "step": 1466 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 11.625, + "learning_rate": 3.168216310111516e-06, + "loss": 2.125202178955078, + "step": 1468 + }, + { + "epoch": 0.98, + "grad_norm": 6.46875, + "learning_rate": 3.1639128823961275e-06, + "loss": 1.5529388189315796, + "step": 1470 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 6.1875, + "learning_rate": 3.1596086905165556e-06, + "loss": 1.8385839462280273, + "step": 1472 + }, + { + "epoch": 0.9826666666666667, + "grad_norm": 1.546875, + "learning_rate": 3.1553037545390077e-06, + "loss": 0.97187340259552, + "step": 1474 + }, + { + "epoch": 0.984, + "grad_norm": 9.125, + "learning_rate": 3.150998094533152e-06, + "loss": 2.0341556072235107, + "step": 1476 + }, + { + "epoch": 0.9853333333333333, + "grad_norm": 5.09375, + "learning_rate": 3.146691730572039e-06, + "loss": 1.839565396308899, + "step": 1478 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 16.625, + "learning_rate": 3.1423846827319994e-06, + "loss": 1.7883915901184082, + "step": 1480 + }, + { + "epoch": 0.988, + "grad_norm": 9.75, + "learning_rate": 3.1380769710925494e-06, + "loss": 1.6055920124053955, + "step": 1482 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 1.8515625, + "learning_rate": 3.133768615736302e-06, + "loss": 1.1589007377624512, + "step": 1484 + }, + { + "epoch": 0.9906666666666667, + "grad_norm": 7.90625, + "learning_rate": 3.1294596367488715e-06, + "loss": 1.8504548072814941, + "step": 1486 + }, + { + "epoch": 0.992, + "grad_norm": 9.0, + "learning_rate": 3.1251500542187798e-06, + "loss": 1.8369858264923096, + "step": 1488 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 5.40625, + "learning_rate": 3.12083988823736e-06, + "loss": 1.6977782249450684, + "step": 1490 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 4.8125, + "learning_rate": 3.116529158898668e-06, + "loss": 1.6213133335113525, + "step": 1492 + }, + { + "epoch": 0.996, + "grad_norm": 1.8359375, + "learning_rate": 3.112217886299385e-06, + "loss": 1.1973605155944824, + "step": 1494 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 7.59375, + "learning_rate": 3.107906090538725e-06, + "loss": 1.7736064195632935, + "step": 1496 + }, + { + "epoch": 0.9986666666666667, + "grad_norm": 4.4375, + "learning_rate": 3.1035937917183414e-06, + "loss": 1.4783213138580322, + "step": 1498 + }, + { + "epoch": 1.0, + "grad_norm": 1.5, + "learning_rate": 3.099281009942231e-06, + "loss": 1.0851173400878906, + "step": 1500 + }, + { + "epoch": 1.0013333333333334, + "grad_norm": 0.69921875, + "learning_rate": 3.0949677653166453e-06, + "loss": 1.3752434253692627, + "step": 1502 + }, + { + "epoch": 1.0026666666666666, + "grad_norm": 2.171875, + "learning_rate": 3.0906540779499916e-06, + "loss": 0.9937149286270142, + "step": 1504 + }, + { + "epoch": 1.004, + "grad_norm": 12.625, + "learning_rate": 3.0863399679527408e-06, + "loss": 2.0265655517578125, + "step": 1506 + }, + { + "epoch": 1.0053333333333334, + "grad_norm": 6.75, + "learning_rate": 3.0820254554373345e-06, + "loss": 1.6888525485992432, + "step": 1508 + }, + { + "epoch": 1.0066666666666666, + "grad_norm": 18.25, + "learning_rate": 3.0777105605180923e-06, + "loss": 1.7616627216339111, + "step": 1510 + }, + { + "epoch": 1.008, + "grad_norm": 5.28125, + "learning_rate": 3.0733953033111153e-06, + "loss": 1.5890424251556396, + "step": 1512 + }, + { + "epoch": 1.0093333333333334, + "grad_norm": 4.8125, + "learning_rate": 3.0690797039341936e-06, + "loss": 1.5777063369750977, + "step": 1514 + }, + { + "epoch": 1.0106666666666666, + "grad_norm": 7.03125, + "learning_rate": 3.0647637825067125e-06, + "loss": 1.8093584775924683, + "step": 1516 + }, + { + "epoch": 1.012, + "grad_norm": 10.4375, + "learning_rate": 3.0604475591495587e-06, + "loss": 2.03692626953125, + "step": 1518 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 6.6875, + "learning_rate": 3.056131053985028e-06, + "loss": 1.6062037944793701, + "step": 1520 + }, + { + "epoch": 1.0146666666666666, + "grad_norm": 3.3125, + "learning_rate": 3.051814287136727e-06, + "loss": 1.497098684310913, + "step": 1522 + }, + { + "epoch": 1.016, + "grad_norm": 3.609375, + "learning_rate": 3.0474972787294852e-06, + "loss": 1.5099387168884277, + "step": 1524 + }, + { + "epoch": 1.0173333333333334, + "grad_norm": 6.75, + "learning_rate": 3.043180048889256e-06, + "loss": 1.0779247283935547, + "step": 1526 + }, + { + "epoch": 1.0186666666666666, + "grad_norm": 6.75, + "learning_rate": 3.038862617743027e-06, + "loss": 1.5594415664672852, + "step": 1528 + }, + { + "epoch": 1.02, + "grad_norm": 6.125, + "learning_rate": 3.034545005418723e-06, + "loss": 1.5969600677490234, + "step": 1530 + }, + { + "epoch": 1.0213333333333334, + "grad_norm": 4.9375, + "learning_rate": 3.030227232045114e-06, + "loss": 1.633499264717102, + "step": 1532 + }, + { + "epoch": 1.0226666666666666, + "grad_norm": 10.6875, + "learning_rate": 3.0259093177517213e-06, + "loss": 1.1812535524368286, + "step": 1534 + }, + { + "epoch": 1.024, + "grad_norm": 5.875, + "learning_rate": 3.021591282668721e-06, + "loss": 1.7009207010269165, + "step": 1536 + }, + { + "epoch": 1.0253333333333334, + "grad_norm": 0.79296875, + "learning_rate": 3.0172731469268545e-06, + "loss": 1.2874627113342285, + "step": 1538 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 6.71875, + "learning_rate": 3.0129549306573323e-06, + "loss": 1.6079018115997314, + "step": 1540 + }, + { + "epoch": 1.028, + "grad_norm": 7.46875, + "learning_rate": 3.00863665399174e-06, + "loss": 1.9101991653442383, + "step": 1542 + }, + { + "epoch": 1.0293333333333334, + "grad_norm": 20.125, + "learning_rate": 3.0043183370619445e-06, + "loss": 1.7360703945159912, + "step": 1544 + }, + { + "epoch": 1.0306666666666666, + "grad_norm": 5.53125, + "learning_rate": 3.0000000000000005e-06, + "loss": 1.664625644683838, + "step": 1546 + }, + { + "epoch": 1.032, + "grad_norm": 8.125, + "learning_rate": 2.9956816629380557e-06, + "loss": 1.6770424842834473, + "step": 1548 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 1.8515625, + "learning_rate": 2.9913633460082604e-06, + "loss": 1.0641461610794067, + "step": 1550 + }, + { + "epoch": 1.0346666666666666, + "grad_norm": 9.8125, + "learning_rate": 2.9870450693426683e-06, + "loss": 2.1422629356384277, + "step": 1552 + }, + { + "epoch": 1.036, + "grad_norm": 9.9375, + "learning_rate": 2.982726853073147e-06, + "loss": 1.7939167022705078, + "step": 1554 + }, + { + "epoch": 1.0373333333333334, + "grad_norm": 8.875, + "learning_rate": 2.9784087173312804e-06, + "loss": 1.9452416896820068, + "step": 1556 + }, + { + "epoch": 1.0386666666666666, + "grad_norm": 13.9375, + "learning_rate": 2.9740906822482797e-06, + "loss": 2.0147793292999268, + "step": 1558 + }, + { + "epoch": 1.04, + "grad_norm": 1.828125, + "learning_rate": 2.9697727679548864e-06, + "loss": 1.0894575119018555, + "step": 1560 + }, + { + "epoch": 1.0413333333333332, + "grad_norm": 7.625, + "learning_rate": 2.965454994581277e-06, + "loss": 1.9521132707595825, + "step": 1562 + }, + { + "epoch": 1.0426666666666666, + "grad_norm": 17.625, + "learning_rate": 2.9611373822569735e-06, + "loss": 1.7252278327941895, + "step": 1564 + }, + { + "epoch": 1.044, + "grad_norm": 2.40625, + "learning_rate": 2.9568199511107448e-06, + "loss": 0.9713205695152283, + "step": 1566 + }, + { + "epoch": 1.0453333333333332, + "grad_norm": 2.984375, + "learning_rate": 2.9525027212705158e-06, + "loss": 0.9757088422775269, + "step": 1568 + }, + { + "epoch": 1.0466666666666666, + "grad_norm": 5.625, + "learning_rate": 2.9481857128632742e-06, + "loss": 1.5996389389038086, + "step": 1570 + }, + { + "epoch": 1.048, + "grad_norm": 28.5, + "learning_rate": 2.943868946014973e-06, + "loss": 0.7404099106788635, + "step": 1572 + }, + { + "epoch": 1.0493333333333332, + "grad_norm": 1.59375, + "learning_rate": 2.9395524408504427e-06, + "loss": 1.0925877094268799, + "step": 1574 + }, + { + "epoch": 1.0506666666666666, + "grad_norm": 12.625, + "learning_rate": 2.935236217493289e-06, + "loss": 1.9147734642028809, + "step": 1576 + }, + { + "epoch": 1.052, + "grad_norm": 8.25, + "learning_rate": 2.930920296065808e-06, + "loss": 1.5937700271606445, + "step": 1578 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 3.0, + "learning_rate": 2.926604696688886e-06, + "loss": 1.1637517213821411, + "step": 1580 + }, + { + "epoch": 1.0546666666666666, + "grad_norm": 10.75, + "learning_rate": 2.922289439481909e-06, + "loss": 1.9980616569519043, + "step": 1582 + }, + { + "epoch": 1.056, + "grad_norm": 10.6875, + "learning_rate": 2.9179745445626673e-06, + "loss": 1.5037312507629395, + "step": 1584 + }, + { + "epoch": 1.0573333333333332, + "grad_norm": 4.78125, + "learning_rate": 2.9136600320472606e-06, + "loss": 1.5640144348144531, + "step": 1586 + }, + { + "epoch": 1.0586666666666666, + "grad_norm": 4.75, + "learning_rate": 2.90934592205001e-06, + "loss": 1.4845762252807617, + "step": 1588 + }, + { + "epoch": 1.06, + "grad_norm": 1.6796875, + "learning_rate": 2.905032234683356e-06, + "loss": 1.1452919244766235, + "step": 1590 + }, + { + "epoch": 1.0613333333333332, + "grad_norm": 1.6875, + "learning_rate": 2.9007189900577694e-06, + "loss": 0.9397138357162476, + "step": 1592 + }, + { + "epoch": 1.0626666666666666, + "grad_norm": 6.4375, + "learning_rate": 2.896406208281659e-06, + "loss": 1.4903689622879028, + "step": 1594 + }, + { + "epoch": 1.064, + "grad_norm": 6.46875, + "learning_rate": 2.8920939094612756e-06, + "loss": 1.7486934661865234, + "step": 1596 + }, + { + "epoch": 1.0653333333333332, + "grad_norm": 6.78125, + "learning_rate": 2.8877821137006156e-06, + "loss": 1.5886731147766113, + "step": 1598 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 4.0625, + "learning_rate": 2.8834708411013323e-06, + "loss": 1.5811033248901367, + "step": 1600 + }, + { + "epoch": 1.068, + "grad_norm": 7.03125, + "learning_rate": 2.879160111762641e-06, + "loss": 1.4661691188812256, + "step": 1602 + }, + { + "epoch": 1.0693333333333332, + "grad_norm": 4.53125, + "learning_rate": 2.8748499457812212e-06, + "loss": 1.6812434196472168, + "step": 1604 + }, + { + "epoch": 1.0706666666666667, + "grad_norm": 6.625, + "learning_rate": 2.8705403632511286e-06, + "loss": 1.653494119644165, + "step": 1606 + }, + { + "epoch": 1.072, + "grad_norm": 12.1875, + "learning_rate": 2.866231384263698e-06, + "loss": 1.531437873840332, + "step": 1608 + }, + { + "epoch": 1.0733333333333333, + "grad_norm": 7.09375, + "learning_rate": 2.8619230289074516e-06, + "loss": 1.8403922319412231, + "step": 1610 + }, + { + "epoch": 1.0746666666666667, + "grad_norm": 7.90625, + "learning_rate": 2.857615317268001e-06, + "loss": 1.9845728874206543, + "step": 1612 + }, + { + "epoch": 1.076, + "grad_norm": 5.125, + "learning_rate": 2.8533082694279614e-06, + "loss": 1.1663343906402588, + "step": 1614 + }, + { + "epoch": 1.0773333333333333, + "grad_norm": 4.4375, + "learning_rate": 2.8490019054668488e-06, + "loss": 1.5892982482910156, + "step": 1616 + }, + { + "epoch": 1.0786666666666667, + "grad_norm": 2.21875, + "learning_rate": 2.8446962454609938e-06, + "loss": 1.2441880702972412, + "step": 1618 + }, + { + "epoch": 1.08, + "grad_norm": 3.890625, + "learning_rate": 2.8403913094834446e-06, + "loss": 1.556786298751831, + "step": 1620 + }, + { + "epoch": 1.0813333333333333, + "grad_norm": 6.65625, + "learning_rate": 2.836087117603874e-06, + "loss": 1.6569768190383911, + "step": 1622 + }, + { + "epoch": 1.0826666666666667, + "grad_norm": 7.875, + "learning_rate": 2.831783689888485e-06, + "loss": 1.2390692234039307, + "step": 1624 + }, + { + "epoch": 1.084, + "grad_norm": 3.21875, + "learning_rate": 2.827481046399919e-06, + "loss": 1.24364173412323, + "step": 1626 + }, + { + "epoch": 1.0853333333333333, + "grad_norm": 3.953125, + "learning_rate": 2.8231792071971596e-06, + "loss": 1.1136494874954224, + "step": 1628 + }, + { + "epoch": 1.0866666666666667, + "grad_norm": 2.46875, + "learning_rate": 2.818878192335445e-06, + "loss": 1.3179781436920166, + "step": 1630 + }, + { + "epoch": 1.088, + "grad_norm": 6.0, + "learning_rate": 2.8145780218661652e-06, + "loss": 1.8306783437728882, + "step": 1632 + }, + { + "epoch": 1.0893333333333333, + "grad_norm": 7.40625, + "learning_rate": 2.8102787158367762e-06, + "loss": 1.8992735147476196, + "step": 1634 + }, + { + "epoch": 1.0906666666666667, + "grad_norm": 5.78125, + "learning_rate": 2.8059802942907045e-06, + "loss": 1.5470423698425293, + "step": 1636 + }, + { + "epoch": 1.092, + "grad_norm": 7.03125, + "learning_rate": 2.8016827772672515e-06, + "loss": 1.8855934143066406, + "step": 1638 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 1.9375, + "learning_rate": 2.7973861848015028e-06, + "loss": 1.3518332242965698, + "step": 1640 + }, + { + "epoch": 1.0946666666666667, + "grad_norm": 7.0, + "learning_rate": 2.793090536924233e-06, + "loss": 1.6882765293121338, + "step": 1642 + }, + { + "epoch": 1.096, + "grad_norm": 1.625, + "learning_rate": 2.7887958536618143e-06, + "loss": 1.0547984838485718, + "step": 1644 + }, + { + "epoch": 1.0973333333333333, + "grad_norm": 21.875, + "learning_rate": 2.78450215503612e-06, + "loss": 0.577151894569397, + "step": 1646 + }, + { + "epoch": 1.0986666666666667, + "grad_norm": 4.75, + "learning_rate": 2.7802094610644346e-06, + "loss": 1.5353561639785767, + "step": 1648 + }, + { + "epoch": 1.1, + "grad_norm": 4.96875, + "learning_rate": 2.775917791759358e-06, + "loss": 1.4958857297897339, + "step": 1650 + }, + { + "epoch": 1.1013333333333333, + "grad_norm": 7.0625, + "learning_rate": 2.7716271671287133e-06, + "loss": 1.8528183698654175, + "step": 1652 + }, + { + "epoch": 1.1026666666666667, + "grad_norm": 4.34375, + "learning_rate": 2.767337607175454e-06, + "loss": 1.679598331451416, + "step": 1654 + }, + { + "epoch": 1.104, + "grad_norm": 8.0625, + "learning_rate": 2.7630491318975683e-06, + "loss": 1.5526305437088013, + "step": 1656 + }, + { + "epoch": 1.1053333333333333, + "grad_norm": 1.6171875, + "learning_rate": 2.75876176128799e-06, + "loss": 1.0565264225006104, + "step": 1658 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 11.5, + "learning_rate": 2.7544755153345004e-06, + "loss": 1.4916378259658813, + "step": 1660 + }, + { + "epoch": 1.108, + "grad_norm": 4.78125, + "learning_rate": 2.75019041401964e-06, + "loss": 1.5577830076217651, + "step": 1662 + }, + { + "epoch": 1.1093333333333333, + "grad_norm": 4.65625, + "learning_rate": 2.7459064773206112e-06, + "loss": 1.6151214838027954, + "step": 1664 + }, + { + "epoch": 1.1106666666666667, + "grad_norm": 1.40625, + "learning_rate": 2.741623725209188e-06, + "loss": 1.078333854675293, + "step": 1666 + }, + { + "epoch": 1.112, + "grad_norm": 5.40625, + "learning_rate": 2.737342177651621e-06, + "loss": 1.70587158203125, + "step": 1668 + }, + { + "epoch": 1.1133333333333333, + "grad_norm": 6.28125, + "learning_rate": 2.733061854608546e-06, + "loss": 1.6127488613128662, + "step": 1670 + }, + { + "epoch": 1.1146666666666667, + "grad_norm": 5.28125, + "learning_rate": 2.7287827760348895e-06, + "loss": 1.5487406253814697, + "step": 1672 + }, + { + "epoch": 1.116, + "grad_norm": 4.125, + "learning_rate": 2.7245049618797776e-06, + "loss": 1.0803545713424683, + "step": 1674 + }, + { + "epoch": 1.1173333333333333, + "grad_norm": 2.90625, + "learning_rate": 2.7202284320864393e-06, + "loss": 1.207014799118042, + "step": 1676 + }, + { + "epoch": 1.1186666666666667, + "grad_norm": 6.90625, + "learning_rate": 2.715953206592117e-06, + "loss": 1.7723512649536133, + "step": 1678 + }, + { + "epoch": 1.12, + "grad_norm": 11.3125, + "learning_rate": 2.711679305327973e-06, + "loss": 1.7852306365966797, + "step": 1680 + }, + { + "epoch": 1.1213333333333333, + "grad_norm": 5.09375, + "learning_rate": 2.7074067482189957e-06, + "loss": 1.533666968345642, + "step": 1682 + }, + { + "epoch": 1.1226666666666667, + "grad_norm": 5.96875, + "learning_rate": 2.7031355551839056e-06, + "loss": 1.528637409210205, + "step": 1684 + }, + { + "epoch": 1.124, + "grad_norm": 3.796875, + "learning_rate": 2.6988657461350676e-06, + "loss": 1.445178508758545, + "step": 1686 + }, + { + "epoch": 1.1253333333333333, + "grad_norm": 17.875, + "learning_rate": 2.694597340978391e-06, + "loss": 1.4634462594985962, + "step": 1688 + }, + { + "epoch": 1.1266666666666667, + "grad_norm": 5.75, + "learning_rate": 2.690330359613241e-06, + "loss": 1.637460470199585, + "step": 1690 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 6.8125, + "learning_rate": 2.686064821932345e-06, + "loss": 1.4969818592071533, + "step": 1692 + }, + { + "epoch": 1.1293333333333333, + "grad_norm": 3.28125, + "learning_rate": 2.6818007478217e-06, + "loss": 1.0365345478057861, + "step": 1694 + }, + { + "epoch": 1.1306666666666667, + "grad_norm": 5.84375, + "learning_rate": 2.677538157160481e-06, + "loss": 1.9270894527435303, + "step": 1696 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 5.78125, + "learning_rate": 2.6732770698209448e-06, + "loss": 1.5478744506835938, + "step": 1698 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 1.390625, + "learning_rate": 2.6690175056683417e-06, + "loss": 1.1369259357452393, + "step": 1700 + }, + { + "epoch": 1.1346666666666667, + "grad_norm": 7.0625, + "learning_rate": 2.6647594845608204e-06, + "loss": 1.628596305847168, + "step": 1702 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 16.125, + "learning_rate": 2.660503026349335e-06, + "loss": 2.0064220428466797, + "step": 1704 + }, + { + "epoch": 1.1373333333333333, + "grad_norm": 7.9375, + "learning_rate": 2.6562481508775546e-06, + "loss": 1.5023362636566162, + "step": 1706 + }, + { + "epoch": 1.1386666666666667, + "grad_norm": 5.6875, + "learning_rate": 2.6519948779817685e-06, + "loss": 1.6183425188064575, + "step": 1708 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 2.09375, + "learning_rate": 2.647743227490796e-06, + "loss": 1.0072540044784546, + "step": 1710 + }, + { + "epoch": 1.1413333333333333, + "grad_norm": 5.21875, + "learning_rate": 2.6434932192258912e-06, + "loss": 1.5038986206054688, + "step": 1712 + }, + { + "epoch": 1.1426666666666667, + "grad_norm": 8.0625, + "learning_rate": 2.6392448730006536e-06, + "loss": 1.941042423248291, + "step": 1714 + }, + { + "epoch": 1.144, + "grad_norm": 3.84375, + "learning_rate": 2.6349982086209324e-06, + "loss": 1.1978323459625244, + "step": 1716 + }, + { + "epoch": 1.1453333333333333, + "grad_norm": 8.0625, + "learning_rate": 2.6307532458847386e-06, + "loss": 1.8174412250518799, + "step": 1718 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 6.125, + "learning_rate": 2.626510004582148e-06, + "loss": 1.5800225734710693, + "step": 1720 + }, + { + "epoch": 1.148, + "grad_norm": 7.78125, + "learning_rate": 2.6222685044952106e-06, + "loss": 1.6541552543640137, + "step": 1722 + }, + { + "epoch": 1.1493333333333333, + "grad_norm": 6.6875, + "learning_rate": 2.618028765397862e-06, + "loss": 1.5724791288375854, + "step": 1724 + }, + { + "epoch": 1.1506666666666667, + "grad_norm": 9.0625, + "learning_rate": 2.613790807055825e-06, + "loss": 1.9914119243621826, + "step": 1726 + }, + { + "epoch": 1.152, + "grad_norm": 24.5, + "learning_rate": 2.6095546492265204e-06, + "loss": 0.9788597822189331, + "step": 1728 + }, + { + "epoch": 1.1533333333333333, + "grad_norm": 4.90625, + "learning_rate": 2.605320311658978e-06, + "loss": 1.5182876586914062, + "step": 1730 + }, + { + "epoch": 1.1546666666666667, + "grad_norm": 6.1875, + "learning_rate": 2.601087814093739e-06, + "loss": 1.6977787017822266, + "step": 1732 + }, + { + "epoch": 1.156, + "grad_norm": 21.0, + "learning_rate": 2.596857176262766e-06, + "loss": 1.313176155090332, + "step": 1734 + }, + { + "epoch": 1.1573333333333333, + "grad_norm": 4.65625, + "learning_rate": 2.5926284178893533e-06, + "loss": 1.6549556255340576, + "step": 1736 + }, + { + "epoch": 1.1586666666666667, + "grad_norm": 13.0625, + "learning_rate": 2.588401558688033e-06, + "loss": 2.004779577255249, + "step": 1738 + }, + { + "epoch": 1.16, + "grad_norm": 3.21875, + "learning_rate": 2.5841766183644824e-06, + "loss": 1.2679145336151123, + "step": 1740 + }, + { + "epoch": 1.1613333333333333, + "grad_norm": 9.125, + "learning_rate": 2.5799536166154314e-06, + "loss": 1.4783008098602295, + "step": 1742 + }, + { + "epoch": 1.1626666666666667, + "grad_norm": 10.875, + "learning_rate": 2.5757325731285767e-06, + "loss": 1.916029691696167, + "step": 1744 + }, + { + "epoch": 1.164, + "grad_norm": 4.34375, + "learning_rate": 2.571513507582481e-06, + "loss": 1.3801783323287964, + "step": 1746 + }, + { + "epoch": 1.1653333333333333, + "grad_norm": 3.921875, + "learning_rate": 2.5672964396464884e-06, + "loss": 1.4577257633209229, + "step": 1748 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 6.03125, + "learning_rate": 2.5630813889806294e-06, + "loss": 1.5916978120803833, + "step": 1750 + }, + { + "epoch": 1.168, + "grad_norm": 6.875, + "learning_rate": 2.55886837523553e-06, + "loss": 1.5933470726013184, + "step": 1752 + }, + { + "epoch": 1.1693333333333333, + "grad_norm": 1.2578125, + "learning_rate": 2.554657418052321e-06, + "loss": 1.0478358268737793, + "step": 1754 + }, + { + "epoch": 1.1706666666666667, + "grad_norm": 4.53125, + "learning_rate": 2.550448537062542e-06, + "loss": 1.6661409139633179, + "step": 1756 + }, + { + "epoch": 1.172, + "grad_norm": 4.09375, + "learning_rate": 2.546241751888058e-06, + "loss": 1.266357421875, + "step": 1758 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 5.875, + "learning_rate": 2.5420370821409603e-06, + "loss": 1.9419959783554077, + "step": 1760 + }, + { + "epoch": 1.1746666666666667, + "grad_norm": 4.28125, + "learning_rate": 2.5378345474234777e-06, + "loss": 1.5483953952789307, + "step": 1762 + }, + { + "epoch": 1.176, + "grad_norm": 1.703125, + "learning_rate": 2.5336341673278896e-06, + "loss": 1.253208875656128, + "step": 1764 + }, + { + "epoch": 1.1773333333333333, + "grad_norm": 11.0, + "learning_rate": 2.529435961436425e-06, + "loss": 1.7776868343353271, + "step": 1766 + }, + { + "epoch": 1.1786666666666668, + "grad_norm": 7.21875, + "learning_rate": 2.525239949321181e-06, + "loss": 1.5882803201675415, + "step": 1768 + }, + { + "epoch": 1.18, + "grad_norm": 75.0, + "learning_rate": 2.5210461505440243e-06, + "loss": 1.0166734457015991, + "step": 1770 + }, + { + "epoch": 1.1813333333333333, + "grad_norm": 2.59375, + "learning_rate": 2.516854584656505e-06, + "loss": 1.4092483520507812, + "step": 1772 + }, + { + "epoch": 1.1826666666666668, + "grad_norm": 3.625, + "learning_rate": 2.5126652711997613e-06, + "loss": 1.493394136428833, + "step": 1774 + }, + { + "epoch": 1.184, + "grad_norm": 5.9375, + "learning_rate": 2.508478229704434e-06, + "loss": 1.5544865131378174, + "step": 1776 + }, + { + "epoch": 1.1853333333333333, + "grad_norm": 8.75, + "learning_rate": 2.5042934796905682e-06, + "loss": 1.7734179496765137, + "step": 1778 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 1.9296875, + "learning_rate": 2.50011104066753e-06, + "loss": 1.1469995975494385, + "step": 1780 + }, + { + "epoch": 1.188, + "grad_norm": 1.9375, + "learning_rate": 2.495930932133907e-06, + "loss": 1.056424617767334, + "step": 1782 + }, + { + "epoch": 1.1893333333333334, + "grad_norm": 4.5, + "learning_rate": 2.491753173577426e-06, + "loss": 1.584565281867981, + "step": 1784 + }, + { + "epoch": 1.1906666666666668, + "grad_norm": 7.03125, + "learning_rate": 2.4875777844748556e-06, + "loss": 1.1618425846099854, + "step": 1786 + }, + { + "epoch": 1.192, + "grad_norm": 2.453125, + "learning_rate": 2.4834047842919195e-06, + "loss": 0.9867179989814758, + "step": 1788 + }, + { + "epoch": 1.1933333333333334, + "grad_norm": 2.59375, + "learning_rate": 2.479234192483204e-06, + "loss": 1.1931567192077637, + "step": 1790 + }, + { + "epoch": 1.1946666666666665, + "grad_norm": 4.0, + "learning_rate": 2.4750660284920663e-06, + "loss": 1.6453449726104736, + "step": 1792 + }, + { + "epoch": 1.196, + "grad_norm": 7.59375, + "learning_rate": 2.4709003117505473e-06, + "loss": 1.5443363189697266, + "step": 1794 + }, + { + "epoch": 1.1973333333333334, + "grad_norm": 5.15625, + "learning_rate": 2.466737061679277e-06, + "loss": 1.6797435283660889, + "step": 1796 + }, + { + "epoch": 1.1986666666666665, + "grad_norm": 5.28125, + "learning_rate": 2.4625762976873857e-06, + "loss": 1.4136509895324707, + "step": 1798 + }, + { + "epoch": 1.2, + "grad_norm": 9.3125, + "learning_rate": 2.4584180391724148e-06, + "loss": 1.5729784965515137, + "step": 1800 + }, + { + "epoch": 1.2013333333333334, + "grad_norm": 12.75, + "learning_rate": 2.4542623055202242e-06, + "loss": 1.860079288482666, + "step": 1802 + }, + { + "epoch": 1.2026666666666666, + "grad_norm": 7.03125, + "learning_rate": 2.450109116104903e-06, + "loss": 1.5427799224853516, + "step": 1804 + }, + { + "epoch": 1.204, + "grad_norm": 1.9375, + "learning_rate": 2.4459584902886798e-06, + "loss": 1.1774003505706787, + "step": 1806 + }, + { + "epoch": 1.2053333333333334, + "grad_norm": 7.9375, + "learning_rate": 2.44181044742183e-06, + "loss": 1.9959464073181152, + "step": 1808 + }, + { + "epoch": 1.2066666666666666, + "grad_norm": 5.4375, + "learning_rate": 2.437665006842589e-06, + "loss": 1.5742697715759277, + "step": 1810 + }, + { + "epoch": 1.208, + "grad_norm": 1.9921875, + "learning_rate": 2.433522187877059e-06, + "loss": 1.152430772781372, + "step": 1812 + }, + { + "epoch": 1.2093333333333334, + "grad_norm": 1.6640625, + "learning_rate": 2.4293820098391206e-06, + "loss": 1.106142282485962, + "step": 1814 + }, + { + "epoch": 1.2106666666666666, + "grad_norm": 7.09375, + "learning_rate": 2.4252444920303442e-06, + "loss": 1.5196865797042847, + "step": 1816 + }, + { + "epoch": 1.212, + "grad_norm": 4.46875, + "learning_rate": 2.4211096537398945e-06, + "loss": 1.5185796022415161, + "step": 1818 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 10.5625, + "learning_rate": 2.4169775142444472e-06, + "loss": 0.9786717295646667, + "step": 1820 + }, + { + "epoch": 1.2146666666666666, + "grad_norm": 5.1875, + "learning_rate": 2.412848092808095e-06, + "loss": 1.836982011795044, + "step": 1822 + }, + { + "epoch": 1.216, + "grad_norm": 3.953125, + "learning_rate": 2.408721408682259e-06, + "loss": 1.1979806423187256, + "step": 1824 + }, + { + "epoch": 1.2173333333333334, + "grad_norm": 4.8125, + "learning_rate": 2.4045974811055995e-06, + "loss": 1.5440890789031982, + "step": 1826 + }, + { + "epoch": 1.2186666666666666, + "grad_norm": 3.65625, + "learning_rate": 2.4004763293039253e-06, + "loss": 1.1417531967163086, + "step": 1828 + }, + { + "epoch": 1.22, + "grad_norm": 2.796875, + "learning_rate": 2.396357972490104e-06, + "loss": 1.2566338777542114, + "step": 1830 + }, + { + "epoch": 1.2213333333333334, + "grad_norm": 5.71875, + "learning_rate": 2.392242429863974e-06, + "loss": 1.178492546081543, + "step": 1832 + }, + { + "epoch": 1.2226666666666666, + "grad_norm": 5.09375, + "learning_rate": 2.3881297206122526e-06, + "loss": 1.5269526243209839, + "step": 1834 + }, + { + "epoch": 1.224, + "grad_norm": 3.171875, + "learning_rate": 2.38401986390845e-06, + "loss": 1.0146985054016113, + "step": 1836 + }, + { + "epoch": 1.2253333333333334, + "grad_norm": 2.359375, + "learning_rate": 2.3799128789127756e-06, + "loss": 1.1452817916870117, + "step": 1838 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 5.0625, + "learning_rate": 2.3758087847720518e-06, + "loss": 1.9190927743911743, + "step": 1840 + }, + { + "epoch": 1.228, + "grad_norm": 6.0, + "learning_rate": 2.3717076006196234e-06, + "loss": 1.6128742694854736, + "step": 1842 + }, + { + "epoch": 1.2293333333333334, + "grad_norm": 2.015625, + "learning_rate": 2.3676093455752695e-06, + "loss": 1.142547845840454, + "step": 1844 + }, + { + "epoch": 1.2306666666666666, + "grad_norm": 5.0625, + "learning_rate": 2.363514038745113e-06, + "loss": 1.5303454399108887, + "step": 1846 + }, + { + "epoch": 1.232, + "grad_norm": 7.0625, + "learning_rate": 2.3594216992215324e-06, + "loss": 1.9574984312057495, + "step": 1848 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 3.125, + "learning_rate": 2.3553323460830723e-06, + "loss": 1.140625238418579, + "step": 1850 + }, + { + "epoch": 1.2346666666666666, + "grad_norm": 4.375, + "learning_rate": 2.351245998394356e-06, + "loss": 1.6304525136947632, + "step": 1852 + }, + { + "epoch": 1.236, + "grad_norm": 6.84375, + "learning_rate": 2.347162675205993e-06, + "loss": 1.058687448501587, + "step": 1854 + }, + { + "epoch": 1.2373333333333334, + "grad_norm": 8.9375, + "learning_rate": 2.3430823955544947e-06, + "loss": 1.610640287399292, + "step": 1856 + }, + { + "epoch": 1.2386666666666666, + "grad_norm": 11.875, + "learning_rate": 2.339005178462183e-06, + "loss": 2.0690908432006836, + "step": 1858 + }, + { + "epoch": 1.24, + "grad_norm": 4.9375, + "learning_rate": 2.3349310429371014e-06, + "loss": 1.5361344814300537, + "step": 1860 + }, + { + "epoch": 1.2413333333333334, + "grad_norm": 6.46875, + "learning_rate": 2.330860007972927e-06, + "loss": 1.52693510055542, + "step": 1862 + }, + { + "epoch": 1.2426666666666666, + "grad_norm": 3.9375, + "learning_rate": 2.3267920925488833e-06, + "loss": 1.5994844436645508, + "step": 1864 + }, + { + "epoch": 1.244, + "grad_norm": 7.53125, + "learning_rate": 2.3227273156296486e-06, + "loss": 1.8968441486358643, + "step": 1866 + }, + { + "epoch": 1.2453333333333334, + "grad_norm": 4.71875, + "learning_rate": 2.3186656961652722e-06, + "loss": 1.1545343399047852, + "step": 1868 + }, + { + "epoch": 1.2466666666666666, + "grad_norm": 10.6875, + "learning_rate": 2.3146072530910804e-06, + "loss": 1.5420873165130615, + "step": 1870 + }, + { + "epoch": 1.248, + "grad_norm": 1.4296875, + "learning_rate": 2.3105520053275928e-06, + "loss": 1.0231177806854248, + "step": 1872 + }, + { + "epoch": 1.2493333333333334, + "grad_norm": 15.6875, + "learning_rate": 2.306499971780432e-06, + "loss": 1.553828239440918, + "step": 1874 + }, + { + "epoch": 1.2506666666666666, + "grad_norm": 4.84375, + "learning_rate": 2.3024511713402358e-06, + "loss": 1.510333776473999, + "step": 1876 + }, + { + "epoch": 1.252, + "grad_norm": 4.59375, + "learning_rate": 2.298405622882569e-06, + "loss": 1.556577444076538, + "step": 1878 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 1.875, + "learning_rate": 2.294363345267836e-06, + "loss": 1.2078943252563477, + "step": 1880 + }, + { + "epoch": 1.2546666666666666, + "grad_norm": 1.640625, + "learning_rate": 2.2903243573411926e-06, + "loss": 1.112194299697876, + "step": 1882 + }, + { + "epoch": 1.256, + "grad_norm": 1.7734375, + "learning_rate": 2.286288677932457e-06, + "loss": 1.247178554534912, + "step": 1884 + }, + { + "epoch": 1.2573333333333334, + "grad_norm": 2.4375, + "learning_rate": 2.282256325856025e-06, + "loss": 1.1059410572052002, + "step": 1886 + }, + { + "epoch": 1.2586666666666666, + "grad_norm": 8.0, + "learning_rate": 2.2782273199107783e-06, + "loss": 1.9317150115966797, + "step": 1888 + }, + { + "epoch": 1.26, + "grad_norm": 5.25, + "learning_rate": 2.2742016788799996e-06, + "loss": 1.4922699928283691, + "step": 1890 + }, + { + "epoch": 1.2613333333333334, + "grad_norm": 11.5, + "learning_rate": 2.2701794215312854e-06, + "loss": 1.8612873554229736, + "step": 1892 + }, + { + "epoch": 1.2626666666666666, + "grad_norm": 6.53125, + "learning_rate": 2.266160566616456e-06, + "loss": 1.5477168560028076, + "step": 1894 + }, + { + "epoch": 1.264, + "grad_norm": 4.65625, + "learning_rate": 2.26214513287147e-06, + "loss": 1.510019063949585, + "step": 1896 + }, + { + "epoch": 1.2653333333333334, + "grad_norm": 9.0625, + "learning_rate": 2.2581331390163364e-06, + "loss": 2.0930213928222656, + "step": 1898 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 3.0625, + "learning_rate": 2.254124603755027e-06, + "loss": 0.9632862210273743, + "step": 1900 + }, + { + "epoch": 1.268, + "grad_norm": 4.84375, + "learning_rate": 2.2501195457753912e-06, + "loss": 1.6332876682281494, + "step": 1902 + }, + { + "epoch": 1.2693333333333334, + "grad_norm": 8.5625, + "learning_rate": 2.2461179837490648e-06, + "loss": 1.3594850301742554, + "step": 1904 + }, + { + "epoch": 1.2706666666666666, + "grad_norm": 10.4375, + "learning_rate": 2.242119936331387e-06, + "loss": 2.073132038116455, + "step": 1906 + }, + { + "epoch": 1.272, + "grad_norm": 9.3125, + "learning_rate": 2.2381254221613122e-06, + "loss": 1.5879173278808594, + "step": 1908 + }, + { + "epoch": 1.2733333333333334, + "grad_norm": 31.875, + "learning_rate": 2.2341344598613212e-06, + "loss": 0.8240858912467957, + "step": 1910 + }, + { + "epoch": 1.2746666666666666, + "grad_norm": 2.84375, + "learning_rate": 2.230147068037338e-06, + "loss": 1.0706063508987427, + "step": 1912 + }, + { + "epoch": 1.276, + "grad_norm": 2.828125, + "learning_rate": 2.226163265278639e-06, + "loss": 1.1408822536468506, + "step": 1914 + }, + { + "epoch": 1.2773333333333334, + "grad_norm": 27.25, + "learning_rate": 2.2221830701577695e-06, + "loss": 1.6000707149505615, + "step": 1916 + }, + { + "epoch": 1.2786666666666666, + "grad_norm": 2.640625, + "learning_rate": 2.218206501230455e-06, + "loss": 1.1268792152404785, + "step": 1918 + }, + { + "epoch": 1.28, + "grad_norm": 3.234375, + "learning_rate": 2.2142335770355166e-06, + "loss": 1.3399468660354614, + "step": 1920 + }, + { + "epoch": 1.2813333333333334, + "grad_norm": 6.09375, + "learning_rate": 2.2102643160947834e-06, + "loss": 1.5325706005096436, + "step": 1922 + }, + { + "epoch": 1.2826666666666666, + "grad_norm": 1.640625, + "learning_rate": 2.2062987369130062e-06, + "loss": 1.1318565607070923, + "step": 1924 + }, + { + "epoch": 1.284, + "grad_norm": 6.0625, + "learning_rate": 2.2023368579777706e-06, + "loss": 1.484031319618225, + "step": 1926 + }, + { + "epoch": 1.2853333333333334, + "grad_norm": 2.8125, + "learning_rate": 2.198378697759413e-06, + "loss": 1.2130866050720215, + "step": 1928 + }, + { + "epoch": 1.2866666666666666, + "grad_norm": 9.4375, + "learning_rate": 2.1944242747109333e-06, + "loss": 2.0494606494903564, + "step": 1930 + }, + { + "epoch": 1.288, + "grad_norm": 5.8125, + "learning_rate": 2.190473607267906e-06, + "loss": 1.8861929178237915, + "step": 1932 + }, + { + "epoch": 1.2893333333333334, + "grad_norm": 4.90625, + "learning_rate": 2.1865267138484004e-06, + "loss": 1.6522796154022217, + "step": 1934 + }, + { + "epoch": 1.2906666666666666, + "grad_norm": 5.9375, + "learning_rate": 2.1825836128528884e-06, + "loss": 1.8132810592651367, + "step": 1936 + }, + { + "epoch": 1.292, + "grad_norm": 4.3125, + "learning_rate": 2.178644322664163e-06, + "loss": 1.5035209655761719, + "step": 1938 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 15.1875, + "learning_rate": 2.1747088616472517e-06, + "loss": 1.7719671726226807, + "step": 1940 + }, + { + "epoch": 1.2946666666666666, + "grad_norm": 4.0625, + "learning_rate": 2.1707772481493286e-06, + "loss": 1.5210639238357544, + "step": 1942 + }, + { + "epoch": 1.296, + "grad_norm": 6.0625, + "learning_rate": 2.166849500499632e-06, + "loss": 1.6196399927139282, + "step": 1944 + }, + { + "epoch": 1.2973333333333334, + "grad_norm": 7.4375, + "learning_rate": 2.162925637009377e-06, + "loss": 1.1646780967712402, + "step": 1946 + }, + { + "epoch": 1.2986666666666666, + "grad_norm": 11.5625, + "learning_rate": 2.1590056759716712e-06, + "loss": 1.9841561317443848, + "step": 1948 + }, + { + "epoch": 1.3, + "grad_norm": 6.8125, + "learning_rate": 2.1550896356614282e-06, + "loss": 1.5786137580871582, + "step": 1950 + }, + { + "epoch": 1.3013333333333335, + "grad_norm": 5.375, + "learning_rate": 2.1511775343352835e-06, + "loss": 1.5352140665054321, + "step": 1952 + }, + { + "epoch": 1.3026666666666666, + "grad_norm": 6.75, + "learning_rate": 2.147269390231509e-06, + "loss": 1.5395886898040771, + "step": 1954 + }, + { + "epoch": 1.304, + "grad_norm": 6.25, + "learning_rate": 2.143365221569927e-06, + "loss": 1.6343798637390137, + "step": 1956 + }, + { + "epoch": 1.3053333333333335, + "grad_norm": 6.0, + "learning_rate": 2.139465046551829e-06, + "loss": 1.6449880599975586, + "step": 1958 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 11.375, + "learning_rate": 2.135568883359885e-06, + "loss": 1.9318366050720215, + "step": 1960 + }, + { + "epoch": 1.308, + "grad_norm": 17.875, + "learning_rate": 2.1316767501580636e-06, + "loss": 1.664994478225708, + "step": 1962 + }, + { + "epoch": 1.3093333333333335, + "grad_norm": 1.9765625, + "learning_rate": 2.127788665091545e-06, + "loss": 1.0485271215438843, + "step": 1964 + }, + { + "epoch": 1.3106666666666666, + "grad_norm": 15.9375, + "learning_rate": 2.1239046462866358e-06, + "loss": 1.8190348148345947, + "step": 1966 + }, + { + "epoch": 1.312, + "grad_norm": 1.796875, + "learning_rate": 2.120024711850688e-06, + "loss": 1.0631358623504639, + "step": 1968 + }, + { + "epoch": 1.3133333333333335, + "grad_norm": 6.71875, + "learning_rate": 2.11614887987201e-06, + "loss": 1.3473261594772339, + "step": 1970 + }, + { + "epoch": 1.3146666666666667, + "grad_norm": 8.625, + "learning_rate": 2.1122771684197864e-06, + "loss": 1.7255139350891113, + "step": 1972 + }, + { + "epoch": 1.316, + "grad_norm": 10.5, + "learning_rate": 2.10840959554399e-06, + "loss": 2.001613140106201, + "step": 1974 + }, + { + "epoch": 1.3173333333333335, + "grad_norm": 5.5, + "learning_rate": 2.104546179275301e-06, + "loss": 1.5933119058609009, + "step": 1976 + }, + { + "epoch": 1.3186666666666667, + "grad_norm": 5.15625, + "learning_rate": 2.100686937625021e-06, + "loss": 1.5122944116592407, + "step": 1978 + }, + { + "epoch": 1.32, + "grad_norm": 7.46875, + "learning_rate": 2.0968318885849885e-06, + "loss": 1.4772236347198486, + "step": 1980 + }, + { + "epoch": 1.3213333333333335, + "grad_norm": 4.8125, + "learning_rate": 2.0929810501274973e-06, + "loss": 1.4999642372131348, + "step": 1982 + }, + { + "epoch": 1.3226666666666667, + "grad_norm": 14.125, + "learning_rate": 2.089134440205211e-06, + "loss": 2.0060179233551025, + "step": 1984 + }, + { + "epoch": 1.324, + "grad_norm": 3.34375, + "learning_rate": 2.085292076751079e-06, + "loss": 1.3181127309799194, + "step": 1986 + }, + { + "epoch": 1.3253333333333333, + "grad_norm": 5.28125, + "learning_rate": 2.081453977678254e-06, + "loss": 1.6507904529571533, + "step": 1988 + }, + { + "epoch": 1.3266666666666667, + "grad_norm": 7.125, + "learning_rate": 2.07762016088001e-06, + "loss": 1.5215134620666504, + "step": 1990 + }, + { + "epoch": 1.328, + "grad_norm": 4.6875, + "learning_rate": 2.073790644229654e-06, + "loss": 1.5981347560882568, + "step": 1992 + }, + { + "epoch": 1.3293333333333333, + "grad_norm": 33.5, + "learning_rate": 2.0699654455804467e-06, + "loss": 1.7263144254684448, + "step": 1994 + }, + { + "epoch": 1.3306666666666667, + "grad_norm": 7.59375, + "learning_rate": 2.0661445827655193e-06, + "loss": 2.1011343002319336, + "step": 1996 + }, + { + "epoch": 1.332, + "grad_norm": 2.984375, + "learning_rate": 2.062328073597787e-06, + "loss": 1.034977674484253, + "step": 1998 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 8.875, + "learning_rate": 2.0585159358698712e-06, + "loss": 1.8760616779327393, + "step": 2000 + }, + { + "epoch": 1.3346666666666667, + "grad_norm": 5.65625, + "learning_rate": 2.054708187354012e-06, + "loss": 1.6555390357971191, + "step": 2002 + }, + { + "epoch": 1.336, + "grad_norm": 1.5703125, + "learning_rate": 2.0509048458019854e-06, + "loss": 1.060708999633789, + "step": 2004 + }, + { + "epoch": 1.3373333333333333, + "grad_norm": 4.96875, + "learning_rate": 2.0471059289450255e-06, + "loss": 1.4976744651794434, + "step": 2006 + }, + { + "epoch": 1.3386666666666667, + "grad_norm": 5.53125, + "learning_rate": 2.0433114544937353e-06, + "loss": 1.5674824714660645, + "step": 2008 + }, + { + "epoch": 1.34, + "grad_norm": 6.09375, + "learning_rate": 2.0395214401380087e-06, + "loss": 1.5714900493621826, + "step": 2010 + }, + { + "epoch": 1.3413333333333333, + "grad_norm": 5.6875, + "learning_rate": 2.0357359035469467e-06, + "loss": 1.2028818130493164, + "step": 2012 + }, + { + "epoch": 1.3426666666666667, + "grad_norm": 25.0, + "learning_rate": 2.0319548623687746e-06, + "loss": 1.6153771877288818, + "step": 2014 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 6.125, + "learning_rate": 2.0281783342307596e-06, + "loss": 1.6412135362625122, + "step": 2016 + }, + { + "epoch": 1.3453333333333333, + "grad_norm": 7.125, + "learning_rate": 2.0244063367391296e-06, + "loss": 1.9324005842208862, + "step": 2018 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 1.9453125, + "learning_rate": 2.0206388874789907e-06, + "loss": 1.1473610401153564, + "step": 2020 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 7.40625, + "learning_rate": 2.0168760040142444e-06, + "loss": 1.558716058731079, + "step": 2022 + }, + { + "epoch": 1.3493333333333333, + "grad_norm": 4.09375, + "learning_rate": 2.0131177038875065e-06, + "loss": 1.479658842086792, + "step": 2024 + }, + { + "epoch": 1.3506666666666667, + "grad_norm": 5.25, + "learning_rate": 2.0093640046200256e-06, + "loss": 1.5598819255828857, + "step": 2026 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 6.40625, + "learning_rate": 2.0056149237116016e-06, + "loss": 1.6746928691864014, + "step": 2028 + }, + { + "epoch": 1.3533333333333333, + "grad_norm": 2.46875, + "learning_rate": 2.0018704786405014e-06, + "loss": 1.2208452224731445, + "step": 2030 + }, + { + "epoch": 1.3546666666666667, + "grad_norm": 22.25, + "learning_rate": 1.9981306868633833e-06, + "loss": 1.6869182586669922, + "step": 2032 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 2.203125, + "learning_rate": 1.9943955658152076e-06, + "loss": 1.0717189311981201, + "step": 2034 + }, + { + "epoch": 1.3573333333333333, + "grad_norm": 4.59375, + "learning_rate": 1.990665132909163e-06, + "loss": 1.4844554662704468, + "step": 2036 + }, + { + "epoch": 1.3586666666666667, + "grad_norm": 7.4375, + "learning_rate": 1.986939405536579e-06, + "loss": 1.8831037282943726, + "step": 2038 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 6.40625, + "learning_rate": 1.983218401066851e-06, + "loss": 1.8292875289916992, + "step": 2040 + }, + { + "epoch": 1.3613333333333333, + "grad_norm": 3.921875, + "learning_rate": 1.979502136847353e-06, + "loss": 1.5935251712799072, + "step": 2042 + }, + { + "epoch": 1.3626666666666667, + "grad_norm": 2.6875, + "learning_rate": 1.9757906302033636e-06, + "loss": 1.0542124509811401, + "step": 2044 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 5.03125, + "learning_rate": 1.9720838984379774e-06, + "loss": 1.5523146390914917, + "step": 2046 + }, + { + "epoch": 1.3653333333333333, + "grad_norm": 5.5, + "learning_rate": 1.9683819588320308e-06, + "loss": 1.5258020162582397, + "step": 2048 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 6.28125, + "learning_rate": 1.9646848286440195e-06, + "loss": 1.9182220697402954, + "step": 2050 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 4.53125, + "learning_rate": 1.960992525110017e-06, + "loss": 1.5669327974319458, + "step": 2052 + }, + { + "epoch": 1.3693333333333333, + "grad_norm": 4.40625, + "learning_rate": 1.957305065443594e-06, + "loss": 1.4941010475158691, + "step": 2054 + }, + { + "epoch": 1.3706666666666667, + "grad_norm": 3.203125, + "learning_rate": 1.95362246683574e-06, + "loss": 1.2234654426574707, + "step": 2056 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 5.4375, + "learning_rate": 1.949944746454782e-06, + "loss": 1.5590747594833374, + "step": 2058 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 13.1875, + "learning_rate": 1.946271921446304e-06, + "loss": 2.0392696857452393, + "step": 2060 + }, + { + "epoch": 1.3746666666666667, + "grad_norm": 1.8359375, + "learning_rate": 1.94260400893307e-06, + "loss": 1.2967076301574707, + "step": 2062 + }, + { + "epoch": 1.376, + "grad_norm": 10.4375, + "learning_rate": 1.9389410260149376e-06, + "loss": 1.4139618873596191, + "step": 2064 + }, + { + "epoch": 1.3773333333333333, + "grad_norm": 6.25, + "learning_rate": 1.935282989768787e-06, + "loss": 1.6094778776168823, + "step": 2066 + }, + { + "epoch": 1.3786666666666667, + "grad_norm": 7.4375, + "learning_rate": 1.931629917248434e-06, + "loss": 1.943546175956726, + "step": 2068 + }, + { + "epoch": 1.38, + "grad_norm": 7.46875, + "learning_rate": 1.9279818254845554e-06, + "loss": 1.8869085311889648, + "step": 2070 + }, + { + "epoch": 1.3813333333333333, + "grad_norm": 1.8984375, + "learning_rate": 1.924338731484606e-06, + "loss": 0.9827399253845215, + "step": 2072 + }, + { + "epoch": 1.3826666666666667, + "grad_norm": 13.875, + "learning_rate": 1.920700652232742e-06, + "loss": 1.617384910583496, + "step": 2074 + }, + { + "epoch": 1.384, + "grad_norm": 4.6875, + "learning_rate": 1.9170676046897407e-06, + "loss": 1.644477367401123, + "step": 2076 + }, + { + "epoch": 1.3853333333333333, + "grad_norm": 20.0, + "learning_rate": 1.9134396057929204e-06, + "loss": 2.099134922027588, + "step": 2078 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 5.59375, + "learning_rate": 1.909816672456064e-06, + "loss": 1.6014119386672974, + "step": 2080 + }, + { + "epoch": 1.388, + "grad_norm": 3.34375, + "learning_rate": 1.906198821569338e-06, + "loss": 1.2930165529251099, + "step": 2082 + }, + { + "epoch": 1.3893333333333333, + "grad_norm": 3.4375, + "learning_rate": 1.9025860699992149e-06, + "loss": 1.1446359157562256, + "step": 2084 + }, + { + "epoch": 1.3906666666666667, + "grad_norm": 8.5, + "learning_rate": 1.8989784345883932e-06, + "loss": 1.6573563814163208, + "step": 2086 + }, + { + "epoch": 1.392, + "grad_norm": 13.6875, + "learning_rate": 1.8953759321557205e-06, + "loss": 1.7369401454925537, + "step": 2088 + }, + { + "epoch": 1.3933333333333333, + "grad_norm": 5.34375, + "learning_rate": 1.8917785794961143e-06, + "loss": 1.5765206813812256, + "step": 2090 + }, + { + "epoch": 1.3946666666666667, + "grad_norm": 8.125, + "learning_rate": 1.8881863933804839e-06, + "loss": 1.629734754562378, + "step": 2092 + }, + { + "epoch": 1.396, + "grad_norm": 7.21875, + "learning_rate": 1.8845993905556515e-06, + "loss": 1.5609703063964844, + "step": 2094 + }, + { + "epoch": 1.3973333333333333, + "grad_norm": 8.5625, + "learning_rate": 1.8810175877442754e-06, + "loss": 1.5186164379119873, + "step": 2096 + }, + { + "epoch": 1.3986666666666667, + "grad_norm": 17.375, + "learning_rate": 1.8774410016447708e-06, + "loss": 0.563239574432373, + "step": 2098 + }, + { + "epoch": 1.4, + "grad_norm": 8.9375, + "learning_rate": 1.8738696489312333e-06, + "loss": 1.5320698022842407, + "step": 2100 + }, + { + "epoch": 1.4013333333333333, + "grad_norm": 7.59375, + "learning_rate": 1.8703035462533593e-06, + "loss": 1.6705598831176758, + "step": 2102 + }, + { + "epoch": 1.4026666666666667, + "grad_norm": 2.375, + "learning_rate": 1.8667427102363705e-06, + "loss": 1.0009243488311768, + "step": 2104 + }, + { + "epoch": 1.404, + "grad_norm": 1.3359375, + "learning_rate": 1.8631871574809346e-06, + "loss": 1.0675292015075684, + "step": 2106 + }, + { + "epoch": 1.4053333333333333, + "grad_norm": 12.9375, + "learning_rate": 1.859636904563089e-06, + "loss": 0.8650450706481934, + "step": 2108 + }, + { + "epoch": 1.4066666666666667, + "grad_norm": 12.875, + "learning_rate": 1.8560919680341638e-06, + "loss": 1.9227575063705444, + "step": 2110 + }, + { + "epoch": 1.408, + "grad_norm": 2.34375, + "learning_rate": 1.8525523644207023e-06, + "loss": 0.9330441951751709, + "step": 2112 + }, + { + "epoch": 1.4093333333333333, + "grad_norm": 5.875, + "learning_rate": 1.8490181102243873e-06, + "loss": 1.6113357543945312, + "step": 2114 + }, + { + "epoch": 1.4106666666666667, + "grad_norm": 5.96875, + "learning_rate": 1.845489221921962e-06, + "loss": 1.504434585571289, + "step": 2116 + }, + { + "epoch": 1.412, + "grad_norm": 8.5, + "learning_rate": 1.8419657159651535e-06, + "loss": 1.9374301433563232, + "step": 2118 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 8.625, + "learning_rate": 1.8384476087805967e-06, + "loss": 1.6084973812103271, + "step": 2120 + }, + { + "epoch": 1.4146666666666667, + "grad_norm": 7.5, + "learning_rate": 1.834934916769756e-06, + "loss": 1.7915997505187988, + "step": 2122 + }, + { + "epoch": 1.416, + "grad_norm": 4.53125, + "learning_rate": 1.831427656308854e-06, + "loss": 1.4243714809417725, + "step": 2124 + }, + { + "epoch": 1.4173333333333333, + "grad_norm": 10.0625, + "learning_rate": 1.8279258437487866e-06, + "loss": 1.8718931674957275, + "step": 2126 + }, + { + "epoch": 1.4186666666666667, + "grad_norm": 6.875, + "learning_rate": 1.8244294954150544e-06, + "loss": 1.1055264472961426, + "step": 2128 + }, + { + "epoch": 1.42, + "grad_norm": 3.046875, + "learning_rate": 1.8209386276076824e-06, + "loss": 1.1865965127944946, + "step": 2130 + }, + { + "epoch": 1.4213333333333333, + "grad_norm": 1.84375, + "learning_rate": 1.817453256601146e-06, + "loss": 1.0315593481063843, + "step": 2132 + }, + { + "epoch": 1.4226666666666667, + "grad_norm": 30.25, + "learning_rate": 1.8139733986442947e-06, + "loss": 1.6489253044128418, + "step": 2134 + }, + { + "epoch": 1.424, + "grad_norm": 20.0, + "learning_rate": 1.8104990699602753e-06, + "loss": 1.575264811515808, + "step": 2136 + }, + { + "epoch": 1.4253333333333333, + "grad_norm": 3.234375, + "learning_rate": 1.8070302867464562e-06, + "loss": 1.0482765436172485, + "step": 2138 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 5.6875, + "learning_rate": 1.8035670651743565e-06, + "loss": 1.56797456741333, + "step": 2140 + }, + { + "epoch": 1.428, + "grad_norm": 10.9375, + "learning_rate": 1.800109421389562e-06, + "loss": 1.4143714904785156, + "step": 2142 + }, + { + "epoch": 1.4293333333333333, + "grad_norm": 9.8125, + "learning_rate": 1.7966573715116587e-06, + "loss": 1.5282375812530518, + "step": 2144 + }, + { + "epoch": 1.4306666666666668, + "grad_norm": 3.9375, + "learning_rate": 1.793210931634151e-06, + "loss": 1.146159291267395, + "step": 2146 + }, + { + "epoch": 1.432, + "grad_norm": 7.375, + "learning_rate": 1.7897701178243906e-06, + "loss": 1.529174566268921, + "step": 2148 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 16.75, + "learning_rate": 1.7863349461235005e-06, + "loss": 1.9610891342163086, + "step": 2150 + }, + { + "epoch": 1.4346666666666668, + "grad_norm": 3.375, + "learning_rate": 1.7829054325463e-06, + "loss": 1.559476375579834, + "step": 2152 + }, + { + "epoch": 1.436, + "grad_norm": 5.4375, + "learning_rate": 1.7794815930812295e-06, + "loss": 1.5697715282440186, + "step": 2154 + }, + { + "epoch": 1.4373333333333334, + "grad_norm": 6.59375, + "learning_rate": 1.776063443690278e-06, + "loss": 1.6537988185882568, + "step": 2156 + }, + { + "epoch": 1.4386666666666668, + "grad_norm": 5.4375, + "learning_rate": 1.7726510003089054e-06, + "loss": 1.6215872764587402, + "step": 2158 + }, + { + "epoch": 1.44, + "grad_norm": 8.125, + "learning_rate": 1.7692442788459719e-06, + "loss": 1.3466334342956543, + "step": 2160 + }, + { + "epoch": 1.4413333333333334, + "grad_norm": 15.0625, + "learning_rate": 1.7658432951836608e-06, + "loss": 1.5198026895523071, + "step": 2162 + }, + { + "epoch": 1.4426666666666668, + "grad_norm": 1.8203125, + "learning_rate": 1.7624480651774062e-06, + "loss": 1.1337813138961792, + "step": 2164 + }, + { + "epoch": 1.444, + "grad_norm": 7.6875, + "learning_rate": 1.7590586046558189e-06, + "loss": 1.928809642791748, + "step": 2166 + }, + { + "epoch": 1.4453333333333334, + "grad_norm": 4.46875, + "learning_rate": 1.7556749294206116e-06, + "loss": 1.5531928539276123, + "step": 2168 + }, + { + "epoch": 1.4466666666666668, + "grad_norm": 1.3984375, + "learning_rate": 1.7522970552465263e-06, + "loss": 1.1785309314727783, + "step": 2170 + }, + { + "epoch": 1.448, + "grad_norm": 4.90625, + "learning_rate": 1.7489249978812595e-06, + "loss": 1.4006869792938232, + "step": 2172 + }, + { + "epoch": 1.4493333333333334, + "grad_norm": 6.3125, + "learning_rate": 1.7455587730453922e-06, + "loss": 1.6306333541870117, + "step": 2174 + }, + { + "epoch": 1.4506666666666668, + "grad_norm": 4.875, + "learning_rate": 1.7421983964323111e-06, + "loss": 1.730469822883606, + "step": 2176 + }, + { + "epoch": 1.452, + "grad_norm": 2.234375, + "learning_rate": 1.7388438837081401e-06, + "loss": 1.0633964538574219, + "step": 2178 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 8.5, + "learning_rate": 1.7354952505116645e-06, + "loss": 1.817662000656128, + "step": 2180 + }, + { + "epoch": 1.4546666666666668, + "grad_norm": 5.03125, + "learning_rate": 1.7321525124542604e-06, + "loss": 1.5825237035751343, + "step": 2182 + }, + { + "epoch": 1.456, + "grad_norm": 6.375, + "learning_rate": 1.7288156851198195e-06, + "loss": 1.6220369338989258, + "step": 2184 + }, + { + "epoch": 1.4573333333333334, + "grad_norm": 6.1875, + "learning_rate": 1.7254847840646785e-06, + "loss": 1.4336154460906982, + "step": 2186 + }, + { + "epoch": 1.4586666666666668, + "grad_norm": 5.09375, + "learning_rate": 1.7221598248175454e-06, + "loss": 1.5189586877822876, + "step": 2188 + }, + { + "epoch": 1.46, + "grad_norm": 9.0625, + "learning_rate": 1.7188408228794267e-06, + "loss": 1.481834888458252, + "step": 2190 + }, + { + "epoch": 1.4613333333333334, + "grad_norm": 157.0, + "learning_rate": 1.715527793723557e-06, + "loss": 1.8635661602020264, + "step": 2192 + }, + { + "epoch": 1.4626666666666668, + "grad_norm": 4.1875, + "learning_rate": 1.7122207527953256e-06, + "loss": 1.7555880546569824, + "step": 2194 + }, + { + "epoch": 1.464, + "grad_norm": 3.859375, + "learning_rate": 1.7089197155122035e-06, + "loss": 1.4021992683410645, + "step": 2196 + }, + { + "epoch": 1.4653333333333334, + "grad_norm": 44.75, + "learning_rate": 1.7056246972636737e-06, + "loss": 0.6922065615653992, + "step": 2198 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 4.34375, + "learning_rate": 1.7023357134111573e-06, + "loss": 1.5009167194366455, + "step": 2200 + }, + { + "epoch": 1.468, + "grad_norm": 5.71875, + "learning_rate": 1.6990527792879447e-06, + "loss": 1.750756025314331, + "step": 2202 + }, + { + "epoch": 1.4693333333333334, + "grad_norm": 7.59375, + "learning_rate": 1.6957759101991205e-06, + "loss": 1.1939451694488525, + "step": 2204 + }, + { + "epoch": 1.4706666666666668, + "grad_norm": 5.125, + "learning_rate": 1.6925051214214954e-06, + "loss": 1.539292335510254, + "step": 2206 + }, + { + "epoch": 1.472, + "grad_norm": 4.90625, + "learning_rate": 1.6892404282035335e-06, + "loss": 1.5177375078201294, + "step": 2208 + }, + { + "epoch": 1.4733333333333334, + "grad_norm": 6.65625, + "learning_rate": 1.6859818457652794e-06, + "loss": 1.5623188018798828, + "step": 2210 + }, + { + "epoch": 1.4746666666666668, + "grad_norm": 8.25, + "learning_rate": 1.6827293892982915e-06, + "loss": 2.06575870513916, + "step": 2212 + }, + { + "epoch": 1.476, + "grad_norm": 2.328125, + "learning_rate": 1.6794830739655677e-06, + "loss": 1.0674209594726562, + "step": 2214 + }, + { + "epoch": 1.4773333333333334, + "grad_norm": 6.71875, + "learning_rate": 1.676242914901477e-06, + "loss": 1.5208603143692017, + "step": 2216 + }, + { + "epoch": 1.4786666666666668, + "grad_norm": 4.125, + "learning_rate": 1.6730089272116856e-06, + "loss": 1.5469597578048706, + "step": 2218 + }, + { + "epoch": 1.48, + "grad_norm": 3.703125, + "learning_rate": 1.6697811259730913e-06, + "loss": 1.5321767330169678, + "step": 2220 + }, + { + "epoch": 1.4813333333333334, + "grad_norm": 15.875, + "learning_rate": 1.666559526233748e-06, + "loss": 1.7308143377304077, + "step": 2222 + }, + { + "epoch": 1.4826666666666668, + "grad_norm": 2.734375, + "learning_rate": 1.6633441430128001e-06, + "loss": 1.159908413887024, + "step": 2224 + }, + { + "epoch": 1.484, + "grad_norm": 10.125, + "learning_rate": 1.6601349913004095e-06, + "loss": 1.8157732486724854, + "step": 2226 + }, + { + "epoch": 1.4853333333333334, + "grad_norm": 4.71875, + "learning_rate": 1.656932086057687e-06, + "loss": 1.50502347946167, + "step": 2228 + }, + { + "epoch": 1.4866666666666668, + "grad_norm": 8.25, + "learning_rate": 1.6537354422166219e-06, + "loss": 1.9679980278015137, + "step": 2230 + }, + { + "epoch": 1.488, + "grad_norm": 6.3125, + "learning_rate": 1.6505450746800139e-06, + "loss": 1.5686023235321045, + "step": 2232 + }, + { + "epoch": 1.4893333333333334, + "grad_norm": 5.28125, + "learning_rate": 1.6473609983214016e-06, + "loss": 1.6479158401489258, + "step": 2234 + }, + { + "epoch": 1.4906666666666666, + "grad_norm": 5.78125, + "learning_rate": 1.6441832279849938e-06, + "loss": 1.948946237564087, + "step": 2236 + }, + { + "epoch": 1.492, + "grad_norm": 2.03125, + "learning_rate": 1.6410117784856006e-06, + "loss": 1.118719458580017, + "step": 2238 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 3.265625, + "learning_rate": 1.637846664608565e-06, + "loss": 0.9887099266052246, + "step": 2240 + }, + { + "epoch": 1.4946666666666666, + "grad_norm": 5.625, + "learning_rate": 1.6346879011096927e-06, + "loss": 1.574345588684082, + "step": 2242 + }, + { + "epoch": 1.496, + "grad_norm": 9.8125, + "learning_rate": 1.6315355027151836e-06, + "loss": 1.878307580947876, + "step": 2244 + }, + { + "epoch": 1.4973333333333334, + "grad_norm": 2.515625, + "learning_rate": 1.6283894841215642e-06, + "loss": 1.0803532600402832, + "step": 2246 + }, + { + "epoch": 1.4986666666666666, + "grad_norm": 2.296875, + "learning_rate": 1.6252498599956174e-06, + "loss": 1.1133677959442139, + "step": 2248 + }, + { + "epoch": 1.5, + "grad_norm": 4.71875, + "learning_rate": 1.6221166449743157e-06, + "loss": 1.5767303705215454, + "step": 2250 + }, + { + "epoch": 1.5013333333333332, + "grad_norm": 7.0, + "learning_rate": 1.6189898536647513e-06, + "loss": 1.894281029701233, + "step": 2252 + }, + { + "epoch": 1.5026666666666668, + "grad_norm": 2.921875, + "learning_rate": 1.6158695006440705e-06, + "loss": 1.0772048234939575, + "step": 2254 + }, + { + "epoch": 1.504, + "grad_norm": 13.5, + "learning_rate": 1.6127556004594028e-06, + "loss": 2.036059856414795, + "step": 2256 + }, + { + "epoch": 1.5053333333333332, + "grad_norm": 10.125, + "learning_rate": 1.6096481676277953e-06, + "loss": 1.9206452369689941, + "step": 2258 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 3.3125, + "learning_rate": 1.6065472166361435e-06, + "loss": 1.1090811491012573, + "step": 2260 + }, + { + "epoch": 1.508, + "grad_norm": 16.875, + "learning_rate": 1.6034527619411252e-06, + "loss": 1.9479446411132812, + "step": 2262 + }, + { + "epoch": 1.5093333333333332, + "grad_norm": 2.359375, + "learning_rate": 1.6003648179691312e-06, + "loss": 1.1486694812774658, + "step": 2264 + }, + { + "epoch": 1.5106666666666668, + "grad_norm": 10.8125, + "learning_rate": 1.5972833991162019e-06, + "loss": 1.6257998943328857, + "step": 2266 + }, + { + "epoch": 1.512, + "grad_norm": 8.75, + "learning_rate": 1.5942085197479542e-06, + "loss": 1.5967451333999634, + "step": 2268 + }, + { + "epoch": 1.5133333333333332, + "grad_norm": 8.1875, + "learning_rate": 1.5911401941995203e-06, + "loss": 1.5518248081207275, + "step": 2270 + }, + { + "epoch": 1.5146666666666668, + "grad_norm": 1.015625, + "learning_rate": 1.5880784367754765e-06, + "loss": 0.9718266725540161, + "step": 2272 + }, + { + "epoch": 1.516, + "grad_norm": 1.578125, + "learning_rate": 1.5850232617497799e-06, + "loss": 1.0614995956420898, + "step": 2274 + }, + { + "epoch": 1.5173333333333332, + "grad_norm": 9.0, + "learning_rate": 1.5819746833656995e-06, + "loss": 2.10675048828125, + "step": 2276 + }, + { + "epoch": 1.5186666666666668, + "grad_norm": 9.875, + "learning_rate": 1.5789327158357511e-06, + "loss": 1.713383674621582, + "step": 2278 + }, + { + "epoch": 1.52, + "grad_norm": 10.875, + "learning_rate": 1.5758973733416305e-06, + "loss": 2.0925493240356445, + "step": 2280 + }, + { + "epoch": 1.5213333333333332, + "grad_norm": 1.6640625, + "learning_rate": 1.5728686700341471e-06, + "loss": 1.2812188863754272, + "step": 2282 + }, + { + "epoch": 1.5226666666666666, + "grad_norm": 1.75, + "learning_rate": 1.5698466200331591e-06, + "loss": 1.0207161903381348, + "step": 2284 + }, + { + "epoch": 1.524, + "grad_norm": 13.9375, + "learning_rate": 1.5668312374275063e-06, + "loss": 1.8525854349136353, + "step": 2286 + }, + { + "epoch": 1.5253333333333332, + "grad_norm": 5.125, + "learning_rate": 1.5638225362749452e-06, + "loss": 1.5748333930969238, + "step": 2288 + }, + { + "epoch": 1.5266666666666666, + "grad_norm": 1.875, + "learning_rate": 1.560820530602083e-06, + "loss": 0.9696911573410034, + "step": 2290 + }, + { + "epoch": 1.528, + "grad_norm": 1.859375, + "learning_rate": 1.557825234404313e-06, + "loss": 1.1080089807510376, + "step": 2292 + }, + { + "epoch": 1.5293333333333332, + "grad_norm": 8.625, + "learning_rate": 1.5548366616457483e-06, + "loss": 1.7507381439208984, + "step": 2294 + }, + { + "epoch": 1.5306666666666666, + "grad_norm": 4.59375, + "learning_rate": 1.5518548262591577e-06, + "loss": 1.5224215984344482, + "step": 2296 + }, + { + "epoch": 1.532, + "grad_norm": 4.15625, + "learning_rate": 1.5488797421458998e-06, + "loss": 1.1142975091934204, + "step": 2298 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 1.78125, + "learning_rate": 1.545911423175859e-06, + "loss": 1.172170877456665, + "step": 2300 + }, + { + "epoch": 1.5346666666666666, + "grad_norm": 47.0, + "learning_rate": 1.542949883187381e-06, + "loss": 1.7134714126586914, + "step": 2302 + }, + { + "epoch": 1.536, + "grad_norm": 2.171875, + "learning_rate": 1.5399951359872062e-06, + "loss": 1.122593641281128, + "step": 2304 + }, + { + "epoch": 1.5373333333333332, + "grad_norm": 15.8125, + "learning_rate": 1.5370471953504078e-06, + "loss": 1.9810711145401, + "step": 2306 + }, + { + "epoch": 1.5386666666666666, + "grad_norm": 1.1875, + "learning_rate": 1.5341060750203285e-06, + "loss": 1.174625277519226, + "step": 2308 + }, + { + "epoch": 1.54, + "grad_norm": 6.6875, + "learning_rate": 1.5311717887085117e-06, + "loss": 1.7289341688156128, + "step": 2310 + }, + { + "epoch": 1.5413333333333332, + "grad_norm": 11.5625, + "learning_rate": 1.528244350094642e-06, + "loss": 1.8983392715454102, + "step": 2312 + }, + { + "epoch": 1.5426666666666666, + "grad_norm": 7.34375, + "learning_rate": 1.5253237728264802e-06, + "loss": 1.8950591087341309, + "step": 2314 + }, + { + "epoch": 1.544, + "grad_norm": 4.21875, + "learning_rate": 1.522410070519798e-06, + "loss": 1.6132075786590576, + "step": 2316 + }, + { + "epoch": 1.5453333333333332, + "grad_norm": 6.375, + "learning_rate": 1.5195032567583179e-06, + "loss": 1.7312850952148438, + "step": 2318 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 29.375, + "learning_rate": 1.5166033450936454e-06, + "loss": 0.7591425776481628, + "step": 2320 + }, + { + "epoch": 1.548, + "grad_norm": 6.1875, + "learning_rate": 1.5137103490452116e-06, + "loss": 1.5598540306091309, + "step": 2322 + }, + { + "epoch": 1.5493333333333332, + "grad_norm": 6.96875, + "learning_rate": 1.510824282100204e-06, + "loss": 1.9549357891082764, + "step": 2324 + }, + { + "epoch": 1.5506666666666666, + "grad_norm": 5.8125, + "learning_rate": 1.5079451577135082e-06, + "loss": 2.056565284729004, + "step": 2326 + }, + { + "epoch": 1.552, + "grad_norm": 65.0, + "learning_rate": 1.5050729893076421e-06, + "loss": 1.716827154159546, + "step": 2328 + }, + { + "epoch": 1.5533333333333332, + "grad_norm": 5.46875, + "learning_rate": 1.5022077902726964e-06, + "loss": 1.6515603065490723, + "step": 2330 + }, + { + "epoch": 1.5546666666666666, + "grad_norm": 7.0625, + "learning_rate": 1.4993495739662693e-06, + "loss": 1.8558051586151123, + "step": 2332 + }, + { + "epoch": 1.556, + "grad_norm": 10.25, + "learning_rate": 1.4964983537134053e-06, + "loss": 1.906949520111084, + "step": 2334 + }, + { + "epoch": 1.5573333333333332, + "grad_norm": 5.125, + "learning_rate": 1.4936541428065343e-06, + "loss": 1.5600132942199707, + "step": 2336 + }, + { + "epoch": 1.5586666666666666, + "grad_norm": 2.5625, + "learning_rate": 1.4908169545054077e-06, + "loss": 1.2310209274291992, + "step": 2338 + }, + { + "epoch": 1.56, + "grad_norm": 22.875, + "learning_rate": 1.4879868020370375e-06, + "loss": 0.6177462935447693, + "step": 2340 + }, + { + "epoch": 1.5613333333333332, + "grad_norm": 29.875, + "learning_rate": 1.4851636985956344e-06, + "loss": 0.6061275005340576, + "step": 2342 + }, + { + "epoch": 1.5626666666666666, + "grad_norm": 68.5, + "learning_rate": 1.482347657342547e-06, + "loss": 0.8461488485336304, + "step": 2344 + }, + { + "epoch": 1.564, + "grad_norm": 3.828125, + "learning_rate": 1.4795386914061996e-06, + "loss": 1.4999845027923584, + "step": 2346 + }, + { + "epoch": 1.5653333333333332, + "grad_norm": 3.796875, + "learning_rate": 1.4767368138820313e-06, + "loss": 1.50132155418396, + "step": 2348 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 6.28125, + "learning_rate": 1.4739420378324342e-06, + "loss": 1.525911569595337, + "step": 2350 + }, + { + "epoch": 1.568, + "grad_norm": 12.75, + "learning_rate": 1.4711543762866943e-06, + "loss": 2.013495445251465, + "step": 2352 + }, + { + "epoch": 1.5693333333333332, + "grad_norm": 2.90625, + "learning_rate": 1.4683738422409294e-06, + "loss": 1.0588361024856567, + "step": 2354 + }, + { + "epoch": 1.5706666666666667, + "grad_norm": 5.375, + "learning_rate": 1.4656004486580278e-06, + "loss": 1.5528647899627686, + "step": 2356 + }, + { + "epoch": 1.572, + "grad_norm": 3.84375, + "learning_rate": 1.4628342084675912e-06, + "loss": 1.523222804069519, + "step": 2358 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 5.4375, + "learning_rate": 1.4600751345658695e-06, + "loss": 1.581688642501831, + "step": 2360 + }, + { + "epoch": 1.5746666666666667, + "grad_norm": 5.90625, + "learning_rate": 1.4573232398157047e-06, + "loss": 1.5545933246612549, + "step": 2362 + }, + { + "epoch": 1.576, + "grad_norm": 5.0, + "learning_rate": 1.4545785370464693e-06, + "loss": 1.620265245437622, + "step": 2364 + }, + { + "epoch": 1.5773333333333333, + "grad_norm": 4.84375, + "learning_rate": 1.451841039054006e-06, + "loss": 1.459843397140503, + "step": 2366 + }, + { + "epoch": 1.5786666666666667, + "grad_norm": 7.1875, + "learning_rate": 1.4491107586005702e-06, + "loss": 1.4685808420181274, + "step": 2368 + }, + { + "epoch": 1.58, + "grad_norm": 15.75, + "learning_rate": 1.4463877084147667e-06, + "loss": 1.824225664138794, + "step": 2370 + }, + { + "epoch": 1.5813333333333333, + "grad_norm": 4.25, + "learning_rate": 1.4436719011914952e-06, + "loss": 1.5579168796539307, + "step": 2372 + }, + { + "epoch": 1.5826666666666667, + "grad_norm": 5.9375, + "learning_rate": 1.4409633495918871e-06, + "loss": 1.678511381149292, + "step": 2374 + }, + { + "epoch": 1.584, + "grad_norm": 1.4609375, + "learning_rate": 1.438262066243248e-06, + "loss": 0.9821925163269043, + "step": 2376 + }, + { + "epoch": 1.5853333333333333, + "grad_norm": 8.125, + "learning_rate": 1.4355680637390002e-06, + "loss": 1.4981456995010376, + "step": 2378 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 12.0, + "learning_rate": 1.4328813546386203e-06, + "loss": 1.8860352039337158, + "step": 2380 + }, + { + "epoch": 1.588, + "grad_norm": 4.9375, + "learning_rate": 1.4302019514675851e-06, + "loss": 1.470839023590088, + "step": 2382 + }, + { + "epoch": 1.5893333333333333, + "grad_norm": 20.875, + "learning_rate": 1.4275298667173099e-06, + "loss": 1.8443596363067627, + "step": 2384 + }, + { + "epoch": 1.5906666666666667, + "grad_norm": 9.5625, + "learning_rate": 1.424865112845092e-06, + "loss": 2.1072330474853516, + "step": 2386 + }, + { + "epoch": 1.592, + "grad_norm": 1.3515625, + "learning_rate": 1.422207702274051e-06, + "loss": 1.0557342767715454, + "step": 2388 + }, + { + "epoch": 1.5933333333333333, + "grad_norm": 6.375, + "learning_rate": 1.419557647393073e-06, + "loss": 1.6008689403533936, + "step": 2390 + }, + { + "epoch": 1.5946666666666667, + "grad_norm": 5.5625, + "learning_rate": 1.416914960556752e-06, + "loss": 1.618016242980957, + "step": 2392 + }, + { + "epoch": 1.596, + "grad_norm": 4.8125, + "learning_rate": 1.4142796540853308e-06, + "loss": 1.5180994272232056, + "step": 2394 + }, + { + "epoch": 1.5973333333333333, + "grad_norm": 10.375, + "learning_rate": 1.4116517402646457e-06, + "loss": 1.7874457836151123, + "step": 2396 + }, + { + "epoch": 1.5986666666666667, + "grad_norm": 4.21875, + "learning_rate": 1.4090312313460677e-06, + "loss": 1.2136869430541992, + "step": 2398 + }, + { + "epoch": 1.6, + "grad_norm": 6.03125, + "learning_rate": 1.4064181395464477e-06, + "loss": 1.5290756225585938, + "step": 2400 + }, + { + "epoch": 1.6013333333333333, + "grad_norm": 11.5, + "learning_rate": 1.403812477048056e-06, + "loss": 2.132098913192749, + "step": 2402 + }, + { + "epoch": 1.6026666666666667, + "grad_norm": 16.5, + "learning_rate": 1.4012142559985284e-06, + "loss": 1.031418800354004, + "step": 2404 + }, + { + "epoch": 1.604, + "grad_norm": 2.96875, + "learning_rate": 1.398623488510808e-06, + "loss": 1.2537906169891357, + "step": 2406 + }, + { + "epoch": 1.6053333333333333, + "grad_norm": 3.515625, + "learning_rate": 1.3960401866630895e-06, + "loss": 1.501905083656311, + "step": 2408 + }, + { + "epoch": 1.6066666666666667, + "grad_norm": 7.125, + "learning_rate": 1.3934643624987628e-06, + "loss": 1.5386528968811035, + "step": 2410 + }, + { + "epoch": 1.608, + "grad_norm": 4.5, + "learning_rate": 1.390896028026357e-06, + "loss": 1.5996134281158447, + "step": 2412 + }, + { + "epoch": 1.6093333333333333, + "grad_norm": 2.03125, + "learning_rate": 1.3883351952194834e-06, + "loss": 1.073486089706421, + "step": 2414 + }, + { + "epoch": 1.6106666666666667, + "grad_norm": 4.65625, + "learning_rate": 1.3857818760167815e-06, + "loss": 1.541170358657837, + "step": 2416 + }, + { + "epoch": 1.612, + "grad_norm": 6.625, + "learning_rate": 1.383236082321861e-06, + "loss": 1.6134498119354248, + "step": 2418 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 10.75, + "learning_rate": 1.3806978260032483e-06, + "loss": 1.8399434089660645, + "step": 2420 + }, + { + "epoch": 1.6146666666666667, + "grad_norm": 8.25, + "learning_rate": 1.3781671188943306e-06, + "loss": 1.7731807231903076, + "step": 2422 + }, + { + "epoch": 1.616, + "grad_norm": 6.71875, + "learning_rate": 1.3756439727933e-06, + "loss": 1.5749328136444092, + "step": 2424 + }, + { + "epoch": 1.6173333333333333, + "grad_norm": 6.34375, + "learning_rate": 1.3731283994630994e-06, + "loss": 1.8089914321899414, + "step": 2426 + }, + { + "epoch": 1.6186666666666667, + "grad_norm": 11.5625, + "learning_rate": 1.3706204106313677e-06, + "loss": 1.8553075790405273, + "step": 2428 + }, + { + "epoch": 1.62, + "grad_norm": 5.65625, + "learning_rate": 1.3681200179903841e-06, + "loss": 1.5557477474212646, + "step": 2430 + }, + { + "epoch": 1.6213333333333333, + "grad_norm": 9.5, + "learning_rate": 1.3656272331970147e-06, + "loss": 2.0387516021728516, + "step": 2432 + }, + { + "epoch": 1.6226666666666667, + "grad_norm": 7.53125, + "learning_rate": 1.3631420678726575e-06, + "loss": 1.1420713663101196, + "step": 2434 + }, + { + "epoch": 1.624, + "grad_norm": 15.125, + "learning_rate": 1.3606645336031884e-06, + "loss": 0.822184681892395, + "step": 2436 + }, + { + "epoch": 1.6253333333333333, + "grad_norm": 4.40625, + "learning_rate": 1.3581946419389071e-06, + "loss": 1.5058057308197021, + "step": 2438 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 11.0625, + "learning_rate": 1.3557324043944842e-06, + "loss": 1.9923133850097656, + "step": 2440 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 6.6875, + "learning_rate": 1.3532778324489057e-06, + "loss": 1.6043286323547363, + "step": 2442 + }, + { + "epoch": 1.6293333333333333, + "grad_norm": 12.25, + "learning_rate": 1.3508309375454203e-06, + "loss": 1.7089390754699707, + "step": 2444 + }, + { + "epoch": 1.6306666666666667, + "grad_norm": 10.375, + "learning_rate": 1.3483917310914874e-06, + "loss": 1.5101563930511475, + "step": 2446 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 4.3125, + "learning_rate": 1.3459602244587213e-06, + "loss": 1.580566644668579, + "step": 2448 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 1.8515625, + "learning_rate": 1.3435364289828417e-06, + "loss": 1.1323513984680176, + "step": 2450 + }, + { + "epoch": 1.6346666666666667, + "grad_norm": 2.78125, + "learning_rate": 1.3411203559636167e-06, + "loss": 1.149007797241211, + "step": 2452 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 11.875, + "learning_rate": 1.338712016664813e-06, + "loss": 1.757912278175354, + "step": 2454 + }, + { + "epoch": 1.6373333333333333, + "grad_norm": 1.8984375, + "learning_rate": 1.3363114223141424e-06, + "loss": 1.1383402347564697, + "step": 2456 + }, + { + "epoch": 1.6386666666666667, + "grad_norm": 8.25, + "learning_rate": 1.3339185841032098e-06, + "loss": 1.2369120121002197, + "step": 2458 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 10.5, + "learning_rate": 1.3315335131874615e-06, + "loss": 1.1226749420166016, + "step": 2460 + }, + { + "epoch": 1.6413333333333333, + "grad_norm": 6.65625, + "learning_rate": 1.3291562206861313e-06, + "loss": 2.066049814224243, + "step": 2462 + }, + { + "epoch": 1.6426666666666667, + "grad_norm": 6.21875, + "learning_rate": 1.3267867176821905e-06, + "loss": 1.8269095420837402, + "step": 2464 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 13.75, + "learning_rate": 1.3244250152222962e-06, + "loss": 1.9400553703308105, + "step": 2466 + }, + { + "epoch": 1.6453333333333333, + "grad_norm": 10.125, + "learning_rate": 1.3220711243167383e-06, + "loss": 1.5360229015350342, + "step": 2468 + }, + { + "epoch": 1.6466666666666665, + "grad_norm": 5.3125, + "learning_rate": 1.3197250559393898e-06, + "loss": 1.47464919090271, + "step": 2470 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 47.0, + "learning_rate": 1.3173868210276546e-06, + "loss": 1.0298049449920654, + "step": 2472 + }, + { + "epoch": 1.6493333333333333, + "grad_norm": 10.625, + "learning_rate": 1.3150564304824173e-06, + "loss": 1.9129880666732788, + "step": 2474 + }, + { + "epoch": 1.6506666666666665, + "grad_norm": 10.6875, + "learning_rate": 1.3127338951679914e-06, + "loss": 1.8743722438812256, + "step": 2476 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 20.125, + "learning_rate": 1.3104192259120696e-06, + "loss": 1.9373652935028076, + "step": 2478 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 3.34375, + "learning_rate": 1.3081124335056724e-06, + "loss": 1.0924056768417358, + "step": 2480 + }, + { + "epoch": 1.6546666666666665, + "grad_norm": 3.5625, + "learning_rate": 1.3058135287030994e-06, + "loss": 1.5548295974731445, + "step": 2482 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 3.296875, + "learning_rate": 1.3035225222218763e-06, + "loss": 1.1189805269241333, + "step": 2484 + }, + { + "epoch": 1.6573333333333333, + "grad_norm": 6.96875, + "learning_rate": 1.3012394247427094e-06, + "loss": 1.9380686283111572, + "step": 2486 + }, + { + "epoch": 1.6586666666666665, + "grad_norm": 1.953125, + "learning_rate": 1.29896424690943e-06, + "loss": 0.9920519590377808, + "step": 2488 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 4.0, + "learning_rate": 1.29669699932895e-06, + "loss": 1.6043567657470703, + "step": 2490 + }, + { + "epoch": 1.6613333333333333, + "grad_norm": 55.5, + "learning_rate": 1.2944376925712098e-06, + "loss": 1.60878324508667, + "step": 2492 + }, + { + "epoch": 1.6626666666666665, + "grad_norm": 10.5, + "learning_rate": 1.29218633716913e-06, + "loss": 1.898872971534729, + "step": 2494 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 8.625, + "learning_rate": 1.2899429436185606e-06, + "loss": 1.1359686851501465, + "step": 2496 + }, + { + "epoch": 1.6653333333333333, + "grad_norm": 7.0, + "learning_rate": 1.2877075223782349e-06, + "loss": 1.8120665550231934, + "step": 2498 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 5.5, + "learning_rate": 1.2854800838697178e-06, + "loss": 1.6861441135406494, + "step": 2500 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 9.4375, + "learning_rate": 1.2832606384773588e-06, + "loss": 1.9833118915557861, + "step": 2502 + }, + { + "epoch": 1.6693333333333333, + "grad_norm": 2.15625, + "learning_rate": 1.2810491965482453e-06, + "loss": 1.1113640069961548, + "step": 2504 + }, + { + "epoch": 1.6706666666666665, + "grad_norm": 5.125, + "learning_rate": 1.2788457683921495e-06, + "loss": 1.5374150276184082, + "step": 2506 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 8.75, + "learning_rate": 1.2766503642814853e-06, + "loss": 1.532484769821167, + "step": 2508 + }, + { + "epoch": 1.6733333333333333, + "grad_norm": 9.25, + "learning_rate": 1.2744629944512581e-06, + "loss": 1.9680659770965576, + "step": 2510 + }, + { + "epoch": 1.6746666666666665, + "grad_norm": 4.90625, + "learning_rate": 1.2722836690990167e-06, + "loss": 1.4476611614227295, + "step": 2512 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 10.3125, + "learning_rate": 1.2701123983848066e-06, + "loss": 2.006901264190674, + "step": 2514 + }, + { + "epoch": 1.6773333333333333, + "grad_norm": 15.0, + "learning_rate": 1.2679491924311227e-06, + "loss": 1.826201319694519, + "step": 2516 + }, + { + "epoch": 1.6786666666666665, + "grad_norm": 9.75, + "learning_rate": 1.2657940613228625e-06, + "loss": 2.085049629211426, + "step": 2518 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 2.921875, + "learning_rate": 1.2636470151072766e-06, + "loss": 1.2014029026031494, + "step": 2520 + }, + { + "epoch": 1.6813333333333333, + "grad_norm": 13.4375, + "learning_rate": 1.261508063793926e-06, + "loss": 1.615051031112671, + "step": 2522 + }, + { + "epoch": 1.6826666666666665, + "grad_norm": 4.5625, + "learning_rate": 1.2593772173546315e-06, + "loss": 1.611379861831665, + "step": 2524 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 1.921875, + "learning_rate": 1.2572544857234294e-06, + "loss": 1.1507315635681152, + "step": 2526 + }, + { + "epoch": 1.6853333333333333, + "grad_norm": 2.484375, + "learning_rate": 1.2551398787965249e-06, + "loss": 1.275776982307434, + "step": 2528 + }, + { + "epoch": 1.6866666666666665, + "grad_norm": 13.1875, + "learning_rate": 1.2530334064322455e-06, + "loss": 1.2164192199707031, + "step": 2530 + }, + { + "epoch": 1.688, + "grad_norm": 5.53125, + "learning_rate": 1.250935078450995e-06, + "loss": 1.5331335067749023, + "step": 2532 + }, + { + "epoch": 1.6893333333333334, + "grad_norm": 13.0, + "learning_rate": 1.248844904635208e-06, + "loss": 1.6550445556640625, + "step": 2534 + }, + { + "epoch": 1.6906666666666665, + "grad_norm": 6.96875, + "learning_rate": 1.2467628947293048e-06, + "loss": 1.9799119234085083, + "step": 2536 + }, + { + "epoch": 1.692, + "grad_norm": 4.65625, + "learning_rate": 1.2446890584396453e-06, + "loss": 1.5746979713439941, + "step": 2538 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 11.125, + "learning_rate": 1.242623405434483e-06, + "loss": 1.7918205261230469, + "step": 2540 + }, + { + "epoch": 1.6946666666666665, + "grad_norm": 13.375, + "learning_rate": 1.2405659453439223e-06, + "loss": 1.6811120510101318, + "step": 2542 + }, + { + "epoch": 1.696, + "grad_norm": 4.84375, + "learning_rate": 1.2385166877598709e-06, + "loss": 1.591151475906372, + "step": 2544 + }, + { + "epoch": 1.6973333333333334, + "grad_norm": 29.125, + "learning_rate": 1.236475642235997e-06, + "loss": 0.6545977592468262, + "step": 2546 + }, + { + "epoch": 1.6986666666666665, + "grad_norm": 5.53125, + "learning_rate": 1.2344428182876834e-06, + "loss": 1.7109073400497437, + "step": 2548 + }, + { + "epoch": 1.7, + "grad_norm": 2.234375, + "learning_rate": 1.2324182253919842e-06, + "loss": 1.4369351863861084, + "step": 2550 + }, + { + "epoch": 1.7013333333333334, + "grad_norm": 40.5, + "learning_rate": 1.2304018729875806e-06, + "loss": 1.494368076324463, + "step": 2552 + }, + { + "epoch": 1.7026666666666666, + "grad_norm": 1.84375, + "learning_rate": 1.2283937704747353e-06, + "loss": 1.085021734237671, + "step": 2554 + }, + { + "epoch": 1.704, + "grad_norm": 4.3125, + "learning_rate": 1.2263939272152513e-06, + "loss": 1.5085113048553467, + "step": 2556 + }, + { + "epoch": 1.7053333333333334, + "grad_norm": 11.4375, + "learning_rate": 1.2244023525324266e-06, + "loss": 2.0440781116485596, + "step": 2558 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 9.875, + "learning_rate": 1.2224190557110097e-06, + "loss": 1.5847303867340088, + "step": 2560 + }, + { + "epoch": 1.708, + "grad_norm": 3.375, + "learning_rate": 1.220444045997159e-06, + "loss": 1.0622501373291016, + "step": 2562 + }, + { + "epoch": 1.7093333333333334, + "grad_norm": 1.6484375, + "learning_rate": 1.2184773325983976e-06, + "loss": 1.0417931079864502, + "step": 2564 + }, + { + "epoch": 1.7106666666666666, + "grad_norm": 18.375, + "learning_rate": 1.2165189246835716e-06, + "loss": 1.0322291851043701, + "step": 2566 + }, + { + "epoch": 1.712, + "grad_norm": 16.625, + "learning_rate": 1.2145688313828058e-06, + "loss": 1.9865806102752686, + "step": 2568 + }, + { + "epoch": 1.7133333333333334, + "grad_norm": 5.59375, + "learning_rate": 1.212627061787464e-06, + "loss": 1.5734801292419434, + "step": 2570 + }, + { + "epoch": 1.7146666666666666, + "grad_norm": 20.5, + "learning_rate": 1.2106936249501023e-06, + "loss": 1.7474571466445923, + "step": 2572 + }, + { + "epoch": 1.716, + "grad_norm": 11.5625, + "learning_rate": 1.2087685298844312e-06, + "loss": 1.8723552227020264, + "step": 2574 + }, + { + "epoch": 1.7173333333333334, + "grad_norm": 35.0, + "learning_rate": 1.2068517855652712e-06, + "loss": 1.7286386489868164, + "step": 2576 + }, + { + "epoch": 1.7186666666666666, + "grad_norm": 6.40625, + "learning_rate": 1.2049434009285116e-06, + "loss": 1.5056369304656982, + "step": 2578 + }, + { + "epoch": 1.72, + "grad_norm": 7.0, + "learning_rate": 1.2030433848710684e-06, + "loss": 1.538612961769104, + "step": 2580 + }, + { + "epoch": 1.7213333333333334, + "grad_norm": 5.9375, + "learning_rate": 1.2011517462508432e-06, + "loss": 1.5303728580474854, + "step": 2582 + }, + { + "epoch": 1.7226666666666666, + "grad_norm": 6.15625, + "learning_rate": 1.1992684938866826e-06, + "loss": 2.1096715927124023, + "step": 2584 + }, + { + "epoch": 1.724, + "grad_norm": 8.125, + "learning_rate": 1.1973936365583357e-06, + "loss": 1.557473063468933, + "step": 2586 + }, + { + "epoch": 1.7253333333333334, + "grad_norm": 3.765625, + "learning_rate": 1.1955271830064138e-06, + "loss": 1.5712800025939941, + "step": 2588 + }, + { + "epoch": 1.7266666666666666, + "grad_norm": 6.5, + "learning_rate": 1.1936691419323498e-06, + "loss": 1.5366168022155762, + "step": 2590 + }, + { + "epoch": 1.728, + "grad_norm": 30.625, + "learning_rate": 1.1918195219983574e-06, + "loss": 0.6057420969009399, + "step": 2592 + }, + { + "epoch": 1.7293333333333334, + "grad_norm": 4.125, + "learning_rate": 1.1899783318273914e-06, + "loss": 1.158643126487732, + "step": 2594 + }, + { + "epoch": 1.7306666666666666, + "grad_norm": 10.625, + "learning_rate": 1.1881455800031064e-06, + "loss": 1.5761902332305908, + "step": 2596 + }, + { + "epoch": 1.732, + "grad_norm": 5.40625, + "learning_rate": 1.186321275069817e-06, + "loss": 1.595426082611084, + "step": 2598 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 1.1796875, + "learning_rate": 1.184505425532459e-06, + "loss": 1.0814518928527832, + "step": 2600 + }, + { + "epoch": 1.7346666666666666, + "grad_norm": 6.25, + "learning_rate": 1.1826980398565486e-06, + "loss": 1.4769387245178223, + "step": 2602 + }, + { + "epoch": 1.736, + "grad_norm": 12.625, + "learning_rate": 1.1808991264681435e-06, + "loss": 1.9360644817352295, + "step": 2604 + }, + { + "epoch": 1.7373333333333334, + "grad_norm": 1.59375, + "learning_rate": 1.1791086937538032e-06, + "loss": 1.1510602235794067, + "step": 2606 + }, + { + "epoch": 1.7386666666666666, + "grad_norm": 4.875, + "learning_rate": 1.1773267500605506e-06, + "loss": 1.640676736831665, + "step": 2608 + }, + { + "epoch": 1.74, + "grad_norm": 5.4375, + "learning_rate": 1.1755533036958324e-06, + "loss": 1.586723804473877, + "step": 2610 + }, + { + "epoch": 1.7413333333333334, + "grad_norm": 2.1875, + "learning_rate": 1.173788362927481e-06, + "loss": 1.03817617893219, + "step": 2612 + }, + { + "epoch": 1.7426666666666666, + "grad_norm": 15.875, + "learning_rate": 1.1720319359836747e-06, + "loss": 1.5527381896972656, + "step": 2614 + }, + { + "epoch": 1.744, + "grad_norm": 7.375, + "learning_rate": 1.1702840310529013e-06, + "loss": 1.6147454977035522, + "step": 2616 + }, + { + "epoch": 1.7453333333333334, + "grad_norm": 8.0, + "learning_rate": 1.168544656283918e-06, + "loss": 1.6725919246673584, + "step": 2618 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 7.53125, + "learning_rate": 1.1668138197857148e-06, + "loss": 1.081732988357544, + "step": 2620 + }, + { + "epoch": 1.748, + "grad_norm": 4.5625, + "learning_rate": 1.1650915296274762e-06, + "loss": 1.1363911628723145, + "step": 2622 + }, + { + "epoch": 1.7493333333333334, + "grad_norm": 4.875, + "learning_rate": 1.1633777938385429e-06, + "loss": 1.5501255989074707, + "step": 2624 + }, + { + "epoch": 1.7506666666666666, + "grad_norm": 2.484375, + "learning_rate": 1.161672620408376e-06, + "loss": 1.2060632705688477, + "step": 2626 + }, + { + "epoch": 1.752, + "grad_norm": 5.0625, + "learning_rate": 1.1599760172865176e-06, + "loss": 1.5151984691619873, + "step": 2628 + }, + { + "epoch": 1.7533333333333334, + "grad_norm": 2.765625, + "learning_rate": 1.1582879923825561e-06, + "loss": 1.1503922939300537, + "step": 2630 + }, + { + "epoch": 1.7546666666666666, + "grad_norm": 7.21875, + "learning_rate": 1.1566085535660872e-06, + "loss": 1.9271504878997803, + "step": 2632 + }, + { + "epoch": 1.756, + "grad_norm": 2.25, + "learning_rate": 1.154937708666678e-06, + "loss": 1.130241870880127, + "step": 2634 + }, + { + "epoch": 1.7573333333333334, + "grad_norm": 5.0625, + "learning_rate": 1.153275465473832e-06, + "loss": 1.7080326080322266, + "step": 2636 + }, + { + "epoch": 1.7586666666666666, + "grad_norm": 4.5, + "learning_rate": 1.1516218317369506e-06, + "loss": 1.5953943729400635, + "step": 2638 + }, + { + "epoch": 1.76, + "grad_norm": 7.1875, + "learning_rate": 1.149976815165297e-06, + "loss": 1.6334452629089355, + "step": 2640 + }, + { + "epoch": 1.7613333333333334, + "grad_norm": 4.6875, + "learning_rate": 1.1483404234279622e-06, + "loss": 1.616743564605713, + "step": 2642 + }, + { + "epoch": 1.7626666666666666, + "grad_norm": 2.6875, + "learning_rate": 1.1467126641538273e-06, + "loss": 1.1109144687652588, + "step": 2644 + }, + { + "epoch": 1.764, + "grad_norm": 15.6875, + "learning_rate": 1.1450935449315295e-06, + "loss": 2.251559019088745, + "step": 2646 + }, + { + "epoch": 1.7653333333333334, + "grad_norm": 11.25, + "learning_rate": 1.1434830733094256e-06, + "loss": 1.9472830295562744, + "step": 2648 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 1.625, + "learning_rate": 1.1418812567955569e-06, + "loss": 1.1540098190307617, + "step": 2650 + }, + { + "epoch": 1.768, + "grad_norm": 11.125, + "learning_rate": 1.1402881028576147e-06, + "loss": 2.0404562950134277, + "step": 2652 + }, + { + "epoch": 1.7693333333333334, + "grad_norm": 7.5625, + "learning_rate": 1.1387036189229055e-06, + "loss": 1.558046579360962, + "step": 2654 + }, + { + "epoch": 1.7706666666666666, + "grad_norm": 8.5625, + "learning_rate": 1.1371278123783156e-06, + "loss": 1.9174463748931885, + "step": 2656 + }, + { + "epoch": 1.772, + "grad_norm": 11.1875, + "learning_rate": 1.1355606905702775e-06, + "loss": 1.5161430835723877, + "step": 2658 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 6.625, + "learning_rate": 1.1340022608047357e-06, + "loss": 1.64548659324646, + "step": 2660 + }, + { + "epoch": 1.7746666666666666, + "grad_norm": 7.0, + "learning_rate": 1.1324525303471113e-06, + "loss": 1.71232271194458, + "step": 2662 + }, + { + "epoch": 1.776, + "grad_norm": 10.625, + "learning_rate": 1.1309115064222697e-06, + "loss": 1.7835891246795654, + "step": 2664 + }, + { + "epoch": 1.7773333333333334, + "grad_norm": 7.8125, + "learning_rate": 1.1293791962144868e-06, + "loss": 2.010854721069336, + "step": 2666 + }, + { + "epoch": 1.7786666666666666, + "grad_norm": 6.375, + "learning_rate": 1.127855606867414e-06, + "loss": 1.7522506713867188, + "step": 2668 + }, + { + "epoch": 1.78, + "grad_norm": 1.7734375, + "learning_rate": 1.1263407454840465e-06, + "loss": 1.1171356439590454, + "step": 2670 + }, + { + "epoch": 1.7813333333333334, + "grad_norm": 3.765625, + "learning_rate": 1.12483461912669e-06, + "loss": 1.498163104057312, + "step": 2672 + }, + { + "epoch": 1.7826666666666666, + "grad_norm": 2.046875, + "learning_rate": 1.123337234816926e-06, + "loss": 1.2884820699691772, + "step": 2674 + }, + { + "epoch": 1.784, + "grad_norm": 6.59375, + "learning_rate": 1.1218485995355823e-06, + "loss": 1.5873327255249023, + "step": 2676 + }, + { + "epoch": 1.7853333333333334, + "grad_norm": 10.625, + "learning_rate": 1.1203687202226976e-06, + "loss": 1.5103931427001953, + "step": 2678 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 4.71875, + "learning_rate": 1.1188976037774897e-06, + "loss": 1.0384002923965454, + "step": 2680 + }, + { + "epoch": 1.788, + "grad_norm": 4.9375, + "learning_rate": 1.117435257058325e-06, + "loss": 1.5868349075317383, + "step": 2682 + }, + { + "epoch": 1.7893333333333334, + "grad_norm": 5.09375, + "learning_rate": 1.1159816868826838e-06, + "loss": 1.6466984748840332, + "step": 2684 + }, + { + "epoch": 1.7906666666666666, + "grad_norm": 10.25, + "learning_rate": 1.1145369000271316e-06, + "loss": 2.061450719833374, + "step": 2686 + }, + { + "epoch": 1.792, + "grad_norm": 24.75, + "learning_rate": 1.113100903227285e-06, + "loss": 1.8428632020950317, + "step": 2688 + }, + { + "epoch": 1.7933333333333334, + "grad_norm": 3.4375, + "learning_rate": 1.1116737031777813e-06, + "loss": 1.237999439239502, + "step": 2690 + }, + { + "epoch": 1.7946666666666666, + "grad_norm": 12.875, + "learning_rate": 1.1102553065322478e-06, + "loss": 1.7113702297210693, + "step": 2692 + }, + { + "epoch": 1.796, + "grad_norm": 5.09375, + "learning_rate": 1.108845719903269e-06, + "loss": 1.8466413021087646, + "step": 2694 + }, + { + "epoch": 1.7973333333333334, + "grad_norm": 9.875, + "learning_rate": 1.1074449498623586e-06, + "loss": 1.71107816696167, + "step": 2696 + }, + { + "epoch": 1.7986666666666666, + "grad_norm": 8.4375, + "learning_rate": 1.1060530029399259e-06, + "loss": 1.8808412551879883, + "step": 2698 + }, + { + "epoch": 1.8, + "grad_norm": 2.90625, + "learning_rate": 1.1046698856252468e-06, + "loss": 1.0465705394744873, + "step": 2700 + }, + { + "epoch": 1.8013333333333335, + "grad_norm": 2.65625, + "learning_rate": 1.1032956043664347e-06, + "loss": 1.0618107318878174, + "step": 2702 + }, + { + "epoch": 1.8026666666666666, + "grad_norm": 8.0625, + "learning_rate": 1.101930165570408e-06, + "loss": 1.6237022876739502, + "step": 2704 + }, + { + "epoch": 1.804, + "grad_norm": 7.59375, + "learning_rate": 1.1005735756028614e-06, + "loss": 1.8877501487731934, + "step": 2706 + }, + { + "epoch": 1.8053333333333335, + "grad_norm": 8.1875, + "learning_rate": 1.099225840788237e-06, + "loss": 1.4899542331695557, + "step": 2708 + }, + { + "epoch": 1.8066666666666666, + "grad_norm": 3.609375, + "learning_rate": 1.097886967409693e-06, + "loss": 1.4635686874389648, + "step": 2710 + }, + { + "epoch": 1.808, + "grad_norm": 35.25, + "learning_rate": 1.0965569617090768e-06, + "loss": 1.7736328840255737, + "step": 2712 + }, + { + "epoch": 1.8093333333333335, + "grad_norm": 4.09375, + "learning_rate": 1.0952358298868936e-06, + "loss": 1.506758451461792, + "step": 2714 + }, + { + "epoch": 1.8106666666666666, + "grad_norm": 4.8125, + "learning_rate": 1.0939235781022784e-06, + "loss": 1.5824058055877686, + "step": 2716 + }, + { + "epoch": 1.812, + "grad_norm": 4.59375, + "learning_rate": 1.092620212472968e-06, + "loss": 1.6231698989868164, + "step": 2718 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 6.375, + "learning_rate": 1.0913257390752713e-06, + "loss": 1.5913381576538086, + "step": 2720 + }, + { + "epoch": 1.8146666666666667, + "grad_norm": 9.75, + "learning_rate": 1.0900401639440416e-06, + "loss": 1.8220431804656982, + "step": 2722 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 16.625, + "learning_rate": 1.0887634930726484e-06, + "loss": 1.6188863515853882, + "step": 2724 + }, + { + "epoch": 1.8173333333333335, + "grad_norm": 4.4375, + "learning_rate": 1.087495732412949e-06, + "loss": 1.551790714263916, + "step": 2726 + }, + { + "epoch": 1.8186666666666667, + "grad_norm": 5.21875, + "learning_rate": 1.0862368878752624e-06, + "loss": 1.6060757637023926, + "step": 2728 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 6.9375, + "learning_rate": 1.0849869653283392e-06, + "loss": 1.3745307922363281, + "step": 2730 + }, + { + "epoch": 1.8213333333333335, + "grad_norm": 5.5625, + "learning_rate": 1.0837459705993362e-06, + "loss": 1.1677099466323853, + "step": 2732 + }, + { + "epoch": 1.8226666666666667, + "grad_norm": 3.8125, + "learning_rate": 1.0825139094737883e-06, + "loss": 1.1494688987731934, + "step": 2734 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 1.7890625, + "learning_rate": 1.081290787695582e-06, + "loss": 1.2367225885391235, + "step": 2736 + }, + { + "epoch": 1.8253333333333335, + "grad_norm": 6.5, + "learning_rate": 1.080076610966928e-06, + "loss": 1.8836338520050049, + "step": 2738 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 7.53125, + "learning_rate": 1.0788713849483363e-06, + "loss": 2.0381829738616943, + "step": 2740 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 5.9375, + "learning_rate": 1.0776751152585866e-06, + "loss": 1.1025861501693726, + "step": 2742 + }, + { + "epoch": 1.8293333333333335, + "grad_norm": 4.71875, + "learning_rate": 1.076487807474706e-06, + "loss": 1.677769422531128, + "step": 2744 + }, + { + "epoch": 1.8306666666666667, + "grad_norm": 15.375, + "learning_rate": 1.0753094671319398e-06, + "loss": 1.6080399751663208, + "step": 2746 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 6.46875, + "learning_rate": 1.0741400997237275e-06, + "loss": 1.648935317993164, + "step": 2748 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 7.9375, + "learning_rate": 1.0729797107016766e-06, + "loss": 1.6360926628112793, + "step": 2750 + }, + { + "epoch": 1.8346666666666667, + "grad_norm": 6.8125, + "learning_rate": 1.0718283054755373e-06, + "loss": 1.93143630027771, + "step": 2752 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 11.3125, + "learning_rate": 1.0706858894131767e-06, + "loss": 1.8639891147613525, + "step": 2754 + }, + { + "epoch": 1.8373333333333335, + "grad_norm": 4.15625, + "learning_rate": 1.069552467840555e-06, + "loss": 1.6008312702178955, + "step": 2756 + }, + { + "epoch": 1.8386666666666667, + "grad_norm": 4.34375, + "learning_rate": 1.0684280460416991e-06, + "loss": 1.6185994148254395, + "step": 2758 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 5.65625, + "learning_rate": 1.0673126292586806e-06, + "loss": 2.011725902557373, + "step": 2760 + }, + { + "epoch": 1.8413333333333335, + "grad_norm": 4.15625, + "learning_rate": 1.066206222691587e-06, + "loss": 1.4604053497314453, + "step": 2762 + }, + { + "epoch": 1.8426666666666667, + "grad_norm": 5.40625, + "learning_rate": 1.065108831498502e-06, + "loss": 1.4645023345947266, + "step": 2764 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 3.625, + "learning_rate": 1.0640204607954785e-06, + "loss": 1.495434045791626, + "step": 2766 + }, + { + "epoch": 1.8453333333333335, + "grad_norm": 5.40625, + "learning_rate": 1.062941115656517e-06, + "loss": 1.0852596759796143, + "step": 2768 + }, + { + "epoch": 1.8466666666666667, + "grad_norm": 2.703125, + "learning_rate": 1.0618708011135393e-06, + "loss": 1.0549116134643555, + "step": 2770 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 3.515625, + "learning_rate": 1.060809522156367e-06, + "loss": 1.0271042585372925, + "step": 2772 + }, + { + "epoch": 1.8493333333333335, + "grad_norm": 5.9375, + "learning_rate": 1.0597572837326978e-06, + "loss": 1.6348028182983398, + "step": 2774 + }, + { + "epoch": 1.8506666666666667, + "grad_norm": 4.3125, + "learning_rate": 1.058714090748082e-06, + "loss": 1.5930371284484863, + "step": 2776 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 5.5625, + "learning_rate": 1.0576799480658997e-06, + "loss": 1.5753302574157715, + "step": 2778 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 5.5625, + "learning_rate": 1.0566548605073396e-06, + "loss": 1.590511679649353, + "step": 2780 + }, + { + "epoch": 1.8546666666666667, + "grad_norm": 12.5, + "learning_rate": 1.055638832851374e-06, + "loss": 0.809339165687561, + "step": 2782 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 5.0, + "learning_rate": 1.054631869834738e-06, + "loss": 1.6788489818572998, + "step": 2784 + }, + { + "epoch": 1.8573333333333333, + "grad_norm": 2.03125, + "learning_rate": 1.0536339761519077e-06, + "loss": 1.0987229347229004, + "step": 2786 + }, + { + "epoch": 1.8586666666666667, + "grad_norm": 6.625, + "learning_rate": 1.0526451564550778e-06, + "loss": 1.648554801940918, + "step": 2788 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 1.46875, + "learning_rate": 1.0516654153541392e-06, + "loss": 1.1031792163848877, + "step": 2790 + }, + { + "epoch": 1.8613333333333333, + "grad_norm": 6.34375, + "learning_rate": 1.0506947574166596e-06, + "loss": 1.8444862365722656, + "step": 2792 + }, + { + "epoch": 1.8626666666666667, + "grad_norm": 9.875, + "learning_rate": 1.0497331871678592e-06, + "loss": 1.3348501920700073, + "step": 2794 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 6.46875, + "learning_rate": 1.0487807090905927e-06, + "loss": 1.156570315361023, + "step": 2796 + }, + { + "epoch": 1.8653333333333333, + "grad_norm": 2.625, + "learning_rate": 1.0478373276253262e-06, + "loss": 1.2651017904281616, + "step": 2798 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 3.421875, + "learning_rate": 1.0469030471701177e-06, + "loss": 1.0961531400680542, + "step": 2800 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 2.75, + "learning_rate": 1.0459778720805956e-06, + "loss": 1.1647145748138428, + "step": 2802 + }, + { + "epoch": 1.8693333333333333, + "grad_norm": 9.0625, + "learning_rate": 1.0450618066699392e-06, + "loss": 2.051912784576416, + "step": 2804 + }, + { + "epoch": 1.8706666666666667, + "grad_norm": 5.25, + "learning_rate": 1.044154855208859e-06, + "loss": 1.5181958675384521, + "step": 2806 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 6.1875, + "learning_rate": 1.043257021925575e-06, + "loss": 1.5700154304504395, + "step": 2808 + }, + { + "epoch": 1.8733333333333333, + "grad_norm": 8.0625, + "learning_rate": 1.042368311005799e-06, + "loss": 1.986337423324585, + "step": 2810 + }, + { + "epoch": 1.8746666666666667, + "grad_norm": 10.8125, + "learning_rate": 1.041488726592714e-06, + "loss": 1.1347825527191162, + "step": 2812 + }, + { + "epoch": 1.876, + "grad_norm": 7.90625, + "learning_rate": 1.0406182727869546e-06, + "loss": 1.611783504486084, + "step": 2814 + }, + { + "epoch": 1.8773333333333333, + "grad_norm": 8.9375, + "learning_rate": 1.039756953646589e-06, + "loss": 1.8373312950134277, + "step": 2816 + }, + { + "epoch": 1.8786666666666667, + "grad_norm": 14.9375, + "learning_rate": 1.0389047731870992e-06, + "loss": 1.55556058883667, + "step": 2818 + }, + { + "epoch": 1.88, + "grad_norm": 3.84375, + "learning_rate": 1.0380617353813627e-06, + "loss": 1.0587745904922485, + "step": 2820 + }, + { + "epoch": 1.8813333333333333, + "grad_norm": 2.671875, + "learning_rate": 1.0372278441596337e-06, + "loss": 1.1342324018478394, + "step": 2822 + }, + { + "epoch": 1.8826666666666667, + "grad_norm": 4.96875, + "learning_rate": 1.036403103409525e-06, + "loss": 1.688795804977417, + "step": 2824 + }, + { + "epoch": 1.884, + "grad_norm": 2.25, + "learning_rate": 1.0355875169759896e-06, + "loss": 1.1600544452667236, + "step": 2826 + }, + { + "epoch": 1.8853333333333333, + "grad_norm": 111.5, + "learning_rate": 1.0347810886613026e-06, + "loss": 1.9772312641143799, + "step": 2828 + }, + { + "epoch": 1.8866666666666667, + "grad_norm": 5.0, + "learning_rate": 1.033983822225045e-06, + "loss": 1.5392059087753296, + "step": 2830 + }, + { + "epoch": 1.888, + "grad_norm": 5.46875, + "learning_rate": 1.0331957213840832e-06, + "loss": 1.646643877029419, + "step": 2832 + }, + { + "epoch": 1.8893333333333333, + "grad_norm": 2.34375, + "learning_rate": 1.0324167898125558e-06, + "loss": 0.9575203657150269, + "step": 2834 + }, + { + "epoch": 1.8906666666666667, + "grad_norm": 9.9375, + "learning_rate": 1.0316470311418516e-06, + "loss": 1.3466911315917969, + "step": 2836 + }, + { + "epoch": 1.892, + "grad_norm": 5.6875, + "learning_rate": 1.0308864489605973e-06, + "loss": 1.5627878904342651, + "step": 2838 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 5.875, + "learning_rate": 1.0301350468146375e-06, + "loss": 1.72072434425354, + "step": 2840 + }, + { + "epoch": 1.8946666666666667, + "grad_norm": 7.8125, + "learning_rate": 1.0293928282070194e-06, + "loss": 1.5522115230560303, + "step": 2842 + }, + { + "epoch": 1.896, + "grad_norm": 1.9921875, + "learning_rate": 1.0286597965979772e-06, + "loss": 1.1265590190887451, + "step": 2844 + }, + { + "epoch": 1.8973333333333333, + "grad_norm": 5.625, + "learning_rate": 1.027935955404914e-06, + "loss": 1.7390642166137695, + "step": 2846 + }, + { + "epoch": 1.8986666666666667, + "grad_norm": 1.8984375, + "learning_rate": 1.027221308002388e-06, + "loss": 1.1018836498260498, + "step": 2848 + }, + { + "epoch": 1.9, + "grad_norm": 11.625, + "learning_rate": 1.026515857722096e-06, + "loss": 1.848306655883789, + "step": 2850 + }, + { + "epoch": 1.9013333333333333, + "grad_norm": 3.953125, + "learning_rate": 1.0258196078528566e-06, + "loss": 1.251272201538086, + "step": 2852 + }, + { + "epoch": 1.9026666666666667, + "grad_norm": 5.71875, + "learning_rate": 1.025132561640597e-06, + "loss": 1.4891345500946045, + "step": 2854 + }, + { + "epoch": 1.904, + "grad_norm": 6.53125, + "learning_rate": 1.024454722288336e-06, + "loss": 1.540061354637146, + "step": 2856 + }, + { + "epoch": 1.9053333333333333, + "grad_norm": 5.71875, + "learning_rate": 1.0237860929561704e-06, + "loss": 1.8440475463867188, + "step": 2858 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 2.625, + "learning_rate": 1.0231266767612594e-06, + "loss": 1.0713839530944824, + "step": 2860 + }, + { + "epoch": 1.908, + "grad_norm": 3.65625, + "learning_rate": 1.0224764767778113e-06, + "loss": 1.6007473468780518, + "step": 2862 + }, + { + "epoch": 1.9093333333333333, + "grad_norm": 1.7265625, + "learning_rate": 1.021835496037067e-06, + "loss": 1.0999369621276855, + "step": 2864 + }, + { + "epoch": 1.9106666666666667, + "grad_norm": 3.3125, + "learning_rate": 1.0212037375272881e-06, + "loss": 1.103971242904663, + "step": 2866 + }, + { + "epoch": 1.912, + "grad_norm": 5.4375, + "learning_rate": 1.0205812041937417e-06, + "loss": 1.1634551286697388, + "step": 2868 + }, + { + "epoch": 1.9133333333333333, + "grad_norm": 6.71875, + "learning_rate": 1.019967898938687e-06, + "loss": 1.581654667854309, + "step": 2870 + }, + { + "epoch": 1.9146666666666667, + "grad_norm": 9.8125, + "learning_rate": 1.0193638246213618e-06, + "loss": 1.8337488174438477, + "step": 2872 + }, + { + "epoch": 1.916, + "grad_norm": 8.375, + "learning_rate": 1.018768984057969e-06, + "loss": 1.8890583515167236, + "step": 2874 + }, + { + "epoch": 1.9173333333333333, + "grad_norm": 5.21875, + "learning_rate": 1.018183380021664e-06, + "loss": 1.5187124013900757, + "step": 2876 + }, + { + "epoch": 1.9186666666666667, + "grad_norm": 4.6875, + "learning_rate": 1.0176070152425413e-06, + "loss": 1.6645336151123047, + "step": 2878 + }, + { + "epoch": 1.92, + "grad_norm": 8.75, + "learning_rate": 1.017039892407621e-06, + "loss": 1.8335323333740234, + "step": 2880 + }, + { + "epoch": 1.9213333333333333, + "grad_norm": 7.21875, + "learning_rate": 1.0164820141608383e-06, + "loss": 1.634657621383667, + "step": 2882 + }, + { + "epoch": 1.9226666666666667, + "grad_norm": 27.5, + "learning_rate": 1.0159333831030292e-06, + "loss": 1.8966856002807617, + "step": 2884 + }, + { + "epoch": 1.924, + "grad_norm": 2.390625, + "learning_rate": 1.0153940017919197e-06, + "loss": 1.0390410423278809, + "step": 2886 + }, + { + "epoch": 1.9253333333333333, + "grad_norm": 9.875, + "learning_rate": 1.014863872742113e-06, + "loss": 2.089475154876709, + "step": 2888 + }, + { + "epoch": 1.9266666666666667, + "grad_norm": 12.4375, + "learning_rate": 1.0143429984250785e-06, + "loss": 1.8373076915740967, + "step": 2890 + }, + { + "epoch": 1.928, + "grad_norm": 9.375, + "learning_rate": 1.0138313812691392e-06, + "loss": 1.692418098449707, + "step": 2892 + }, + { + "epoch": 1.9293333333333333, + "grad_norm": 6.28125, + "learning_rate": 1.013329023659462e-06, + "loss": 1.9604231119155884, + "step": 2894 + }, + { + "epoch": 1.9306666666666668, + "grad_norm": 5.125, + "learning_rate": 1.012835927938045e-06, + "loss": 1.1355175971984863, + "step": 2896 + }, + { + "epoch": 1.932, + "grad_norm": 8.3125, + "learning_rate": 1.012352096403707e-06, + "loss": 1.9712469577789307, + "step": 2898 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 5.84375, + "learning_rate": 1.0118775313120784e-06, + "loss": 1.6969237327575684, + "step": 2900 + }, + { + "epoch": 1.9346666666666668, + "grad_norm": 4.84375, + "learning_rate": 1.0114122348755876e-06, + "loss": 0.9692869186401367, + "step": 2902 + }, + { + "epoch": 1.936, + "grad_norm": 6.0625, + "learning_rate": 1.0109562092634535e-06, + "loss": 1.644775629043579, + "step": 2904 + }, + { + "epoch": 1.9373333333333334, + "grad_norm": 4.46875, + "learning_rate": 1.010509456601674e-06, + "loss": 1.5736973285675049, + "step": 2906 + }, + { + "epoch": 1.9386666666666668, + "grad_norm": 2.4375, + "learning_rate": 1.0100719789730163e-06, + "loss": 1.3084485530853271, + "step": 2908 + }, + { + "epoch": 1.94, + "grad_norm": 17.25, + "learning_rate": 1.009643778417007e-06, + "loss": 2.2242865562438965, + "step": 2910 + }, + { + "epoch": 1.9413333333333334, + "grad_norm": 5.0, + "learning_rate": 1.0092248569299238e-06, + "loss": 1.4924943447113037, + "step": 2912 + }, + { + "epoch": 1.9426666666666668, + "grad_norm": 2.96875, + "learning_rate": 1.0088152164647842e-06, + "loss": 1.2267329692840576, + "step": 2914 + }, + { + "epoch": 1.944, + "grad_norm": 13.875, + "learning_rate": 1.008414858931338e-06, + "loss": 1.8327943086624146, + "step": 2916 + }, + { + "epoch": 1.9453333333333334, + "grad_norm": 2.890625, + "learning_rate": 1.0080237861960574e-06, + "loss": 1.055860996246338, + "step": 2918 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 8.25, + "learning_rate": 1.0076420000821292e-06, + "loss": 1.1839380264282227, + "step": 2920 + }, + { + "epoch": 1.948, + "grad_norm": 5.0, + "learning_rate": 1.0072695023694461e-06, + "loss": 1.640027403831482, + "step": 2922 + }, + { + "epoch": 1.9493333333333334, + "grad_norm": 2.5625, + "learning_rate": 1.0069062947945972e-06, + "loss": 1.1517518758773804, + "step": 2924 + }, + { + "epoch": 1.9506666666666668, + "grad_norm": 8.1875, + "learning_rate": 1.0065523790508613e-06, + "loss": 1.9767742156982422, + "step": 2926 + }, + { + "epoch": 1.952, + "grad_norm": 4.03125, + "learning_rate": 1.0062077567881989e-06, + "loss": 1.4458882808685303, + "step": 2928 + }, + { + "epoch": 1.9533333333333334, + "grad_norm": 7.96875, + "learning_rate": 1.005872429613244e-06, + "loss": 1.592308759689331, + "step": 2930 + }, + { + "epoch": 1.9546666666666668, + "grad_norm": 7.375, + "learning_rate": 1.0055463990892966e-06, + "loss": 1.8392659425735474, + "step": 2932 + }, + { + "epoch": 1.956, + "grad_norm": 3.96875, + "learning_rate": 1.005229666736315e-06, + "loss": 1.507871389389038, + "step": 2934 + }, + { + "epoch": 1.9573333333333334, + "grad_norm": 2.453125, + "learning_rate": 1.0049222340309106e-06, + "loss": 1.244297742843628, + "step": 2936 + }, + { + "epoch": 1.9586666666666668, + "grad_norm": 7.6875, + "learning_rate": 1.004624102406339e-06, + "loss": 1.6086117029190063, + "step": 2938 + }, + { + "epoch": 1.96, + "grad_norm": 7.15625, + "learning_rate": 1.0043352732524935e-06, + "loss": 1.6359131336212158, + "step": 2940 + }, + { + "epoch": 1.9613333333333334, + "grad_norm": 1.875, + "learning_rate": 1.0040557479159003e-06, + "loss": 1.2712523937225342, + "step": 2942 + }, + { + "epoch": 1.9626666666666668, + "grad_norm": 24.875, + "learning_rate": 1.0037855276997106e-06, + "loss": 0.6201294660568237, + "step": 2944 + }, + { + "epoch": 1.964, + "grad_norm": 3.015625, + "learning_rate": 1.0035246138636941e-06, + "loss": 1.2836215496063232, + "step": 2946 + }, + { + "epoch": 1.9653333333333334, + "grad_norm": 5.1875, + "learning_rate": 1.0032730076242353e-06, + "loss": 1.6064057350158691, + "step": 2948 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 2.984375, + "learning_rate": 1.0030307101543262e-06, + "loss": 1.145121455192566, + "step": 2950 + }, + { + "epoch": 1.968, + "grad_norm": 2.296875, + "learning_rate": 1.0027977225835608e-06, + "loss": 1.3030688762664795, + "step": 2952 + }, + { + "epoch": 1.9693333333333334, + "grad_norm": 3.328125, + "learning_rate": 1.0025740459981304e-06, + "loss": 1.0687862634658813, + "step": 2954 + }, + { + "epoch": 1.9706666666666668, + "grad_norm": 1.640625, + "learning_rate": 1.0023596814408187e-06, + "loss": 1.2677333354949951, + "step": 2956 + }, + { + "epoch": 1.972, + "grad_norm": 4.3125, + "learning_rate": 1.0021546299109962e-06, + "loss": 1.583560585975647, + "step": 2958 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 6.25, + "learning_rate": 1.0019588923646156e-06, + "loss": 1.6230509281158447, + "step": 2960 + }, + { + "epoch": 1.9746666666666668, + "grad_norm": 6.875, + "learning_rate": 1.001772469714209e-06, + "loss": 1.819795846939087, + "step": 2962 + }, + { + "epoch": 1.976, + "grad_norm": 12.1875, + "learning_rate": 1.0015953628288804e-06, + "loss": 1.8233575820922852, + "step": 2964 + }, + { + "epoch": 1.9773333333333334, + "grad_norm": 4.09375, + "learning_rate": 1.0014275725343055e-06, + "loss": 1.4905637502670288, + "step": 2966 + }, + { + "epoch": 1.9786666666666668, + "grad_norm": 11.875, + "learning_rate": 1.0012690996127247e-06, + "loss": 2.1141586303710938, + "step": 2968 + }, + { + "epoch": 1.98, + "grad_norm": 5.375, + "learning_rate": 1.0011199448029408e-06, + "loss": 1.5464224815368652, + "step": 2970 + }, + { + "epoch": 1.9813333333333332, + "grad_norm": 9.5625, + "learning_rate": 1.0009801088003158e-06, + "loss": 1.8328592777252197, + "step": 2972 + }, + { + "epoch": 1.9826666666666668, + "grad_norm": 3.09375, + "learning_rate": 1.0008495922567672e-06, + "loss": 0.9700523614883423, + "step": 2974 + }, + { + "epoch": 1.984, + "grad_norm": 10.6875, + "learning_rate": 1.000728395780765e-06, + "loss": 2.0305562019348145, + "step": 2976 + }, + { + "epoch": 1.9853333333333332, + "grad_norm": 8.4375, + "learning_rate": 1.0006165199373289e-06, + "loss": 1.8336513042449951, + "step": 2978 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 21.25, + "learning_rate": 1.0005139652480254e-06, + "loss": 1.7808666229248047, + "step": 2980 + }, + { + "epoch": 1.988, + "grad_norm": 6.25, + "learning_rate": 1.0004207321909661e-06, + "loss": 1.5985544919967651, + "step": 2982 + }, + { + "epoch": 1.9893333333333332, + "grad_norm": 2.84375, + "learning_rate": 1.0003368212008047e-06, + "loss": 1.156212568283081, + "step": 2984 + }, + { + "epoch": 1.9906666666666668, + "grad_norm": 14.375, + "learning_rate": 1.0002622326687357e-06, + "loss": 1.836974859237671, + "step": 2986 + }, + { + "epoch": 1.992, + "grad_norm": 11.0, + "learning_rate": 1.0001969669424918e-06, + "loss": 1.831178903579712, + "step": 2988 + }, + { + "epoch": 1.9933333333333332, + "grad_norm": 5.59375, + "learning_rate": 1.0001410243263429e-06, + "loss": 1.6922175884246826, + "step": 2990 + }, + { + "epoch": 1.9946666666666668, + "grad_norm": 6.3125, + "learning_rate": 1.0000944050810938e-06, + "loss": 1.612062931060791, + "step": 2992 + }, + { + "epoch": 1.996, + "grad_norm": 3.03125, + "learning_rate": 1.0000571094240841e-06, + "loss": 1.1941561698913574, + "step": 2994 + }, + { + "epoch": 1.9973333333333332, + "grad_norm": 9.625, + "learning_rate": 1.0000291375291873e-06, + "loss": 1.7619390487670898, + "step": 2996 + }, + { + "epoch": 1.9986666666666668, + "grad_norm": 4.5625, + "learning_rate": 1.0000104895268083e-06, + "loss": 1.4703645706176758, + "step": 2998 + }, + { + "epoch": 2.0, + "grad_norm": 2.875, + "learning_rate": 1.0000011655038843e-06, + "loss": 1.0833406448364258, + "step": 3000 + } + ], + "logging_steps": 2, + "max_steps": 3000, + "num_input_tokens_seen": 0, + "num_train_epochs": 2, + "save_steps": 9999999, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 2.464576238203699e+18, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}