diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,10543 @@ +{ + "best_global_step": null, + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 2.0, + "eval_steps": 500, + "global_step": 3000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0013333333333333333, + "grad_norm": 2.65625, + "learning_rate": 1.1111111111111112e-07, + "loss": 1.426961898803711, + "step": 2 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 2.671875, + "learning_rate": 3.3333333333333335e-07, + "loss": 1.0916433334350586, + "step": 4 + }, + { + "epoch": 0.004, + "grad_norm": 20.625, + "learning_rate": 5.555555555555555e-07, + "loss": 2.423888683319092, + "step": 6 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 8.6875, + "learning_rate": 7.777777777777779e-07, + "loss": 2.0880517959594727, + "step": 8 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 12.8125, + "learning_rate": 1.0000000000000002e-06, + "loss": 2.239799976348877, + "step": 10 + }, + { + "epoch": 0.008, + "grad_norm": 8.625, + "learning_rate": 1.2222222222222223e-06, + "loss": 1.9201855659484863, + "step": 12 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 7.0, + "learning_rate": 1.4444444444444445e-06, + "loss": 1.9083274602890015, + "step": 14 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 11.0625, + "learning_rate": 1.6666666666666667e-06, + "loss": 2.2220070362091064, + "step": 16 + }, + { + "epoch": 0.012, + "grad_norm": 14.6875, + "learning_rate": 1.888888888888889e-06, + "loss": 2.5249276161193848, + "step": 18 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 6.09375, + "learning_rate": 2.1111111111111114e-06, + "loss": 1.8995552062988281, + "step": 20 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 30.625, + "learning_rate": 2.3333333333333336e-06, + "loss": 1.7150570154190063, + "step": 22 + }, + { + "epoch": 0.016, + "grad_norm": 12.5, + "learning_rate": 2.5555555555555557e-06, + "loss": 1.7441375255584717, + "step": 24 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 4.09375, + "learning_rate": 2.7777777777777783e-06, + "loss": 1.1571142673492432, + "step": 26 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 9.75, + "learning_rate": 3e-06, + "loss": 1.8743200302124023, + "step": 28 + }, + { + "epoch": 0.02, + "grad_norm": 4.90625, + "learning_rate": 3.2222222222222227e-06, + "loss": 1.9281845092773438, + "step": 30 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 6.40625, + "learning_rate": 3.444444444444445e-06, + "loss": 1.9411826133728027, + "step": 32 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 14.9375, + "learning_rate": 3.6666666666666666e-06, + "loss": 1.7532334327697754, + "step": 34 + }, + { + "epoch": 0.024, + "grad_norm": 6.53125, + "learning_rate": 3.88888888888889e-06, + "loss": 2.0853347778320312, + "step": 36 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 1.2578125, + "learning_rate": 4.111111111111111e-06, + "loss": 1.3436920642852783, + "step": 38 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 10.125, + "learning_rate": 4.333333333333334e-06, + "loss": 1.9322056770324707, + "step": 40 + }, + { + "epoch": 0.028, + "grad_norm": 17.5, + "learning_rate": 4.555555555555556e-06, + "loss": 2.2416582107543945, + "step": 42 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 13.5, + "learning_rate": 4.777777777777778e-06, + "loss": 2.0358848571777344, + "step": 44 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 9.625, + "learning_rate": 5e-06, + "loss": 2.0231871604919434, + "step": 46 + }, + { + "epoch": 0.032, + "grad_norm": 8.6875, + "learning_rate": 5.2222222222222226e-06, + "loss": 2.0352306365966797, + "step": 48 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 4.1875, + "learning_rate": 5.444444444444445e-06, + "loss": 1.1770884990692139, + "step": 50 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 10.4375, + "learning_rate": 5.666666666666667e-06, + "loss": 2.528522491455078, + "step": 52 + }, + { + "epoch": 0.036, + "grad_norm": 9.125, + "learning_rate": 5.88888888888889e-06, + "loss": 2.0782127380371094, + "step": 54 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 14.25, + "learning_rate": 6.111111111111112e-06, + "loss": 2.3558883666992188, + "step": 56 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 10.0625, + "learning_rate": 6.333333333333333e-06, + "loss": 2.3600592613220215, + "step": 58 + }, + { + "epoch": 0.04, + "grad_norm": 2.15625, + "learning_rate": 6.555555555555556e-06, + "loss": 1.1547472476959229, + "step": 60 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 12.625, + "learning_rate": 6.777777777777779e-06, + "loss": 2.318289279937744, + "step": 62 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 8.6875, + "learning_rate": 7e-06, + "loss": 1.987494707107544, + "step": 64 + }, + { + "epoch": 0.044, + "grad_norm": 5.59375, + "learning_rate": 7.222222222222223e-06, + "loss": 1.0594491958618164, + "step": 66 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 2.03125, + "learning_rate": 7.444444444444445e-06, + "loss": 1.0497875213623047, + "step": 68 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 7.46875, + "learning_rate": 7.666666666666667e-06, + "loss": 1.9007290601730347, + "step": 70 + }, + { + "epoch": 0.048, + "grad_norm": 13.4375, + "learning_rate": 7.88888888888889e-06, + "loss": 1.7056117057800293, + "step": 72 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 2.25, + "learning_rate": 8.111111111111112e-06, + "loss": 1.1812058687210083, + "step": 74 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 10.1875, + "learning_rate": 8.333333333333334e-06, + "loss": 2.21980357170105, + "step": 76 + }, + { + "epoch": 0.052, + "grad_norm": 5.125, + "learning_rate": 8.555555555555556e-06, + "loss": 1.8565629720687866, + "step": 78 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 2.21875, + "learning_rate": 8.777777777777778e-06, + "loss": 1.2600555419921875, + "step": 80 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 13.3125, + "learning_rate": 9e-06, + "loss": 2.3689146041870117, + "step": 82 + }, + { + "epoch": 0.056, + "grad_norm": 5.5, + "learning_rate": 9.222222222222224e-06, + "loss": 1.7448933124542236, + "step": 84 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 13.8125, + "learning_rate": 9.444444444444445e-06, + "loss": 1.8399966955184937, + "step": 86 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 4.875, + "learning_rate": 9.666666666666667e-06, + "loss": 1.6913926601409912, + "step": 88 + }, + { + "epoch": 0.06, + "grad_norm": 2.609375, + "learning_rate": 9.88888888888889e-06, + "loss": 1.218923807144165, + "step": 90 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 3.359375, + "learning_rate": 9.99999757186691e-06, + "loss": 0.9948500394821167, + "step": 92 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 5.25, + "learning_rate": 9.999978146819149e-06, + "loss": 1.7063817977905273, + "step": 94 + }, + { + "epoch": 0.064, + "grad_norm": 6.4375, + "learning_rate": 9.999939296814194e-06, + "loss": 1.944851279258728, + "step": 96 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 24.0, + "learning_rate": 9.999881022033159e-06, + "loss": 1.8162541389465332, + "step": 98 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 4.0625, + "learning_rate": 9.99980332274772e-06, + "loss": 1.777747392654419, + "step": 100 + }, + { + "epoch": 0.068, + "grad_norm": 4.34375, + "learning_rate": 9.999706199320119e-06, + "loss": 1.6522843837738037, + "step": 102 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 5.0, + "learning_rate": 9.999589652203143e-06, + "loss": 1.89161217212677, + "step": 104 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 4.5, + "learning_rate": 9.999453681940135e-06, + "loss": 1.8623158931732178, + "step": 106 + }, + { + "epoch": 0.072, + "grad_norm": 5.8125, + "learning_rate": 9.999298289164992e-06, + "loss": 1.7459262609481812, + "step": 108 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 25.875, + "learning_rate": 9.999123474602156e-06, + "loss": 2.047550916671753, + "step": 110 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 10.5, + "learning_rate": 9.998929239066614e-06, + "loss": 2.235140323638916, + "step": 112 + }, + { + "epoch": 0.076, + "grad_norm": 2.34375, + "learning_rate": 9.998715583463898e-06, + "loss": 1.2381446361541748, + "step": 114 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 5.3125, + "learning_rate": 9.998482508790072e-06, + "loss": 1.7317302227020264, + "step": 116 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 10.0, + "learning_rate": 9.998230016131736e-06, + "loss": 1.3054664134979248, + "step": 118 + }, + { + "epoch": 0.08, + "grad_norm": 8.1875, + "learning_rate": 9.99795810666601e-06, + "loss": 1.6727921962738037, + "step": 120 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 8.0625, + "learning_rate": 9.99766678166054e-06, + "loss": 1.8442578315734863, + "step": 122 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 3.625, + "learning_rate": 9.997356042473491e-06, + "loss": 1.2996498346328735, + "step": 124 + }, + { + "epoch": 0.084, + "grad_norm": 19.5, + "learning_rate": 9.997025890553532e-06, + "loss": 1.3131730556488037, + "step": 126 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 2.609375, + "learning_rate": 9.996676327439833e-06, + "loss": 1.1626245975494385, + "step": 128 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 2.75, + "learning_rate": 9.996307354762064e-06, + "loss": 1.3802151679992676, + "step": 130 + }, + { + "epoch": 0.088, + "grad_norm": 7.75, + "learning_rate": 9.995918974240384e-06, + "loss": 1.9702292680740356, + "step": 132 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 7.71875, + "learning_rate": 9.995511187685424e-06, + "loss": 2.1353108882904053, + "step": 134 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 4.9375, + "learning_rate": 9.995083996998295e-06, + "loss": 1.7128398418426514, + "step": 136 + }, + { + "epoch": 0.092, + "grad_norm": 9.4375, + "learning_rate": 9.994637404170562e-06, + "loss": 2.146682024002075, + "step": 138 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 14.1875, + "learning_rate": 9.994171411284248e-06, + "loss": 1.4107303619384766, + "step": 140 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 7.21875, + "learning_rate": 9.993686020511822e-06, + "loss": 1.8499665260314941, + "step": 142 + }, + { + "epoch": 0.096, + "grad_norm": 2.484375, + "learning_rate": 9.993181234116179e-06, + "loss": 1.0920655727386475, + "step": 144 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 22.25, + "learning_rate": 9.992657054450638e-06, + "loss": 1.8085236549377441, + "step": 146 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 9.75, + "learning_rate": 9.992113483958936e-06, + "loss": 1.6384665966033936, + "step": 148 + }, + { + "epoch": 0.1, + "grad_norm": 6.65625, + "learning_rate": 9.991550525175209e-06, + "loss": 1.6129257678985596, + "step": 150 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 8.1875, + "learning_rate": 9.990968180723972e-06, + "loss": 1.9638266563415527, + "step": 152 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 5.0625, + "learning_rate": 9.990366453320128e-06, + "loss": 1.8066442012786865, + "step": 154 + }, + { + "epoch": 0.104, + "grad_norm": 3.671875, + "learning_rate": 9.989745345768936e-06, + "loss": 1.6543402671813965, + "step": 156 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 3.78125, + "learning_rate": 9.98910486096601e-06, + "loss": 1.08891761302948, + "step": 158 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 8.4375, + "learning_rate": 9.9884450018973e-06, + "loss": 1.6041430234909058, + "step": 160 + }, + { + "epoch": 0.108, + "grad_norm": 5.125, + "learning_rate": 9.987765771639075e-06, + "loss": 1.6626205444335938, + "step": 162 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 8.5, + "learning_rate": 9.987067173357918e-06, + "loss": 1.7176623344421387, + "step": 164 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 1.796875, + "learning_rate": 9.986349210310707e-06, + "loss": 1.1125199794769287, + "step": 166 + }, + { + "epoch": 0.112, + "grad_norm": 21.875, + "learning_rate": 9.985611885844591e-06, + "loss": 1.8107001781463623, + "step": 168 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 4.125, + "learning_rate": 9.984855203396988e-06, + "loss": 1.684809923171997, + "step": 170 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 5.40625, + "learning_rate": 9.984079166495563e-06, + "loss": 1.624544620513916, + "step": 172 + }, + { + "epoch": 0.116, + "grad_norm": 2.53125, + "learning_rate": 9.983283778758216e-06, + "loss": 1.1144016981124878, + "step": 174 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 3.46875, + "learning_rate": 9.982469043893046e-06, + "loss": 1.2474544048309326, + "step": 176 + }, + { + "epoch": 0.11866666666666667, + "grad_norm": 6.9375, + "learning_rate": 9.981634965698366e-06, + "loss": 1.864957332611084, + "step": 178 + }, + { + "epoch": 0.12, + "grad_norm": 15.8125, + "learning_rate": 9.980781548062659e-06, + "loss": 1.8649969100952148, + "step": 180 + }, + { + "epoch": 0.12133333333333333, + "grad_norm": 10.875, + "learning_rate": 9.979908794964571e-06, + "loss": 1.6164734363555908, + "step": 182 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 3.96875, + "learning_rate": 9.979016710472882e-06, + "loss": 1.6327316761016846, + "step": 184 + }, + { + "epoch": 0.124, + "grad_norm": 5.09375, + "learning_rate": 9.978105298746514e-06, + "loss": 1.5323165655136108, + "step": 186 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 9.4375, + "learning_rate": 9.977174564034473e-06, + "loss": 1.6481460332870483, + "step": 188 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 5.4375, + "learning_rate": 9.97622451067586e-06, + "loss": 1.7201898097991943, + "step": 190 + }, + { + "epoch": 0.128, + "grad_norm": 4.125, + "learning_rate": 9.975255143099838e-06, + "loss": 1.567455768585205, + "step": 192 + }, + { + "epoch": 0.12933333333333333, + "grad_norm": 2.796875, + "learning_rate": 9.97426646582561e-06, + "loss": 1.070652723312378, + "step": 194 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 6.0625, + "learning_rate": 9.973258483462406e-06, + "loss": 2.008556365966797, + "step": 196 + }, + { + "epoch": 0.132, + "grad_norm": 5.625, + "learning_rate": 9.972231200709455e-06, + "loss": 1.6150736808776855, + "step": 198 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 4.0625, + "learning_rate": 9.97118462235596e-06, + "loss": 1.167098045349121, + "step": 200 + }, + { + "epoch": 0.13466666666666666, + "grad_norm": 5.65625, + "learning_rate": 9.970118753281088e-06, + "loss": 1.6983978748321533, + "step": 202 + }, + { + "epoch": 0.136, + "grad_norm": 11.125, + "learning_rate": 9.969033598453932e-06, + "loss": 2.083345651626587, + "step": 204 + }, + { + "epoch": 0.13733333333333334, + "grad_norm": 3.578125, + "learning_rate": 9.9679291629335e-06, + "loss": 1.5576822757720947, + "step": 206 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 6.25, + "learning_rate": 9.96680545186869e-06, + "loss": 1.6733722686767578, + "step": 208 + }, + { + "epoch": 0.14, + "grad_norm": 1.6171875, + "learning_rate": 9.965662470498253e-06, + "loss": 1.0353288650512695, + "step": 210 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 4.125, + "learning_rate": 9.96450022415079e-06, + "loss": 1.5584754943847656, + "step": 212 + }, + { + "epoch": 0.14266666666666666, + "grad_norm": 10.625, + "learning_rate": 9.963318718244706e-06, + "loss": 1.9951732158660889, + "step": 214 + }, + { + "epoch": 0.144, + "grad_norm": 3.25, + "learning_rate": 9.9621179582882e-06, + "loss": 1.2333295345306396, + "step": 216 + }, + { + "epoch": 0.14533333333333334, + "grad_norm": 7.25, + "learning_rate": 9.960897949879232e-06, + "loss": 1.8798540830612183, + "step": 218 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 5.25, + "learning_rate": 9.959658698705497e-06, + "loss": 1.6423976421356201, + "step": 220 + }, + { + "epoch": 0.148, + "grad_norm": 18.25, + "learning_rate": 9.958400210544404e-06, + "loss": 1.7932629585266113, + "step": 222 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 7.90625, + "learning_rate": 9.957122491263038e-06, + "loss": 1.6173839569091797, + "step": 224 + }, + { + "epoch": 0.15066666666666667, + "grad_norm": 8.0, + "learning_rate": 9.95582554681815e-06, + "loss": 2.040992259979248, + "step": 226 + }, + { + "epoch": 0.152, + "grad_norm": 17.875, + "learning_rate": 9.95450938325611e-06, + "loss": 1.217178225517273, + "step": 228 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 3.25, + "learning_rate": 9.953174006712894e-06, + "loss": 1.5595924854278564, + "step": 230 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 5.6875, + "learning_rate": 9.951819423414044e-06, + "loss": 1.7298460006713867, + "step": 232 + }, + { + "epoch": 0.156, + "grad_norm": 39.5, + "learning_rate": 9.950445639674647e-06, + "loss": 1.4321881532669067, + "step": 234 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 8.0, + "learning_rate": 9.9490526618993e-06, + "loss": 1.7013092041015625, + "step": 236 + }, + { + "epoch": 0.15866666666666668, + "grad_norm": 17.625, + "learning_rate": 9.947640496582092e-06, + "loss": 2.0311379432678223, + "step": 238 + }, + { + "epoch": 0.16, + "grad_norm": 3.46875, + "learning_rate": 9.94620915030655e-06, + "loss": 1.2982442378997803, + "step": 240 + }, + { + "epoch": 0.16133333333333333, + "grad_norm": 4.90625, + "learning_rate": 9.944758629745635e-06, + "loss": 1.5099470615386963, + "step": 242 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 5.90625, + "learning_rate": 9.943288941661693e-06, + "loss": 1.9453644752502441, + "step": 244 + }, + { + "epoch": 0.164, + "grad_norm": 5.125, + "learning_rate": 9.941800092906431e-06, + "loss": 1.4081361293792725, + "step": 246 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 6.09375, + "learning_rate": 9.940292090420882e-06, + "loss": 1.5031116008758545, + "step": 248 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 6.25, + "learning_rate": 9.938764941235376e-06, + "loss": 1.620882272720337, + "step": 250 + }, + { + "epoch": 0.168, + "grad_norm": 4.09375, + "learning_rate": 9.937218652469508e-06, + "loss": 1.623213291168213, + "step": 252 + }, + { + "epoch": 0.16933333333333334, + "grad_norm": 6.28125, + "learning_rate": 9.93565323133209e-06, + "loss": 1.0710468292236328, + "step": 254 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 3.609375, + "learning_rate": 9.934068685121144e-06, + "loss": 1.6882750988006592, + "step": 256 + }, + { + "epoch": 0.172, + "grad_norm": 3.171875, + "learning_rate": 9.932465021223843e-06, + "loss": 1.2838215827941895, + "step": 258 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 7.78125, + "learning_rate": 9.930842247116495e-06, + "loss": 1.9634010791778564, + "step": 260 + }, + { + "epoch": 0.17466666666666666, + "grad_norm": 4.96875, + "learning_rate": 9.929200370364492e-06, + "loss": 1.5601741075515747, + "step": 262 + }, + { + "epoch": 0.176, + "grad_norm": 1.46875, + "learning_rate": 9.927539398622288e-06, + "loss": 1.2826993465423584, + "step": 264 + }, + { + "epoch": 0.17733333333333334, + "grad_norm": 7.6875, + "learning_rate": 9.925859339633355e-06, + "loss": 1.7858996391296387, + "step": 266 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 4.65625, + "learning_rate": 9.924160201230157e-06, + "loss": 1.612287163734436, + "step": 268 + }, + { + "epoch": 0.18, + "grad_norm": 4.0, + "learning_rate": 9.922441991334097e-06, + "loss": 1.0408704280853271, + "step": 270 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 2.546875, + "learning_rate": 9.920704717955494e-06, + "loss": 1.4308617115020752, + "step": 272 + }, + { + "epoch": 0.18266666666666667, + "grad_norm": 4.53125, + "learning_rate": 9.918948389193544e-06, + "loss": 1.5153369903564453, + "step": 274 + }, + { + "epoch": 0.184, + "grad_norm": 4.75, + "learning_rate": 9.917173013236274e-06, + "loss": 1.577946662902832, + "step": 276 + }, + { + "epoch": 0.18533333333333332, + "grad_norm": 9.25, + "learning_rate": 9.915378598360513e-06, + "loss": 1.7744827270507812, + "step": 278 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 1.78125, + "learning_rate": 9.913565152931848e-06, + "loss": 1.1672523021697998, + "step": 280 + }, + { + "epoch": 0.188, + "grad_norm": 6.6875, + "learning_rate": 9.911732685404586e-06, + "loss": 1.0714428424835205, + "step": 282 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 13.6875, + "learning_rate": 9.909881204321719e-06, + "loss": 1.6007957458496094, + "step": 284 + }, + { + "epoch": 0.19066666666666668, + "grad_norm": 3.515625, + "learning_rate": 9.908010718314878e-06, + "loss": 1.1711657047271729, + "step": 286 + }, + { + "epoch": 0.192, + "grad_norm": 1.90625, + "learning_rate": 9.906121236104294e-06, + "loss": 0.9995139837265015, + "step": 288 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 2.53125, + "learning_rate": 9.90421276649876e-06, + "loss": 1.2077773809432983, + "step": 290 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 4.625, + "learning_rate": 9.902285318395588e-06, + "loss": 1.6521837711334229, + "step": 292 + }, + { + "epoch": 0.196, + "grad_norm": 3.921875, + "learning_rate": 9.90033890078057e-06, + "loss": 1.549246072769165, + "step": 294 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 6.0, + "learning_rate": 9.898373522727933e-06, + "loss": 1.6926743984222412, + "step": 296 + }, + { + "epoch": 0.19866666666666666, + "grad_norm": 4.09375, + "learning_rate": 9.896389193400296e-06, + "loss": 1.424901008605957, + "step": 298 + }, + { + "epoch": 0.2, + "grad_norm": 6.4375, + "learning_rate": 9.894385922048627e-06, + "loss": 1.5778025388717651, + "step": 300 + }, + { + "epoch": 0.20133333333333334, + "grad_norm": 10.5, + "learning_rate": 9.89236371801221e-06, + "loss": 1.8592967987060547, + "step": 302 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 4.875, + "learning_rate": 9.890322590718588e-06, + "loss": 1.5442957878112793, + "step": 304 + }, + { + "epoch": 0.204, + "grad_norm": 3.15625, + "learning_rate": 9.888262549683528e-06, + "loss": 1.1914174556732178, + "step": 306 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 5.78125, + "learning_rate": 9.886183604510962e-06, + "loss": 1.9909839630126953, + "step": 308 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 5.34375, + "learning_rate": 9.884085764892972e-06, + "loss": 1.573006510734558, + "step": 310 + }, + { + "epoch": 0.208, + "grad_norm": 2.703125, + "learning_rate": 9.881969040609709e-06, + "loss": 1.158943772315979, + "step": 312 + }, + { + "epoch": 0.20933333333333334, + "grad_norm": 2.125, + "learning_rate": 9.879833441529376e-06, + "loss": 1.1194008588790894, + "step": 314 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 8.4375, + "learning_rate": 9.877678977608163e-06, + "loss": 1.5121419429779053, + "step": 316 + }, + { + "epoch": 0.212, + "grad_norm": 7.1875, + "learning_rate": 9.875505658890214e-06, + "loss": 1.510066032409668, + "step": 318 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 11.1875, + "learning_rate": 9.873313495507569e-06, + "loss": 0.9876103401184082, + "step": 320 + }, + { + "epoch": 0.21466666666666667, + "grad_norm": 4.875, + "learning_rate": 9.871102497680127e-06, + "loss": 1.8244948387145996, + "step": 322 + }, + { + "epoch": 0.216, + "grad_norm": 4.78125, + "learning_rate": 9.86887267571559e-06, + "loss": 1.1998775005340576, + "step": 324 + }, + { + "epoch": 0.21733333333333332, + "grad_norm": 4.25, + "learning_rate": 9.86662404000942e-06, + "loss": 1.5374467372894287, + "step": 326 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 2.328125, + "learning_rate": 9.864356601044789e-06, + "loss": 1.1450176239013672, + "step": 328 + }, + { + "epoch": 0.22, + "grad_norm": 4.46875, + "learning_rate": 9.86207036939253e-06, + "loss": 1.261959195137024, + "step": 330 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 3.421875, + "learning_rate": 9.859765355711084e-06, + "loss": 1.1870423555374146, + "step": 332 + }, + { + "epoch": 0.22266666666666668, + "grad_norm": 3.359375, + "learning_rate": 9.85744157074646e-06, + "loss": 1.5192539691925049, + "step": 334 + }, + { + "epoch": 0.224, + "grad_norm": 2.5, + "learning_rate": 9.855099025332178e-06, + "loss": 1.0173918008804321, + "step": 336 + }, + { + "epoch": 0.22533333333333333, + "grad_norm": 1.4375, + "learning_rate": 9.852737730389217e-06, + "loss": 1.1494295597076416, + "step": 338 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 4.65625, + "learning_rate": 9.850357696925965e-06, + "loss": 1.9026292562484741, + "step": 340 + }, + { + "epoch": 0.228, + "grad_norm": 4.71875, + "learning_rate": 9.847958936038176e-06, + "loss": 1.59890878200531, + "step": 342 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 1.8203125, + "learning_rate": 9.845541458908903e-06, + "loss": 1.1450040340423584, + "step": 344 + }, + { + "epoch": 0.23066666666666666, + "grad_norm": 5.9375, + "learning_rate": 9.84310527680846e-06, + "loss": 1.528599739074707, + "step": 346 + }, + { + "epoch": 0.232, + "grad_norm": 7.6875, + "learning_rate": 9.840650401094363e-06, + "loss": 1.938246488571167, + "step": 348 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 2.0625, + "learning_rate": 9.838176843211278e-06, + "loss": 1.1424744129180908, + "step": 350 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 4.21875, + "learning_rate": 9.835684614690967e-06, + "loss": 1.617881178855896, + "step": 352 + }, + { + "epoch": 0.236, + "grad_norm": 11.4375, + "learning_rate": 9.833173727152234e-06, + "loss": 1.0590524673461914, + "step": 354 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 4.6875, + "learning_rate": 9.830644192300871e-06, + "loss": 1.597219467163086, + "step": 356 + }, + { + "epoch": 0.23866666666666667, + "grad_norm": 5.6875, + "learning_rate": 9.828096021929607e-06, + "loss": 2.0535879135131836, + "step": 358 + }, + { + "epoch": 0.24, + "grad_norm": 5.03125, + "learning_rate": 9.825529227918052e-06, + "loss": 1.5197744369506836, + "step": 360 + }, + { + "epoch": 0.24133333333333334, + "grad_norm": 7.0, + "learning_rate": 9.822943822232627e-06, + "loss": 1.502641201019287, + "step": 362 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 5.40625, + "learning_rate": 9.820339816926538e-06, + "loss": 1.582297682762146, + "step": 364 + }, + { + "epoch": 0.244, + "grad_norm": 7.34375, + "learning_rate": 9.817717224139689e-06, + "loss": 1.879384994506836, + "step": 366 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 3.84375, + "learning_rate": 9.815076056098651e-06, + "loss": 1.1634621620178223, + "step": 368 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 4.1875, + "learning_rate": 9.81241632511658e-06, + "loss": 1.5249799489974976, + "step": 370 + }, + { + "epoch": 0.248, + "grad_norm": 2.84375, + "learning_rate": 9.809738043593187e-06, + "loss": 1.0248550176620483, + "step": 372 + }, + { + "epoch": 0.24933333333333332, + "grad_norm": 3.28125, + "learning_rate": 9.807041224014651e-06, + "loss": 1.5375021696090698, + "step": 374 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 4.0, + "learning_rate": 9.804325878953588e-06, + "loss": 1.4876121282577515, + "step": 376 + }, + { + "epoch": 0.252, + "grad_norm": 4.71875, + "learning_rate": 9.801592021068973e-06, + "loss": 1.5311915874481201, + "step": 378 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 1.8671875, + "learning_rate": 9.79883966310609e-06, + "loss": 1.199878215789795, + "step": 380 + }, + { + "epoch": 0.25466666666666665, + "grad_norm": 1.7890625, + "learning_rate": 9.796068817896474e-06, + "loss": 1.1104457378387451, + "step": 382 + }, + { + "epoch": 0.256, + "grad_norm": 1.046875, + "learning_rate": 9.793279498357842e-06, + "loss": 1.2461895942687988, + "step": 384 + }, + { + "epoch": 0.25733333333333336, + "grad_norm": 1.6875, + "learning_rate": 9.790471717494038e-06, + "loss": 1.0979530811309814, + "step": 386 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 9.5, + "learning_rate": 9.787645488394985e-06, + "loss": 1.9058414697647095, + "step": 388 + }, + { + "epoch": 0.26, + "grad_norm": 6.6875, + "learning_rate": 9.784800824236595e-06, + "loss": 1.4592888355255127, + "step": 390 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 12.0, + "learning_rate": 9.781937738280735e-06, + "loss": 1.8315216302871704, + "step": 392 + }, + { + "epoch": 0.26266666666666666, + "grad_norm": 5.75, + "learning_rate": 9.779056243875155e-06, + "loss": 1.5205374956130981, + "step": 394 + }, + { + "epoch": 0.264, + "grad_norm": 10.75, + "learning_rate": 9.77615635445342e-06, + "loss": 1.4809885025024414, + "step": 396 + }, + { + "epoch": 0.2653333333333333, + "grad_norm": 8.75, + "learning_rate": 9.773238083534857e-06, + "loss": 2.0717709064483643, + "step": 398 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 2.15625, + "learning_rate": 9.770301444724484e-06, + "loss": 0.9559568762779236, + "step": 400 + }, + { + "epoch": 0.268, + "grad_norm": 7.46875, + "learning_rate": 9.767346451712955e-06, + "loss": 1.602325439453125, + "step": 402 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 1.890625, + "learning_rate": 9.76437311827649e-06, + "loss": 1.3470821380615234, + "step": 404 + }, + { + "epoch": 0.27066666666666667, + "grad_norm": 7.6875, + "learning_rate": 9.76138145827681e-06, + "loss": 2.051486015319824, + "step": 406 + }, + { + "epoch": 0.272, + "grad_norm": 9.3125, + "learning_rate": 9.758371485661076e-06, + "loss": 1.547593116760254, + "step": 408 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 12.1875, + "learning_rate": 9.755343214461826e-06, + "loss": 0.7995688915252686, + "step": 410 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 2.609375, + "learning_rate": 9.752296658796896e-06, + "loss": 1.067533254623413, + "step": 412 + }, + { + "epoch": 0.276, + "grad_norm": 2.609375, + "learning_rate": 9.749231832869382e-06, + "loss": 1.1320441961288452, + "step": 414 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 5.53125, + "learning_rate": 9.746148750967537e-06, + "loss": 1.570180058479309, + "step": 416 + }, + { + "epoch": 0.2786666666666667, + "grad_norm": 2.59375, + "learning_rate": 9.743047427464738e-06, + "loss": 1.1230032444000244, + "step": 418 + }, + { + "epoch": 0.28, + "grad_norm": 1.65625, + "learning_rate": 9.739927876819396e-06, + "loss": 1.3301358222961426, + "step": 420 + }, + { + "epoch": 0.2813333333333333, + "grad_norm": 4.78125, + "learning_rate": 9.736790113574905e-06, + "loss": 1.5038044452667236, + "step": 422 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 1.34375, + "learning_rate": 9.733634152359554e-06, + "loss": 1.1231873035430908, + "step": 424 + }, + { + "epoch": 0.284, + "grad_norm": 5.46875, + "learning_rate": 9.730460007886487e-06, + "loss": 1.4550846815109253, + "step": 426 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 2.828125, + "learning_rate": 9.727267694953607e-06, + "loss": 1.2031742334365845, + "step": 428 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 7.625, + "learning_rate": 9.72405722844352e-06, + "loss": 2.016512870788574, + "step": 430 + }, + { + "epoch": 0.288, + "grad_norm": 10.9375, + "learning_rate": 9.720828623323469e-06, + "loss": 1.8591995239257812, + "step": 432 + }, + { + "epoch": 0.28933333333333333, + "grad_norm": 5.34375, + "learning_rate": 9.717581894645257e-06, + "loss": 1.607204556465149, + "step": 434 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 6.5625, + "learning_rate": 9.714317057545176e-06, + "loss": 1.7864959239959717, + "step": 436 + }, + { + "epoch": 0.292, + "grad_norm": 60.25, + "learning_rate": 9.711034127243948e-06, + "loss": 1.471695899963379, + "step": 438 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 12.375, + "learning_rate": 9.707733119046636e-06, + "loss": 1.7200267314910889, + "step": 440 + }, + { + "epoch": 0.2946666666666667, + "grad_norm": 4.15625, + "learning_rate": 9.70441404834259e-06, + "loss": 1.4870445728302002, + "step": 442 + }, + { + "epoch": 0.296, + "grad_norm": 8.8125, + "learning_rate": 9.701076930605364e-06, + "loss": 1.579514503479004, + "step": 444 + }, + { + "epoch": 0.29733333333333334, + "grad_norm": 11.25, + "learning_rate": 9.697721781392649e-06, + "loss": 1.1523479223251343, + "step": 446 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 11.375, + "learning_rate": 9.694348616346195e-06, + "loss": 1.970068097114563, + "step": 448 + }, + { + "epoch": 0.3, + "grad_norm": 5.0, + "learning_rate": 9.690957451191745e-06, + "loss": 1.5304884910583496, + "step": 450 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 12.625, + "learning_rate": 9.687548301738965e-06, + "loss": 1.4972553253173828, + "step": 452 + }, + { + "epoch": 0.30266666666666664, + "grad_norm": 8.1875, + "learning_rate": 9.684121183881354e-06, + "loss": 1.4987800121307373, + "step": 454 + }, + { + "epoch": 0.304, + "grad_norm": 3.984375, + "learning_rate": 9.680676113596183e-06, + "loss": 1.607285499572754, + "step": 456 + }, + { + "epoch": 0.30533333333333335, + "grad_norm": 5.09375, + "learning_rate": 9.677213106944422e-06, + "loss": 1.5995099544525146, + "step": 458 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 16.0, + "learning_rate": 9.673732180070654e-06, + "loss": 1.8780418634414673, + "step": 460 + }, + { + "epoch": 0.308, + "grad_norm": 17.625, + "learning_rate": 9.670233349203008e-06, + "loss": 1.6614197492599487, + "step": 462 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 1.9375, + "learning_rate": 9.666716630653087e-06, + "loss": 1.0368998050689697, + "step": 464 + }, + { + "epoch": 0.31066666666666665, + "grad_norm": 14.875, + "learning_rate": 9.663182040815883e-06, + "loss": 1.773169755935669, + "step": 466 + }, + { + "epoch": 0.312, + "grad_norm": 1.921875, + "learning_rate": 9.659629596169704e-06, + "loss": 1.0493347644805908, + "step": 468 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 4.40625, + "learning_rate": 9.656059313276094e-06, + "loss": 1.3263812065124512, + "step": 470 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 16.25, + "learning_rate": 9.65247120877976e-06, + "loss": 1.6804672479629517, + "step": 472 + }, + { + "epoch": 0.316, + "grad_norm": 9.375, + "learning_rate": 9.648865299408506e-06, + "loss": 1.946678638458252, + "step": 474 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 5.09375, + "learning_rate": 9.645241601973123e-06, + "loss": 1.5437986850738525, + "step": 476 + }, + { + "epoch": 0.31866666666666665, + "grad_norm": 4.8125, + "learning_rate": 9.641600133367346e-06, + "loss": 1.4694257974624634, + "step": 478 + }, + { + "epoch": 0.32, + "grad_norm": 8.4375, + "learning_rate": 9.63794091056775e-06, + "loss": 1.4415161609649658, + "step": 480 + }, + { + "epoch": 0.32133333333333336, + "grad_norm": 7.0, + "learning_rate": 9.634263950633682e-06, + "loss": 1.4647676944732666, + "step": 482 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 10.4375, + "learning_rate": 9.630569270707186e-06, + "loss": 1.9553511142730713, + "step": 484 + }, + { + "epoch": 0.324, + "grad_norm": 1.8828125, + "learning_rate": 9.62685688801291e-06, + "loss": 1.3038352727890015, + "step": 486 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 5.09375, + "learning_rate": 9.623126819858035e-06, + "loss": 1.6100306510925293, + "step": 488 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 6.125, + "learning_rate": 9.61937908363219e-06, + "loss": 1.477756381034851, + "step": 490 + }, + { + "epoch": 0.328, + "grad_norm": 6.4375, + "learning_rate": 9.615613696807377e-06, + "loss": 1.5422775745391846, + "step": 492 + }, + { + "epoch": 0.3293333333333333, + "grad_norm": 11.1875, + "learning_rate": 9.611830676937881e-06, + "loss": 1.6656134128570557, + "step": 494 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 8.5625, + "learning_rate": 9.608030041660195e-06, + "loss": 2.0399422645568848, + "step": 496 + }, + { + "epoch": 0.332, + "grad_norm": 7.78125, + "learning_rate": 9.604211808692936e-06, + "loss": 1.023806095123291, + "step": 498 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 5.21875, + "learning_rate": 9.600375995836757e-06, + "loss": 1.828716516494751, + "step": 500 + }, + { + "epoch": 0.33466666666666667, + "grad_norm": 5.3125, + "learning_rate": 9.596522620974274e-06, + "loss": 1.6109929084777832, + "step": 502 + }, + { + "epoch": 0.336, + "grad_norm": 1.8828125, + "learning_rate": 9.59265170206997e-06, + "loss": 1.0516669750213623, + "step": 504 + }, + { + "epoch": 0.3373333333333333, + "grad_norm": 4.6875, + "learning_rate": 9.588763257170135e-06, + "loss": 1.4694746732711792, + "step": 506 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 7.6875, + "learning_rate": 9.584857304402746e-06, + "loss": 1.5151875019073486, + "step": 508 + }, + { + "epoch": 0.34, + "grad_norm": 12.9375, + "learning_rate": 9.58093386197741e-06, + "loss": 1.5199638605117798, + "step": 510 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 1.6953125, + "learning_rate": 9.576992948185276e-06, + "loss": 1.1889758110046387, + "step": 512 + }, + { + "epoch": 0.3426666666666667, + "grad_norm": 9.875, + "learning_rate": 9.573034581398937e-06, + "loss": 1.5682647228240967, + "step": 514 + }, + { + "epoch": 0.344, + "grad_norm": 3.875, + "learning_rate": 9.569058780072353e-06, + "loss": 1.5848019123077393, + "step": 516 + }, + { + "epoch": 0.3453333333333333, + "grad_norm": 9.25, + "learning_rate": 9.565065562740769e-06, + "loss": 1.883324146270752, + "step": 518 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 4.03125, + "learning_rate": 9.561054948020623e-06, + "loss": 1.1338858604431152, + "step": 520 + }, + { + "epoch": 0.348, + "grad_norm": 4.5, + "learning_rate": 9.557026954609452e-06, + "loss": 1.504443883895874, + "step": 522 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 13.375, + "learning_rate": 9.552981601285822e-06, + "loss": 1.4343321323394775, + "step": 524 + }, + { + "epoch": 0.3506666666666667, + "grad_norm": 4.4375, + "learning_rate": 9.548918906909225e-06, + "loss": 1.5061818361282349, + "step": 526 + }, + { + "epoch": 0.352, + "grad_norm": 4.96875, + "learning_rate": 9.544838890420005e-06, + "loss": 1.6417787075042725, + "step": 528 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 2.46875, + "learning_rate": 9.540741570839254e-06, + "loss": 1.2109320163726807, + "step": 530 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 12.8125, + "learning_rate": 9.53662696726873e-06, + "loss": 1.592550277709961, + "step": 532 + }, + { + "epoch": 0.356, + "grad_norm": 2.25, + "learning_rate": 9.53249509889078e-06, + "loss": 1.0606516599655151, + "step": 534 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 4.25, + "learning_rate": 9.528345984968229e-06, + "loss": 1.4385344982147217, + "step": 536 + }, + { + "epoch": 0.3586666666666667, + "grad_norm": 7.71875, + "learning_rate": 9.524179644844303e-06, + "loss": 1.8518590927124023, + "step": 538 + }, + { + "epoch": 0.36, + "grad_norm": 4.6875, + "learning_rate": 9.519996097942541e-06, + "loss": 1.7862706184387207, + "step": 540 + }, + { + "epoch": 0.36133333333333334, + "grad_norm": 4.65625, + "learning_rate": 9.5157953637667e-06, + "loss": 1.541890263557434, + "step": 542 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 4.28125, + "learning_rate": 9.51157746190066e-06, + "loss": 1.0391428470611572, + "step": 544 + }, + { + "epoch": 0.364, + "grad_norm": 5.53125, + "learning_rate": 9.50734241200834e-06, + "loss": 1.4924867153167725, + "step": 546 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 3.859375, + "learning_rate": 9.503090233833603e-06, + "loss": 1.4717371463775635, + "step": 548 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 7.5, + "learning_rate": 9.498820947200163e-06, + "loss": 1.8459192514419556, + "step": 550 + }, + { + "epoch": 0.368, + "grad_norm": 4.6875, + "learning_rate": 9.494534572011493e-06, + "loss": 1.5080983638763428, + "step": 552 + }, + { + "epoch": 0.36933333333333335, + "grad_norm": 4.375, + "learning_rate": 9.49023112825074e-06, + "loss": 1.432806372642517, + "step": 554 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 2.1875, + "learning_rate": 9.485910635980615e-06, + "loss": 1.2087211608886719, + "step": 556 + }, + { + "epoch": 0.372, + "grad_norm": 3.453125, + "learning_rate": 9.481573115343316e-06, + "loss": 1.5064131021499634, + "step": 558 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 8.125, + "learning_rate": 9.477218586560428e-06, + "loss": 1.9642555713653564, + "step": 560 + }, + { + "epoch": 0.37466666666666665, + "grad_norm": 1.6328125, + "learning_rate": 9.472847069932823e-06, + "loss": 1.278930425643921, + "step": 562 + }, + { + "epoch": 0.376, + "grad_norm": 5.71875, + "learning_rate": 9.468458585840574e-06, + "loss": 1.361438512802124, + "step": 564 + }, + { + "epoch": 0.37733333333333335, + "grad_norm": 4.8125, + "learning_rate": 9.464053154742856e-06, + "loss": 1.5573828220367432, + "step": 566 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 7.3125, + "learning_rate": 9.459630797177852e-06, + "loss": 1.8953866958618164, + "step": 568 + }, + { + "epoch": 0.38, + "grad_norm": 8.3125, + "learning_rate": 9.455191533762656e-06, + "loss": 1.8274908065795898, + "step": 570 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 3.484375, + "learning_rate": 9.450735385193174e-06, + "loss": 0.9719834327697754, + "step": 572 + }, + { + "epoch": 0.38266666666666665, + "grad_norm": 4.59375, + "learning_rate": 9.446262372244037e-06, + "loss": 1.5405220985412598, + "step": 574 + }, + { + "epoch": 0.384, + "grad_norm": 4.4375, + "learning_rate": 9.441772515768496e-06, + "loss": 1.5655242204666138, + "step": 576 + }, + { + "epoch": 0.38533333333333336, + "grad_norm": 10.5625, + "learning_rate": 9.437265836698321e-06, + "loss": 2.027954578399658, + "step": 578 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 6.40625, + "learning_rate": 9.432742356043716e-06, + "loss": 1.5380610227584839, + "step": 580 + }, + { + "epoch": 0.388, + "grad_norm": 3.875, + "learning_rate": 9.428202094893212e-06, + "loss": 1.251591682434082, + "step": 582 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 2.984375, + "learning_rate": 9.423645074413573e-06, + "loss": 1.127235770225525, + "step": 584 + }, + { + "epoch": 0.39066666666666666, + "grad_norm": 11.1875, + "learning_rate": 9.419071315849689e-06, + "loss": 1.574254035949707, + "step": 586 + }, + { + "epoch": 0.392, + "grad_norm": 6.65625, + "learning_rate": 9.41448084052449e-06, + "loss": 1.6922552585601807, + "step": 588 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 6.53125, + "learning_rate": 9.409873669838836e-06, + "loss": 1.503310203552246, + "step": 590 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 4.75, + "learning_rate": 9.405249825271422e-06, + "loss": 1.559074878692627, + "step": 592 + }, + { + "epoch": 0.396, + "grad_norm": 4.25, + "learning_rate": 9.400609328378677e-06, + "loss": 1.4986786842346191, + "step": 594 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 6.21875, + "learning_rate": 9.395952200794667e-06, + "loss": 1.4592822790145874, + "step": 596 + }, + { + "epoch": 0.39866666666666667, + "grad_norm": 15.1875, + "learning_rate": 9.39127846423098e-06, + "loss": 0.4564563035964966, + "step": 598 + }, + { + "epoch": 0.4, + "grad_norm": 3.96875, + "learning_rate": 9.386588140476646e-06, + "loss": 1.4600090980529785, + "step": 600 + }, + { + "epoch": 0.4013333333333333, + "grad_norm": 5.78125, + "learning_rate": 9.381881251398022e-06, + "loss": 1.618513822555542, + "step": 602 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 2.6875, + "learning_rate": 9.377157818938689e-06, + "loss": 0.9879556894302368, + "step": 604 + }, + { + "epoch": 0.404, + "grad_norm": 1.5703125, + "learning_rate": 9.372417865119359e-06, + "loss": 1.0576777458190918, + "step": 606 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 8.5, + "learning_rate": 9.367661412037758e-06, + "loss": 0.7936822175979614, + "step": 608 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 7.25, + "learning_rate": 9.362888481868543e-06, + "loss": 1.8808355331420898, + "step": 610 + }, + { + "epoch": 0.408, + "grad_norm": 2.25, + "learning_rate": 9.358099096863185e-06, + "loss": 0.9202804565429688, + "step": 612 + }, + { + "epoch": 0.4093333333333333, + "grad_norm": 4.90625, + "learning_rate": 9.353293279349855e-06, + "loss": 1.534444808959961, + "step": 614 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 4.0, + "learning_rate": 9.348471051733351e-06, + "loss": 1.4413414001464844, + "step": 616 + }, + { + "epoch": 0.412, + "grad_norm": 9.375, + "learning_rate": 9.343632436494966e-06, + "loss": 1.8454234600067139, + "step": 618 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 5.65625, + "learning_rate": 9.338777456192387e-06, + "loss": 1.5563803911209106, + "step": 620 + }, + { + "epoch": 0.4146666666666667, + "grad_norm": 7.40625, + "learning_rate": 9.333906133459608e-06, + "loss": 1.7403740882873535, + "step": 622 + }, + { + "epoch": 0.416, + "grad_norm": 6.40625, + "learning_rate": 9.329018491006796e-06, + "loss": 1.380486249923706, + "step": 624 + }, + { + "epoch": 0.41733333333333333, + "grad_norm": 10.25, + "learning_rate": 9.324114551620216e-06, + "loss": 1.8002688884735107, + "step": 626 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 2.15625, + "learning_rate": 9.319194338162103e-06, + "loss": 1.0972381830215454, + "step": 628 + }, + { + "epoch": 0.42, + "grad_norm": 8.375, + "learning_rate": 9.31425787357056e-06, + "loss": 1.166933536529541, + "step": 630 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 4.90625, + "learning_rate": 9.309305180859455e-06, + "loss": 1.0162211656570435, + "step": 632 + }, + { + "epoch": 0.4226666666666667, + "grad_norm": 11.3125, + "learning_rate": 9.304336283118313e-06, + "loss": 1.5658559799194336, + "step": 634 + }, + { + "epoch": 0.424, + "grad_norm": 4.625, + "learning_rate": 9.299351203512204e-06, + "loss": 1.5108516216278076, + "step": 636 + }, + { + "epoch": 0.42533333333333334, + "grad_norm": 1.78125, + "learning_rate": 9.29434996528164e-06, + "loss": 1.030600905418396, + "step": 638 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 6.4375, + "learning_rate": 9.289332591742465e-06, + "loss": 1.501643419265747, + "step": 640 + }, + { + "epoch": 0.428, + "grad_norm": 5.8125, + "learning_rate": 9.284299106285748e-06, + "loss": 1.3692076206207275, + "step": 642 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 4.21875, + "learning_rate": 9.279249532377663e-06, + "loss": 1.4648946523666382, + "step": 644 + }, + { + "epoch": 0.43066666666666664, + "grad_norm": 5.0, + "learning_rate": 9.2741838935594e-06, + "loss": 1.129237174987793, + "step": 646 + }, + { + "epoch": 0.432, + "grad_norm": 3.84375, + "learning_rate": 9.26910221344704e-06, + "loss": 1.4659708738327026, + "step": 648 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 7.34375, + "learning_rate": 9.264004515731449e-06, + "loss": 1.9087955951690674, + "step": 650 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 6.3125, + "learning_rate": 9.25889082417816e-06, + "loss": 1.4802827835083008, + "step": 652 + }, + { + "epoch": 0.436, + "grad_norm": 4.15625, + "learning_rate": 9.253761162627278e-06, + "loss": 1.500867247581482, + "step": 654 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 5.625, + "learning_rate": 9.248615554993359e-06, + "loss": 1.6107925176620483, + "step": 656 + }, + { + "epoch": 0.43866666666666665, + "grad_norm": 5.25, + "learning_rate": 9.243454025265297e-06, + "loss": 1.5453171730041504, + "step": 658 + }, + { + "epoch": 0.44, + "grad_norm": 6.21875, + "learning_rate": 9.23827659750622e-06, + "loss": 1.2661125659942627, + "step": 660 + }, + { + "epoch": 0.44133333333333336, + "grad_norm": 13.375, + "learning_rate": 9.233083295853367e-06, + "loss": 1.44877290725708, + "step": 662 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 1.5234375, + "learning_rate": 9.227874144517984e-06, + "loss": 1.1241137981414795, + "step": 664 + }, + { + "epoch": 0.444, + "grad_norm": 5.40625, + "learning_rate": 9.222649167785209e-06, + "loss": 1.8743245601654053, + "step": 666 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 6.40625, + "learning_rate": 9.21740839001396e-06, + "loss": 1.4891200065612793, + "step": 668 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 2.4375, + "learning_rate": 9.21215183563681e-06, + "loss": 1.1671557426452637, + "step": 670 + }, + { + "epoch": 0.448, + "grad_norm": 3.65625, + "learning_rate": 9.2068795291599e-06, + "loss": 1.3477826118469238, + "step": 672 + }, + { + "epoch": 0.4493333333333333, + "grad_norm": 4.84375, + "learning_rate": 9.201591495162792e-06, + "loss": 1.5511021614074707, + "step": 674 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 10.8125, + "learning_rate": 9.196287758298372e-06, + "loss": 1.676473617553711, + "step": 676 + }, + { + "epoch": 0.452, + "grad_norm": 2.515625, + "learning_rate": 9.190968343292743e-06, + "loss": 1.0571801662445068, + "step": 678 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 6.375, + "learning_rate": 9.18563327494509e-06, + "loss": 1.7745697498321533, + "step": 680 + }, + { + "epoch": 0.45466666666666666, + "grad_norm": 9.625, + "learning_rate": 9.180282578127578e-06, + "loss": 1.5120433568954468, + "step": 682 + }, + { + "epoch": 0.456, + "grad_norm": 4.84375, + "learning_rate": 9.17491627778523e-06, + "loss": 1.5437407493591309, + "step": 684 + }, + { + "epoch": 0.4573333333333333, + "grad_norm": 4.8125, + "learning_rate": 9.169534398935817e-06, + "loss": 1.3872923851013184, + "step": 686 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 4.375, + "learning_rate": 9.164136966669735e-06, + "loss": 1.4649873971939087, + "step": 688 + }, + { + "epoch": 0.46, + "grad_norm": 6.40625, + "learning_rate": 9.158724006149884e-06, + "loss": 1.4206476211547852, + "step": 690 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 19.125, + "learning_rate": 9.153295542611568e-06, + "loss": 1.798445463180542, + "step": 692 + }, + { + "epoch": 0.46266666666666667, + "grad_norm": 4.09375, + "learning_rate": 9.147851601362361e-06, + "loss": 1.6945797204971313, + "step": 694 + }, + { + "epoch": 0.464, + "grad_norm": 3.6875, + "learning_rate": 9.142392207781989e-06, + "loss": 1.3889479637145996, + "step": 696 + }, + { + "epoch": 0.4653333333333333, + "grad_norm": 11.0625, + "learning_rate": 9.136917387322231e-06, + "loss": 0.5246891975402832, + "step": 698 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 8.25, + "learning_rate": 9.131427165506768e-06, + "loss": 1.4431519508361816, + "step": 700 + }, + { + "epoch": 0.468, + "grad_norm": 5.125, + "learning_rate": 9.1259215679311e-06, + "loss": 1.6847102642059326, + "step": 702 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 3.328125, + "learning_rate": 9.120400620262395e-06, + "loss": 1.1731724739074707, + "step": 704 + }, + { + "epoch": 0.4706666666666667, + "grad_norm": 5.03125, + "learning_rate": 9.114864348239393e-06, + "loss": 1.4725532531738281, + "step": 706 + }, + { + "epoch": 0.472, + "grad_norm": 12.75, + "learning_rate": 9.109312777672273e-06, + "loss": 1.4579191207885742, + "step": 708 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 5.9375, + "learning_rate": 9.103745934442531e-06, + "loss": 1.4855751991271973, + "step": 710 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 7.0625, + "learning_rate": 9.098163844502876e-06, + "loss": 2.031588077545166, + "step": 712 + }, + { + "epoch": 0.476, + "grad_norm": 6.3125, + "learning_rate": 9.092566533877083e-06, + "loss": 1.0525641441345215, + "step": 714 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 5.21875, + "learning_rate": 9.0869540286599e-06, + "loss": 1.4468775987625122, + "step": 716 + }, + { + "epoch": 0.4786666666666667, + "grad_norm": 5.6875, + "learning_rate": 9.081326355016904e-06, + "loss": 1.4774446487426758, + "step": 718 + }, + { + "epoch": 0.48, + "grad_norm": 4.375, + "learning_rate": 9.075683539184386e-06, + "loss": 1.4556554555892944, + "step": 720 + }, + { + "epoch": 0.48133333333333334, + "grad_norm": 5.875, + "learning_rate": 9.070025607469237e-06, + "loss": 1.673704743385315, + "step": 722 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 2.046875, + "learning_rate": 9.064352586248812e-06, + "loss": 1.1458492279052734, + "step": 724 + }, + { + "epoch": 0.484, + "grad_norm": 10.5, + "learning_rate": 9.05866450197082e-06, + "loss": 1.717451810836792, + "step": 726 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 3.90625, + "learning_rate": 9.05296138115319e-06, + "loss": 1.434446096420288, + "step": 728 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 7.28125, + "learning_rate": 9.047243250383949e-06, + "loss": 1.9059016704559326, + "step": 730 + }, + { + "epoch": 0.488, + "grad_norm": 4.875, + "learning_rate": 9.041510136321105e-06, + "loss": 1.4807331562042236, + "step": 732 + }, + { + "epoch": 0.48933333333333334, + "grad_norm": 5.34375, + "learning_rate": 9.03576206569252e-06, + "loss": 1.560255765914917, + "step": 734 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 7.90625, + "learning_rate": 9.029999065295777e-06, + "loss": 1.9080533981323242, + "step": 736 + }, + { + "epoch": 0.492, + "grad_norm": 2.8125, + "learning_rate": 9.024221161998066e-06, + "loss": 1.1071043014526367, + "step": 738 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 2.984375, + "learning_rate": 9.018428382736055e-06, + "loss": 0.9837844371795654, + "step": 740 + }, + { + "epoch": 0.49466666666666664, + "grad_norm": 5.6875, + "learning_rate": 9.012620754515764e-06, + "loss": 1.493727207183838, + "step": 742 + }, + { + "epoch": 0.496, + "grad_norm": 7.71875, + "learning_rate": 9.006798304412436e-06, + "loss": 1.7983622550964355, + "step": 744 + }, + { + "epoch": 0.49733333333333335, + "grad_norm": 2.015625, + "learning_rate": 9.000961059570418e-06, + "loss": 1.0712119340896606, + "step": 746 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 1.3984375, + "learning_rate": 8.995109047203028e-06, + "loss": 1.1010278463363647, + "step": 748 + }, + { + "epoch": 0.5, + "grad_norm": 3.78125, + "learning_rate": 8.989242294592432e-06, + "loss": 1.5035382509231567, + "step": 750 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 5.46875, + "learning_rate": 8.983360829089506e-06, + "loss": 1.836085557937622, + "step": 752 + }, + { + "epoch": 0.5026666666666667, + "grad_norm": 3.71875, + "learning_rate": 8.977464678113734e-06, + "loss": 1.0614256858825684, + "step": 754 + }, + { + "epoch": 0.504, + "grad_norm": 19.75, + "learning_rate": 8.971553869153054e-06, + "loss": 1.9808733463287354, + "step": 756 + }, + { + "epoch": 0.5053333333333333, + "grad_norm": 8.875, + "learning_rate": 8.965628429763739e-06, + "loss": 1.838444471359253, + "step": 758 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 5.5625, + "learning_rate": 8.959688387570273e-06, + "loss": 1.0896308422088623, + "step": 760 + }, + { + "epoch": 0.508, + "grad_norm": 14.25, + "learning_rate": 8.953733770265217e-06, + "loss": 1.8753701448440552, + "step": 762 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 1.828125, + "learning_rate": 8.94776460560908e-06, + "loss": 1.1300835609436035, + "step": 764 + }, + { + "epoch": 0.5106666666666667, + "grad_norm": 6.53125, + "learning_rate": 8.941780921430192e-06, + "loss": 1.5389584302902222, + "step": 766 + }, + { + "epoch": 0.512, + "grad_norm": 6.53125, + "learning_rate": 8.935782745624575e-06, + "loss": 1.5212798118591309, + "step": 768 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 5.15625, + "learning_rate": 8.92977010615581e-06, + "loss": 1.4728401899337769, + "step": 770 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 1.0859375, + "learning_rate": 8.923743031054906e-06, + "loss": 0.9624325037002563, + "step": 772 + }, + { + "epoch": 0.516, + "grad_norm": 1.2578125, + "learning_rate": 8.917701548420173e-06, + "loss": 1.0515624284744263, + "step": 774 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 11.6875, + "learning_rate": 8.911645686417087e-06, + "loss": 2.039482593536377, + "step": 776 + }, + { + "epoch": 0.5186666666666667, + "grad_norm": 7.40625, + "learning_rate": 8.905575473278167e-06, + "loss": 1.6416807174682617, + "step": 778 + }, + { + "epoch": 0.52, + "grad_norm": 7.71875, + "learning_rate": 8.899490937302828e-06, + "loss": 2.006240129470825, + "step": 780 + }, + { + "epoch": 0.5213333333333333, + "grad_norm": 2.734375, + "learning_rate": 8.893392106857269e-06, + "loss": 1.2567050457000732, + "step": 782 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 29.5, + "learning_rate": 8.887279010374317e-06, + "loss": 1.0010839700698853, + "step": 784 + }, + { + "epoch": 0.524, + "grad_norm": 7.65625, + "learning_rate": 8.881151676353316e-06, + "loss": 1.7621567249298096, + "step": 786 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 9.0, + "learning_rate": 8.875010133359989e-06, + "loss": 1.4890618324279785, + "step": 788 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 1.140625, + "learning_rate": 8.868854410026291e-06, + "loss": 0.954632043838501, + "step": 790 + }, + { + "epoch": 0.528, + "grad_norm": 4.5, + "learning_rate": 8.862684535050296e-06, + "loss": 1.0927908420562744, + "step": 792 + }, + { + "epoch": 0.5293333333333333, + "grad_norm": 5.375, + "learning_rate": 8.856500537196044e-06, + "loss": 1.6923635005950928, + "step": 794 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 7.03125, + "learning_rate": 8.850302445293424e-06, + "loss": 1.4436423778533936, + "step": 796 + }, + { + "epoch": 0.532, + "grad_norm": 2.1875, + "learning_rate": 8.844090288238026e-06, + "loss": 1.0953271389007568, + "step": 798 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 3.078125, + "learning_rate": 8.837864094991015e-06, + "loss": 1.1574478149414062, + "step": 800 + }, + { + "epoch": 0.5346666666666666, + "grad_norm": 7.0, + "learning_rate": 8.831623894578995e-06, + "loss": 1.6270692348480225, + "step": 802 + }, + { + "epoch": 0.536, + "grad_norm": 2.6875, + "learning_rate": 8.825369716093865e-06, + "loss": 1.1011627912521362, + "step": 804 + }, + { + "epoch": 0.5373333333333333, + "grad_norm": 10.4375, + "learning_rate": 8.819101588692695e-06, + "loss": 1.896059513092041, + "step": 806 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 1.0078125, + "learning_rate": 8.812819541597586e-06, + "loss": 1.1611248254776, + "step": 808 + }, + { + "epoch": 0.54, + "grad_norm": 4.84375, + "learning_rate": 8.806523604095527e-06, + "loss": 1.676903247833252, + "step": 810 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 9.125, + "learning_rate": 8.800213805538272e-06, + "loss": 1.8192381858825684, + "step": 812 + }, + { + "epoch": 0.5426666666666666, + "grad_norm": 5.125, + "learning_rate": 8.793890175342186e-06, + "loss": 1.8401235342025757, + "step": 814 + }, + { + "epoch": 0.544, + "grad_norm": 5.84375, + "learning_rate": 8.787552742988125e-06, + "loss": 1.5326521396636963, + "step": 816 + }, + { + "epoch": 0.5453333333333333, + "grad_norm": 7.40625, + "learning_rate": 8.781201538021294e-06, + "loss": 1.659316062927246, + "step": 818 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 20.75, + "learning_rate": 8.77483659005109e-06, + "loss": 0.5096349716186523, + "step": 820 + }, + { + "epoch": 0.548, + "grad_norm": 13.25, + "learning_rate": 8.768457928751e-06, + "loss": 1.4871480464935303, + "step": 822 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 18.375, + "learning_rate": 8.76206558385843e-06, + "loss": 1.8885602951049805, + "step": 824 + }, + { + "epoch": 0.5506666666666666, + "grad_norm": 5.65625, + "learning_rate": 8.755659585174581e-06, + "loss": 1.979843258857727, + "step": 826 + }, + { + "epoch": 0.552, + "grad_norm": 6.375, + "learning_rate": 8.749239962564309e-06, + "loss": 1.6709187030792236, + "step": 828 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 5.3125, + "learning_rate": 8.742806745955992e-06, + "loss": 1.5816951990127563, + "step": 830 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 6.15625, + "learning_rate": 8.73635996534137e-06, + "loss": 1.7703216075897217, + "step": 832 + }, + { + "epoch": 0.556, + "grad_norm": 6.84375, + "learning_rate": 8.729899650775428e-06, + "loss": 1.8280192613601685, + "step": 834 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 4.28125, + "learning_rate": 8.723425832376247e-06, + "loss": 1.4863190650939941, + "step": 836 + }, + { + "epoch": 0.5586666666666666, + "grad_norm": 3.625, + "learning_rate": 8.716938540324853e-06, + "loss": 1.2123053073883057, + "step": 838 + }, + { + "epoch": 0.56, + "grad_norm": 16.25, + "learning_rate": 8.710437804865101e-06, + "loss": 0.41149356961250305, + "step": 840 + }, + { + "epoch": 0.5613333333333334, + "grad_norm": 8.9375, + "learning_rate": 8.70392365630351e-06, + "loss": 0.36364132165908813, + "step": 842 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 8.125, + "learning_rate": 8.697396125009132e-06, + "loss": 0.7439370155334473, + "step": 844 + }, + { + "epoch": 0.564, + "grad_norm": 4.625, + "learning_rate": 8.69085524141341e-06, + "loss": 1.428462266921997, + "step": 846 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 7.875, + "learning_rate": 8.684301036010034e-06, + "loss": 1.4296550750732422, + "step": 848 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 4.78125, + "learning_rate": 8.677733539354807e-06, + "loss": 1.4440577030181885, + "step": 850 + }, + { + "epoch": 0.568, + "grad_norm": 7.53125, + "learning_rate": 8.671152782065488e-06, + "loss": 1.9406943321228027, + "step": 852 + }, + { + "epoch": 0.5693333333333334, + "grad_norm": 4.15625, + "learning_rate": 8.664558794821665e-06, + "loss": 1.0483615398406982, + "step": 854 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 4.5, + "learning_rate": 8.657951608364596e-06, + "loss": 1.4695384502410889, + "step": 856 + }, + { + "epoch": 0.572, + "grad_norm": 4.5, + "learning_rate": 8.651331253497079e-06, + "loss": 1.4279370307922363, + "step": 858 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 7.6875, + "learning_rate": 8.644697761083303e-06, + "loss": 1.5009353160858154, + "step": 860 + }, + { + "epoch": 0.5746666666666667, + "grad_norm": 8.6875, + "learning_rate": 8.638051162048704e-06, + "loss": 1.4930593967437744, + "step": 862 + }, + { + "epoch": 0.576, + "grad_norm": 5.5, + "learning_rate": 8.631391487379819e-06, + "loss": 1.530214786529541, + "step": 864 + }, + { + "epoch": 0.5773333333333334, + "grad_norm": 7.25, + "learning_rate": 8.624718768124147e-06, + "loss": 1.4129531383514404, + "step": 866 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 6.90625, + "learning_rate": 8.61803303539e-06, + "loss": 1.3828375339508057, + "step": 868 + }, + { + "epoch": 0.58, + "grad_norm": 6.875, + "learning_rate": 8.611334320346358e-06, + "loss": 1.763295292854309, + "step": 870 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 5.53125, + "learning_rate": 8.604622654222728e-06, + "loss": 1.4801650047302246, + "step": 872 + }, + { + "epoch": 0.5826666666666667, + "grad_norm": 9.25, + "learning_rate": 8.59789806830899e-06, + "loss": 1.6105256080627441, + "step": 874 + }, + { + "epoch": 0.584, + "grad_norm": 2.171875, + "learning_rate": 8.591160593955256e-06, + "loss": 0.9670834541320801, + "step": 876 + }, + { + "epoch": 0.5853333333333334, + "grad_norm": 4.5, + "learning_rate": 8.584410262571734e-06, + "loss": 1.429821491241455, + "step": 878 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 7.21875, + "learning_rate": 8.577647105628562e-06, + "loss": 1.786545753479004, + "step": 880 + }, + { + "epoch": 0.588, + "grad_norm": 7.40625, + "learning_rate": 8.570871154655672e-06, + "loss": 1.392760992050171, + "step": 882 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 12.4375, + "learning_rate": 8.564082441242643e-06, + "loss": 1.8015222549438477, + "step": 884 + }, + { + "epoch": 0.5906666666666667, + "grad_norm": 9.0625, + "learning_rate": 8.557280997038552e-06, + "loss": 1.9965815544128418, + "step": 886 + }, + { + "epoch": 0.592, + "grad_norm": 8.9375, + "learning_rate": 8.550466853751834e-06, + "loss": 1.038320541381836, + "step": 888 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 5.09375, + "learning_rate": 8.543640043150117e-06, + "loss": 1.5173522233963013, + "step": 890 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 5.90625, + "learning_rate": 8.536800597060092e-06, + "loss": 1.5306694507598877, + "step": 892 + }, + { + "epoch": 0.596, + "grad_norm": 6.375, + "learning_rate": 8.529948547367348e-06, + "loss": 1.4445128440856934, + "step": 894 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 5.75, + "learning_rate": 8.523083926016245e-06, + "loss": 1.7182955741882324, + "step": 896 + }, + { + "epoch": 0.5986666666666667, + "grad_norm": 5.0625, + "learning_rate": 8.51620676500974e-06, + "loss": 1.1675145626068115, + "step": 898 + }, + { + "epoch": 0.6, + "grad_norm": 5.09375, + "learning_rate": 8.509317096409258e-06, + "loss": 1.4480347633361816, + "step": 900 + }, + { + "epoch": 0.6013333333333334, + "grad_norm": 11.5625, + "learning_rate": 8.50241495233453e-06, + "loss": 2.055203914642334, + "step": 902 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 4.375, + "learning_rate": 8.49550036496345e-06, + "loss": 1.021264910697937, + "step": 904 + }, + { + "epoch": 0.604, + "grad_norm": 5.6875, + "learning_rate": 8.48857336653192e-06, + "loss": 1.2289679050445557, + "step": 906 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 3.703125, + "learning_rate": 8.481633989333709e-06, + "loss": 1.4245610237121582, + "step": 908 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 6.71875, + "learning_rate": 8.474682265720291e-06, + "loss": 1.4456334114074707, + "step": 910 + }, + { + "epoch": 0.608, + "grad_norm": 4.96875, + "learning_rate": 8.4677182281007e-06, + "loss": 1.515615463256836, + "step": 912 + }, + { + "epoch": 0.6093333333333333, + "grad_norm": 1.765625, + "learning_rate": 8.460741908941376e-06, + "loss": 1.0593926906585693, + "step": 914 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 3.671875, + "learning_rate": 8.453753340766018e-06, + "loss": 1.4384649991989136, + "step": 916 + }, + { + "epoch": 0.612, + "grad_norm": 6.125, + "learning_rate": 8.446752556155434e-06, + "loss": 1.5307202339172363, + "step": 918 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 10.0, + "learning_rate": 8.439739587747375e-06, + "loss": 1.749891757965088, + "step": 920 + }, + { + "epoch": 0.6146666666666667, + "grad_norm": 7.21875, + "learning_rate": 8.432714468236404e-06, + "loss": 1.684350609779358, + "step": 922 + }, + { + "epoch": 0.616, + "grad_norm": 8.125, + "learning_rate": 8.425677230373727e-06, + "loss": 1.4872686862945557, + "step": 924 + }, + { + "epoch": 0.6173333333333333, + "grad_norm": 4.0625, + "learning_rate": 8.418627906967045e-06, + "loss": 1.7606031894683838, + "step": 926 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 7.5, + "learning_rate": 8.411566530880405e-06, + "loss": 1.8105180263519287, + "step": 928 + }, + { + "epoch": 0.62, + "grad_norm": 7.15625, + "learning_rate": 8.404493135034041e-06, + "loss": 1.4707257747650146, + "step": 930 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 6.03125, + "learning_rate": 8.397407752404228e-06, + "loss": 1.917523741722107, + "step": 932 + }, + { + "epoch": 0.6226666666666667, + "grad_norm": 2.0625, + "learning_rate": 8.390310416023116e-06, + "loss": 1.1204737424850464, + "step": 934 + }, + { + "epoch": 0.624, + "grad_norm": 41.5, + "learning_rate": 8.38320115897859e-06, + "loss": 0.6065104603767395, + "step": 936 + }, + { + "epoch": 0.6253333333333333, + "grad_norm": 4.9375, + "learning_rate": 8.376080014414105e-06, + "loss": 1.421940803527832, + "step": 938 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 9.0625, + "learning_rate": 8.368947015528544e-06, + "loss": 1.8984816074371338, + "step": 940 + }, + { + "epoch": 0.628, + "grad_norm": 5.28125, + "learning_rate": 8.36180219557604e-06, + "loss": 1.528894066810608, + "step": 942 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 5.5625, + "learning_rate": 8.354645587865852e-06, + "loss": 1.6361967325210571, + "step": 944 + }, + { + "epoch": 0.6306666666666667, + "grad_norm": 5.5625, + "learning_rate": 8.347477225762186e-06, + "loss": 1.4143483638763428, + "step": 946 + }, + { + "epoch": 0.632, + "grad_norm": 4.6875, + "learning_rate": 8.340297142684044e-06, + "loss": 1.4818150997161865, + "step": 948 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 6.5, + "learning_rate": 8.333105372105079e-06, + "loss": 1.1189380884170532, + "step": 950 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 1.7265625, + "learning_rate": 8.325901947553426e-06, + "loss": 1.1370716094970703, + "step": 952 + }, + { + "epoch": 0.636, + "grad_norm": 11.375, + "learning_rate": 8.31868690261155e-06, + "loss": 1.6399116516113281, + "step": 954 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 3.78125, + "learning_rate": 8.311460270916094e-06, + "loss": 1.1279245615005493, + "step": 956 + }, + { + "epoch": 0.6386666666666667, + "grad_norm": 7.71875, + "learning_rate": 8.30422208615772e-06, + "loss": 1.127082109451294, + "step": 958 + }, + { + "epoch": 0.64, + "grad_norm": 3.3125, + "learning_rate": 8.296972382080947e-06, + "loss": 1.1065402030944824, + "step": 960 + }, + { + "epoch": 0.6413333333333333, + "grad_norm": 7.78125, + "learning_rate": 8.289711192483998e-06, + "loss": 1.9919843673706055, + "step": 962 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 8.3125, + "learning_rate": 8.282438551218638e-06, + "loss": 1.7666702270507812, + "step": 964 + }, + { + "epoch": 0.644, + "grad_norm": 7.59375, + "learning_rate": 8.27515449219003e-06, + "loss": 1.8833098411560059, + "step": 966 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 7.40625, + "learning_rate": 8.267859049356558e-06, + "loss": 1.4413492679595947, + "step": 968 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 5.25, + "learning_rate": 8.260552256729675e-06, + "loss": 1.3773534297943115, + "step": 970 + }, + { + "epoch": 0.648, + "grad_norm": 20.75, + "learning_rate": 8.25323414837376e-06, + "loss": 0.8820421695709229, + "step": 972 + }, + { + "epoch": 0.6493333333333333, + "grad_norm": 7.03125, + "learning_rate": 8.245904758405934e-06, + "loss": 1.8331353664398193, + "step": 974 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 7.21875, + "learning_rate": 8.238564120995915e-06, + "loss": 1.7633671760559082, + "step": 976 + }, + { + "epoch": 0.652, + "grad_norm": 7.78125, + "learning_rate": 8.231212270365862e-06, + "loss": 1.8337441682815552, + "step": 978 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 8.3125, + "learning_rate": 8.223849240790204e-06, + "loss": 1.0776680707931519, + "step": 980 + }, + { + "epoch": 0.6546666666666666, + "grad_norm": 12.9375, + "learning_rate": 8.216475066595492e-06, + "loss": 1.4760407209396362, + "step": 982 + }, + { + "epoch": 0.656, + "grad_norm": 2.484375, + "learning_rate": 8.209089782160233e-06, + "loss": 1.1044740676879883, + "step": 984 + }, + { + "epoch": 0.6573333333333333, + "grad_norm": 14.0625, + "learning_rate": 8.20169342191472e-06, + "loss": 1.8829679489135742, + "step": 986 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 2.09375, + "learning_rate": 8.194286020340895e-06, + "loss": 0.9792040586471558, + "step": 988 + }, + { + "epoch": 0.66, + "grad_norm": 6.5625, + "learning_rate": 8.18686761197217e-06, + "loss": 1.521083116531372, + "step": 990 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 6.0625, + "learning_rate": 8.179438231393266e-06, + "loss": 1.530885934829712, + "step": 992 + }, + { + "epoch": 0.6626666666666666, + "grad_norm": 12.25, + "learning_rate": 8.171997913240062e-06, + "loss": 1.8062398433685303, + "step": 994 + }, + { + "epoch": 0.664, + "grad_norm": 1.9453125, + "learning_rate": 8.164546692199426e-06, + "loss": 1.1137508153915405, + "step": 996 + }, + { + "epoch": 0.6653333333333333, + "grad_norm": 6.96875, + "learning_rate": 8.15708460300906e-06, + "loss": 1.7198907136917114, + "step": 998 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 6.125, + "learning_rate": 8.149611680457326e-06, + "loss": 1.5810315608978271, + "step": 1000 + }, + { + "epoch": 0.668, + "grad_norm": 12.25, + "learning_rate": 8.142127959383094e-06, + "loss": 1.9013679027557373, + "step": 1002 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 3.59375, + "learning_rate": 8.134633474675583e-06, + "loss": 1.0885121822357178, + "step": 1004 + }, + { + "epoch": 0.6706666666666666, + "grad_norm": 8.6875, + "learning_rate": 8.127128261274182e-06, + "loss": 1.455412745475769, + "step": 1006 + }, + { + "epoch": 0.672, + "grad_norm": 17.5, + "learning_rate": 8.119612354168303e-06, + "loss": 1.4445679187774658, + "step": 1008 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 18.0, + "learning_rate": 8.112085788397212e-06, + "loss": 1.8903926610946655, + "step": 1010 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 5.09375, + "learning_rate": 8.104548599049869e-06, + "loss": 1.3634119033813477, + "step": 1012 + }, + { + "epoch": 0.676, + "grad_norm": 7.96875, + "learning_rate": 8.09700082126475e-06, + "loss": 1.8946447372436523, + "step": 1014 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 14.6875, + "learning_rate": 8.08944249022971e-06, + "loss": 1.7080318927764893, + "step": 1016 + }, + { + "epoch": 0.6786666666666666, + "grad_norm": 10.9375, + "learning_rate": 8.081873641181789e-06, + "loss": 1.9619665145874023, + "step": 1018 + }, + { + "epoch": 0.68, + "grad_norm": 1.859375, + "learning_rate": 8.074294309407072e-06, + "loss": 1.1800537109375, + "step": 1020 + }, + { + "epoch": 0.6813333333333333, + "grad_norm": 6.1875, + "learning_rate": 8.066704530240512e-06, + "loss": 1.4908158779144287, + "step": 1022 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 5.25, + "learning_rate": 8.059104339065764e-06, + "loss": 1.5013716220855713, + "step": 1024 + }, + { + "epoch": 0.684, + "grad_norm": 2.21875, + "learning_rate": 8.051493771315029e-06, + "loss": 1.1278164386749268, + "step": 1026 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 2.34375, + "learning_rate": 8.043872862468882e-06, + "loss": 1.2503137588500977, + "step": 1028 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 7.0, + "learning_rate": 8.036241648056104e-06, + "loss": 1.0977543592453003, + "step": 1030 + }, + { + "epoch": 0.688, + "grad_norm": 3.703125, + "learning_rate": 8.028600163653533e-06, + "loss": 1.4442572593688965, + "step": 1032 + }, + { + "epoch": 0.6893333333333334, + "grad_norm": 6.125, + "learning_rate": 8.020948444885872e-06, + "loss": 1.5718536376953125, + "step": 1034 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 5.34375, + "learning_rate": 8.01328652742554e-06, + "loss": 1.912582278251648, + "step": 1036 + }, + { + "epoch": 0.692, + "grad_norm": 4.90625, + "learning_rate": 8.005614446992514e-06, + "loss": 1.5022928714752197, + "step": 1038 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 8.875, + "learning_rate": 7.99793223935413e-06, + "loss": 1.676508903503418, + "step": 1040 + }, + { + "epoch": 0.6946666666666667, + "grad_norm": 10.6875, + "learning_rate": 7.99023994032496e-06, + "loss": 1.5803358554840088, + "step": 1042 + }, + { + "epoch": 0.696, + "grad_norm": 5.3125, + "learning_rate": 7.982537585766603e-06, + "loss": 1.4909937381744385, + "step": 1044 + }, + { + "epoch": 0.6973333333333334, + "grad_norm": 11.5, + "learning_rate": 7.97482521158755e-06, + "loss": 0.35839077830314636, + "step": 1046 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 17.875, + "learning_rate": 7.967102853742996e-06, + "loss": 1.632436752319336, + "step": 1048 + }, + { + "epoch": 0.7, + "grad_norm": 4.03125, + "learning_rate": 7.959370548234682e-06, + "loss": 1.4115333557128906, + "step": 1050 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 7.3125, + "learning_rate": 7.951628331110727e-06, + "loss": 1.40264892578125, + "step": 1052 + }, + { + "epoch": 0.7026666666666667, + "grad_norm": 3.296875, + "learning_rate": 7.943876238465461e-06, + "loss": 1.0617637634277344, + "step": 1054 + }, + { + "epoch": 0.704, + "grad_norm": 6.125, + "learning_rate": 7.936114306439246e-06, + "loss": 1.4370262622833252, + "step": 1056 + }, + { + "epoch": 0.7053333333333334, + "grad_norm": 6.5, + "learning_rate": 7.92834257121832e-06, + "loss": 1.9666515588760376, + "step": 1058 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 4.3125, + "learning_rate": 7.92056106903462e-06, + "loss": 1.4887534379959106, + "step": 1060 + }, + { + "epoch": 0.708, + "grad_norm": 3.1875, + "learning_rate": 7.912769836165623e-06, + "loss": 1.0378882884979248, + "step": 1062 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 2.59375, + "learning_rate": 7.904968908934165e-06, + "loss": 1.0224369764328003, + "step": 1064 + }, + { + "epoch": 0.7106666666666667, + "grad_norm": 1.546875, + "learning_rate": 7.897158323708282e-06, + "loss": 1.011722445487976, + "step": 1066 + }, + { + "epoch": 0.712, + "grad_norm": 37.5, + "learning_rate": 7.889338116901031e-06, + "loss": 1.8897815942764282, + "step": 1068 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 5.5, + "learning_rate": 7.881508324970329e-06, + "loss": 1.4885183572769165, + "step": 1070 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 13.875, + "learning_rate": 7.873668984418772e-06, + "loss": 1.6457788944244385, + "step": 1072 + }, + { + "epoch": 0.716, + "grad_norm": 6.34375, + "learning_rate": 7.865820131793483e-06, + "loss": 1.7942242622375488, + "step": 1074 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 7.875, + "learning_rate": 7.85796180368592e-06, + "loss": 1.6265013217926025, + "step": 1076 + }, + { + "epoch": 0.7186666666666667, + "grad_norm": 4.53125, + "learning_rate": 7.85009403673172e-06, + "loss": 1.425769567489624, + "step": 1078 + }, + { + "epoch": 0.72, + "grad_norm": 5.78125, + "learning_rate": 7.842216867610528e-06, + "loss": 1.4441373348236084, + "step": 1080 + }, + { + "epoch": 0.7213333333333334, + "grad_norm": 5.125, + "learning_rate": 7.834330333045817e-06, + "loss": 1.4369800090789795, + "step": 1082 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 7.375, + "learning_rate": 7.82643446980472e-06, + "loss": 2.045433521270752, + "step": 1084 + }, + { + "epoch": 0.724, + "grad_norm": 6.09375, + "learning_rate": 7.818529314697865e-06, + "loss": 1.462162971496582, + "step": 1086 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 11.875, + "learning_rate": 7.810614904579196e-06, + "loss": 1.4759876728057861, + "step": 1088 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 5.25, + "learning_rate": 7.802691276345811e-06, + "loss": 1.4259663820266724, + "step": 1090 + }, + { + "epoch": 0.728, + "grad_norm": 9.5, + "learning_rate": 7.794758466937768e-06, + "loss": 0.3171471953392029, + "step": 1092 + }, + { + "epoch": 0.7293333333333333, + "grad_norm": 3.375, + "learning_rate": 7.786816513337945e-06, + "loss": 1.1333750486373901, + "step": 1094 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 5.875, + "learning_rate": 7.778865452571835e-06, + "loss": 1.4517849683761597, + "step": 1096 + }, + { + "epoch": 0.732, + "grad_norm": 4.625, + "learning_rate": 7.770905321707402e-06, + "loss": 1.5269715785980225, + "step": 1098 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 2.25, + "learning_rate": 7.76293615785489e-06, + "loss": 1.064500331878662, + "step": 1100 + }, + { + "epoch": 0.7346666666666667, + "grad_norm": 4.375, + "learning_rate": 7.754957998166646e-06, + "loss": 1.386234998703003, + "step": 1102 + }, + { + "epoch": 0.736, + "grad_norm": 12.375, + "learning_rate": 7.74697087983697e-06, + "loss": 1.8305230140686035, + "step": 1104 + }, + { + "epoch": 0.7373333333333333, + "grad_norm": 1.8125, + "learning_rate": 7.738974840101921e-06, + "loss": 1.1282780170440674, + "step": 1106 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 5.3125, + "learning_rate": 7.730969916239145e-06, + "loss": 1.5412876605987549, + "step": 1108 + }, + { + "epoch": 0.74, + "grad_norm": 5.84375, + "learning_rate": 7.722956145567715e-06, + "loss": 1.4641010761260986, + "step": 1110 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 1.3125, + "learning_rate": 7.714933565447942e-06, + "loss": 1.0171947479248047, + "step": 1112 + }, + { + "epoch": 0.7426666666666667, + "grad_norm": 4.8125, + "learning_rate": 7.706902213281208e-06, + "loss": 1.4489610195159912, + "step": 1114 + }, + { + "epoch": 0.744, + "grad_norm": 5.5, + "learning_rate": 7.69886212650979e-06, + "loss": 1.5235693454742432, + "step": 1116 + }, + { + "epoch": 0.7453333333333333, + "grad_norm": 6.6875, + "learning_rate": 7.690813342616687e-06, + "loss": 1.5696840286254883, + "step": 1118 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 3.125, + "learning_rate": 7.682755899125447e-06, + "loss": 1.0552146434783936, + "step": 1120 + }, + { + "epoch": 0.748, + "grad_norm": 3.875, + "learning_rate": 7.67468983359998e-06, + "loss": 1.1165143251419067, + "step": 1122 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 3.65625, + "learning_rate": 7.666615183644402e-06, + "loss": 1.4511375427246094, + "step": 1124 + }, + { + "epoch": 0.7506666666666667, + "grad_norm": 5.25, + "learning_rate": 7.658531986902843e-06, + "loss": 1.159609317779541, + "step": 1126 + }, + { + "epoch": 0.752, + "grad_norm": 4.6875, + "learning_rate": 7.650440281059284e-06, + "loss": 1.4254381656646729, + "step": 1128 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 2.546875, + "learning_rate": 7.642340103837368e-06, + "loss": 1.1249420642852783, + "step": 1130 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 8.8125, + "learning_rate": 7.63423149300024e-06, + "loss": 1.8620219230651855, + "step": 1132 + }, + { + "epoch": 0.756, + "grad_norm": 1.8828125, + "learning_rate": 7.626114486350358e-06, + "loss": 1.103478193283081, + "step": 1134 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 5.28125, + "learning_rate": 7.617989121729319e-06, + "loss": 1.6233323812484741, + "step": 1136 + }, + { + "epoch": 0.7586666666666667, + "grad_norm": 5.1875, + "learning_rate": 7.609855437017693e-06, + "loss": 1.4830645322799683, + "step": 1138 + }, + { + "epoch": 0.76, + "grad_norm": 4.9375, + "learning_rate": 7.6017134701348285e-06, + "loss": 1.5413252115249634, + "step": 1140 + }, + { + "epoch": 0.7613333333333333, + "grad_norm": 4.65625, + "learning_rate": 7.593563259038692e-06, + "loss": 1.5256080627441406, + "step": 1142 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 3.984375, + "learning_rate": 7.585404841725686e-06, + "loss": 1.0813350677490234, + "step": 1144 + }, + { + "epoch": 0.764, + "grad_norm": 11.6875, + "learning_rate": 7.577238256230466e-06, + "loss": 2.204179286956787, + "step": 1146 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 8.0, + "learning_rate": 7.569063540625767e-06, + "loss": 1.8322408199310303, + "step": 1148 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 1.9453125, + "learning_rate": 7.560880733022233e-06, + "loss": 1.1383694410324097, + "step": 1150 + }, + { + "epoch": 0.768, + "grad_norm": 36.0, + "learning_rate": 7.5526898715682286e-06, + "loss": 1.9306056499481201, + "step": 1152 + }, + { + "epoch": 0.7693333333333333, + "grad_norm": 4.6875, + "learning_rate": 7.544490994449662e-06, + "loss": 1.4435687065124512, + "step": 1154 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 13.8125, + "learning_rate": 7.536284139889818e-06, + "loss": 1.794223427772522, + "step": 1156 + }, + { + "epoch": 0.772, + "grad_norm": 8.0, + "learning_rate": 7.52806934614917e-06, + "loss": 1.4377973079681396, + "step": 1158 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 7.90625, + "learning_rate": 7.519846651525198e-06, + "loss": 1.5403916835784912, + "step": 1160 + }, + { + "epoch": 0.7746666666666666, + "grad_norm": 6.65625, + "learning_rate": 7.5116160943522255e-06, + "loss": 1.64451003074646, + "step": 1162 + }, + { + "epoch": 0.776, + "grad_norm": 7.375, + "learning_rate": 7.503377713001223e-06, + "loss": 1.6721255779266357, + "step": 1164 + }, + { + "epoch": 0.7773333333333333, + "grad_norm": 15.0, + "learning_rate": 7.495131545879646e-06, + "loss": 1.9117183685302734, + "step": 1166 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 8.0625, + "learning_rate": 7.48687763143124e-06, + "loss": 1.6716641187667847, + "step": 1168 + }, + { + "epoch": 0.78, + "grad_norm": 1.4375, + "learning_rate": 7.47861600813587e-06, + "loss": 1.098170280456543, + "step": 1170 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 3.640625, + "learning_rate": 7.470346714509342e-06, + "loss": 1.4096426963806152, + "step": 1172 + }, + { + "epoch": 0.7826666666666666, + "grad_norm": 1.859375, + "learning_rate": 7.462069789103221e-06, + "loss": 1.2622625827789307, + "step": 1174 + }, + { + "epoch": 0.784, + "grad_norm": 4.34375, + "learning_rate": 7.45378527050465e-06, + "loss": 1.4845378398895264, + "step": 1176 + }, + { + "epoch": 0.7853333333333333, + "grad_norm": 5.5625, + "learning_rate": 7.445493197336169e-06, + "loss": 1.416355848312378, + "step": 1178 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 5.21875, + "learning_rate": 7.437193608255546e-06, + "loss": 1.012062668800354, + "step": 1180 + }, + { + "epoch": 0.788, + "grad_norm": 4.6875, + "learning_rate": 7.428886541955582e-06, + "loss": 1.4908556938171387, + "step": 1182 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 5.15625, + "learning_rate": 7.4205720371639354e-06, + "loss": 1.5503168106079102, + "step": 1184 + }, + { + "epoch": 0.7906666666666666, + "grad_norm": 6.09375, + "learning_rate": 7.412250132642946e-06, + "loss": 1.9686577320098877, + "step": 1186 + }, + { + "epoch": 0.792, + "grad_norm": 15.0, + "learning_rate": 7.403920867189449e-06, + "loss": 1.7605036497116089, + "step": 1188 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 4.28125, + "learning_rate": 7.395584279634604e-06, + "loss": 1.2100725173950195, + "step": 1190 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 10.3125, + "learning_rate": 7.387240408843694e-06, + "loss": 1.617134690284729, + "step": 1192 + }, + { + "epoch": 0.796, + "grad_norm": 9.1875, + "learning_rate": 7.378889293715967e-06, + "loss": 1.771061897277832, + "step": 1194 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 10.875, + "learning_rate": 7.370530973184438e-06, + "loss": 1.6546101570129395, + "step": 1196 + }, + { + "epoch": 0.7986666666666666, + "grad_norm": 5.6875, + "learning_rate": 7.362165486215718e-06, + "loss": 1.8130102157592773, + "step": 1198 + }, + { + "epoch": 0.8, + "grad_norm": 1.40625, + "learning_rate": 7.3537928718098235e-06, + "loss": 1.0263370275497437, + "step": 1200 + }, + { + "epoch": 0.8013333333333333, + "grad_norm": 3.03125, + "learning_rate": 7.3454131690000015e-06, + "loss": 1.0432413816452026, + "step": 1202 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 6.5, + "learning_rate": 7.337026416852547e-06, + "loss": 1.5051829814910889, + "step": 1204 + }, + { + "epoch": 0.804, + "grad_norm": 9.6875, + "learning_rate": 7.3286326544666166e-06, + "loss": 1.7957940101623535, + "step": 1206 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 5.84375, + "learning_rate": 7.320231920974048e-06, + "loss": 1.3876800537109375, + "step": 1208 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 5.34375, + "learning_rate": 7.3118242555391835e-06, + "loss": 1.4170258045196533, + "step": 1210 + }, + { + "epoch": 0.808, + "grad_norm": 10.125, + "learning_rate": 7.303409697358676e-06, + "loss": 1.6540006399154663, + "step": 1212 + }, + { + "epoch": 0.8093333333333333, + "grad_norm": 3.953125, + "learning_rate": 7.294988285661315e-06, + "loss": 1.411388635635376, + "step": 1214 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 6.0, + "learning_rate": 7.286560059707843e-06, + "loss": 1.4670600891113281, + "step": 1216 + }, + { + "epoch": 0.812, + "grad_norm": 4.5, + "learning_rate": 7.278125058790768e-06, + "loss": 1.5195939540863037, + "step": 1218 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 3.984375, + "learning_rate": 7.269683322234182e-06, + "loss": 1.498016357421875, + "step": 1220 + }, + { + "epoch": 0.8146666666666667, + "grad_norm": 9.5, + "learning_rate": 7.261234889393582e-06, + "loss": 1.7424201965332031, + "step": 1222 + }, + { + "epoch": 0.816, + "grad_norm": 4.59375, + "learning_rate": 7.252779799655685e-06, + "loss": 1.5053367614746094, + "step": 1224 + }, + { + "epoch": 0.8173333333333334, + "grad_norm": 5.15625, + "learning_rate": 7.244318092438231e-06, + "loss": 1.4631271362304688, + "step": 1226 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 4.34375, + "learning_rate": 7.235849807189828e-06, + "loss": 1.5035299062728882, + "step": 1228 + }, + { + "epoch": 0.82, + "grad_norm": 4.28125, + "learning_rate": 7.227374983389737e-06, + "loss": 1.3052916526794434, + "step": 1230 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 1.6484375, + "learning_rate": 7.2188936605477075e-06, + "loss": 1.1444281339645386, + "step": 1232 + }, + { + "epoch": 0.8226666666666667, + "grad_norm": 26.375, + "learning_rate": 7.210405878203786e-06, + "loss": 1.1232807636260986, + "step": 1234 + }, + { + "epoch": 0.824, + "grad_norm": 2.25, + "learning_rate": 7.201911675928137e-06, + "loss": 1.2082382440567017, + "step": 1236 + }, + { + "epoch": 0.8253333333333334, + "grad_norm": 45.75, + "learning_rate": 7.19341109332085e-06, + "loss": 1.8112459182739258, + "step": 1238 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 6.75, + "learning_rate": 7.1849041700117595e-06, + "loss": 1.9334352016448975, + "step": 1240 + }, + { + "epoch": 0.828, + "grad_norm": 1.7890625, + "learning_rate": 7.176390945660267e-06, + "loss": 1.0827105045318604, + "step": 1242 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 5.84375, + "learning_rate": 7.167871459955143e-06, + "loss": 1.5978076457977295, + "step": 1244 + }, + { + "epoch": 0.8306666666666667, + "grad_norm": 6.78125, + "learning_rate": 7.159345752614351e-06, + "loss": 1.5036733150482178, + "step": 1246 + }, + { + "epoch": 0.832, + "grad_norm": 6.65625, + "learning_rate": 7.150813863384858e-06, + "loss": 1.544978141784668, + "step": 1248 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 9.875, + "learning_rate": 7.142275832042453e-06, + "loss": 1.5280275344848633, + "step": 1250 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 6.96875, + "learning_rate": 7.133731698391562e-06, + "loss": 1.8519248962402344, + "step": 1252 + }, + { + "epoch": 0.836, + "grad_norm": 21.25, + "learning_rate": 7.125181502265053e-06, + "loss": 1.7857600450515747, + "step": 1254 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 6.3125, + "learning_rate": 7.116625283524064e-06, + "loss": 1.5039316415786743, + "step": 1256 + }, + { + "epoch": 0.8386666666666667, + "grad_norm": 4.78125, + "learning_rate": 7.108063082057808e-06, + "loss": 1.5093042850494385, + "step": 1258 + }, + { + "epoch": 0.84, + "grad_norm": 6.375, + "learning_rate": 7.099494937783389e-06, + "loss": 1.9330856800079346, + "step": 1260 + }, + { + "epoch": 0.8413333333333334, + "grad_norm": 4.875, + "learning_rate": 7.090920890645618e-06, + "loss": 1.3826791048049927, + "step": 1262 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 5.0625, + "learning_rate": 7.0823409806168246e-06, + "loss": 1.384697437286377, + "step": 1264 + }, + { + "epoch": 0.844, + "grad_norm": 9.9375, + "learning_rate": 7.07375524769667e-06, + "loss": 1.4175405502319336, + "step": 1266 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 2.71875, + "learning_rate": 7.065163731911962e-06, + "loss": 1.0599411725997925, + "step": 1268 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 2.3125, + "learning_rate": 7.05656647331647e-06, + "loss": 1.0350122451782227, + "step": 1270 + }, + { + "epoch": 0.848, + "grad_norm": 2.046875, + "learning_rate": 7.047963511990737e-06, + "loss": 1.0036098957061768, + "step": 1272 + }, + { + "epoch": 0.8493333333333334, + "grad_norm": 4.34375, + "learning_rate": 7.03935488804189e-06, + "loss": 1.5463430881500244, + "step": 1274 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 5.65625, + "learning_rate": 7.030740641603451e-06, + "loss": 1.474896788597107, + "step": 1276 + }, + { + "epoch": 0.852, + "grad_norm": 16.625, + "learning_rate": 7.022120812835165e-06, + "loss": 1.454477310180664, + "step": 1278 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 6.21875, + "learning_rate": 7.0134954419227955e-06, + "loss": 1.5140109062194824, + "step": 1280 + }, + { + "epoch": 0.8546666666666667, + "grad_norm": 7.25, + "learning_rate": 7.004864569077941e-06, + "loss": 0.6668561697006226, + "step": 1282 + }, + { + "epoch": 0.856, + "grad_norm": 4.90625, + "learning_rate": 6.996228234537856e-06, + "loss": 1.6097631454467773, + "step": 1284 + }, + { + "epoch": 0.8573333333333333, + "grad_norm": 2.140625, + "learning_rate": 6.9875864785652514e-06, + "loss": 1.0738332271575928, + "step": 1286 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 4.9375, + "learning_rate": 6.978939341448119e-06, + "loss": 1.541915774345398, + "step": 1288 + }, + { + "epoch": 0.86, + "grad_norm": 1.8828125, + "learning_rate": 6.970286863499534e-06, + "loss": 1.084245204925537, + "step": 1290 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 6.59375, + "learning_rate": 6.961629085057471e-06, + "loss": 1.7440471649169922, + "step": 1292 + }, + { + "epoch": 0.8626666666666667, + "grad_norm": 8.1875, + "learning_rate": 6.952966046484615e-06, + "loss": 1.2029621601104736, + "step": 1294 + }, + { + "epoch": 0.864, + "grad_norm": 20.375, + "learning_rate": 6.944297788168173e-06, + "loss": 1.1356322765350342, + "step": 1296 + }, + { + "epoch": 0.8653333333333333, + "grad_norm": 1.03125, + "learning_rate": 6.935624350519694e-06, + "loss": 1.2489497661590576, + "step": 1298 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 1.9140625, + "learning_rate": 6.9269457739748625e-06, + "loss": 1.0705386400222778, + "step": 1300 + }, + { + "epoch": 0.868, + "grad_norm": 1.4140625, + "learning_rate": 6.918262098993327e-06, + "loss": 1.146819829940796, + "step": 1302 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 5.6875, + "learning_rate": 6.909573366058502e-06, + "loss": 1.975623369216919, + "step": 1304 + }, + { + "epoch": 0.8706666666666667, + "grad_norm": 4.8125, + "learning_rate": 6.900879615677385e-06, + "loss": 1.4106535911560059, + "step": 1306 + }, + { + "epoch": 0.872, + "grad_norm": 5.0, + "learning_rate": 6.892180888380364e-06, + "loss": 1.452235460281372, + "step": 1308 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 11.5, + "learning_rate": 6.883477224721027e-06, + "loss": 1.9186886548995972, + "step": 1310 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 2.09375, + "learning_rate": 6.874768665275982e-06, + "loss": 1.108964204788208, + "step": 1312 + }, + { + "epoch": 0.876, + "grad_norm": 5.03125, + "learning_rate": 6.86605525064465e-06, + "loss": 1.5007225275039673, + "step": 1314 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 7.0625, + "learning_rate": 6.857337021449098e-06, + "loss": 1.7579610347747803, + "step": 1316 + }, + { + "epoch": 0.8786666666666667, + "grad_norm": 7.90625, + "learning_rate": 6.848614018333832e-06, + "loss": 1.4250476360321045, + "step": 1318 + }, + { + "epoch": 0.88, + "grad_norm": 2.75, + "learning_rate": 6.839886281965618e-06, + "loss": 1.032175898551941, + "step": 1320 + }, + { + "epoch": 0.8813333333333333, + "grad_norm": 4.28125, + "learning_rate": 6.831153853033285e-06, + "loss": 1.1080658435821533, + "step": 1322 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 4.375, + "learning_rate": 6.822416772247542e-06, + "loss": 1.5906773805618286, + "step": 1324 + }, + { + "epoch": 0.884, + "grad_norm": 2.15625, + "learning_rate": 6.8136750803407824e-06, + "loss": 1.1360021829605103, + "step": 1326 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 7.1875, + "learning_rate": 6.804928818066898e-06, + "loss": 1.87527334690094, + "step": 1328 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 3.484375, + "learning_rate": 6.79617802620109e-06, + "loss": 1.4536571502685547, + "step": 1330 + }, + { + "epoch": 0.888, + "grad_norm": 15.125, + "learning_rate": 6.787422745539669e-06, + "loss": 1.52134370803833, + "step": 1332 + }, + { + "epoch": 0.8893333333333333, + "grad_norm": 7.125, + "learning_rate": 6.778663016899882e-06, + "loss": 0.9342854619026184, + "step": 1334 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 13.75, + "learning_rate": 6.769898881119708e-06, + "loss": 1.2193070650100708, + "step": 1336 + }, + { + "epoch": 0.892, + "grad_norm": 4.875, + "learning_rate": 6.761130379057667e-06, + "loss": 1.4399094581604004, + "step": 1338 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 5.1875, + "learning_rate": 6.7523575515926476e-06, + "loss": 1.6470527648925781, + "step": 1340 + }, + { + "epoch": 0.8946666666666667, + "grad_norm": 14.75, + "learning_rate": 6.743580439623689e-06, + "loss": 1.4364392757415771, + "step": 1342 + }, + { + "epoch": 0.896, + "grad_norm": 3.515625, + "learning_rate": 6.734799084069817e-06, + "loss": 1.100862979888916, + "step": 1344 + }, + { + "epoch": 0.8973333333333333, + "grad_norm": 6.78125, + "learning_rate": 6.726013525869832e-06, + "loss": 1.6640863418579102, + "step": 1346 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 2.609375, + "learning_rate": 6.7172238059821335e-06, + "loss": 1.0758508443832397, + "step": 1348 + }, + { + "epoch": 0.9, + "grad_norm": 6.3125, + "learning_rate": 6.70842996538452e-06, + "loss": 1.763936161994934, + "step": 1350 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 2.6875, + "learning_rate": 6.699632045073996e-06, + "loss": 1.2208075523376465, + "step": 1352 + }, + { + "epoch": 0.9026666666666666, + "grad_norm": 5.0625, + "learning_rate": 6.690830086066598e-06, + "loss": 1.3647022247314453, + "step": 1354 + }, + { + "epoch": 0.904, + "grad_norm": 5.90625, + "learning_rate": 6.68202412939718e-06, + "loss": 1.4302599430084229, + "step": 1356 + }, + { + "epoch": 0.9053333333333333, + "grad_norm": 4.9375, + "learning_rate": 6.673214216119239e-06, + "loss": 1.7554941177368164, + "step": 1358 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 2.671875, + "learning_rate": 6.664400387304712e-06, + "loss": 1.050219178199768, + "step": 1360 + }, + { + "epoch": 0.908, + "grad_norm": 3.9375, + "learning_rate": 6.655582684043797e-06, + "loss": 1.487766981124878, + "step": 1362 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 1.7109375, + "learning_rate": 6.646761147444749e-06, + "loss": 1.0724763870239258, + "step": 1364 + }, + { + "epoch": 0.9106666666666666, + "grad_norm": 4.09375, + "learning_rate": 6.637935818633701e-06, + "loss": 1.0730855464935303, + "step": 1366 + }, + { + "epoch": 0.912, + "grad_norm": 2.03125, + "learning_rate": 6.629106738754456e-06, + "loss": 1.134033441543579, + "step": 1368 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 9.25, + "learning_rate": 6.620273948968312e-06, + "loss": 1.4531991481781006, + "step": 1370 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 7.25, + "learning_rate": 6.61143749045386e-06, + "loss": 1.7324318885803223, + "step": 1372 + }, + { + "epoch": 0.916, + "grad_norm": 8.875, + "learning_rate": 6.6025974044067965e-06, + "loss": 1.804641842842102, + "step": 1374 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 3.9375, + "learning_rate": 6.593753732039725e-06, + "loss": 1.4009830951690674, + "step": 1376 + }, + { + "epoch": 0.9186666666666666, + "grad_norm": 4.0, + "learning_rate": 6.584906514581973e-06, + "loss": 1.5420567989349365, + "step": 1378 + }, + { + "epoch": 0.92, + "grad_norm": 7.375, + "learning_rate": 6.576055793279394e-06, + "loss": 1.7248209714889526, + "step": 1380 + }, + { + "epoch": 0.9213333333333333, + "grad_norm": 5.71875, + "learning_rate": 6.567201609394176e-06, + "loss": 1.5272363424301147, + "step": 1382 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 6.59375, + "learning_rate": 6.5583440042046494e-06, + "loss": 1.7931103706359863, + "step": 1384 + }, + { + "epoch": 0.924, + "grad_norm": 2.1875, + "learning_rate": 6.549483019005096e-06, + "loss": 1.0144383907318115, + "step": 1386 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 13.3125, + "learning_rate": 6.540618695105554e-06, + "loss": 1.9607112407684326, + "step": 1388 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 10.375, + "learning_rate": 6.531751073831625e-06, + "loss": 1.7285571098327637, + "step": 1390 + }, + { + "epoch": 0.928, + "grad_norm": 7.15625, + "learning_rate": 6.522880196524289e-06, + "loss": 1.5882502794265747, + "step": 1392 + }, + { + "epoch": 0.9293333333333333, + "grad_norm": 17.75, + "learning_rate": 6.5140061045397e-06, + "loss": 1.8799965381622314, + "step": 1394 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 2.640625, + "learning_rate": 6.505128839249e-06, + "loss": 1.1083283424377441, + "step": 1396 + }, + { + "epoch": 0.932, + "grad_norm": 11.3125, + "learning_rate": 6.496248442038124e-06, + "loss": 1.8841416835784912, + "step": 1398 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 10.6875, + "learning_rate": 6.487364954307616e-06, + "loss": 1.6003661155700684, + "step": 1400 + }, + { + "epoch": 0.9346666666666666, + "grad_norm": 3.90625, + "learning_rate": 6.4784784174724155e-06, + "loss": 0.9441222548484802, + "step": 1402 + }, + { + "epoch": 0.936, + "grad_norm": 4.53125, + "learning_rate": 6.469588872961687e-06, + "loss": 1.528754711151123, + "step": 1404 + }, + { + "epoch": 0.9373333333333334, + "grad_norm": 8.8125, + "learning_rate": 6.460696362218611e-06, + "loss": 1.457127571105957, + "step": 1406 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 3.09375, + "learning_rate": 6.451800926700197e-06, + "loss": 1.2754069566726685, + "step": 1408 + }, + { + "epoch": 0.94, + "grad_norm": 26.25, + "learning_rate": 6.442902607877095e-06, + "loss": 2.1131834983825684, + "step": 1410 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 14.1875, + "learning_rate": 6.434001447233392e-06, + "loss": 1.3996620178222656, + "step": 1412 + }, + { + "epoch": 0.9426666666666667, + "grad_norm": 2.5625, + "learning_rate": 6.425097486266426e-06, + "loss": 1.2032909393310547, + "step": 1414 + }, + { + "epoch": 0.944, + "grad_norm": 6.875, + "learning_rate": 6.416190766486588e-06, + "loss": 1.7661256790161133, + "step": 1416 + }, + { + "epoch": 0.9453333333333334, + "grad_norm": 5.15625, + "learning_rate": 6.407281329417133e-06, + "loss": 1.0344789028167725, + "step": 1418 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 1.5703125, + "learning_rate": 6.398369216593981e-06, + "loss": 1.160454511642456, + "step": 1420 + }, + { + "epoch": 0.948, + "grad_norm": 5.0, + "learning_rate": 6.38945446956553e-06, + "loss": 1.5346543788909912, + "step": 1422 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 2.75, + "learning_rate": 6.380537129892458e-06, + "loss": 1.118833303451538, + "step": 1424 + }, + { + "epoch": 0.9506666666666667, + "grad_norm": 7.3125, + "learning_rate": 6.371617239147527e-06, + "loss": 1.8901457786560059, + "step": 1426 + }, + { + "epoch": 0.952, + "grad_norm": 4.34375, + "learning_rate": 6.3626948389153955e-06, + "loss": 1.372290849685669, + "step": 1428 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 8.375, + "learning_rate": 6.35376997079242e-06, + "loss": 1.510221004486084, + "step": 1430 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 6.6875, + "learning_rate": 6.344842676386459e-06, + "loss": 1.7555416822433472, + "step": 1432 + }, + { + "epoch": 0.956, + "grad_norm": 4.5625, + "learning_rate": 6.335912997316689e-06, + "loss": 1.3952423334121704, + "step": 1434 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 3.21875, + "learning_rate": 6.3269809752134005e-06, + "loss": 1.2118666172027588, + "step": 1436 + }, + { + "epoch": 0.9586666666666667, + "grad_norm": 15.5625, + "learning_rate": 6.3180466517178065e-06, + "loss": 1.5054240226745605, + "step": 1438 + }, + { + "epoch": 0.96, + "grad_norm": 6.53125, + "learning_rate": 6.30911006848185e-06, + "loss": 1.5465056896209717, + "step": 1440 + }, + { + "epoch": 0.9613333333333334, + "grad_norm": 1.65625, + "learning_rate": 6.300171267168006e-06, + "loss": 1.240868330001831, + "step": 1442 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 6.6875, + "learning_rate": 6.291230289449095e-06, + "loss": 0.4037482738494873, + "step": 1444 + }, + { + "epoch": 0.964, + "grad_norm": 4.53125, + "learning_rate": 6.282287177008084e-06, + "loss": 1.2513530254364014, + "step": 1446 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 12.1875, + "learning_rate": 6.273341971537888e-06, + "loss": 1.4814857244491577, + "step": 1448 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 1.390625, + "learning_rate": 6.264394714741182e-06, + "loss": 1.1147644519805908, + "step": 1450 + }, + { + "epoch": 0.968, + "grad_norm": 3.328125, + "learning_rate": 6.255445448330204e-06, + "loss": 1.2680392265319824, + "step": 1452 + }, + { + "epoch": 0.9693333333333334, + "grad_norm": 1.4140625, + "learning_rate": 6.246494214026562e-06, + "loss": 1.0437490940093994, + "step": 1454 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 1.8359375, + "learning_rate": 6.237541053561034e-06, + "loss": 1.238845705986023, + "step": 1456 + }, + { + "epoch": 0.972, + "grad_norm": 4.78125, + "learning_rate": 6.228586008673385e-06, + "loss": 1.4940769672393799, + "step": 1458 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 16.25, + "learning_rate": 6.219629121112159e-06, + "loss": 1.5105171203613281, + "step": 1460 + }, + { + "epoch": 0.9746666666666667, + "grad_norm": 6.4375, + "learning_rate": 6.210670432634491e-06, + "loss": 1.7444933652877808, + "step": 1462 + }, + { + "epoch": 0.976, + "grad_norm": 8.0625, + "learning_rate": 6.201709985005918e-06, + "loss": 1.7194395065307617, + "step": 1464 + }, + { + "epoch": 0.9773333333333334, + "grad_norm": 4.375, + "learning_rate": 6.192747820000171e-06, + "loss": 1.3826802968978882, + "step": 1466 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 12.125, + "learning_rate": 6.183783979398991e-06, + "loss": 1.9960919618606567, + "step": 1468 + }, + { + "epoch": 0.98, + "grad_norm": 4.3125, + "learning_rate": 6.174818504991931e-06, + "loss": 1.4267585277557373, + "step": 1470 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 5.28125, + "learning_rate": 6.165851438576158e-06, + "loss": 1.76206374168396, + "step": 1472 + }, + { + "epoch": 0.9826666666666667, + "grad_norm": 1.09375, + "learning_rate": 6.156882821956265e-06, + "loss": 0.9488676190376282, + "step": 1474 + }, + { + "epoch": 0.984, + "grad_norm": 6.03125, + "learning_rate": 6.147912696944067e-06, + "loss": 1.924933910369873, + "step": 1476 + }, + { + "epoch": 0.9853333333333333, + "grad_norm": 4.5, + "learning_rate": 6.1389411053584145e-06, + "loss": 1.7618391513824463, + "step": 1478 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 12.375, + "learning_rate": 6.129968089024998e-06, + "loss": 1.6995925903320312, + "step": 1480 + }, + { + "epoch": 0.988, + "grad_norm": 6.125, + "learning_rate": 6.1209936897761446e-06, + "loss": 1.4753309488296509, + "step": 1482 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 6.375, + "learning_rate": 6.112017949450629e-06, + "loss": 1.1274147033691406, + "step": 1484 + }, + { + "epoch": 0.9906666666666667, + "grad_norm": 7.46875, + "learning_rate": 6.1030409098934824e-06, + "loss": 1.7124284505844116, + "step": 1486 + }, + { + "epoch": 0.992, + "grad_norm": 15.1875, + "learning_rate": 6.094062612955791e-06, + "loss": 1.7338926792144775, + "step": 1488 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 4.5, + "learning_rate": 6.085083100494499e-06, + "loss": 1.5683114528656006, + "step": 1490 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 5.625, + "learning_rate": 6.076102414372225e-06, + "loss": 1.499389410018921, + "step": 1492 + }, + { + "epoch": 0.996, + "grad_norm": 2.828125, + "learning_rate": 6.067120596457053e-06, + "loss": 1.1616817712783813, + "step": 1494 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 7.4375, + "learning_rate": 6.058137688622343e-06, + "loss": 1.6491494178771973, + "step": 1496 + }, + { + "epoch": 0.9986666666666667, + "grad_norm": 5.71875, + "learning_rate": 6.049153732746543e-06, + "loss": 1.3628113269805908, + "step": 1498 + }, + { + "epoch": 1.0, + "grad_norm": 1.375, + "learning_rate": 6.040168770712982e-06, + "loss": 1.0581028461456299, + "step": 1500 + }, + { + "epoch": 1.0013333333333334, + "grad_norm": 1.1875, + "learning_rate": 6.031182844409678e-06, + "loss": 1.3563737869262695, + "step": 1502 + }, + { + "epoch": 1.0026666666666666, + "grad_norm": 1.7734375, + "learning_rate": 6.0221959957291485e-06, + "loss": 0.9635358452796936, + "step": 1504 + }, + { + "epoch": 1.004, + "grad_norm": 5.84375, + "learning_rate": 6.013208266568209e-06, + "loss": 1.936806082725525, + "step": 1506 + }, + { + "epoch": 1.0053333333333334, + "grad_norm": 7.1875, + "learning_rate": 6.00421969882778e-06, + "loss": 1.5574287176132202, + "step": 1508 + }, + { + "epoch": 1.0066666666666666, + "grad_norm": 8.625, + "learning_rate": 5.995230334412691e-06, + "loss": 1.64463472366333, + "step": 1510 + }, + { + "epoch": 1.008, + "grad_norm": 11.5, + "learning_rate": 5.986240215231489e-06, + "loss": 1.4681963920593262, + "step": 1512 + }, + { + "epoch": 1.0093333333333334, + "grad_norm": 6.0, + "learning_rate": 5.977249383196235e-06, + "loss": 1.4651533365249634, + "step": 1514 + }, + { + "epoch": 1.0106666666666666, + "grad_norm": 22.0, + "learning_rate": 5.968257880222317e-06, + "loss": 1.7012189626693726, + "step": 1516 + }, + { + "epoch": 1.012, + "grad_norm": 6.1875, + "learning_rate": 5.959265748228247e-06, + "loss": 1.9330545663833618, + "step": 1518 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 4.75, + "learning_rate": 5.950273029135475e-06, + "loss": 1.493942379951477, + "step": 1520 + }, + { + "epoch": 1.0146666666666666, + "grad_norm": 3.859375, + "learning_rate": 5.941279764868182e-06, + "loss": 1.4157612323760986, + "step": 1522 + }, + { + "epoch": 1.016, + "grad_norm": 9.125, + "learning_rate": 5.932285997353093e-06, + "loss": 1.4143327474594116, + "step": 1524 + }, + { + "epoch": 1.0173333333333334, + "grad_norm": 1.21875, + "learning_rate": 5.923291768519284e-06, + "loss": 1.0516184568405151, + "step": 1526 + }, + { + "epoch": 1.0186666666666666, + "grad_norm": 5.40625, + "learning_rate": 5.9142971202979735e-06, + "loss": 1.429210901260376, + "step": 1528 + }, + { + "epoch": 1.02, + "grad_norm": 3.65625, + "learning_rate": 5.905302094622339e-06, + "loss": 1.4731173515319824, + "step": 1530 + }, + { + "epoch": 1.0213333333333334, + "grad_norm": 6.3125, + "learning_rate": 5.896306733427322e-06, + "loss": 1.517582893371582, + "step": 1532 + }, + { + "epoch": 1.0226666666666666, + "grad_norm": 6.1875, + "learning_rate": 5.887311078649418e-06, + "loss": 1.052391529083252, + "step": 1534 + }, + { + "epoch": 1.024, + "grad_norm": 6.0, + "learning_rate": 5.8783151722265005e-06, + "loss": 1.5596401691436768, + "step": 1536 + }, + { + "epoch": 1.0253333333333334, + "grad_norm": 2.796875, + "learning_rate": 5.869319056097613e-06, + "loss": 1.2670550346374512, + "step": 1538 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 4.90625, + "learning_rate": 5.860322772202776e-06, + "loss": 1.4631175994873047, + "step": 1540 + }, + { + "epoch": 1.028, + "grad_norm": 22.5, + "learning_rate": 5.851326362482792e-06, + "loss": 1.8308687210083008, + "step": 1542 + }, + { + "epoch": 1.0293333333333334, + "grad_norm": 6.1875, + "learning_rate": 5.842329868879051e-06, + "loss": 1.648712396621704, + "step": 1544 + }, + { + "epoch": 1.0306666666666666, + "grad_norm": 5.09375, + "learning_rate": 5.833333333333333e-06, + "loss": 1.523130178451538, + "step": 1546 + }, + { + "epoch": 1.032, + "grad_norm": 6.6875, + "learning_rate": 5.824336797787617e-06, + "loss": 1.545793056488037, + "step": 1548 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 2.140625, + "learning_rate": 5.815340304183876e-06, + "loss": 1.0260173082351685, + "step": 1550 + }, + { + "epoch": 1.0346666666666666, + "grad_norm": 13.4375, + "learning_rate": 5.806343894463893e-06, + "loss": 2.0390031337738037, + "step": 1552 + }, + { + "epoch": 1.036, + "grad_norm": 6.65625, + "learning_rate": 5.7973476105690554e-06, + "loss": 1.7032217979431152, + "step": 1554 + }, + { + "epoch": 1.0373333333333334, + "grad_norm": 12.4375, + "learning_rate": 5.788351494440167e-06, + "loss": 1.8185737133026123, + "step": 1556 + }, + { + "epoch": 1.0386666666666666, + "grad_norm": 9.8125, + "learning_rate": 5.779355588017249e-06, + "loss": 1.8823127746582031, + "step": 1558 + }, + { + "epoch": 1.04, + "grad_norm": 1.203125, + "learning_rate": 5.770359933239347e-06, + "loss": 1.0645382404327393, + "step": 1560 + }, + { + "epoch": 1.0413333333333332, + "grad_norm": 11.5, + "learning_rate": 5.761364572044328e-06, + "loss": 1.8362276554107666, + "step": 1562 + }, + { + "epoch": 1.0426666666666666, + "grad_norm": 6.03125, + "learning_rate": 5.752369546368694e-06, + "loss": 1.656673550605774, + "step": 1564 + }, + { + "epoch": 1.044, + "grad_norm": 5.8125, + "learning_rate": 5.743374898147385e-06, + "loss": 0.9415713548660278, + "step": 1566 + }, + { + "epoch": 1.0453333333333332, + "grad_norm": 1.3515625, + "learning_rate": 5.734380669313575e-06, + "loss": 0.947942316532135, + "step": 1568 + }, + { + "epoch": 1.0466666666666666, + "grad_norm": 10.5625, + "learning_rate": 5.725386901798486e-06, + "loss": 1.4679059982299805, + "step": 1570 + }, + { + "epoch": 1.048, + "grad_norm": 12.0, + "learning_rate": 5.716393637531194e-06, + "loss": 0.5725986957550049, + "step": 1572 + }, + { + "epoch": 1.0493333333333332, + "grad_norm": 2.015625, + "learning_rate": 5.707400918438422e-06, + "loss": 1.0623714923858643, + "step": 1574 + }, + { + "epoch": 1.0506666666666666, + "grad_norm": 8.8125, + "learning_rate": 5.698408786444352e-06, + "loss": 1.8116446733474731, + "step": 1576 + }, + { + "epoch": 1.052, + "grad_norm": 5.71875, + "learning_rate": 5.689417283470433e-06, + "loss": 1.4730396270751953, + "step": 1578 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 3.765625, + "learning_rate": 5.6804264514351795e-06, + "loss": 1.1235568523406982, + "step": 1580 + }, + { + "epoch": 1.0546666666666666, + "grad_norm": 13.125, + "learning_rate": 5.671436332253977e-06, + "loss": 1.8619860410690308, + "step": 1582 + }, + { + "epoch": 1.056, + "grad_norm": 28.0, + "learning_rate": 5.662446967838888e-06, + "loss": 1.3870640993118286, + "step": 1584 + }, + { + "epoch": 1.0573333333333332, + "grad_norm": 4.78125, + "learning_rate": 5.653458400098461e-06, + "loss": 1.4273823499679565, + "step": 1586 + }, + { + "epoch": 1.0586666666666666, + "grad_norm": 3.484375, + "learning_rate": 5.644470670937521e-06, + "loss": 1.3886492252349854, + "step": 1588 + }, + { + "epoch": 1.06, + "grad_norm": 1.296875, + "learning_rate": 5.635483822256991e-06, + "loss": 1.109363317489624, + "step": 1590 + }, + { + "epoch": 1.0613333333333332, + "grad_norm": 2.859375, + "learning_rate": 5.626497895953685e-06, + "loss": 0.9141336679458618, + "step": 1592 + }, + { + "epoch": 1.0626666666666666, + "grad_norm": 6.125, + "learning_rate": 5.617512933920124e-06, + "loss": 1.3852533102035522, + "step": 1594 + }, + { + "epoch": 1.064, + "grad_norm": 7.65625, + "learning_rate": 5.608528978044323e-06, + "loss": 1.6646533012390137, + "step": 1596 + }, + { + "epoch": 1.0653333333333332, + "grad_norm": 5.125, + "learning_rate": 5.599546070209616e-06, + "loss": 1.457612156867981, + "step": 1598 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 4.53125, + "learning_rate": 5.590564252294443e-06, + "loss": 1.4722715616226196, + "step": 1600 + }, + { + "epoch": 1.068, + "grad_norm": 16.25, + "learning_rate": 5.581583566172169e-06, + "loss": 1.3487780094146729, + "step": 1602 + }, + { + "epoch": 1.0693333333333332, + "grad_norm": 4.90625, + "learning_rate": 5.5726040537108775e-06, + "loss": 1.5795001983642578, + "step": 1604 + }, + { + "epoch": 1.0706666666666667, + "grad_norm": 4.6875, + "learning_rate": 5.5636257567731855e-06, + "loss": 1.5326015949249268, + "step": 1606 + }, + { + "epoch": 1.072, + "grad_norm": 6.0625, + "learning_rate": 5.554648717216038e-06, + "loss": 1.40179443359375, + "step": 1608 + }, + { + "epoch": 1.0733333333333333, + "grad_norm": 5.9375, + "learning_rate": 5.545672976890523e-06, + "loss": 1.750922441482544, + "step": 1610 + }, + { + "epoch": 1.0746666666666667, + "grad_norm": 17.125, + "learning_rate": 5.536698577641669e-06, + "loss": 1.8629913330078125, + "step": 1612 + }, + { + "epoch": 1.076, + "grad_norm": 1.9453125, + "learning_rate": 5.5277255613082526e-06, + "loss": 1.1251063346862793, + "step": 1614 + }, + { + "epoch": 1.0773333333333333, + "grad_norm": 4.3125, + "learning_rate": 5.518753969722601e-06, + "loss": 1.4921822547912598, + "step": 1616 + }, + { + "epoch": 1.0786666666666667, + "grad_norm": 1.8671875, + "learning_rate": 5.509783844710404e-06, + "loss": 1.209433674812317, + "step": 1618 + }, + { + "epoch": 1.08, + "grad_norm": 3.75, + "learning_rate": 5.50081522809051e-06, + "loss": 1.4612817764282227, + "step": 1620 + }, + { + "epoch": 1.0813333333333333, + "grad_norm": 8.0, + "learning_rate": 5.491848161674737e-06, + "loss": 1.541589379310608, + "step": 1622 + }, + { + "epoch": 1.0826666666666667, + "grad_norm": 1.859375, + "learning_rate": 5.482882687267677e-06, + "loss": 1.2038989067077637, + "step": 1624 + }, + { + "epoch": 1.084, + "grad_norm": 3.0, + "learning_rate": 5.473918846666497e-06, + "loss": 1.2030503749847412, + "step": 1626 + }, + { + "epoch": 1.0853333333333333, + "grad_norm": 3.984375, + "learning_rate": 5.464956681660749e-06, + "loss": 1.0769493579864502, + "step": 1628 + }, + { + "epoch": 1.0866666666666667, + "grad_norm": 2.8125, + "learning_rate": 5.455996234032177e-06, + "loss": 1.2764222621917725, + "step": 1630 + }, + { + "epoch": 1.088, + "grad_norm": 8.1875, + "learning_rate": 5.44703754555451e-06, + "loss": 1.7506179809570312, + "step": 1632 + }, + { + "epoch": 1.0893333333333333, + "grad_norm": 17.75, + "learning_rate": 5.4380806579932835e-06, + "loss": 1.7872695922851562, + "step": 1634 + }, + { + "epoch": 1.0906666666666667, + "grad_norm": 4.25, + "learning_rate": 5.429125613105633e-06, + "loss": 1.408817172050476, + "step": 1636 + }, + { + "epoch": 1.092, + "grad_norm": 7.5, + "learning_rate": 5.420172452640107e-06, + "loss": 1.7498708963394165, + "step": 1638 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 4.875, + "learning_rate": 5.411221218336463e-06, + "loss": 1.3137381076812744, + "step": 1640 + }, + { + "epoch": 1.0946666666666667, + "grad_norm": 5.53125, + "learning_rate": 5.4022719519254855e-06, + "loss": 1.5489161014556885, + "step": 1642 + }, + { + "epoch": 1.096, + "grad_norm": 2.09375, + "learning_rate": 5.393324695128779e-06, + "loss": 1.0227785110473633, + "step": 1644 + }, + { + "epoch": 1.0973333333333333, + "grad_norm": 8.875, + "learning_rate": 5.3843794896585835e-06, + "loss": 0.24966874718666077, + "step": 1646 + }, + { + "epoch": 1.0986666666666667, + "grad_norm": 4.375, + "learning_rate": 5.375436377217571e-06, + "loss": 1.442673921585083, + "step": 1648 + }, + { + "epoch": 1.1, + "grad_norm": 4.21875, + "learning_rate": 5.366495399498661e-06, + "loss": 1.3785851001739502, + "step": 1650 + }, + { + "epoch": 1.1013333333333333, + "grad_norm": 7.5, + "learning_rate": 5.357556598184819e-06, + "loss": 1.7751030921936035, + "step": 1652 + }, + { + "epoch": 1.1026666666666667, + "grad_norm": 6.5625, + "learning_rate": 5.348620014948862e-06, + "loss": 1.5587515830993652, + "step": 1654 + }, + { + "epoch": 1.104, + "grad_norm": 4.4375, + "learning_rate": 5.3396856914532666e-06, + "loss": 1.446319580078125, + "step": 1656 + }, + { + "epoch": 1.1053333333333333, + "grad_norm": 1.5703125, + "learning_rate": 5.330753669349978e-06, + "loss": 1.0275702476501465, + "step": 1658 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 7.9375, + "learning_rate": 5.321823990280208e-06, + "loss": 1.3751928806304932, + "step": 1660 + }, + { + "epoch": 1.108, + "grad_norm": 4.8125, + "learning_rate": 5.31289669587425e-06, + "loss": 1.4437367916107178, + "step": 1662 + }, + { + "epoch": 1.1093333333333333, + "grad_norm": 4.53125, + "learning_rate": 5.303971827751273e-06, + "loss": 1.497580647468567, + "step": 1664 + }, + { + "epoch": 1.1106666666666667, + "grad_norm": 1.5390625, + "learning_rate": 5.295049427519141e-06, + "loss": 1.0452079772949219, + "step": 1666 + }, + { + "epoch": 1.112, + "grad_norm": 4.46875, + "learning_rate": 5.286129536774211e-06, + "loss": 1.5819206237792969, + "step": 1668 + }, + { + "epoch": 1.1133333333333333, + "grad_norm": 3.3125, + "learning_rate": 5.2772121971011384e-06, + "loss": 1.5034122467041016, + "step": 1670 + }, + { + "epoch": 1.1146666666666667, + "grad_norm": 6.375, + "learning_rate": 5.268297450072687e-06, + "loss": 1.442948341369629, + "step": 1672 + }, + { + "epoch": 1.116, + "grad_norm": 1.765625, + "learning_rate": 5.259385337249536e-06, + "loss": 1.045128345489502, + "step": 1674 + }, + { + "epoch": 1.1173333333333333, + "grad_norm": 3.265625, + "learning_rate": 5.250475900180081e-06, + "loss": 1.1670646667480469, + "step": 1676 + }, + { + "epoch": 1.1186666666666667, + "grad_norm": 8.1875, + "learning_rate": 5.241569180400243e-06, + "loss": 1.6837050914764404, + "step": 1678 + }, + { + "epoch": 1.12, + "grad_norm": 17.25, + "learning_rate": 5.232665219433276e-06, + "loss": 1.7098231315612793, + "step": 1680 + }, + { + "epoch": 1.1213333333333333, + "grad_norm": 3.984375, + "learning_rate": 5.223764058789573e-06, + "loss": 1.4151331186294556, + "step": 1682 + }, + { + "epoch": 1.1226666666666667, + "grad_norm": 4.875, + "learning_rate": 5.214865739966471e-06, + "loss": 1.4133689403533936, + "step": 1684 + }, + { + "epoch": 1.124, + "grad_norm": 4.25, + "learning_rate": 5.205970304448058e-06, + "loss": 1.3391132354736328, + "step": 1686 + }, + { + "epoch": 1.1253333333333333, + "grad_norm": 6.3125, + "learning_rate": 5.197077793704981e-06, + "loss": 1.3253040313720703, + "step": 1688 + }, + { + "epoch": 1.1266666666666667, + "grad_norm": 5.4375, + "learning_rate": 5.188188249194251e-06, + "loss": 1.507164478302002, + "step": 1690 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 9.25, + "learning_rate": 5.1793017123590505e-06, + "loss": 1.377781629562378, + "step": 1692 + }, + { + "epoch": 1.1293333333333333, + "grad_norm": 2.171875, + "learning_rate": 5.170418224628541e-06, + "loss": 1.006546974182129, + "step": 1694 + }, + { + "epoch": 1.1306666666666667, + "grad_norm": 5.78125, + "learning_rate": 5.1615378274176674e-06, + "loss": 1.8399200439453125, + "step": 1696 + }, + { + "epoch": 1.1320000000000001, + "grad_norm": 4.875, + "learning_rate": 5.152660562126967e-06, + "loss": 1.4275052547454834, + "step": 1698 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 1.1015625, + "learning_rate": 5.143786470142378e-06, + "loss": 1.1076140403747559, + "step": 1700 + }, + { + "epoch": 1.1346666666666667, + "grad_norm": 5.6875, + "learning_rate": 5.134915592835041e-06, + "loss": 1.487177848815918, + "step": 1702 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 10.25, + "learning_rate": 5.126047971561115e-06, + "loss": 1.8975412845611572, + "step": 1704 + }, + { + "epoch": 1.1373333333333333, + "grad_norm": 3.25, + "learning_rate": 5.117183647661572e-06, + "loss": 1.4046539068222046, + "step": 1706 + }, + { + "epoch": 1.1386666666666667, + "grad_norm": 6.09375, + "learning_rate": 5.108322662462018e-06, + "loss": 1.5340514183044434, + "step": 1708 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 6.40625, + "learning_rate": 5.099465057272491e-06, + "loss": 0.9755153059959412, + "step": 1710 + }, + { + "epoch": 1.1413333333333333, + "grad_norm": 4.25, + "learning_rate": 5.090610873387274e-06, + "loss": 1.375262975692749, + "step": 1712 + }, + { + "epoch": 1.1426666666666667, + "grad_norm": 5.46875, + "learning_rate": 5.081760152084694e-06, + "loss": 1.8634710311889648, + "step": 1714 + }, + { + "epoch": 1.144, + "grad_norm": 3.90625, + "learning_rate": 5.072912934626943e-06, + "loss": 1.1578799486160278, + "step": 1716 + }, + { + "epoch": 1.1453333333333333, + "grad_norm": 15.75, + "learning_rate": 5.064069262259872e-06, + "loss": 1.7285916805267334, + "step": 1718 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 5.8125, + "learning_rate": 5.055229176212808e-06, + "loss": 1.4551498889923096, + "step": 1720 + }, + { + "epoch": 1.148, + "grad_norm": 7.4375, + "learning_rate": 5.046392717698355e-06, + "loss": 1.5213419198989868, + "step": 1722 + }, + { + "epoch": 1.1493333333333333, + "grad_norm": 6.0, + "learning_rate": 5.037559927912212e-06, + "loss": 1.4255318641662598, + "step": 1724 + }, + { + "epoch": 1.1506666666666667, + "grad_norm": 8.5625, + "learning_rate": 5.028730848032968e-06, + "loss": 1.910698413848877, + "step": 1726 + }, + { + "epoch": 1.152, + "grad_norm": 76.0, + "learning_rate": 5.019905519221917e-06, + "loss": 0.788556694984436, + "step": 1728 + }, + { + "epoch": 1.1533333333333333, + "grad_norm": 4.1875, + "learning_rate": 5.011083982622871e-06, + "loss": 1.4046937227249146, + "step": 1730 + }, + { + "epoch": 1.1546666666666667, + "grad_norm": 6.25, + "learning_rate": 5.0022662793619555e-06, + "loss": 1.6050171852111816, + "step": 1732 + }, + { + "epoch": 1.156, + "grad_norm": 13.75, + "learning_rate": 4.993452450547429e-06, + "loss": 1.185960292816162, + "step": 1734 + }, + { + "epoch": 1.1573333333333333, + "grad_norm": 4.59375, + "learning_rate": 4.984642537269487e-06, + "loss": 1.559330701828003, + "step": 1736 + }, + { + "epoch": 1.1586666666666667, + "grad_norm": 5.78125, + "learning_rate": 4.975836580600069e-06, + "loss": 1.9091460704803467, + "step": 1738 + }, + { + "epoch": 1.16, + "grad_norm": 21.375, + "learning_rate": 4.96703462159267e-06, + "loss": 1.2126508951187134, + "step": 1740 + }, + { + "epoch": 1.1613333333333333, + "grad_norm": 3.78125, + "learning_rate": 4.958236701282149e-06, + "loss": 1.3792331218719482, + "step": 1742 + }, + { + "epoch": 1.1626666666666667, + "grad_norm": 6.03125, + "learning_rate": 4.9494428606845335e-06, + "loss": 1.8158106803894043, + "step": 1744 + }, + { + "epoch": 1.164, + "grad_norm": 5.53125, + "learning_rate": 4.940653140796835e-06, + "loss": 1.2978074550628662, + "step": 1746 + }, + { + "epoch": 1.1653333333333333, + "grad_norm": 4.4375, + "learning_rate": 4.931867582596851e-06, + "loss": 1.339666724205017, + "step": 1748 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 7.40625, + "learning_rate": 4.923086227042978e-06, + "loss": 1.487107276916504, + "step": 1750 + }, + { + "epoch": 1.168, + "grad_norm": 5.21875, + "learning_rate": 4.914309115074021e-06, + "loss": 1.468918800354004, + "step": 1752 + }, + { + "epoch": 1.1693333333333333, + "grad_norm": 1.859375, + "learning_rate": 4.9055362876090005e-06, + "loss": 1.0235750675201416, + "step": 1754 + }, + { + "epoch": 1.1706666666666667, + "grad_norm": 4.375, + "learning_rate": 4.896767785546963e-06, + "loss": 1.5452258586883545, + "step": 1756 + }, + { + "epoch": 1.172, + "grad_norm": 4.375, + "learning_rate": 4.888003649766786e-06, + "loss": 1.1912848949432373, + "step": 1758 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 6.46875, + "learning_rate": 4.879243921127e-06, + "loss": 1.8611294031143188, + "step": 1760 + }, + { + "epoch": 1.1746666666666667, + "grad_norm": 17.25, + "learning_rate": 4.870488640465579e-06, + "loss": 1.4652965068817139, + "step": 1762 + }, + { + "epoch": 1.176, + "grad_norm": 2.703125, + "learning_rate": 4.861737848599769e-06, + "loss": 1.2129669189453125, + "step": 1764 + }, + { + "epoch": 1.1773333333333333, + "grad_norm": 7.4375, + "learning_rate": 4.8529915863258855e-06, + "loss": 1.679603099822998, + "step": 1766 + }, + { + "epoch": 1.1786666666666668, + "grad_norm": 5.28125, + "learning_rate": 4.844249894419126e-06, + "loss": 1.4588364362716675, + "step": 1768 + }, + { + "epoch": 1.18, + "grad_norm": 1.8984375, + "learning_rate": 4.835512813633384e-06, + "loss": 0.9822990298271179, + "step": 1770 + }, + { + "epoch": 1.1813333333333333, + "grad_norm": 2.59375, + "learning_rate": 4.826780384701051e-06, + "loss": 1.3673211336135864, + "step": 1772 + }, + { + "epoch": 1.1826666666666668, + "grad_norm": 9.875, + "learning_rate": 4.818052648332835e-06, + "loss": 1.3989946842193604, + "step": 1774 + }, + { + "epoch": 1.184, + "grad_norm": 6.03125, + "learning_rate": 4.8093296452175694e-06, + "loss": 1.4319931268692017, + "step": 1776 + }, + { + "epoch": 1.1853333333333333, + "grad_norm": 15.125, + "learning_rate": 4.800611416022017e-06, + "loss": 1.6122653484344482, + "step": 1778 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 2.046875, + "learning_rate": 4.791898001390686e-06, + "loss": 1.1115684509277344, + "step": 1780 + }, + { + "epoch": 1.188, + "grad_norm": 2.09375, + "learning_rate": 4.783189441945639e-06, + "loss": 1.0223889350891113, + "step": 1782 + }, + { + "epoch": 1.1893333333333334, + "grad_norm": 13.0, + "learning_rate": 4.7744857782863036e-06, + "loss": 1.4864284992218018, + "step": 1784 + }, + { + "epoch": 1.1906666666666668, + "grad_norm": 4.125, + "learning_rate": 4.765787050989282e-06, + "loss": 1.0978294610977173, + "step": 1786 + }, + { + "epoch": 1.192, + "grad_norm": 7.5, + "learning_rate": 4.757093300608166e-06, + "loss": 0.9597824811935425, + "step": 1788 + }, + { + "epoch": 1.1933333333333334, + "grad_norm": 2.78125, + "learning_rate": 4.7484045676733415e-06, + "loss": 1.156911849975586, + "step": 1790 + }, + { + "epoch": 1.1946666666666665, + "grad_norm": 3.890625, + "learning_rate": 4.7397208926918045e-06, + "loss": 1.52815842628479, + "step": 1792 + }, + { + "epoch": 1.196, + "grad_norm": 4.0625, + "learning_rate": 4.731042316146973e-06, + "loss": 1.4148904085159302, + "step": 1794 + }, + { + "epoch": 1.1973333333333334, + "grad_norm": 7.25, + "learning_rate": 4.722368878498493e-06, + "loss": 1.563035249710083, + "step": 1796 + }, + { + "epoch": 1.1986666666666665, + "grad_norm": 6.78125, + "learning_rate": 4.713700620182053e-06, + "loss": 1.3035117387771606, + "step": 1798 + }, + { + "epoch": 1.2, + "grad_norm": 5.78125, + "learning_rate": 4.705037581609198e-06, + "loss": 1.445461392402649, + "step": 1800 + }, + { + "epoch": 1.2013333333333334, + "grad_norm": 8.4375, + "learning_rate": 4.696379803167134e-06, + "loss": 1.735097885131836, + "step": 1802 + }, + { + "epoch": 1.2026666666666666, + "grad_norm": 4.71875, + "learning_rate": 4.687727325218548e-06, + "loss": 1.4002565145492554, + "step": 1804 + }, + { + "epoch": 1.204, + "grad_norm": 3.078125, + "learning_rate": 4.679080188101416e-06, + "loss": 1.1411118507385254, + "step": 1806 + }, + { + "epoch": 1.2053333333333334, + "grad_norm": 5.4375, + "learning_rate": 4.670438432128812e-06, + "loss": 1.8767681121826172, + "step": 1808 + }, + { + "epoch": 1.2066666666666666, + "grad_norm": 5.21875, + "learning_rate": 4.661802097588727e-06, + "loss": 1.4633359909057617, + "step": 1810 + }, + { + "epoch": 1.208, + "grad_norm": 1.2734375, + "learning_rate": 4.653171224743872e-06, + "loss": 1.1138715744018555, + "step": 1812 + }, + { + "epoch": 1.2093333333333334, + "grad_norm": 2.640625, + "learning_rate": 4.644545853831501e-06, + "loss": 1.0692567825317383, + "step": 1814 + }, + { + "epoch": 1.2106666666666666, + "grad_norm": 7.59375, + "learning_rate": 4.635926025063216e-06, + "loss": 1.3959109783172607, + "step": 1816 + }, + { + "epoch": 1.212, + "grad_norm": 5.03125, + "learning_rate": 4.62731177862478e-06, + "loss": 1.3984177112579346, + "step": 1818 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 6.625, + "learning_rate": 4.618703154675931e-06, + "loss": 0.8294498920440674, + "step": 1820 + }, + { + "epoch": 1.2146666666666666, + "grad_norm": 12.1875, + "learning_rate": 4.610100193350197e-06, + "loss": 1.740832805633545, + "step": 1822 + }, + { + "epoch": 1.216, + "grad_norm": 2.734375, + "learning_rate": 4.601502934754706e-06, + "loss": 1.155540108680725, + "step": 1824 + }, + { + "epoch": 1.2173333333333334, + "grad_norm": 3.5625, + "learning_rate": 4.592911418969999e-06, + "loss": 1.4470839500427246, + "step": 1826 + }, + { + "epoch": 1.2186666666666666, + "grad_norm": 7.6875, + "learning_rate": 4.584325686049843e-06, + "loss": 1.1068997383117676, + "step": 1828 + }, + { + "epoch": 1.22, + "grad_norm": 13.5625, + "learning_rate": 4.57574577602105e-06, + "loss": 1.221320629119873, + "step": 1830 + }, + { + "epoch": 1.2213333333333334, + "grad_norm": 2.296875, + "learning_rate": 4.567171728883279e-06, + "loss": 1.142722725868225, + "step": 1832 + }, + { + "epoch": 1.2226666666666666, + "grad_norm": 4.15625, + "learning_rate": 4.558603584608859e-06, + "loss": 1.4071441888809204, + "step": 1834 + }, + { + "epoch": 1.224, + "grad_norm": 1.46875, + "learning_rate": 4.5500413831426034e-06, + "loss": 0.9861024022102356, + "step": 1836 + }, + { + "epoch": 1.2253333333333334, + "grad_norm": 1.390625, + "learning_rate": 4.541485164401616e-06, + "loss": 1.1196272373199463, + "step": 1838 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 6.46875, + "learning_rate": 4.532934968275108e-06, + "loss": 1.842470645904541, + "step": 1840 + }, + { + "epoch": 1.228, + "grad_norm": 5.15625, + "learning_rate": 4.524390834624216e-06, + "loss": 1.4868441820144653, + "step": 1842 + }, + { + "epoch": 1.2293333333333334, + "grad_norm": 2.734375, + "learning_rate": 4.5158528032818115e-06, + "loss": 1.111555814743042, + "step": 1844 + }, + { + "epoch": 1.2306666666666666, + "grad_norm": 11.0625, + "learning_rate": 4.507320914052319e-06, + "loss": 1.41820228099823, + "step": 1846 + }, + { + "epoch": 1.232, + "grad_norm": 6.53125, + "learning_rate": 4.498795206711525e-06, + "loss": 1.8366367816925049, + "step": 1848 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 2.828125, + "learning_rate": 4.4902757210064005e-06, + "loss": 1.1064856052398682, + "step": 1850 + }, + { + "epoch": 1.2346666666666666, + "grad_norm": 5.0625, + "learning_rate": 4.481762496654908e-06, + "loss": 1.5134849548339844, + "step": 1852 + }, + { + "epoch": 1.236, + "grad_norm": 2.171875, + "learning_rate": 4.473255573345819e-06, + "loss": 1.0301719903945923, + "step": 1854 + }, + { + "epoch": 1.2373333333333334, + "grad_norm": 4.71875, + "learning_rate": 4.464754990738531e-06, + "loss": 1.4889826774597168, + "step": 1856 + }, + { + "epoch": 1.2386666666666666, + "grad_norm": 10.8125, + "learning_rate": 4.45626078846288e-06, + "loss": 1.9825019836425781, + "step": 1858 + }, + { + "epoch": 1.24, + "grad_norm": 7.21875, + "learning_rate": 4.447773006118961e-06, + "loss": 1.425232172012329, + "step": 1860 + }, + { + "epoch": 1.2413333333333334, + "grad_norm": 3.609375, + "learning_rate": 4.439291683276931e-06, + "loss": 1.4104689359664917, + "step": 1862 + }, + { + "epoch": 1.2426666666666666, + "grad_norm": 5.3125, + "learning_rate": 4.43081685947684e-06, + "loss": 1.4762451648712158, + "step": 1864 + }, + { + "epoch": 1.244, + "grad_norm": 8.6875, + "learning_rate": 4.422348574228434e-06, + "loss": 1.7859766483306885, + "step": 1866 + }, + { + "epoch": 1.2453333333333334, + "grad_norm": 2.78125, + "learning_rate": 4.413886867010984e-06, + "loss": 1.1129896640777588, + "step": 1868 + }, + { + "epoch": 1.2466666666666666, + "grad_norm": 6.96875, + "learning_rate": 4.405431777273084e-06, + "loss": 1.415675401687622, + "step": 1870 + }, + { + "epoch": 1.248, + "grad_norm": 2.078125, + "learning_rate": 4.396983344432485e-06, + "loss": 0.9921229481697083, + "step": 1872 + }, + { + "epoch": 1.2493333333333334, + "grad_norm": 4.34375, + "learning_rate": 4.3885416078759e-06, + "loss": 1.444735050201416, + "step": 1874 + }, + { + "epoch": 1.2506666666666666, + "grad_norm": 11.625, + "learning_rate": 4.380106606958824e-06, + "loss": 1.397036075592041, + "step": 1876 + }, + { + "epoch": 1.252, + "grad_norm": 5.125, + "learning_rate": 4.371678381005352e-06, + "loss": 1.4307284355163574, + "step": 1878 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 1.4765625, + "learning_rate": 4.363256969307992e-06, + "loss": 1.1688439846038818, + "step": 1880 + }, + { + "epoch": 1.2546666666666666, + "grad_norm": 1.28125, + "learning_rate": 4.3548424111274835e-06, + "loss": 1.0812777280807495, + "step": 1882 + }, + { + "epoch": 1.256, + "grad_norm": 1.4453125, + "learning_rate": 4.3464347456926186e-06, + "loss": 1.224534034729004, + "step": 1884 + }, + { + "epoch": 1.2573333333333334, + "grad_norm": 2.5625, + "learning_rate": 4.338034012200051e-06, + "loss": 1.0692505836486816, + "step": 1886 + }, + { + "epoch": 1.2586666666666666, + "grad_norm": 7.53125, + "learning_rate": 4.329640249814121e-06, + "loss": 1.8193671703338623, + "step": 1888 + }, + { + "epoch": 1.26, + "grad_norm": 6.28125, + "learning_rate": 4.3212534976666655e-06, + "loss": 1.3666338920593262, + "step": 1890 + }, + { + "epoch": 1.2613333333333334, + "grad_norm": 8.75, + "learning_rate": 4.312873794856845e-06, + "loss": 1.7071934938430786, + "step": 1892 + }, + { + "epoch": 1.2626666666666666, + "grad_norm": 10.875, + "learning_rate": 4.30450118045095e-06, + "loss": 1.441591501235962, + "step": 1894 + }, + { + "epoch": 1.264, + "grad_norm": 7.6875, + "learning_rate": 4.2961356934822294e-06, + "loss": 1.3926138877868652, + "step": 1896 + }, + { + "epoch": 1.2653333333333334, + "grad_norm": 16.75, + "learning_rate": 4.287777372950701e-06, + "loss": 1.9801844358444214, + "step": 1898 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 2.75, + "learning_rate": 4.279426257822973e-06, + "loss": 0.9289498329162598, + "step": 1900 + }, + { + "epoch": 1.268, + "grad_norm": 5.3125, + "learning_rate": 4.271082387032064e-06, + "loss": 1.5062365531921387, + "step": 1902 + }, + { + "epoch": 1.2693333333333334, + "grad_norm": 1.6328125, + "learning_rate": 4.262745799477217e-06, + "loss": 1.3158210515975952, + "step": 1904 + }, + { + "epoch": 1.2706666666666666, + "grad_norm": 7.5625, + "learning_rate": 4.254416534023722e-06, + "loss": 1.9733731746673584, + "step": 1906 + }, + { + "epoch": 1.272, + "grad_norm": 4.875, + "learning_rate": 4.246094629502733e-06, + "loss": 1.4407968521118164, + "step": 1908 + }, + { + "epoch": 1.2733333333333334, + "grad_norm": 4.40625, + "learning_rate": 4.2377801247110865e-06, + "loss": 0.6475011706352234, + "step": 1910 + }, + { + "epoch": 1.2746666666666666, + "grad_norm": 2.125, + "learning_rate": 4.229473058411121e-06, + "loss": 1.043494462966919, + "step": 1912 + }, + { + "epoch": 1.276, + "grad_norm": 3.984375, + "learning_rate": 4.2211734693304976e-06, + "loss": 1.1116821765899658, + "step": 1914 + }, + { + "epoch": 1.2773333333333334, + "grad_norm": 4.84375, + "learning_rate": 4.212881396162019e-06, + "loss": 1.4613234996795654, + "step": 1916 + }, + { + "epoch": 1.2786666666666666, + "grad_norm": 4.75, + "learning_rate": 4.204596877563448e-06, + "loss": 1.0637935400009155, + "step": 1918 + }, + { + "epoch": 1.28, + "grad_norm": 1.453125, + "learning_rate": 4.1963199521573265e-06, + "loss": 1.301331639289856, + "step": 1920 + }, + { + "epoch": 1.2813333333333334, + "grad_norm": 3.703125, + "learning_rate": 4.188050658530799e-06, + "loss": 1.419353723526001, + "step": 1922 + }, + { + "epoch": 1.2826666666666666, + "grad_norm": 0.94921875, + "learning_rate": 4.179789035235429e-06, + "loss": 1.1043145656585693, + "step": 1924 + }, + { + "epoch": 1.284, + "grad_norm": 9.5, + "learning_rate": 4.171535120787022e-06, + "loss": 1.3741405010223389, + "step": 1926 + }, + { + "epoch": 1.2853333333333334, + "grad_norm": 3.140625, + "learning_rate": 4.163288953665444e-06, + "loss": 1.1466556787490845, + "step": 1928 + }, + { + "epoch": 1.2866666666666666, + "grad_norm": 7.5, + "learning_rate": 4.155050572314444e-06, + "loss": 1.950070858001709, + "step": 1930 + }, + { + "epoch": 1.288, + "grad_norm": 12.125, + "learning_rate": 4.146820015141471e-06, + "loss": 1.7856245040893555, + "step": 1932 + }, + { + "epoch": 1.2893333333333334, + "grad_norm": 10.25, + "learning_rate": 4.1385973205175e-06, + "loss": 1.5132737159729004, + "step": 1934 + }, + { + "epoch": 1.2906666666666666, + "grad_norm": 4.21875, + "learning_rate": 4.13038252677685e-06, + "loss": 1.7371140718460083, + "step": 1936 + }, + { + "epoch": 1.292, + "grad_norm": 5.25, + "learning_rate": 4.122175672217006e-06, + "loss": 1.3733547925949097, + "step": 1938 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 14.125, + "learning_rate": 4.113976795098441e-06, + "loss": 1.6105353832244873, + "step": 1940 + }, + { + "epoch": 1.2946666666666666, + "grad_norm": 4.09375, + "learning_rate": 4.105785933644435e-06, + "loss": 1.4054853916168213, + "step": 1942 + }, + { + "epoch": 1.296, + "grad_norm": 7.1875, + "learning_rate": 4.097603126040899e-06, + "loss": 1.4901647567749023, + "step": 1944 + }, + { + "epoch": 1.2973333333333334, + "grad_norm": 4.90625, + "learning_rate": 4.089428410436202e-06, + "loss": 1.127669334411621, + "step": 1946 + }, + { + "epoch": 1.2986666666666666, + "grad_norm": 29.125, + "learning_rate": 4.081261824940981e-06, + "loss": 1.8731911182403564, + "step": 1948 + }, + { + "epoch": 1.3, + "grad_norm": 4.15625, + "learning_rate": 4.073103407627975e-06, + "loss": 1.436967134475708, + "step": 1950 + }, + { + "epoch": 1.3013333333333335, + "grad_norm": 5.3125, + "learning_rate": 4.06495319653184e-06, + "loss": 1.4082098007202148, + "step": 1952 + }, + { + "epoch": 1.3026666666666666, + "grad_norm": 7.28125, + "learning_rate": 4.056811229648977e-06, + "loss": 1.4131418466567993, + "step": 1954 + }, + { + "epoch": 1.304, + "grad_norm": 6.25, + "learning_rate": 4.0486775449373476e-06, + "loss": 1.5199666023254395, + "step": 1956 + }, + { + "epoch": 1.3053333333333335, + "grad_norm": 5.90625, + "learning_rate": 4.04055218031631e-06, + "loss": 1.4956390857696533, + "step": 1958 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 57.25, + "learning_rate": 4.032435173666427e-06, + "loss": 1.8000434637069702, + "step": 1960 + }, + { + "epoch": 1.308, + "grad_norm": 27.25, + "learning_rate": 4.0243265628293e-06, + "loss": 1.5463436841964722, + "step": 1962 + }, + { + "epoch": 1.3093333333333335, + "grad_norm": 7.15625, + "learning_rate": 4.0162263856073845e-06, + "loss": 1.0135364532470703, + "step": 1964 + }, + { + "epoch": 1.3106666666666666, + "grad_norm": 16.375, + "learning_rate": 4.008134679763825e-06, + "loss": 1.7062512636184692, + "step": 1966 + }, + { + "epoch": 1.312, + "grad_norm": 1.640625, + "learning_rate": 4.000051483022266e-06, + "loss": 1.0296456813812256, + "step": 1968 + }, + { + "epoch": 1.3133333333333335, + "grad_norm": 8.1875, + "learning_rate": 3.991976833066687e-06, + "loss": 1.2677695751190186, + "step": 1970 + }, + { + "epoch": 1.3146666666666667, + "grad_norm": 12.375, + "learning_rate": 3.983910767541221e-06, + "loss": 1.590986728668213, + "step": 1972 + }, + { + "epoch": 1.316, + "grad_norm": 7.6875, + "learning_rate": 3.975853324049979e-06, + "loss": 1.8669140338897705, + "step": 1974 + }, + { + "epoch": 1.3173333333333335, + "grad_norm": 5.375, + "learning_rate": 3.967804540156878e-06, + "loss": 1.4626425504684448, + "step": 1976 + }, + { + "epoch": 1.3186666666666667, + "grad_norm": 5.21875, + "learning_rate": 3.9597644533854604e-06, + "loss": 1.3915584087371826, + "step": 1978 + }, + { + "epoch": 1.32, + "grad_norm": 5.375, + "learning_rate": 3.951733101218726e-06, + "loss": 1.3798573017120361, + "step": 1980 + }, + { + "epoch": 1.3213333333333335, + "grad_norm": 5.0625, + "learning_rate": 3.943710521098953e-06, + "loss": 1.3979811668395996, + "step": 1982 + }, + { + "epoch": 1.3226666666666667, + "grad_norm": 7.6875, + "learning_rate": 3.935696750427523e-06, + "loss": 1.8864164352416992, + "step": 1984 + }, + { + "epoch": 1.324, + "grad_norm": 3.109375, + "learning_rate": 3.927691826564748e-06, + "loss": 1.28287672996521, + "step": 1986 + }, + { + "epoch": 1.3253333333333333, + "grad_norm": 6.15625, + "learning_rate": 3.9196957868296956e-06, + "loss": 1.5379631519317627, + "step": 1988 + }, + { + "epoch": 1.3266666666666667, + "grad_norm": 4.3125, + "learning_rate": 3.91170866850002e-06, + "loss": 1.4094090461730957, + "step": 1990 + }, + { + "epoch": 1.328, + "grad_norm": 4.84375, + "learning_rate": 3.903730508811778e-06, + "loss": 1.4487733840942383, + "step": 1992 + }, + { + "epoch": 1.3293333333333333, + "grad_norm": 11.625, + "learning_rate": 3.8957613449592635e-06, + "loss": 1.5799566507339478, + "step": 1994 + }, + { + "epoch": 1.3306666666666667, + "grad_norm": 7.125, + "learning_rate": 3.887801214094831e-06, + "loss": 1.9759260416030884, + "step": 1996 + }, + { + "epoch": 1.332, + "grad_norm": 6.125, + "learning_rate": 3.879850153328723e-06, + "loss": 1.0006651878356934, + "step": 1998 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 7.71875, + "learning_rate": 3.871908199728899e-06, + "loss": 1.775663137435913, + "step": 2000 + }, + { + "epoch": 1.3346666666666667, + "grad_norm": 7.28125, + "learning_rate": 3.863975390320857e-06, + "loss": 1.5372567176818848, + "step": 2002 + }, + { + "epoch": 1.336, + "grad_norm": 2.0, + "learning_rate": 3.85605176208747e-06, + "loss": 1.0319498777389526, + "step": 2004 + }, + { + "epoch": 1.3373333333333333, + "grad_norm": 5.6875, + "learning_rate": 3.8481373519688025e-06, + "loss": 1.3900774717330933, + "step": 2006 + }, + { + "epoch": 1.3386666666666667, + "grad_norm": 4.46875, + "learning_rate": 3.840232196861948e-06, + "loss": 1.4347116947174072, + "step": 2008 + }, + { + "epoch": 1.34, + "grad_norm": 6.53125, + "learning_rate": 3.832336333620851e-06, + "loss": 1.4486432075500488, + "step": 2010 + }, + { + "epoch": 1.3413333333333333, + "grad_norm": 2.234375, + "learning_rate": 3.824449799056139e-06, + "loss": 1.1662362813949585, + "step": 2012 + }, + { + "epoch": 1.3426666666666667, + "grad_norm": 5.40625, + "learning_rate": 3.816572629934947e-06, + "loss": 1.4935212135314941, + "step": 2014 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 4.375, + "learning_rate": 3.8087048629807487e-06, + "loss": 1.5006301403045654, + "step": 2016 + }, + { + "epoch": 1.3453333333333333, + "grad_norm": 11.3125, + "learning_rate": 3.8008465348731865e-06, + "loss": 1.8255863189697266, + "step": 2018 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 1.8515625, + "learning_rate": 3.7929976822478963e-06, + "loss": 1.1015727519989014, + "step": 2020 + }, + { + "epoch": 1.3479999999999999, + "grad_norm": 4.40625, + "learning_rate": 3.785158341696342e-06, + "loss": 1.4135279655456543, + "step": 2022 + }, + { + "epoch": 1.3493333333333333, + "grad_norm": 4.625, + "learning_rate": 3.777328549765638e-06, + "loss": 1.3733489513397217, + "step": 2024 + }, + { + "epoch": 1.3506666666666667, + "grad_norm": 5.6875, + "learning_rate": 3.769508342958387e-06, + "loss": 1.4328157901763916, + "step": 2026 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 5.5625, + "learning_rate": 3.7616977577325032e-06, + "loss": 1.6042231321334839, + "step": 2028 + }, + { + "epoch": 1.3533333333333333, + "grad_norm": 1.2109375, + "learning_rate": 3.753896830501045e-06, + "loss": 1.1938247680664062, + "step": 2030 + }, + { + "epoch": 1.3546666666666667, + "grad_norm": 16.125, + "learning_rate": 3.7461055976320482e-06, + "loss": 1.4999253749847412, + "step": 2032 + }, + { + "epoch": 1.3559999999999999, + "grad_norm": 8.0625, + "learning_rate": 3.738324095448349e-06, + "loss": 1.0432729721069336, + "step": 2034 + }, + { + "epoch": 1.3573333333333333, + "grad_norm": 6.28125, + "learning_rate": 3.730552360227422e-06, + "loss": 1.3648273944854736, + "step": 2036 + }, + { + "epoch": 1.3586666666666667, + "grad_norm": 6.375, + "learning_rate": 3.722790428201206e-06, + "loss": 1.8152570724487305, + "step": 2038 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 12.5, + "learning_rate": 3.715038335555939e-06, + "loss": 1.746189832687378, + "step": 2040 + }, + { + "epoch": 1.3613333333333333, + "grad_norm": 8.1875, + "learning_rate": 3.7072961184319857e-06, + "loss": 1.4744912385940552, + "step": 2042 + }, + { + "epoch": 1.3626666666666667, + "grad_norm": 2.3125, + "learning_rate": 3.6995638129236735e-06, + "loss": 1.0192598104476929, + "step": 2044 + }, + { + "epoch": 1.3639999999999999, + "grad_norm": 5.125, + "learning_rate": 3.6918414550791193e-06, + "loss": 1.4223957061767578, + "step": 2046 + }, + { + "epoch": 1.3653333333333333, + "grad_norm": 4.46875, + "learning_rate": 3.6841290809000636e-06, + "loss": 1.407201886177063, + "step": 2048 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 15.0625, + "learning_rate": 3.6764267263417073e-06, + "loss": 1.7757458686828613, + "step": 2050 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 5.34375, + "learning_rate": 3.6687344273125346e-06, + "loss": 1.4260222911834717, + "step": 2052 + }, + { + "epoch": 1.3693333333333333, + "grad_norm": 4.71875, + "learning_rate": 3.661052219674154e-06, + "loss": 1.3600423336029053, + "step": 2054 + }, + { + "epoch": 1.3706666666666667, + "grad_norm": 2.5, + "learning_rate": 3.653380139241125e-06, + "loss": 1.1860934495925903, + "step": 2056 + }, + { + "epoch": 1.3719999999999999, + "grad_norm": 4.75, + "learning_rate": 3.645718221780795e-06, + "loss": 1.4395768642425537, + "step": 2058 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 8.875, + "learning_rate": 3.638066503013134e-06, + "loss": 1.9235694408416748, + "step": 2060 + }, + { + "epoch": 1.3746666666666667, + "grad_norm": 3.5625, + "learning_rate": 3.6304250186105616e-06, + "loss": 1.2579543590545654, + "step": 2062 + }, + { + "epoch": 1.376, + "grad_norm": 11.0, + "learning_rate": 3.6227938041977863e-06, + "loss": 1.2985129356384277, + "step": 2064 + }, + { + "epoch": 1.3773333333333333, + "grad_norm": 5.78125, + "learning_rate": 3.615172895351639e-06, + "loss": 1.4874852895736694, + "step": 2066 + }, + { + "epoch": 1.3786666666666667, + "grad_norm": 8.5, + "learning_rate": 3.607562327600904e-06, + "loss": 1.846003770828247, + "step": 2068 + }, + { + "epoch": 1.38, + "grad_norm": 12.4375, + "learning_rate": 3.5999621364261572e-06, + "loss": 1.7919820547103882, + "step": 2070 + }, + { + "epoch": 1.3813333333333333, + "grad_norm": 5.09375, + "learning_rate": 3.592372357259596e-06, + "loss": 0.9578616619110107, + "step": 2072 + }, + { + "epoch": 1.3826666666666667, + "grad_norm": 15.6875, + "learning_rate": 3.5847930254848793e-06, + "loss": 1.4702143669128418, + "step": 2074 + }, + { + "epoch": 1.384, + "grad_norm": 4.34375, + "learning_rate": 3.5772241764369596e-06, + "loss": 1.4963748455047607, + "step": 2076 + }, + { + "epoch": 1.3853333333333333, + "grad_norm": 18.5, + "learning_rate": 3.569665845401918e-06, + "loss": 1.9716095924377441, + "step": 2078 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 4.8125, + "learning_rate": 3.562118067616799e-06, + "loss": 1.4789984226226807, + "step": 2080 + }, + { + "epoch": 1.388, + "grad_norm": 4.4375, + "learning_rate": 3.5545808782694536e-06, + "loss": 1.2054288387298584, + "step": 2082 + }, + { + "epoch": 1.3893333333333333, + "grad_norm": 5.84375, + "learning_rate": 3.5470543124983634e-06, + "loss": 1.1057885885238647, + "step": 2084 + }, + { + "epoch": 1.3906666666666667, + "grad_norm": 4.65625, + "learning_rate": 3.5395384053924855e-06, + "loss": 1.513080358505249, + "step": 2086 + }, + { + "epoch": 1.392, + "grad_norm": 47.0, + "learning_rate": 3.5320331919910845e-06, + "loss": 1.6390080451965332, + "step": 2088 + }, + { + "epoch": 1.3933333333333333, + "grad_norm": 5.5625, + "learning_rate": 3.524538707283571e-06, + "loss": 1.4461960792541504, + "step": 2090 + }, + { + "epoch": 1.3946666666666667, + "grad_norm": 4.78125, + "learning_rate": 3.517054986209341e-06, + "loss": 1.4935176372528076, + "step": 2092 + }, + { + "epoch": 1.396, + "grad_norm": 4.375, + "learning_rate": 3.5095820636576072e-06, + "loss": 1.443993330001831, + "step": 2094 + }, + { + "epoch": 1.3973333333333333, + "grad_norm": 4.8125, + "learning_rate": 3.50211997446724e-06, + "loss": 1.4108878374099731, + "step": 2096 + }, + { + "epoch": 1.3986666666666667, + "grad_norm": 4.75, + "learning_rate": 3.4946687534266054e-06, + "loss": 0.2819749712944031, + "step": 2098 + }, + { + "epoch": 1.4, + "grad_norm": 4.5625, + "learning_rate": 3.487228435273402e-06, + "loss": 1.4009244441986084, + "step": 2100 + }, + { + "epoch": 1.4013333333333333, + "grad_norm": 5.40625, + "learning_rate": 3.4797990546944983e-06, + "loss": 1.5566036701202393, + "step": 2102 + }, + { + "epoch": 1.4026666666666667, + "grad_norm": 2.828125, + "learning_rate": 3.4723806463257713e-06, + "loss": 0.9677723050117493, + "step": 2104 + }, + { + "epoch": 1.404, + "grad_norm": 1.8125, + "learning_rate": 3.464973244751947e-06, + "loss": 1.0396676063537598, + "step": 2106 + }, + { + "epoch": 1.4053333333333333, + "grad_norm": 7.78125, + "learning_rate": 3.4575768845064356e-06, + "loss": 0.672480046749115, + "step": 2108 + }, + { + "epoch": 1.4066666666666667, + "grad_norm": 5.34375, + "learning_rate": 3.4501916000711745e-06, + "loss": 1.828851342201233, + "step": 2110 + }, + { + "epoch": 1.408, + "grad_norm": 1.6875, + "learning_rate": 3.442817425876463e-06, + "loss": 0.9009377956390381, + "step": 2112 + }, + { + "epoch": 1.4093333333333333, + "grad_norm": 4.9375, + "learning_rate": 3.435454396300807e-06, + "loss": 1.4665517807006836, + "step": 2114 + }, + { + "epoch": 1.4106666666666667, + "grad_norm": 9.625, + "learning_rate": 3.428102545670754e-06, + "loss": 1.377671718597412, + "step": 2116 + }, + { + "epoch": 1.412, + "grad_norm": 7.9375, + "learning_rate": 3.4207619082607365e-06, + "loss": 1.7818158864974976, + "step": 2118 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 4.90625, + "learning_rate": 3.4134325182929097e-06, + "loss": 1.503507137298584, + "step": 2120 + }, + { + "epoch": 1.4146666666666667, + "grad_norm": 8.4375, + "learning_rate": 3.406114409936992e-06, + "loss": 1.7001944780349731, + "step": 2122 + }, + { + "epoch": 1.416, + "grad_norm": 3.484375, + "learning_rate": 3.398807617310112e-06, + "loss": 1.341043472290039, + "step": 2124 + }, + { + "epoch": 1.4173333333333333, + "grad_norm": 12.75, + "learning_rate": 3.391512174476638e-06, + "loss": 1.7441976070404053, + "step": 2126 + }, + { + "epoch": 1.4186666666666667, + "grad_norm": 2.09375, + "learning_rate": 3.3842281154480294e-06, + "loss": 1.0459182262420654, + "step": 2128 + }, + { + "epoch": 1.42, + "grad_norm": 2.4375, + "learning_rate": 3.376955474182671e-06, + "loss": 1.1474944353103638, + "step": 2130 + }, + { + "epoch": 1.4213333333333333, + "grad_norm": 1.8359375, + "learning_rate": 3.3696942845857204e-06, + "loss": 0.9987665414810181, + "step": 2132 + }, + { + "epoch": 1.4226666666666667, + "grad_norm": 7.9375, + "learning_rate": 3.3624445805089475e-06, + "loss": 1.5011258125305176, + "step": 2134 + }, + { + "epoch": 1.424, + "grad_norm": 6.71875, + "learning_rate": 3.3552063957505733e-06, + "loss": 1.4670500755310059, + "step": 2136 + }, + { + "epoch": 1.4253333333333333, + "grad_norm": 3.8125, + "learning_rate": 3.347979764055117e-06, + "loss": 1.0144070386886597, + "step": 2138 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 6.625, + "learning_rate": 3.340764719113242e-06, + "loss": 1.4356119632720947, + "step": 2140 + }, + { + "epoch": 1.428, + "grad_norm": 5.96875, + "learning_rate": 3.3335612945615876e-06, + "loss": 1.3124582767486572, + "step": 2142 + }, + { + "epoch": 1.4293333333333333, + "grad_norm": 4.375, + "learning_rate": 3.3263695239826214e-06, + "loss": 1.4105291366577148, + "step": 2144 + }, + { + "epoch": 1.4306666666666668, + "grad_norm": 6.15625, + "learning_rate": 3.319189440904481e-06, + "loss": 1.1068024635314941, + "step": 2146 + }, + { + "epoch": 1.432, + "grad_norm": 7.53125, + "learning_rate": 3.3120210788008136e-06, + "loss": 1.413973093032837, + "step": 2148 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 7.78125, + "learning_rate": 3.3048644710906256e-06, + "loss": 1.8645330667495728, + "step": 2150 + }, + { + "epoch": 1.4346666666666668, + "grad_norm": 4.25, + "learning_rate": 3.297719651138125e-06, + "loss": 1.4282081127166748, + "step": 2152 + }, + { + "epoch": 1.436, + "grad_norm": 5.03125, + "learning_rate": 3.2905866522525613e-06, + "loss": 1.4378764629364014, + "step": 2154 + }, + { + "epoch": 1.4373333333333334, + "grad_norm": 7.5625, + "learning_rate": 3.2834655076880782e-06, + "loss": 1.5733673572540283, + "step": 2156 + }, + { + "epoch": 1.4386666666666668, + "grad_norm": 5.78125, + "learning_rate": 3.2763562506435528e-06, + "loss": 1.4891130924224854, + "step": 2158 + }, + { + "epoch": 1.44, + "grad_norm": 5.78125, + "learning_rate": 3.269258914262441e-06, + "loss": 1.2145038843154907, + "step": 2160 + }, + { + "epoch": 1.4413333333333334, + "grad_norm": 23.125, + "learning_rate": 3.2621735316326266e-06, + "loss": 1.4004946947097778, + "step": 2162 + }, + { + "epoch": 1.4426666666666668, + "grad_norm": 1.6171875, + "learning_rate": 3.2551001357862627e-06, + "loss": 1.1053515672683716, + "step": 2164 + }, + { + "epoch": 1.444, + "grad_norm": 4.78125, + "learning_rate": 3.2480387596996223e-06, + "loss": 1.8382079601287842, + "step": 2166 + }, + { + "epoch": 1.4453333333333334, + "grad_norm": 4.96875, + "learning_rate": 3.2409894362929406e-06, + "loss": 1.4433636665344238, + "step": 2168 + }, + { + "epoch": 1.4466666666666668, + "grad_norm": 0.9140625, + "learning_rate": 3.2339521984302626e-06, + "loss": 1.1521646976470947, + "step": 2170 + }, + { + "epoch": 1.448, + "grad_norm": 5.96875, + "learning_rate": 3.226927078919291e-06, + "loss": 1.301585078239441, + "step": 2172 + }, + { + "epoch": 1.4493333333333334, + "grad_norm": 4.96875, + "learning_rate": 3.219914110511233e-06, + "loss": 1.490642786026001, + "step": 2174 + }, + { + "epoch": 1.4506666666666668, + "grad_norm": 5.75, + "learning_rate": 3.2129133259006486e-06, + "loss": 1.6394309997558594, + "step": 2176 + }, + { + "epoch": 1.452, + "grad_norm": 3.421875, + "learning_rate": 3.205924757725292e-06, + "loss": 1.0423762798309326, + "step": 2178 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 5.6875, + "learning_rate": 3.1989484385659677e-06, + "loss": 1.7373323440551758, + "step": 2180 + }, + { + "epoch": 1.4546666666666668, + "grad_norm": 4.875, + "learning_rate": 3.1919844009463754e-06, + "loss": 1.458338737487793, + "step": 2182 + }, + { + "epoch": 1.456, + "grad_norm": 8.75, + "learning_rate": 3.1850326773329575e-06, + "loss": 1.4843109846115112, + "step": 2184 + }, + { + "epoch": 1.4573333333333334, + "grad_norm": 4.0625, + "learning_rate": 3.178093300134747e-06, + "loss": 1.337432861328125, + "step": 2186 + }, + { + "epoch": 1.4586666666666668, + "grad_norm": 4.71875, + "learning_rate": 3.171166301703219e-06, + "loss": 1.4174573421478271, + "step": 2188 + }, + { + "epoch": 1.46, + "grad_norm": 4.46875, + "learning_rate": 3.164251714332139e-06, + "loss": 1.3681509494781494, + "step": 2190 + }, + { + "epoch": 1.4613333333333334, + "grad_norm": 13.625, + "learning_rate": 3.157349570257411e-06, + "loss": 1.7669622898101807, + "step": 2192 + }, + { + "epoch": 1.4626666666666668, + "grad_norm": 4.1875, + "learning_rate": 3.150459901656928e-06, + "loss": 1.6402667760849, + "step": 2194 + }, + { + "epoch": 1.464, + "grad_norm": 20.375, + "learning_rate": 3.143582740650424e-06, + "loss": 1.362139105796814, + "step": 2196 + }, + { + "epoch": 1.4653333333333334, + "grad_norm": 6.4375, + "learning_rate": 3.1367181192993196e-06, + "loss": 0.37001797556877136, + "step": 2198 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 7.21875, + "learning_rate": 3.1298660696065776e-06, + "loss": 1.3908202648162842, + "step": 2200 + }, + { + "epoch": 1.468, + "grad_norm": 4.71875, + "learning_rate": 3.1230266235165517e-06, + "loss": 1.643039345741272, + "step": 2202 + }, + { + "epoch": 1.4693333333333334, + "grad_norm": 3.34375, + "learning_rate": 3.116199812914835e-06, + "loss": 1.1279222965240479, + "step": 2204 + }, + { + "epoch": 1.4706666666666668, + "grad_norm": 6.03125, + "learning_rate": 3.1093856696281154e-06, + "loss": 1.4094611406326294, + "step": 2206 + }, + { + "epoch": 1.472, + "grad_norm": 13.0, + "learning_rate": 3.102584225424028e-06, + "loss": 1.4117114543914795, + "step": 2208 + }, + { + "epoch": 1.4733333333333334, + "grad_norm": 9.3125, + "learning_rate": 3.095795512010998e-06, + "loss": 1.4297616481781006, + "step": 2210 + }, + { + "epoch": 1.4746666666666668, + "grad_norm": 10.0625, + "learning_rate": 3.089019561038108e-06, + "loss": 1.983637809753418, + "step": 2212 + }, + { + "epoch": 1.476, + "grad_norm": 2.1875, + "learning_rate": 3.082256404094933e-06, + "loss": 1.0336921215057373, + "step": 2214 + }, + { + "epoch": 1.4773333333333334, + "grad_norm": 5.375, + "learning_rate": 3.07550607271141e-06, + "loss": 1.388633370399475, + "step": 2216 + }, + { + "epoch": 1.4786666666666668, + "grad_norm": 4.6875, + "learning_rate": 3.0687685983576787e-06, + "loss": 1.4226921796798706, + "step": 2218 + }, + { + "epoch": 1.48, + "grad_norm": 4.1875, + "learning_rate": 3.0620440124439398e-06, + "loss": 1.406280517578125, + "step": 2220 + }, + { + "epoch": 1.4813333333333334, + "grad_norm": 5.40625, + "learning_rate": 3.0553323463203085e-06, + "loss": 1.629976511001587, + "step": 2222 + }, + { + "epoch": 1.4826666666666668, + "grad_norm": 6.21875, + "learning_rate": 3.0486336312766673e-06, + "loss": 1.1256341934204102, + "step": 2224 + }, + { + "epoch": 1.484, + "grad_norm": 15.0, + "learning_rate": 3.04194789854252e-06, + "loss": 1.6569780111312866, + "step": 2226 + }, + { + "epoch": 1.4853333333333334, + "grad_norm": 6.15625, + "learning_rate": 3.0352751792868484e-06, + "loss": 1.3926656246185303, + "step": 2228 + }, + { + "epoch": 1.4866666666666668, + "grad_norm": 7.9375, + "learning_rate": 3.0286155046179622e-06, + "loss": 1.872004508972168, + "step": 2230 + }, + { + "epoch": 1.488, + "grad_norm": 4.15625, + "learning_rate": 3.0219689055833624e-06, + "loss": 1.436002492904663, + "step": 2232 + }, + { + "epoch": 1.4893333333333334, + "grad_norm": 10.8125, + "learning_rate": 3.0153354131695868e-06, + "loss": 1.5085735321044922, + "step": 2234 + }, + { + "epoch": 1.4906666666666666, + "grad_norm": 12.0625, + "learning_rate": 3.00871505830207e-06, + "loss": 1.8725166320800781, + "step": 2236 + }, + { + "epoch": 1.492, + "grad_norm": 9.9375, + "learning_rate": 3.0021078718450012e-06, + "loss": 1.08853280544281, + "step": 2238 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 1.890625, + "learning_rate": 2.9955138846011765e-06, + "loss": 0.9658834338188171, + "step": 2240 + }, + { + "epoch": 1.4946666666666666, + "grad_norm": 4.59375, + "learning_rate": 2.988933127311859e-06, + "loss": 1.451707363128662, + "step": 2242 + }, + { + "epoch": 1.496, + "grad_norm": 36.0, + "learning_rate": 2.9823656306566327e-06, + "loss": 1.749687671661377, + "step": 2244 + }, + { + "epoch": 1.4973333333333334, + "grad_norm": 2.0, + "learning_rate": 2.975811425253259e-06, + "loss": 1.0534790754318237, + "step": 2246 + }, + { + "epoch": 1.4986666666666666, + "grad_norm": 2.109375, + "learning_rate": 2.9692705416575363e-06, + "loss": 1.0871453285217285, + "step": 2248 + }, + { + "epoch": 1.5, + "grad_norm": 3.90625, + "learning_rate": 2.9627430103631573e-06, + "loss": 1.4621355533599854, + "step": 2250 + }, + { + "epoch": 1.5013333333333332, + "grad_norm": 10.6875, + "learning_rate": 2.9562288618015656e-06, + "loss": 1.805877447128296, + "step": 2252 + }, + { + "epoch": 1.5026666666666668, + "grad_norm": 2.765625, + "learning_rate": 2.949728126341813e-06, + "loss": 1.0431222915649414, + "step": 2254 + }, + { + "epoch": 1.504, + "grad_norm": 13.4375, + "learning_rate": 2.9432408342904223e-06, + "loss": 1.9408483505249023, + "step": 2256 + }, + { + "epoch": 1.5053333333333332, + "grad_norm": 29.375, + "learning_rate": 2.93676701589124e-06, + "loss": 1.790807843208313, + "step": 2258 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 2.078125, + "learning_rate": 2.9303067013252985e-06, + "loss": 1.0748181343078613, + "step": 2260 + }, + { + "epoch": 1.508, + "grad_norm": 7.59375, + "learning_rate": 2.9238599207106775e-06, + "loss": 1.8455153703689575, + "step": 2262 + }, + { + "epoch": 1.5093333333333332, + "grad_norm": 3.375, + "learning_rate": 2.9174267041023564e-06, + "loss": 1.113965630531311, + "step": 2264 + }, + { + "epoch": 1.5106666666666668, + "grad_norm": 5.9375, + "learning_rate": 2.911007081492087e-06, + "loss": 1.4975740909576416, + "step": 2266 + }, + { + "epoch": 1.512, + "grad_norm": 4.90625, + "learning_rate": 2.9046010828082384e-06, + "loss": 1.4789996147155762, + "step": 2268 + }, + { + "epoch": 1.5133333333333332, + "grad_norm": 3.203125, + "learning_rate": 2.898208737915667e-06, + "loss": 1.4293715953826904, + "step": 2270 + }, + { + "epoch": 1.5146666666666668, + "grad_norm": 1.1484375, + "learning_rate": 2.891830076615576e-06, + "loss": 0.9513505697250366, + "step": 2272 + }, + { + "epoch": 1.516, + "grad_norm": 2.234375, + "learning_rate": 2.885465128645375e-06, + "loss": 1.0323138236999512, + "step": 2274 + }, + { + "epoch": 1.5173333333333332, + "grad_norm": 7.3125, + "learning_rate": 2.87911392367854e-06, + "loss": 2.013789176940918, + "step": 2276 + }, + { + "epoch": 1.5186666666666668, + "grad_norm": 24.0, + "learning_rate": 2.8727764913244816e-06, + "loss": 1.6063106060028076, + "step": 2278 + }, + { + "epoch": 1.52, + "grad_norm": 6.40625, + "learning_rate": 2.8664528611283966e-06, + "loss": 1.9662723541259766, + "step": 2280 + }, + { + "epoch": 1.5213333333333332, + "grad_norm": 3.125, + "learning_rate": 2.86014306257114e-06, + "loss": 1.2432258129119873, + "step": 2282 + }, + { + "epoch": 1.5226666666666666, + "grad_norm": 4.96875, + "learning_rate": 2.8538471250690813e-06, + "loss": 0.9860575795173645, + "step": 2284 + }, + { + "epoch": 1.524, + "grad_norm": 6.40625, + "learning_rate": 2.8475650779739717e-06, + "loss": 1.7175216674804688, + "step": 2286 + }, + { + "epoch": 1.5253333333333332, + "grad_norm": 6.90625, + "learning_rate": 2.841296950572802e-06, + "loss": 1.449406385421753, + "step": 2288 + }, + { + "epoch": 1.5266666666666666, + "grad_norm": 8.4375, + "learning_rate": 2.8350427720876727e-06, + "loss": 0.9427869319915771, + "step": 2290 + }, + { + "epoch": 1.528, + "grad_norm": 1.4609375, + "learning_rate": 2.828802571675652e-06, + "loss": 1.0794901847839355, + "step": 2292 + }, + { + "epoch": 1.5293333333333332, + "grad_norm": 6.3125, + "learning_rate": 2.822576378428642e-06, + "loss": 1.6682031154632568, + "step": 2294 + }, + { + "epoch": 1.5306666666666666, + "grad_norm": 3.96875, + "learning_rate": 2.816364221373245e-06, + "loss": 1.405712366104126, + "step": 2296 + }, + { + "epoch": 1.532, + "grad_norm": 1.65625, + "learning_rate": 2.8101661294706247e-06, + "loss": 1.0830612182617188, + "step": 2298 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 3.34375, + "learning_rate": 2.803982131616373e-06, + "loss": 1.1465742588043213, + "step": 2300 + }, + { + "epoch": 1.5346666666666666, + "grad_norm": 8.5625, + "learning_rate": 2.7978122566403765e-06, + "loss": 1.5894464254379272, + "step": 2302 + }, + { + "epoch": 1.536, + "grad_norm": 1.875, + "learning_rate": 2.7916565333066794e-06, + "loss": 1.0847280025482178, + "step": 2304 + }, + { + "epoch": 1.5373333333333332, + "grad_norm": 14.6875, + "learning_rate": 2.7855149903133495e-06, + "loss": 1.853139042854309, + "step": 2306 + }, + { + "epoch": 1.5386666666666666, + "grad_norm": 1.1484375, + "learning_rate": 2.7793876562923506e-06, + "loss": 1.1526024341583252, + "step": 2308 + }, + { + "epoch": 1.54, + "grad_norm": 3.921875, + "learning_rate": 2.773274559809399e-06, + "loss": 1.640642523765564, + "step": 2310 + }, + { + "epoch": 1.5413333333333332, + "grad_norm": 13.4375, + "learning_rate": 2.7671757293638374e-06, + "loss": 1.776177167892456, + "step": 2312 + }, + { + "epoch": 1.5426666666666666, + "grad_norm": 4.90625, + "learning_rate": 2.7610911933885e-06, + "loss": 1.8069844245910645, + "step": 2314 + }, + { + "epoch": 1.544, + "grad_norm": 4.75, + "learning_rate": 2.7550209802495793e-06, + "loss": 1.4899930953979492, + "step": 2316 + }, + { + "epoch": 1.5453333333333332, + "grad_norm": 9.625, + "learning_rate": 2.748965118246495e-06, + "loss": 1.6268222332000732, + "step": 2318 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 7.8125, + "learning_rate": 2.742923635611761e-06, + "loss": 0.3517189025878906, + "step": 2320 + }, + { + "epoch": 1.548, + "grad_norm": 6.09375, + "learning_rate": 2.7368965605108572e-06, + "loss": 1.4472923278808594, + "step": 2322 + }, + { + "epoch": 1.5493333333333332, + "grad_norm": 10.625, + "learning_rate": 2.7308839210420916e-06, + "loss": 1.850784182548523, + "step": 2324 + }, + { + "epoch": 1.5506666666666666, + "grad_norm": 8.4375, + "learning_rate": 2.7248857452364753e-06, + "loss": 1.9480905532836914, + "step": 2326 + }, + { + "epoch": 1.552, + "grad_norm": 19.125, + "learning_rate": 2.7189020610575877e-06, + "loss": 1.6485257148742676, + "step": 2328 + }, + { + "epoch": 1.5533333333333332, + "grad_norm": 7.375, + "learning_rate": 2.7129328964014506e-06, + "loss": 1.5316224098205566, + "step": 2330 + }, + { + "epoch": 1.5546666666666666, + "grad_norm": 9.1875, + "learning_rate": 2.706978279096394e-06, + "loss": 1.7249939441680908, + "step": 2332 + }, + { + "epoch": 1.556, + "grad_norm": 10.0625, + "learning_rate": 2.7010382369029277e-06, + "loss": 1.7890774011611938, + "step": 2334 + }, + { + "epoch": 1.5573333333333332, + "grad_norm": 3.890625, + "learning_rate": 2.6951127975136132e-06, + "loss": 1.4425702095031738, + "step": 2336 + }, + { + "epoch": 1.5586666666666666, + "grad_norm": 3.265625, + "learning_rate": 2.6892019885529326e-06, + "loss": 1.1990939378738403, + "step": 2338 + }, + { + "epoch": 1.56, + "grad_norm": 13.125, + "learning_rate": 2.6833058375771616e-06, + "loss": 0.30556273460388184, + "step": 2340 + }, + { + "epoch": 1.5613333333333332, + "grad_norm": 6.625, + "learning_rate": 2.677424372074238e-06, + "loss": 0.2589426338672638, + "step": 2342 + }, + { + "epoch": 1.5626666666666666, + "grad_norm": 12.625, + "learning_rate": 2.6715576194636397e-06, + "loss": 0.6587238311767578, + "step": 2344 + }, + { + "epoch": 1.564, + "grad_norm": 5.875, + "learning_rate": 2.665705607096249e-06, + "loss": 1.3843997716903687, + "step": 2346 + }, + { + "epoch": 1.5653333333333332, + "grad_norm": 4.6875, + "learning_rate": 2.6598683622542314e-06, + "loss": 1.3836545944213867, + "step": 2348 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 4.3125, + "learning_rate": 2.6540459121509044e-06, + "loss": 1.3984098434448242, + "step": 2350 + }, + { + "epoch": 1.568, + "grad_norm": 6.5, + "learning_rate": 2.648238283930613e-06, + "loss": 1.9189105033874512, + "step": 2352 + }, + { + "epoch": 1.5693333333333332, + "grad_norm": 1.1484375, + "learning_rate": 2.6424455046686027e-06, + "loss": 1.0379087924957275, + "step": 2354 + }, + { + "epoch": 1.5706666666666667, + "grad_norm": 5.53125, + "learning_rate": 2.6366676013708914e-06, + "loss": 1.41304612159729, + "step": 2356 + }, + { + "epoch": 1.572, + "grad_norm": 6.1875, + "learning_rate": 2.630904600974148e-06, + "loss": 1.3908233642578125, + "step": 2358 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 3.953125, + "learning_rate": 2.625156530345562e-06, + "loss": 1.4623103141784668, + "step": 2360 + }, + { + "epoch": 1.5746666666666667, + "grad_norm": 4.46875, + "learning_rate": 2.619423416282718e-06, + "loss": 1.4510695934295654, + "step": 2362 + }, + { + "epoch": 1.576, + "grad_norm": 9.875, + "learning_rate": 2.6137052855134774e-06, + "loss": 1.482946515083313, + "step": 2364 + }, + { + "epoch": 1.5773333333333333, + "grad_norm": 5.96875, + "learning_rate": 2.6080021646958457e-06, + "loss": 1.3805418014526367, + "step": 2366 + }, + { + "epoch": 1.5786666666666667, + "grad_norm": 5.3125, + "learning_rate": 2.6023140804178544e-06, + "loss": 1.3469185829162598, + "step": 2368 + }, + { + "epoch": 1.58, + "grad_norm": 14.25, + "learning_rate": 2.5966410591974305e-06, + "loss": 1.736164927482605, + "step": 2370 + }, + { + "epoch": 1.5813333333333333, + "grad_norm": 3.453125, + "learning_rate": 2.5909831274822817e-06, + "loss": 1.4436497688293457, + "step": 2372 + }, + { + "epoch": 1.5826666666666667, + "grad_norm": 6.25, + "learning_rate": 2.5853403116497643e-06, + "loss": 1.5656664371490479, + "step": 2374 + }, + { + "epoch": 1.584, + "grad_norm": 2.328125, + "learning_rate": 2.5797126380067665e-06, + "loss": 0.9541326761245728, + "step": 2376 + }, + { + "epoch": 1.5853333333333333, + "grad_norm": 4.0, + "learning_rate": 2.574100132789583e-06, + "loss": 1.3982048034667969, + "step": 2378 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 16.625, + "learning_rate": 2.568502822163792e-06, + "loss": 1.7485718727111816, + "step": 2380 + }, + { + "epoch": 1.588, + "grad_norm": 5.875, + "learning_rate": 2.562920732224136e-06, + "loss": 1.3504984378814697, + "step": 2382 + }, + { + "epoch": 1.5893333333333333, + "grad_norm": 9.3125, + "learning_rate": 2.5573538889943954e-06, + "loss": 1.785373568534851, + "step": 2384 + }, + { + "epoch": 1.5906666666666667, + "grad_norm": 8.5625, + "learning_rate": 2.5518023184272743e-06, + "loss": 1.9697847366333008, + "step": 2386 + }, + { + "epoch": 1.592, + "grad_norm": 9.25, + "learning_rate": 2.5462660464042727e-06, + "loss": 1.0236709117889404, + "step": 2388 + }, + { + "epoch": 1.5933333333333333, + "grad_norm": 4.15625, + "learning_rate": 2.5407450987355685e-06, + "loss": 1.4823676347732544, + "step": 2390 + }, + { + "epoch": 1.5946666666666667, + "grad_norm": 6.28125, + "learning_rate": 2.5352395011598994e-06, + "loss": 1.4814116954803467, + "step": 2392 + }, + { + "epoch": 1.596, + "grad_norm": 6.21875, + "learning_rate": 2.529749279344439e-06, + "loss": 1.400189757347107, + "step": 2394 + }, + { + "epoch": 1.5973333333333333, + "grad_norm": 6.75, + "learning_rate": 2.524274458884678e-06, + "loss": 1.6907062530517578, + "step": 2396 + }, + { + "epoch": 1.5986666666666667, + "grad_norm": 4.25, + "learning_rate": 2.5188150653043074e-06, + "loss": 1.136069655418396, + "step": 2398 + }, + { + "epoch": 1.6, + "grad_norm": 5.28125, + "learning_rate": 2.513371124055099e-06, + "loss": 1.4196181297302246, + "step": 2400 + }, + { + "epoch": 1.6013333333333333, + "grad_norm": 12.1875, + "learning_rate": 2.507942660516783e-06, + "loss": 2.027644634246826, + "step": 2402 + }, + { + "epoch": 1.6026666666666667, + "grad_norm": 2.53125, + "learning_rate": 2.502529699996934e-06, + "loss": 1.0022658109664917, + "step": 2404 + }, + { + "epoch": 1.604, + "grad_norm": 3.59375, + "learning_rate": 2.4971322677308497e-06, + "loss": 1.209780216217041, + "step": 2406 + }, + { + "epoch": 1.6053333333333333, + "grad_norm": 7.25, + "learning_rate": 2.4917503888814365e-06, + "loss": 1.387068510055542, + "step": 2408 + }, + { + "epoch": 1.6066666666666667, + "grad_norm": 8.5, + "learning_rate": 2.486384088539089e-06, + "loss": 1.4092319011688232, + "step": 2410 + }, + { + "epoch": 1.608, + "grad_norm": 3.953125, + "learning_rate": 2.481033391721577e-06, + "loss": 1.4629402160644531, + "step": 2412 + }, + { + "epoch": 1.6093333333333333, + "grad_norm": 3.015625, + "learning_rate": 2.475698323373924e-06, + "loss": 1.043999195098877, + "step": 2414 + }, + { + "epoch": 1.6106666666666667, + "grad_norm": 4.09375, + "learning_rate": 2.4703789083682944e-06, + "loss": 1.3914482593536377, + "step": 2416 + }, + { + "epoch": 1.612, + "grad_norm": 5.5625, + "learning_rate": 2.4650751715038768e-06, + "loss": 1.493814468383789, + "step": 2418 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 10.75, + "learning_rate": 2.459787137506767e-06, + "loss": 1.7154039144515991, + "step": 2420 + }, + { + "epoch": 1.6146666666666667, + "grad_norm": 6.90625, + "learning_rate": 2.454514831029855e-06, + "loss": 1.6474536657333374, + "step": 2422 + }, + { + "epoch": 1.616, + "grad_norm": 6.84375, + "learning_rate": 2.4492582766527078e-06, + "loss": 1.450832724571228, + "step": 2424 + }, + { + "epoch": 1.6173333333333333, + "grad_norm": 5.59375, + "learning_rate": 2.4440174988814568e-06, + "loss": 1.742751121520996, + "step": 2426 + }, + { + "epoch": 1.6186666666666667, + "grad_norm": 7.6875, + "learning_rate": 2.4387925221486827e-06, + "loss": 1.7559263706207275, + "step": 2428 + }, + { + "epoch": 1.62, + "grad_norm": 6.96875, + "learning_rate": 2.4335833708133006e-06, + "loss": 1.4377044439315796, + "step": 2430 + }, + { + "epoch": 1.6213333333333333, + "grad_norm": 9.75, + "learning_rate": 2.4283900691604473e-06, + "loss": 1.8848496675491333, + "step": 2432 + }, + { + "epoch": 1.6226666666666667, + "grad_norm": 2.296875, + "learning_rate": 2.42321264140137e-06, + "loss": 1.1043641567230225, + "step": 2434 + }, + { + "epoch": 1.624, + "grad_norm": 6.90625, + "learning_rate": 2.418051111673309e-06, + "loss": 0.5369839668273926, + "step": 2436 + }, + { + "epoch": 1.6253333333333333, + "grad_norm": 4.28125, + "learning_rate": 2.41290550403939e-06, + "loss": 1.3874391317367554, + "step": 2438 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 8.875, + "learning_rate": 2.4077758424885088e-06, + "loss": 1.876328945159912, + "step": 2440 + }, + { + "epoch": 1.6280000000000001, + "grad_norm": 4.9375, + "learning_rate": 2.40266215093522e-06, + "loss": 1.4870532751083374, + "step": 2442 + }, + { + "epoch": 1.6293333333333333, + "grad_norm": 4.8125, + "learning_rate": 2.3975644532196257e-06, + "loss": 1.5786141157150269, + "step": 2444 + }, + { + "epoch": 1.6306666666666667, + "grad_norm": 4.59375, + "learning_rate": 2.3924827731072653e-06, + "loss": 1.3795560598373413, + "step": 2446 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 3.9375, + "learning_rate": 2.387417134289003e-06, + "loss": 1.4442157745361328, + "step": 2448 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 4.15625, + "learning_rate": 2.3823675603809204e-06, + "loss": 1.1016851663589478, + "step": 2450 + }, + { + "epoch": 1.6346666666666667, + "grad_norm": 1.3046875, + "learning_rate": 2.3773340749242013e-06, + "loss": 1.1123661994934082, + "step": 2452 + }, + { + "epoch": 1.6360000000000001, + "grad_norm": 22.5, + "learning_rate": 2.372316701385027e-06, + "loss": 1.596160650253296, + "step": 2454 + }, + { + "epoch": 1.6373333333333333, + "grad_norm": 1.4296875, + "learning_rate": 2.3673154631544633e-06, + "loss": 1.108832597732544, + "step": 2456 + }, + { + "epoch": 1.6386666666666667, + "grad_norm": 7.375, + "learning_rate": 2.362330383548354e-06, + "loss": 1.0658042430877686, + "step": 2458 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 1.59375, + "learning_rate": 2.3573614858072114e-06, + "loss": 1.0907118320465088, + "step": 2460 + }, + { + "epoch": 1.6413333333333333, + "grad_norm": 6.9375, + "learning_rate": 2.352408793096107e-06, + "loss": 1.954852819442749, + "step": 2462 + }, + { + "epoch": 1.6426666666666667, + "grad_norm": 5.9375, + "learning_rate": 2.3474723285045635e-06, + "loss": 1.7443487644195557, + "step": 2464 + }, + { + "epoch": 1.6440000000000001, + "grad_norm": 23.5, + "learning_rate": 2.3425521150464503e-06, + "loss": 1.8608548641204834, + "step": 2466 + }, + { + "epoch": 1.6453333333333333, + "grad_norm": 7.65625, + "learning_rate": 2.337648175659872e-06, + "loss": 1.4043128490447998, + "step": 2468 + }, + { + "epoch": 1.6466666666666665, + "grad_norm": 4.6875, + "learning_rate": 2.3327605332070617e-06, + "loss": 1.343397855758667, + "step": 2470 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 10.25, + "learning_rate": 2.3278892104742807e-06, + "loss": 0.842422366142273, + "step": 2472 + }, + { + "epoch": 1.6493333333333333, + "grad_norm": 7.75, + "learning_rate": 2.3230342301717024e-06, + "loss": 1.8031508922576904, + "step": 2474 + }, + { + "epoch": 1.6506666666666665, + "grad_norm": 18.375, + "learning_rate": 2.3181956149333156e-06, + "loss": 1.7317943572998047, + "step": 2476 + }, + { + "epoch": 1.6520000000000001, + "grad_norm": 7.09375, + "learning_rate": 2.3133733873168114e-06, + "loss": 1.8046625852584839, + "step": 2478 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 2.359375, + "learning_rate": 2.308567569803484e-06, + "loss": 1.0550050735473633, + "step": 2480 + }, + { + "epoch": 1.6546666666666665, + "grad_norm": 4.9375, + "learning_rate": 2.3037781847981235e-06, + "loss": 1.4496147632598877, + "step": 2482 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 3.0, + "learning_rate": 2.2990052546289094e-06, + "loss": 1.0837609767913818, + "step": 2484 + }, + { + "epoch": 1.6573333333333333, + "grad_norm": 5.6875, + "learning_rate": 2.2942488015473106e-06, + "loss": 1.8502864837646484, + "step": 2486 + }, + { + "epoch": 1.6586666666666665, + "grad_norm": 4.65625, + "learning_rate": 2.2895088477279794e-06, + "loss": 0.961652934551239, + "step": 2488 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 4.3125, + "learning_rate": 2.2847854152686457e-06, + "loss": 1.491590976715088, + "step": 2490 + }, + { + "epoch": 1.6613333333333333, + "grad_norm": 5.0, + "learning_rate": 2.2800785261900206e-06, + "loss": 1.4915618896484375, + "step": 2492 + }, + { + "epoch": 1.6626666666666665, + "grad_norm": 9.3125, + "learning_rate": 2.2753882024356875e-06, + "loss": 1.7863433361053467, + "step": 2494 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 2.109375, + "learning_rate": 2.2707144658720013e-06, + "loss": 1.0995452404022217, + "step": 2496 + }, + { + "epoch": 1.6653333333333333, + "grad_norm": 8.8125, + "learning_rate": 2.2660573382879893e-06, + "loss": 1.6946117877960205, + "step": 2498 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 5.3125, + "learning_rate": 2.261416841395245e-06, + "loss": 1.5551875829696655, + "step": 2500 + }, + { + "epoch": 1.6680000000000001, + "grad_norm": 9.75, + "learning_rate": 2.256792996827831e-06, + "loss": 1.8907060623168945, + "step": 2502 + }, + { + "epoch": 1.6693333333333333, + "grad_norm": 2.234375, + "learning_rate": 2.2521858261421773e-06, + "loss": 1.0732618570327759, + "step": 2504 + }, + { + "epoch": 1.6706666666666665, + "grad_norm": 4.4375, + "learning_rate": 2.2475953508169783e-06, + "loss": 1.4265661239624023, + "step": 2506 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 45.25, + "learning_rate": 2.2430215922530946e-06, + "loss": 1.4152803421020508, + "step": 2508 + }, + { + "epoch": 1.6733333333333333, + "grad_norm": 14.1875, + "learning_rate": 2.2384645717734543e-06, + "loss": 1.880337119102478, + "step": 2510 + }, + { + "epoch": 1.6746666666666665, + "grad_norm": 5.9375, + "learning_rate": 2.2339243106229514e-06, + "loss": 1.332701563835144, + "step": 2512 + }, + { + "epoch": 1.6760000000000002, + "grad_norm": 7.84375, + "learning_rate": 2.229400829968347e-06, + "loss": 1.8711514472961426, + "step": 2514 + }, + { + "epoch": 1.6773333333333333, + "grad_norm": 9.6875, + "learning_rate": 2.2248941508981724e-06, + "loss": 1.681450366973877, + "step": 2516 + }, + { + "epoch": 1.6786666666666665, + "grad_norm": 7.3125, + "learning_rate": 2.22040429442263e-06, + "loss": 1.944288969039917, + "step": 2518 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 1.90625, + "learning_rate": 2.215931281473493e-06, + "loss": 1.1536941528320312, + "step": 2520 + }, + { + "epoch": 1.6813333333333333, + "grad_norm": 9.25, + "learning_rate": 2.2114751329040123e-06, + "loss": 1.468356728553772, + "step": 2522 + }, + { + "epoch": 1.6826666666666665, + "grad_norm": 4.65625, + "learning_rate": 2.2070358694888157e-06, + "loss": 1.475768804550171, + "step": 2524 + }, + { + "epoch": 1.6840000000000002, + "grad_norm": 2.09375, + "learning_rate": 2.2026135119238117e-06, + "loss": 1.1176834106445312, + "step": 2526 + }, + { + "epoch": 1.6853333333333333, + "grad_norm": 4.09375, + "learning_rate": 2.1982080808260935e-06, + "loss": 1.2341618537902832, + "step": 2528 + }, + { + "epoch": 1.6866666666666665, + "grad_norm": 7.96875, + "learning_rate": 2.1938195967338448e-06, + "loss": 1.0540871620178223, + "step": 2530 + }, + { + "epoch": 1.688, + "grad_norm": 4.03125, + "learning_rate": 2.189448080106239e-06, + "loss": 1.4182288646697998, + "step": 2532 + }, + { + "epoch": 1.6893333333333334, + "grad_norm": 5.40625, + "learning_rate": 2.1850935513233502e-06, + "loss": 1.5475046634674072, + "step": 2534 + }, + { + "epoch": 1.6906666666666665, + "grad_norm": 6.0625, + "learning_rate": 2.180756030686052e-06, + "loss": 1.8920286893844604, + "step": 2536 + }, + { + "epoch": 1.692, + "grad_norm": 3.84375, + "learning_rate": 2.176435538415928e-06, + "loss": 1.4708077907562256, + "step": 2538 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 6.96875, + "learning_rate": 2.172132094655173e-06, + "loss": 1.6575706005096436, + "step": 2540 + }, + { + "epoch": 1.6946666666666665, + "grad_norm": 9.5625, + "learning_rate": 2.167845719466505e-06, + "loss": 1.5513395071029663, + "step": 2542 + }, + { + "epoch": 1.696, + "grad_norm": 4.40625, + "learning_rate": 2.1635764328330645e-06, + "loss": 1.4614930152893066, + "step": 2544 + }, + { + "epoch": 1.6973333333333334, + "grad_norm": 7.40625, + "learning_rate": 2.159324254658327e-06, + "loss": 0.3184851109981537, + "step": 2546 + }, + { + "epoch": 1.6986666666666665, + "grad_norm": 6.28125, + "learning_rate": 2.155089204766007e-06, + "loss": 1.6140989065170288, + "step": 2548 + }, + { + "epoch": 1.7, + "grad_norm": 3.46875, + "learning_rate": 2.150871302899967e-06, + "loss": 1.3971844911575317, + "step": 2550 + }, + { + "epoch": 1.7013333333333334, + "grad_norm": 4.65625, + "learning_rate": 2.146670568724126e-06, + "loss": 1.3750734329223633, + "step": 2552 + }, + { + "epoch": 1.7026666666666666, + "grad_norm": 3.09375, + "learning_rate": 2.1424870218223653e-06, + "loss": 1.0484888553619385, + "step": 2554 + }, + { + "epoch": 1.704, + "grad_norm": 4.40625, + "learning_rate": 2.138320681698441e-06, + "loss": 1.4106589555740356, + "step": 2556 + }, + { + "epoch": 1.7053333333333334, + "grad_norm": 6.625, + "learning_rate": 2.1341715677758882e-06, + "loss": 1.9462778568267822, + "step": 2558 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 4.09375, + "learning_rate": 2.1300396993979366e-06, + "loss": 1.4685382843017578, + "step": 2560 + }, + { + "epoch": 1.708, + "grad_norm": 3.84375, + "learning_rate": 2.1259250958274147e-06, + "loss": 1.026566743850708, + "step": 2562 + }, + { + "epoch": 1.7093333333333334, + "grad_norm": 1.765625, + "learning_rate": 2.121827776246662e-06, + "loss": 1.0092363357543945, + "step": 2564 + }, + { + "epoch": 1.7106666666666666, + "grad_norm": 1.578125, + "learning_rate": 2.1177477597574408e-06, + "loss": 1.0036532878875732, + "step": 2566 + }, + { + "epoch": 1.712, + "grad_norm": 9.1875, + "learning_rate": 2.1136850653808456e-06, + "loss": 1.8697004318237305, + "step": 2568 + }, + { + "epoch": 1.7133333333333334, + "grad_norm": 3.5, + "learning_rate": 2.1096397120572164e-06, + "loss": 1.4623255729675293, + "step": 2570 + }, + { + "epoch": 1.7146666666666666, + "grad_norm": 6.90625, + "learning_rate": 2.1056117186460466e-06, + "loss": 1.6307227611541748, + "step": 2572 + }, + { + "epoch": 1.716, + "grad_norm": 12.4375, + "learning_rate": 2.1016011039258983e-06, + "loss": 1.7765603065490723, + "step": 2574 + }, + { + "epoch": 1.7173333333333334, + "grad_norm": 8.4375, + "learning_rate": 2.0976078865943152e-06, + "loss": 1.6039392948150635, + "step": 2576 + }, + { + "epoch": 1.7186666666666666, + "grad_norm": 4.28125, + "learning_rate": 2.0936320852677323e-06, + "loss": 1.4012162685394287, + "step": 2578 + }, + { + "epoch": 1.72, + "grad_norm": 5.8125, + "learning_rate": 2.0896737184813924e-06, + "loss": 1.418196678161621, + "step": 2580 + }, + { + "epoch": 1.7213333333333334, + "grad_norm": 6.78125, + "learning_rate": 2.0857328046892567e-06, + "loss": 1.4134851694107056, + "step": 2582 + }, + { + "epoch": 1.7226666666666666, + "grad_norm": 7.0, + "learning_rate": 2.081809362263922e-06, + "loss": 2.0253653526306152, + "step": 2584 + }, + { + "epoch": 1.724, + "grad_norm": 5.5625, + "learning_rate": 2.077903409496533e-06, + "loss": 1.431370496749878, + "step": 2586 + }, + { + "epoch": 1.7253333333333334, + "grad_norm": 5.25, + "learning_rate": 2.0740149645966954e-06, + "loss": 1.4524600505828857, + "step": 2588 + }, + { + "epoch": 1.7266666666666666, + "grad_norm": 6.625, + "learning_rate": 2.0701440456923955e-06, + "loss": 1.4008400440216064, + "step": 2590 + }, + { + "epoch": 1.728, + "grad_norm": 19.25, + "learning_rate": 2.066290670829911e-06, + "loss": 0.27671539783477783, + "step": 2592 + }, + { + "epoch": 1.7293333333333334, + "grad_norm": 2.96875, + "learning_rate": 2.0624548579737323e-06, + "loss": 1.124161720275879, + "step": 2594 + }, + { + "epoch": 1.7306666666666666, + "grad_norm": 8.125, + "learning_rate": 2.0586366250064716e-06, + "loss": 1.4266724586486816, + "step": 2596 + }, + { + "epoch": 1.732, + "grad_norm": 8.3125, + "learning_rate": 2.0548359897287857e-06, + "loss": 1.5034812688827515, + "step": 2598 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 1.2109375, + "learning_rate": 2.05105296985929e-06, + "loss": 1.055992841720581, + "step": 2600 + }, + { + "epoch": 1.7346666666666666, + "grad_norm": 4.0625, + "learning_rate": 2.047287583034476e-06, + "loss": 1.359705924987793, + "step": 2602 + }, + { + "epoch": 1.736, + "grad_norm": 6.09375, + "learning_rate": 2.043539846808632e-06, + "loss": 1.8168176412582397, + "step": 2604 + }, + { + "epoch": 1.7373333333333334, + "grad_norm": 2.0, + "learning_rate": 2.039809778653757e-06, + "loss": 1.1143035888671875, + "step": 2606 + }, + { + "epoch": 1.7386666666666666, + "grad_norm": 4.46875, + "learning_rate": 2.0360973959594802e-06, + "loss": 1.5116562843322754, + "step": 2608 + }, + { + "epoch": 1.74, + "grad_norm": 9.75, + "learning_rate": 2.0324027160329842e-06, + "loss": 1.4354583024978638, + "step": 2610 + }, + { + "epoch": 1.7413333333333334, + "grad_norm": 3.390625, + "learning_rate": 2.0287257560989186e-06, + "loss": 1.0052144527435303, + "step": 2612 + }, + { + "epoch": 1.7426666666666666, + "grad_norm": 7.1875, + "learning_rate": 2.025066533299322e-06, + "loss": 1.4171818494796753, + "step": 2614 + }, + { + "epoch": 1.744, + "grad_norm": 6.0, + "learning_rate": 2.021425064693544e-06, + "loss": 1.5010087490081787, + "step": 2616 + }, + { + "epoch": 1.7453333333333334, + "grad_norm": 9.4375, + "learning_rate": 2.017801367258162e-06, + "loss": 1.555128574371338, + "step": 2618 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 1.5859375, + "learning_rate": 2.0141954578869054e-06, + "loss": 1.0460717678070068, + "step": 2620 + }, + { + "epoch": 1.748, + "grad_norm": 1.6484375, + "learning_rate": 2.010607353390575e-06, + "loss": 1.1090086698532104, + "step": 2622 + }, + { + "epoch": 1.7493333333333334, + "grad_norm": 5.90625, + "learning_rate": 2.0070370704969644e-06, + "loss": 1.4290834665298462, + "step": 2624 + }, + { + "epoch": 1.7506666666666666, + "grad_norm": 2.828125, + "learning_rate": 2.0034846258507836e-06, + "loss": 1.1410293579101562, + "step": 2626 + }, + { + "epoch": 1.752, + "grad_norm": 11.75, + "learning_rate": 1.9999500360135783e-06, + "loss": 1.4075884819030762, + "step": 2628 + }, + { + "epoch": 1.7533333333333334, + "grad_norm": 6.78125, + "learning_rate": 1.9964333174636587e-06, + "loss": 1.1147377490997314, + "step": 2630 + }, + { + "epoch": 1.7546666666666666, + "grad_norm": 4.90625, + "learning_rate": 1.9929344865960147e-06, + "loss": 1.8437426090240479, + "step": 2632 + }, + { + "epoch": 1.756, + "grad_norm": 1.8046875, + "learning_rate": 1.989453559722246e-06, + "loss": 1.0943751335144043, + "step": 2634 + }, + { + "epoch": 1.7573333333333334, + "grad_norm": 5.53125, + "learning_rate": 1.9859905530704838e-06, + "loss": 1.6125261783599854, + "step": 2636 + }, + { + "epoch": 1.7586666666666666, + "grad_norm": 4.90625, + "learning_rate": 1.9825454827853136e-06, + "loss": 1.4623953104019165, + "step": 2638 + }, + { + "epoch": 1.76, + "grad_norm": 8.3125, + "learning_rate": 1.979118364927702e-06, + "loss": 1.5197104215621948, + "step": 2640 + }, + { + "epoch": 1.7613333333333334, + "grad_norm": 7.09375, + "learning_rate": 1.975709215474921e-06, + "loss": 1.495721697807312, + "step": 2642 + }, + { + "epoch": 1.7626666666666666, + "grad_norm": 3.0625, + "learning_rate": 1.9723180503204734e-06, + "loss": 1.0730725526809692, + "step": 2644 + }, + { + "epoch": 1.764, + "grad_norm": 11.1875, + "learning_rate": 1.96894488527402e-06, + "loss": 2.120232582092285, + "step": 2646 + }, + { + "epoch": 1.7653333333333334, + "grad_norm": 13.0, + "learning_rate": 1.965589736061303e-06, + "loss": 1.813724160194397, + "step": 2648 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 2.4375, + "learning_rate": 1.962252618324077e-06, + "loss": 1.1308650970458984, + "step": 2650 + }, + { + "epoch": 1.768, + "grad_norm": 11.375, + "learning_rate": 1.958933547620031e-06, + "loss": 1.9237217903137207, + "step": 2652 + }, + { + "epoch": 1.7693333333333334, + "grad_norm": 6.8125, + "learning_rate": 1.9556325394227198e-06, + "loss": 1.418813705444336, + "step": 2654 + }, + { + "epoch": 1.7706666666666666, + "grad_norm": 6.875, + "learning_rate": 1.952349609121491e-06, + "loss": 1.772024154663086, + "step": 2656 + }, + { + "epoch": 1.772, + "grad_norm": 5.96875, + "learning_rate": 1.9490847720214116e-06, + "loss": 1.4179997444152832, + "step": 2658 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 4.875, + "learning_rate": 1.9458380433431997e-06, + "loss": 1.520759105682373, + "step": 2660 + }, + { + "epoch": 1.7746666666666666, + "grad_norm": 4.4375, + "learning_rate": 1.9426094382231487e-06, + "loss": 1.6265156269073486, + "step": 2662 + }, + { + "epoch": 1.776, + "grad_norm": 5.65625, + "learning_rate": 1.939398971713062e-06, + "loss": 1.6532254219055176, + "step": 2664 + }, + { + "epoch": 1.7773333333333334, + "grad_norm": 7.09375, + "learning_rate": 1.9362066587801804e-06, + "loss": 1.8956434726715088, + "step": 2666 + }, + { + "epoch": 1.7786666666666666, + "grad_norm": 15.1875, + "learning_rate": 1.933032514307112e-06, + "loss": 1.655465006828308, + "step": 2668 + }, + { + "epoch": 1.78, + "grad_norm": 1.9140625, + "learning_rate": 1.9298765530917636e-06, + "loss": 1.092116117477417, + "step": 2670 + }, + { + "epoch": 1.7813333333333334, + "grad_norm": 3.953125, + "learning_rate": 1.9267387898472707e-06, + "loss": 1.3901035785675049, + "step": 2672 + }, + { + "epoch": 1.7826666666666666, + "grad_norm": 3.0, + "learning_rate": 1.9236192392019294e-06, + "loss": 1.251054286956787, + "step": 2674 + }, + { + "epoch": 1.784, + "grad_norm": 14.75, + "learning_rate": 1.92051791569913e-06, + "loss": 1.4674335718154907, + "step": 2676 + }, + { + "epoch": 1.7853333333333334, + "grad_norm": 5.75, + "learning_rate": 1.917434833797287e-06, + "loss": 1.3956738710403442, + "step": 2678 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 1.9375, + "learning_rate": 1.9143700078697703e-06, + "loss": 1.003767967224121, + "step": 2680 + }, + { + "epoch": 1.788, + "grad_norm": 5.125, + "learning_rate": 1.9113234522048437e-06, + "loss": 1.471883773803711, + "step": 2682 + }, + { + "epoch": 1.7893333333333334, + "grad_norm": 5.03125, + "learning_rate": 1.908295181005591e-06, + "loss": 1.525916337966919, + "step": 2684 + }, + { + "epoch": 1.7906666666666666, + "grad_norm": 6.53125, + "learning_rate": 1.9052852083898576e-06, + "loss": 1.9548535346984863, + "step": 2686 + }, + { + "epoch": 1.792, + "grad_norm": 13.25, + "learning_rate": 1.9022935483901771e-06, + "loss": 1.755566120147705, + "step": 2688 + }, + { + "epoch": 1.7933333333333334, + "grad_norm": 1.4375, + "learning_rate": 1.8993202149537113e-06, + "loss": 1.2035529613494873, + "step": 2690 + }, + { + "epoch": 1.7946666666666666, + "grad_norm": 7.0, + "learning_rate": 1.8963652219421826e-06, + "loss": 1.5947092771530151, + "step": 2692 + }, + { + "epoch": 1.796, + "grad_norm": 5.75, + "learning_rate": 1.8934285831318106e-06, + "loss": 1.755237340927124, + "step": 2694 + }, + { + "epoch": 1.7973333333333334, + "grad_norm": 6.0, + "learning_rate": 1.890510312213247e-06, + "loss": 1.6429678201675415, + "step": 2696 + }, + { + "epoch": 1.7986666666666666, + "grad_norm": 15.125, + "learning_rate": 1.887610422791512e-06, + "loss": 1.8014006614685059, + "step": 2698 + }, + { + "epoch": 1.8, + "grad_norm": 1.4140625, + "learning_rate": 1.8847289283859313e-06, + "loss": 1.0201822519302368, + "step": 2700 + }, + { + "epoch": 1.8013333333333335, + "grad_norm": 2.21875, + "learning_rate": 1.8818658424300724e-06, + "loss": 1.0370283126831055, + "step": 2702 + }, + { + "epoch": 1.8026666666666666, + "grad_norm": 8.1875, + "learning_rate": 1.879021178271683e-06, + "loss": 1.467565655708313, + "step": 2704 + }, + { + "epoch": 1.804, + "grad_norm": 8.8125, + "learning_rate": 1.8761949491726278e-06, + "loss": 1.7864141464233398, + "step": 2706 + }, + { + "epoch": 1.8053333333333335, + "grad_norm": 6.15625, + "learning_rate": 1.8733871683088267e-06, + "loss": 1.3655095100402832, + "step": 2708 + }, + { + "epoch": 1.8066666666666666, + "grad_norm": 5.90625, + "learning_rate": 1.8705978487701939e-06, + "loss": 1.3965015411376953, + "step": 2710 + }, + { + "epoch": 1.808, + "grad_norm": 7.34375, + "learning_rate": 1.8678270035605767e-06, + "loss": 1.638869285583496, + "step": 2712 + }, + { + "epoch": 1.8093333333333335, + "grad_norm": 5.28125, + "learning_rate": 1.8650746455976948e-06, + "loss": 1.3903155326843262, + "step": 2714 + }, + { + "epoch": 1.8106666666666666, + "grad_norm": 13.125, + "learning_rate": 1.86234078771308e-06, + "loss": 1.4415559768676758, + "step": 2716 + }, + { + "epoch": 1.812, + "grad_norm": 5.375, + "learning_rate": 1.8596254426520167e-06, + "loss": 1.4963748455047607, + "step": 2718 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 7.21875, + "learning_rate": 1.8569286230734817e-06, + "loss": 1.4766721725463867, + "step": 2720 + }, + { + "epoch": 1.8146666666666667, + "grad_norm": 11.9375, + "learning_rate": 1.8542503415500864e-06, + "loss": 1.7220858335494995, + "step": 2722 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 5.5, + "learning_rate": 1.8515906105680173e-06, + "loss": 1.4829065799713135, + "step": 2724 + }, + { + "epoch": 1.8173333333333335, + "grad_norm": 4.40625, + "learning_rate": 1.848949442526977e-06, + "loss": 1.452761173248291, + "step": 2726 + }, + { + "epoch": 1.8186666666666667, + "grad_norm": 4.1875, + "learning_rate": 1.8463268497401299e-06, + "loss": 1.4810348749160767, + "step": 2728 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 3.796875, + "learning_rate": 1.8437228444340399e-06, + "loss": 1.2779314517974854, + "step": 2730 + }, + { + "epoch": 1.8213333333333335, + "grad_norm": 2.03125, + "learning_rate": 1.841137438748617e-06, + "loss": 1.136197805404663, + "step": 2732 + }, + { + "epoch": 1.8226666666666667, + "grad_norm": 4.1875, + "learning_rate": 1.8385706447370587e-06, + "loss": 1.1024785041809082, + "step": 2734 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 2.828125, + "learning_rate": 1.8360224743657957e-06, + "loss": 1.189272403717041, + "step": 2736 + }, + { + "epoch": 1.8253333333333335, + "grad_norm": 15.75, + "learning_rate": 1.8334929395144336e-06, + "loss": 1.8067930936813354, + "step": 2738 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 6.5, + "learning_rate": 1.8309820519757004e-06, + "loss": 1.9117852449417114, + "step": 2740 + }, + { + "epoch": 1.8279999999999998, + "grad_norm": 1.890625, + "learning_rate": 1.8284898234553886e-06, + "loss": 1.073231816291809, + "step": 2742 + }, + { + "epoch": 1.8293333333333335, + "grad_norm": 11.625, + "learning_rate": 1.826016265572304e-06, + "loss": 1.5809550285339355, + "step": 2744 + }, + { + "epoch": 1.8306666666666667, + "grad_norm": 8.625, + "learning_rate": 1.823561389858208e-06, + "loss": 1.4855477809906006, + "step": 2746 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 4.78125, + "learning_rate": 1.8211252077577657e-06, + "loss": 1.5261988639831543, + "step": 2748 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 4.75, + "learning_rate": 1.818707730628493e-06, + "loss": 1.508739948272705, + "step": 2750 + }, + { + "epoch": 1.8346666666666667, + "grad_norm": 11.5625, + "learning_rate": 1.8163089697407027e-06, + "loss": 1.8359191417694092, + "step": 2752 + }, + { + "epoch": 1.8359999999999999, + "grad_norm": 7.875, + "learning_rate": 1.8139289362774514e-06, + "loss": 1.777050256729126, + "step": 2754 + }, + { + "epoch": 1.8373333333333335, + "grad_norm": 6.1875, + "learning_rate": 1.8115676413344897e-06, + "loss": 1.4878871440887451, + "step": 2756 + }, + { + "epoch": 1.8386666666666667, + "grad_norm": 5.34375, + "learning_rate": 1.8092250959202067e-06, + "loss": 1.4921441078186035, + "step": 2758 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 12.9375, + "learning_rate": 1.8069013109555843e-06, + "loss": 1.9146616458892822, + "step": 2760 + }, + { + "epoch": 1.8413333333333335, + "grad_norm": 6.1875, + "learning_rate": 1.8045962972741393e-06, + "loss": 1.3620163202285767, + "step": 2762 + }, + { + "epoch": 1.8426666666666667, + "grad_norm": 12.875, + "learning_rate": 1.802310065621879e-06, + "loss": 1.3618303537368774, + "step": 2764 + }, + { + "epoch": 1.8439999999999999, + "grad_norm": 5.15625, + "learning_rate": 1.8000426266572471e-06, + "loss": 1.4024913311004639, + "step": 2766 + }, + { + "epoch": 1.8453333333333335, + "grad_norm": 1.421875, + "learning_rate": 1.7977939909510772e-06, + "loss": 1.050788164138794, + "step": 2768 + }, + { + "epoch": 1.8466666666666667, + "grad_norm": 1.5859375, + "learning_rate": 1.7955641689865402e-06, + "loss": 1.0265395641326904, + "step": 2770 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 6.875, + "learning_rate": 1.7933531711590981e-06, + "loss": 0.9936121702194214, + "step": 2772 + }, + { + "epoch": 1.8493333333333335, + "grad_norm": 6.9375, + "learning_rate": 1.7911610077764537e-06, + "loss": 1.5282442569732666, + "step": 2774 + }, + { + "epoch": 1.8506666666666667, + "grad_norm": 6.71875, + "learning_rate": 1.7889876890585036e-06, + "loss": 1.4587817192077637, + "step": 2776 + }, + { + "epoch": 1.8519999999999999, + "grad_norm": 15.125, + "learning_rate": 1.786833225137291e-06, + "loss": 1.441443920135498, + "step": 2778 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 4.90625, + "learning_rate": 1.7846976260569574e-06, + "loss": 1.4862936735153198, + "step": 2780 + }, + { + "epoch": 1.8546666666666667, + "grad_norm": 17.875, + "learning_rate": 1.7825809017736955e-06, + "loss": 0.6228671073913574, + "step": 2782 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 5.03125, + "learning_rate": 1.7804830621557043e-06, + "loss": 1.5867762565612793, + "step": 2784 + }, + { + "epoch": 1.8573333333333333, + "grad_norm": 5.25, + "learning_rate": 1.7784041169831413e-06, + "loss": 1.0642695426940918, + "step": 2786 + }, + { + "epoch": 1.8586666666666667, + "grad_norm": 5.90625, + "learning_rate": 1.7763440759480788e-06, + "loss": 1.5180978775024414, + "step": 2788 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 1.296875, + "learning_rate": 1.7743029486544568e-06, + "loss": 1.0780036449432373, + "step": 2790 + }, + { + "epoch": 1.8613333333333333, + "grad_norm": 5.59375, + "learning_rate": 1.7722807446180408e-06, + "loss": 1.7178488969802856, + "step": 2792 + }, + { + "epoch": 1.8626666666666667, + "grad_norm": 8.875, + "learning_rate": 1.7702774732663734e-06, + "loss": 1.1812188625335693, + "step": 2794 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 2.265625, + "learning_rate": 1.7682931439387347e-06, + "loss": 1.1251749992370605, + "step": 2796 + }, + { + "epoch": 1.8653333333333333, + "grad_norm": 1.4609375, + "learning_rate": 1.7663277658860964e-06, + "loss": 1.242966651916504, + "step": 2798 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 6.625, + "learning_rate": 1.7643813482710784e-06, + "loss": 1.0621240139007568, + "step": 2800 + }, + { + "epoch": 1.8679999999999999, + "grad_norm": 3.40625, + "learning_rate": 1.7624539001679075e-06, + "loss": 1.1366503238677979, + "step": 2802 + }, + { + "epoch": 1.8693333333333333, + "grad_norm": 6.21875, + "learning_rate": 1.7605454305623735e-06, + "loss": 1.9657596349716187, + "step": 2804 + }, + { + "epoch": 1.8706666666666667, + "grad_norm": 4.40625, + "learning_rate": 1.7586559483517896e-06, + "loss": 1.3851277828216553, + "step": 2806 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 5.28125, + "learning_rate": 1.7567854623449479e-06, + "loss": 1.4316308498382568, + "step": 2808 + }, + { + "epoch": 1.8733333333333333, + "grad_norm": 6.65625, + "learning_rate": 1.7549339812620814e-06, + "loss": 1.9082809686660767, + "step": 2810 + }, + { + "epoch": 1.8746666666666667, + "grad_norm": 3.03125, + "learning_rate": 1.7531015137348206e-06, + "loss": 1.1026511192321777, + "step": 2812 + }, + { + "epoch": 1.876, + "grad_norm": 9.25, + "learning_rate": 1.7512880683061554e-06, + "loss": 1.4776630401611328, + "step": 2814 + }, + { + "epoch": 1.8773333333333333, + "grad_norm": 6.90625, + "learning_rate": 1.7494936534303938e-06, + "loss": 1.7435698509216309, + "step": 2816 + }, + { + "epoch": 1.8786666666666667, + "grad_norm": 8.5625, + "learning_rate": 1.7477182774731233e-06, + "loss": 1.4079492092132568, + "step": 2818 + }, + { + "epoch": 1.88, + "grad_norm": 7.6875, + "learning_rate": 1.7459619487111724e-06, + "loss": 1.026501178741455, + "step": 2820 + }, + { + "epoch": 1.8813333333333333, + "grad_norm": 3.796875, + "learning_rate": 1.7442246753325703e-06, + "loss": 1.0990175008773804, + "step": 2822 + }, + { + "epoch": 1.8826666666666667, + "grad_norm": 6.15625, + "learning_rate": 1.7425064654365107e-06, + "loss": 1.5780365467071533, + "step": 2824 + }, + { + "epoch": 1.884, + "grad_norm": 4.125, + "learning_rate": 1.7408073270333114e-06, + "loss": 1.1284211874008179, + "step": 2826 + }, + { + "epoch": 1.8853333333333333, + "grad_norm": 13.5, + "learning_rate": 1.7391272680443805e-06, + "loss": 1.859563946723938, + "step": 2828 + }, + { + "epoch": 1.8866666666666667, + "grad_norm": 4.46875, + "learning_rate": 1.7374662963021771e-06, + "loss": 1.4344596862792969, + "step": 2830 + }, + { + "epoch": 1.888, + "grad_norm": 4.875, + "learning_rate": 1.7358244195501737e-06, + "loss": 1.4997034072875977, + "step": 2832 + }, + { + "epoch": 1.8893333333333333, + "grad_norm": 1.6171875, + "learning_rate": 1.7342016454428246e-06, + "loss": 0.9284089803695679, + "step": 2834 + }, + { + "epoch": 1.8906666666666667, + "grad_norm": 7.4375, + "learning_rate": 1.7325979815455243e-06, + "loss": 1.1980538368225098, + "step": 2836 + }, + { + "epoch": 1.892, + "grad_norm": 4.875, + "learning_rate": 1.7310134353345775e-06, + "loss": 1.4303035736083984, + "step": 2838 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 6.375, + "learning_rate": 1.7294480141971615e-06, + "loss": 1.6346737146377563, + "step": 2840 + }, + { + "epoch": 1.8946666666666667, + "grad_norm": 11.0, + "learning_rate": 1.7279017254312906e-06, + "loss": 1.4243416786193848, + "step": 2842 + }, + { + "epoch": 1.896, + "grad_norm": 2.1875, + "learning_rate": 1.7263745762457857e-06, + "loss": 1.0933666229248047, + "step": 2844 + }, + { + "epoch": 1.8973333333333333, + "grad_norm": 5.75, + "learning_rate": 1.7248665737602377e-06, + "loss": 1.6563225984573364, + "step": 2846 + }, + { + "epoch": 1.8986666666666667, + "grad_norm": 2.3125, + "learning_rate": 1.7233777250049751e-06, + "loss": 1.069027066230774, + "step": 2848 + }, + { + "epoch": 1.9, + "grad_norm": 11.4375, + "learning_rate": 1.7219080369210335e-06, + "loss": 1.753813624382019, + "step": 2850 + }, + { + "epoch": 1.9013333333333333, + "grad_norm": 2.84375, + "learning_rate": 1.720457516360118e-06, + "loss": 1.206129550933838, + "step": 2852 + }, + { + "epoch": 1.9026666666666667, + "grad_norm": 3.640625, + "learning_rate": 1.719026170084577e-06, + "loss": 1.3521314859390259, + "step": 2854 + }, + { + "epoch": 1.904, + "grad_norm": 6.125, + "learning_rate": 1.7176140047673664e-06, + "loss": 1.412433385848999, + "step": 2856 + }, + { + "epoch": 1.9053333333333333, + "grad_norm": 9.5, + "learning_rate": 1.7162210269920215e-06, + "loss": 1.743882656097412, + "step": 2858 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 1.8359375, + "learning_rate": 1.7148472432526236e-06, + "loss": 1.0447434186935425, + "step": 2860 + }, + { + "epoch": 1.908, + "grad_norm": 4.3125, + "learning_rate": 1.7134926599537734e-06, + "loss": 1.4740633964538574, + "step": 2862 + }, + { + "epoch": 1.9093333333333333, + "grad_norm": 3.09375, + "learning_rate": 1.7121572834105563e-06, + "loss": 1.0643571615219116, + "step": 2864 + }, + { + "epoch": 1.9106666666666667, + "grad_norm": 2.828125, + "learning_rate": 1.710841119848517e-06, + "loss": 1.0655380487442017, + "step": 2866 + }, + { + "epoch": 1.912, + "grad_norm": 2.53125, + "learning_rate": 1.7095441754036283e-06, + "loss": 1.1269874572753906, + "step": 2868 + }, + { + "epoch": 1.9133333333333333, + "grad_norm": 4.34375, + "learning_rate": 1.7082664561222649e-06, + "loss": 1.4369423389434814, + "step": 2870 + }, + { + "epoch": 1.9146666666666667, + "grad_norm": 10.8125, + "learning_rate": 1.7070079679611703e-06, + "loss": 1.721430778503418, + "step": 2872 + }, + { + "epoch": 1.916, + "grad_norm": 6.625, + "learning_rate": 1.7057687167874356e-06, + "loss": 1.7939766645431519, + "step": 2874 + }, + { + "epoch": 1.9173333333333333, + "grad_norm": 16.625, + "learning_rate": 1.704548708378467e-06, + "loss": 1.3905680179595947, + "step": 2876 + }, + { + "epoch": 1.9186666666666667, + "grad_norm": 5.8125, + "learning_rate": 1.7033479484219613e-06, + "loss": 1.5273337364196777, + "step": 2878 + }, + { + "epoch": 1.92, + "grad_norm": 7.03125, + "learning_rate": 1.7021664425158774e-06, + "loss": 1.7179479598999023, + "step": 2880 + }, + { + "epoch": 1.9213333333333333, + "grad_norm": 6.34375, + "learning_rate": 1.701004196168413e-06, + "loss": 1.509115219116211, + "step": 2882 + }, + { + "epoch": 1.9226666666666667, + "grad_norm": 7.0625, + "learning_rate": 1.6998612147979776e-06, + "loss": 1.782740592956543, + "step": 2884 + }, + { + "epoch": 1.924, + "grad_norm": 1.5, + "learning_rate": 1.6987375037331662e-06, + "loss": 1.0091302394866943, + "step": 2886 + }, + { + "epoch": 1.9253333333333333, + "grad_norm": 14.1875, + "learning_rate": 1.6976330682127354e-06, + "loss": 1.941452980041504, + "step": 2888 + }, + { + "epoch": 1.9266666666666667, + "grad_norm": 9.125, + "learning_rate": 1.69654791338558e-06, + "loss": 1.7178850173950195, + "step": 2890 + }, + { + "epoch": 1.928, + "grad_norm": 8.5625, + "learning_rate": 1.6954820443107067e-06, + "loss": 1.575331687927246, + "step": 2892 + }, + { + "epoch": 1.9293333333333333, + "grad_norm": 13.25, + "learning_rate": 1.6944354659572127e-06, + "loss": 1.875302791595459, + "step": 2894 + }, + { + "epoch": 1.9306666666666668, + "grad_norm": 5.65625, + "learning_rate": 1.6934081832042604e-06, + "loss": 1.1005830764770508, + "step": 2896 + }, + { + "epoch": 1.932, + "grad_norm": 12.5, + "learning_rate": 1.6924002008410565e-06, + "loss": 1.8767313957214355, + "step": 2898 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 5.5, + "learning_rate": 1.69141152356683e-06, + "loss": 1.5892574787139893, + "step": 2900 + }, + { + "epoch": 1.9346666666666668, + "grad_norm": 14.5, + "learning_rate": 1.6904421559908073e-06, + "loss": 0.9386653304100037, + "step": 2902 + }, + { + "epoch": 1.936, + "grad_norm": 5.3125, + "learning_rate": 1.6894921026321951e-06, + "loss": 1.519507646560669, + "step": 2904 + }, + { + "epoch": 1.9373333333333334, + "grad_norm": 3.609375, + "learning_rate": 1.6885613679201543e-06, + "loss": 1.4453504085540771, + "step": 2906 + }, + { + "epoch": 1.9386666666666668, + "grad_norm": 2.0625, + "learning_rate": 1.6876499561937839e-06, + "loss": 1.2696738243103027, + "step": 2908 + }, + { + "epoch": 1.94, + "grad_norm": 17.25, + "learning_rate": 1.686757871702098e-06, + "loss": 2.0488576889038086, + "step": 2910 + }, + { + "epoch": 1.9413333333333334, + "grad_norm": 6.15625, + "learning_rate": 1.6858851186040078e-06, + "loss": 1.388519287109375, + "step": 2912 + }, + { + "epoch": 1.9426666666666668, + "grad_norm": 3.234375, + "learning_rate": 1.6850317009683007e-06, + "loss": 1.1983695030212402, + "step": 2914 + }, + { + "epoch": 1.944, + "grad_norm": 9.125, + "learning_rate": 1.6841976227736206e-06, + "loss": 1.755957841873169, + "step": 2916 + }, + { + "epoch": 1.9453333333333334, + "grad_norm": 1.1953125, + "learning_rate": 1.683382887908453e-06, + "loss": 1.0279343128204346, + "step": 2918 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 1.6875, + "learning_rate": 1.6825875001711025e-06, + "loss": 1.1533664464950562, + "step": 2920 + }, + { + "epoch": 1.948, + "grad_norm": 4.4375, + "learning_rate": 1.6818114632696795e-06, + "loss": 1.5219945907592773, + "step": 2922 + }, + { + "epoch": 1.9493333333333334, + "grad_norm": 5.59375, + "learning_rate": 1.6810547808220776e-06, + "loss": 1.1045305728912354, + "step": 2924 + }, + { + "epoch": 1.9506666666666668, + "grad_norm": 12.4375, + "learning_rate": 1.6803174563559612e-06, + "loss": 1.8807090520858765, + "step": 2926 + }, + { + "epoch": 1.952, + "grad_norm": 3.625, + "learning_rate": 1.679599493308748e-06, + "loss": 1.3571417331695557, + "step": 2928 + }, + { + "epoch": 1.9533333333333334, + "grad_norm": 6.03125, + "learning_rate": 1.678900895027592e-06, + "loss": 1.498100996017456, + "step": 2930 + }, + { + "epoch": 1.9546666666666668, + "grad_norm": 5.71875, + "learning_rate": 1.6782216647693678e-06, + "loss": 1.7426185607910156, + "step": 2932 + }, + { + "epoch": 1.956, + "grad_norm": 4.75, + "learning_rate": 1.677561805700656e-06, + "loss": 1.384394884109497, + "step": 2934 + }, + { + "epoch": 1.9573333333333334, + "grad_norm": 2.0625, + "learning_rate": 1.6769213208977307e-06, + "loss": 1.2053213119506836, + "step": 2936 + }, + { + "epoch": 1.9586666666666668, + "grad_norm": 11.5625, + "learning_rate": 1.6763002133465392e-06, + "loss": 1.4919240474700928, + "step": 2938 + }, + { + "epoch": 1.96, + "grad_norm": 11.375, + "learning_rate": 1.675698485942695e-06, + "loss": 1.5332872867584229, + "step": 2940 + }, + { + "epoch": 1.9613333333333334, + "grad_norm": 2.203125, + "learning_rate": 1.6751161414914592e-06, + "loss": 1.2368464469909668, + "step": 2942 + }, + { + "epoch": 1.9626666666666668, + "grad_norm": 4.96875, + "learning_rate": 1.6745531827077301e-06, + "loss": 0.38677334785461426, + "step": 2944 + }, + { + "epoch": 1.964, + "grad_norm": 3.03125, + "learning_rate": 1.6740096122160293e-06, + "loss": 1.246574878692627, + "step": 2946 + }, + { + "epoch": 1.9653333333333334, + "grad_norm": 4.9375, + "learning_rate": 1.6734854325504908e-06, + "loss": 1.4643174409866333, + "step": 2948 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 1.5703125, + "learning_rate": 1.6729806461548465e-06, + "loss": 1.108989953994751, + "step": 2950 + }, + { + "epoch": 1.968, + "grad_norm": 1.953125, + "learning_rate": 1.6724952553824183e-06, + "loss": 1.2631993293762207, + "step": 2952 + }, + { + "epoch": 1.9693333333333334, + "grad_norm": 2.28125, + "learning_rate": 1.6720292624961052e-06, + "loss": 1.0395303964614868, + "step": 2954 + }, + { + "epoch": 1.9706666666666668, + "grad_norm": 1.40625, + "learning_rate": 1.6715826696683727e-06, + "loss": 1.2307453155517578, + "step": 2956 + }, + { + "epoch": 1.972, + "grad_norm": 4.75, + "learning_rate": 1.671155478981242e-06, + "loss": 1.4833658933639526, + "step": 2958 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 7.84375, + "learning_rate": 1.6707476924262824e-06, + "loss": 1.4962571859359741, + "step": 2960 + }, + { + "epoch": 1.9746666666666668, + "grad_norm": 7.90625, + "learning_rate": 1.6703593119046018e-06, + "loss": 1.7367886304855347, + "step": 2962 + }, + { + "epoch": 1.976, + "grad_norm": 9.9375, + "learning_rate": 1.6699903392268343e-06, + "loss": 1.7091962099075317, + "step": 2964 + }, + { + "epoch": 1.9773333333333334, + "grad_norm": 7.46875, + "learning_rate": 1.6696407761131365e-06, + "loss": 1.367563009262085, + "step": 2966 + }, + { + "epoch": 1.9786666666666668, + "grad_norm": 14.5, + "learning_rate": 1.6693106241931765e-06, + "loss": 1.9681771993637085, + "step": 2968 + }, + { + "epoch": 1.98, + "grad_norm": 5.5625, + "learning_rate": 1.6689998850061267e-06, + "loss": 1.4136841297149658, + "step": 2970 + }, + { + "epoch": 1.9813333333333332, + "grad_norm": 6.34375, + "learning_rate": 1.6687085600006579e-06, + "loss": 1.7523043155670166, + "step": 2972 + }, + { + "epoch": 1.9826666666666668, + "grad_norm": 1.546875, + "learning_rate": 1.6684366505349317e-06, + "loss": 0.9437617063522339, + "step": 2974 + }, + { + "epoch": 1.984, + "grad_norm": 8.0, + "learning_rate": 1.668184157876594e-06, + "loss": 1.914856195449829, + "step": 2976 + }, + { + "epoch": 1.9853333333333332, + "grad_norm": 6.15625, + "learning_rate": 1.6679510832027685e-06, + "loss": 1.7545595169067383, + "step": 2978 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 10.6875, + "learning_rate": 1.667737427600053e-06, + "loss": 1.6925063133239746, + "step": 2980 + }, + { + "epoch": 1.988, + "grad_norm": 4.8125, + "learning_rate": 1.6675431920645127e-06, + "loss": 1.4586756229400635, + "step": 2982 + }, + { + "epoch": 1.9893333333333332, + "grad_norm": 2.34375, + "learning_rate": 1.6673683775016767e-06, + "loss": 1.1231346130371094, + "step": 2984 + }, + { + "epoch": 1.9906666666666668, + "grad_norm": 9.6875, + "learning_rate": 1.6672129847265328e-06, + "loss": 1.6970008611679077, + "step": 2986 + }, + { + "epoch": 1.992, + "grad_norm": 7.65625, + "learning_rate": 1.6670770144635247e-06, + "loss": 1.7199077606201172, + "step": 2988 + }, + { + "epoch": 1.9933333333333332, + "grad_norm": 5.46875, + "learning_rate": 1.6669604673465476e-06, + "loss": 1.5547149181365967, + "step": 2990 + }, + { + "epoch": 1.9946666666666668, + "grad_norm": 4.78125, + "learning_rate": 1.6668633439189452e-06, + "loss": 1.4819481372833252, + "step": 2992 + }, + { + "epoch": 1.996, + "grad_norm": 3.328125, + "learning_rate": 1.6667856446335087e-06, + "loss": 1.1569350957870483, + "step": 2994 + }, + { + "epoch": 1.9973333333333332, + "grad_norm": 7.21875, + "learning_rate": 1.6667273698524736e-06, + "loss": 1.6310951709747314, + "step": 2996 + }, + { + "epoch": 1.9986666666666668, + "grad_norm": 4.78125, + "learning_rate": 1.6666885198475175e-06, + "loss": 1.3490219116210938, + "step": 2998 + }, + { + "epoch": 2.0, + "grad_norm": 1.796875, + "learning_rate": 1.6666690947997594e-06, + "loss": 1.0550994873046875, + "step": 3000 + }, + { + "epoch": 2.0, + "step": 3000, + "total_flos": 2.464576238203699e+18, + "train_loss": 1.458037720322609, + "train_runtime": 26917.7119, + "train_samples_per_second": 0.892, + "train_steps_per_second": 0.111 + } + ], + "logging_steps": 2, + "max_steps": 3000, + "num_input_tokens_seen": 0, + "num_train_epochs": 2, + "save_steps": 9999999, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 2.464576238203699e+18, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}