{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500, "global_step": 3000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0013333333333333333, "grad_norm": 2.65625, "learning_rate": 1.1111111111111112e-07, "loss": 1.426961898803711, "step": 2 }, { "epoch": 0.0026666666666666666, "grad_norm": 2.671875, "learning_rate": 3.3333333333333335e-07, "loss": 1.0916433334350586, "step": 4 }, { "epoch": 0.004, "grad_norm": 20.625, "learning_rate": 5.555555555555555e-07, "loss": 2.423888683319092, "step": 6 }, { "epoch": 0.005333333333333333, "grad_norm": 8.6875, "learning_rate": 7.777777777777779e-07, "loss": 2.0880517959594727, "step": 8 }, { "epoch": 0.006666666666666667, "grad_norm": 12.8125, "learning_rate": 1.0000000000000002e-06, "loss": 2.239799976348877, "step": 10 }, { "epoch": 0.008, "grad_norm": 8.625, "learning_rate": 1.2222222222222223e-06, "loss": 1.9201855659484863, "step": 12 }, { "epoch": 0.009333333333333334, "grad_norm": 7.0, "learning_rate": 1.4444444444444445e-06, "loss": 1.9083274602890015, "step": 14 }, { "epoch": 0.010666666666666666, "grad_norm": 11.0625, "learning_rate": 1.6666666666666667e-06, "loss": 2.2220070362091064, "step": 16 }, { "epoch": 0.012, "grad_norm": 14.6875, "learning_rate": 1.888888888888889e-06, "loss": 2.5249276161193848, "step": 18 }, { "epoch": 0.013333333333333334, "grad_norm": 6.09375, "learning_rate": 2.1111111111111114e-06, "loss": 1.8995552062988281, "step": 20 }, { "epoch": 0.014666666666666666, "grad_norm": 30.625, "learning_rate": 2.3333333333333336e-06, "loss": 1.7150570154190063, "step": 22 }, { "epoch": 0.016, "grad_norm": 12.5, "learning_rate": 2.5555555555555557e-06, "loss": 1.7441375255584717, "step": 24 }, { "epoch": 0.017333333333333333, "grad_norm": 4.09375, "learning_rate": 2.7777777777777783e-06, "loss": 1.1571142673492432, "step": 26 }, { "epoch": 0.018666666666666668, "grad_norm": 9.75, "learning_rate": 3e-06, "loss": 1.8743200302124023, "step": 28 }, { "epoch": 0.02, "grad_norm": 4.90625, "learning_rate": 3.2222222222222227e-06, "loss": 1.9281845092773438, "step": 30 }, { "epoch": 0.021333333333333333, "grad_norm": 6.40625, "learning_rate": 3.444444444444445e-06, "loss": 1.9411826133728027, "step": 32 }, { "epoch": 0.02266666666666667, "grad_norm": 14.9375, "learning_rate": 3.6666666666666666e-06, "loss": 1.7532334327697754, "step": 34 }, { "epoch": 0.024, "grad_norm": 6.53125, "learning_rate": 3.88888888888889e-06, "loss": 2.0853347778320312, "step": 36 }, { "epoch": 0.025333333333333333, "grad_norm": 1.2578125, "learning_rate": 4.111111111111111e-06, "loss": 1.3436920642852783, "step": 38 }, { "epoch": 0.02666666666666667, "grad_norm": 10.125, "learning_rate": 4.333333333333334e-06, "loss": 1.9322056770324707, "step": 40 }, { "epoch": 0.028, "grad_norm": 17.5, "learning_rate": 4.555555555555556e-06, "loss": 2.2416582107543945, "step": 42 }, { "epoch": 0.029333333333333333, "grad_norm": 13.5, "learning_rate": 4.777777777777778e-06, "loss": 2.0358848571777344, "step": 44 }, { "epoch": 0.030666666666666665, "grad_norm": 9.625, "learning_rate": 5e-06, "loss": 2.0231871604919434, "step": 46 }, { "epoch": 0.032, "grad_norm": 8.6875, "learning_rate": 5.2222222222222226e-06, "loss": 2.0352306365966797, "step": 48 }, { "epoch": 0.03333333333333333, "grad_norm": 4.1875, "learning_rate": 5.444444444444445e-06, "loss": 1.1770884990692139, "step": 50 }, { "epoch": 0.034666666666666665, "grad_norm": 10.4375, "learning_rate": 5.666666666666667e-06, "loss": 2.528522491455078, "step": 52 }, { "epoch": 0.036, "grad_norm": 9.125, "learning_rate": 5.88888888888889e-06, "loss": 2.0782127380371094, "step": 54 }, { "epoch": 0.037333333333333336, "grad_norm": 14.25, "learning_rate": 6.111111111111112e-06, "loss": 2.3558883666992188, "step": 56 }, { "epoch": 0.03866666666666667, "grad_norm": 10.0625, "learning_rate": 6.333333333333333e-06, "loss": 2.3600592613220215, "step": 58 }, { "epoch": 0.04, "grad_norm": 2.15625, "learning_rate": 6.555555555555556e-06, "loss": 1.1547472476959229, "step": 60 }, { "epoch": 0.04133333333333333, "grad_norm": 12.625, "learning_rate": 6.777777777777779e-06, "loss": 2.318289279937744, "step": 62 }, { "epoch": 0.042666666666666665, "grad_norm": 8.6875, "learning_rate": 7e-06, "loss": 1.987494707107544, "step": 64 }, { "epoch": 0.044, "grad_norm": 5.59375, "learning_rate": 7.222222222222223e-06, "loss": 1.0594491958618164, "step": 66 }, { "epoch": 0.04533333333333334, "grad_norm": 2.03125, "learning_rate": 7.444444444444445e-06, "loss": 1.0497875213623047, "step": 68 }, { "epoch": 0.04666666666666667, "grad_norm": 7.46875, "learning_rate": 7.666666666666667e-06, "loss": 1.9007290601730347, "step": 70 }, { "epoch": 0.048, "grad_norm": 13.4375, "learning_rate": 7.88888888888889e-06, "loss": 1.7056117057800293, "step": 72 }, { "epoch": 0.04933333333333333, "grad_norm": 2.25, "learning_rate": 8.111111111111112e-06, "loss": 1.1812058687210083, "step": 74 }, { "epoch": 0.050666666666666665, "grad_norm": 10.1875, "learning_rate": 8.333333333333334e-06, "loss": 2.21980357170105, "step": 76 }, { "epoch": 0.052, "grad_norm": 5.125, "learning_rate": 8.555555555555556e-06, "loss": 1.8565629720687866, "step": 78 }, { "epoch": 0.05333333333333334, "grad_norm": 2.21875, "learning_rate": 8.777777777777778e-06, "loss": 1.2600555419921875, "step": 80 }, { "epoch": 0.05466666666666667, "grad_norm": 13.3125, "learning_rate": 9e-06, "loss": 2.3689146041870117, "step": 82 }, { "epoch": 0.056, "grad_norm": 5.5, "learning_rate": 9.222222222222224e-06, "loss": 1.7448933124542236, "step": 84 }, { "epoch": 0.05733333333333333, "grad_norm": 13.8125, "learning_rate": 9.444444444444445e-06, "loss": 1.8399966955184937, "step": 86 }, { "epoch": 0.058666666666666666, "grad_norm": 4.875, "learning_rate": 9.666666666666667e-06, "loss": 1.6913926601409912, "step": 88 }, { "epoch": 0.06, "grad_norm": 2.609375, "learning_rate": 9.88888888888889e-06, "loss": 1.218923807144165, "step": 90 }, { "epoch": 0.06133333333333333, "grad_norm": 3.359375, "learning_rate": 9.99999757186691e-06, "loss": 0.9948500394821167, "step": 92 }, { "epoch": 0.06266666666666666, "grad_norm": 5.25, "learning_rate": 9.999978146819149e-06, "loss": 1.7063817977905273, "step": 94 }, { "epoch": 0.064, "grad_norm": 6.4375, "learning_rate": 9.999939296814194e-06, "loss": 1.944851279258728, "step": 96 }, { "epoch": 0.06533333333333333, "grad_norm": 24.0, "learning_rate": 9.999881022033159e-06, "loss": 1.8162541389465332, "step": 98 }, { "epoch": 0.06666666666666667, "grad_norm": 4.0625, "learning_rate": 9.99980332274772e-06, "loss": 1.777747392654419, "step": 100 }, { "epoch": 0.068, "grad_norm": 4.34375, "learning_rate": 9.999706199320119e-06, "loss": 1.6522843837738037, "step": 102 }, { "epoch": 0.06933333333333333, "grad_norm": 5.0, "learning_rate": 9.999589652203143e-06, "loss": 1.89161217212677, "step": 104 }, { "epoch": 0.07066666666666667, "grad_norm": 4.5, "learning_rate": 9.999453681940135e-06, "loss": 1.8623158931732178, "step": 106 }, { "epoch": 0.072, "grad_norm": 5.8125, "learning_rate": 9.999298289164992e-06, "loss": 1.7459262609481812, "step": 108 }, { "epoch": 0.07333333333333333, "grad_norm": 25.875, "learning_rate": 9.999123474602156e-06, "loss": 2.047550916671753, "step": 110 }, { "epoch": 0.07466666666666667, "grad_norm": 10.5, "learning_rate": 9.998929239066614e-06, "loss": 2.235140323638916, "step": 112 }, { "epoch": 0.076, "grad_norm": 2.34375, "learning_rate": 9.998715583463898e-06, "loss": 1.2381446361541748, "step": 114 }, { "epoch": 0.07733333333333334, "grad_norm": 5.3125, "learning_rate": 9.998482508790072e-06, "loss": 1.7317302227020264, "step": 116 }, { "epoch": 0.07866666666666666, "grad_norm": 10.0, "learning_rate": 9.998230016131736e-06, "loss": 1.3054664134979248, "step": 118 }, { "epoch": 0.08, "grad_norm": 8.1875, "learning_rate": 9.99795810666601e-06, "loss": 1.6727921962738037, "step": 120 }, { "epoch": 0.08133333333333333, "grad_norm": 8.0625, "learning_rate": 9.99766678166054e-06, "loss": 1.8442578315734863, "step": 122 }, { "epoch": 0.08266666666666667, "grad_norm": 3.625, "learning_rate": 9.997356042473491e-06, "loss": 1.2996498346328735, "step": 124 }, { "epoch": 0.084, "grad_norm": 19.5, "learning_rate": 9.997025890553532e-06, "loss": 1.3131730556488037, "step": 126 }, { "epoch": 0.08533333333333333, "grad_norm": 2.609375, "learning_rate": 9.996676327439833e-06, "loss": 1.1626245975494385, "step": 128 }, { "epoch": 0.08666666666666667, "grad_norm": 2.75, "learning_rate": 9.996307354762064e-06, "loss": 1.3802151679992676, "step": 130 }, { "epoch": 0.088, "grad_norm": 7.75, "learning_rate": 9.995918974240384e-06, "loss": 1.9702292680740356, "step": 132 }, { "epoch": 0.08933333333333333, "grad_norm": 7.71875, "learning_rate": 9.995511187685424e-06, "loss": 2.1353108882904053, "step": 134 }, { "epoch": 0.09066666666666667, "grad_norm": 4.9375, "learning_rate": 9.995083996998295e-06, "loss": 1.7128398418426514, "step": 136 }, { "epoch": 0.092, "grad_norm": 9.4375, "learning_rate": 9.994637404170562e-06, "loss": 2.146682024002075, "step": 138 }, { "epoch": 0.09333333333333334, "grad_norm": 14.1875, "learning_rate": 9.994171411284248e-06, "loss": 1.4107303619384766, "step": 140 }, { "epoch": 0.09466666666666666, "grad_norm": 7.21875, "learning_rate": 9.993686020511822e-06, "loss": 1.8499665260314941, "step": 142 }, { "epoch": 0.096, "grad_norm": 2.484375, "learning_rate": 9.993181234116179e-06, "loss": 1.0920655727386475, "step": 144 }, { "epoch": 0.09733333333333333, "grad_norm": 22.25, "learning_rate": 9.992657054450638e-06, "loss": 1.8085236549377441, "step": 146 }, { "epoch": 0.09866666666666667, "grad_norm": 9.75, "learning_rate": 9.992113483958936e-06, "loss": 1.6384665966033936, "step": 148 }, { "epoch": 0.1, "grad_norm": 6.65625, "learning_rate": 9.991550525175209e-06, "loss": 1.6129257678985596, "step": 150 }, { "epoch": 0.10133333333333333, "grad_norm": 8.1875, "learning_rate": 9.990968180723972e-06, "loss": 1.9638266563415527, "step": 152 }, { "epoch": 0.10266666666666667, "grad_norm": 5.0625, "learning_rate": 9.990366453320128e-06, "loss": 1.8066442012786865, "step": 154 }, { "epoch": 0.104, "grad_norm": 3.671875, "learning_rate": 9.989745345768936e-06, "loss": 1.6543402671813965, "step": 156 }, { "epoch": 0.10533333333333333, "grad_norm": 3.78125, "learning_rate": 9.98910486096601e-06, "loss": 1.08891761302948, "step": 158 }, { "epoch": 0.10666666666666667, "grad_norm": 8.4375, "learning_rate": 9.9884450018973e-06, "loss": 1.6041430234909058, "step": 160 }, { "epoch": 0.108, "grad_norm": 5.125, "learning_rate": 9.987765771639075e-06, "loss": 1.6626205444335938, "step": 162 }, { "epoch": 0.10933333333333334, "grad_norm": 8.5, "learning_rate": 9.987067173357918e-06, "loss": 1.7176623344421387, "step": 164 }, { "epoch": 0.11066666666666666, "grad_norm": 1.796875, "learning_rate": 9.986349210310707e-06, "loss": 1.1125199794769287, "step": 166 }, { "epoch": 0.112, "grad_norm": 21.875, "learning_rate": 9.985611885844591e-06, "loss": 1.8107001781463623, "step": 168 }, { "epoch": 0.11333333333333333, "grad_norm": 4.125, "learning_rate": 9.984855203396988e-06, "loss": 1.684809923171997, "step": 170 }, { "epoch": 0.11466666666666667, "grad_norm": 5.40625, "learning_rate": 9.984079166495563e-06, "loss": 1.624544620513916, "step": 172 }, { "epoch": 0.116, "grad_norm": 2.53125, "learning_rate": 9.983283778758216e-06, "loss": 1.1144016981124878, "step": 174 }, { "epoch": 0.11733333333333333, "grad_norm": 3.46875, "learning_rate": 9.982469043893046e-06, "loss": 1.2474544048309326, "step": 176 }, { "epoch": 0.11866666666666667, "grad_norm": 6.9375, "learning_rate": 9.981634965698366e-06, "loss": 1.864957332611084, "step": 178 }, { "epoch": 0.12, "grad_norm": 15.8125, "learning_rate": 9.980781548062659e-06, "loss": 1.8649969100952148, "step": 180 }, { "epoch": 0.12133333333333333, "grad_norm": 10.875, "learning_rate": 9.979908794964571e-06, "loss": 1.6164734363555908, "step": 182 }, { "epoch": 0.12266666666666666, "grad_norm": 3.96875, "learning_rate": 9.979016710472882e-06, "loss": 1.6327316761016846, "step": 184 }, { "epoch": 0.124, "grad_norm": 5.09375, "learning_rate": 9.978105298746514e-06, "loss": 1.5323165655136108, "step": 186 }, { "epoch": 0.12533333333333332, "grad_norm": 9.4375, "learning_rate": 9.977174564034473e-06, "loss": 1.6481460332870483, "step": 188 }, { "epoch": 0.12666666666666668, "grad_norm": 5.4375, "learning_rate": 9.97622451067586e-06, "loss": 1.7201898097991943, "step": 190 }, { "epoch": 0.128, "grad_norm": 4.125, "learning_rate": 9.975255143099838e-06, "loss": 1.567455768585205, "step": 192 }, { "epoch": 0.12933333333333333, "grad_norm": 2.796875, "learning_rate": 9.97426646582561e-06, "loss": 1.070652723312378, "step": 194 }, { "epoch": 0.13066666666666665, "grad_norm": 6.0625, "learning_rate": 9.973258483462406e-06, "loss": 2.008556365966797, "step": 196 }, { "epoch": 0.132, "grad_norm": 5.625, "learning_rate": 9.972231200709455e-06, "loss": 1.6150736808776855, "step": 198 }, { "epoch": 0.13333333333333333, "grad_norm": 4.0625, "learning_rate": 9.97118462235596e-06, "loss": 1.167098045349121, "step": 200 }, { "epoch": 0.13466666666666666, "grad_norm": 5.65625, "learning_rate": 9.970118753281088e-06, "loss": 1.6983978748321533, "step": 202 }, { "epoch": 0.136, "grad_norm": 11.125, "learning_rate": 9.969033598453932e-06, "loss": 2.083345651626587, "step": 204 }, { "epoch": 0.13733333333333334, "grad_norm": 3.578125, "learning_rate": 9.9679291629335e-06, "loss": 1.5576822757720947, "step": 206 }, { "epoch": 0.13866666666666666, "grad_norm": 6.25, "learning_rate": 9.96680545186869e-06, "loss": 1.6733722686767578, "step": 208 }, { "epoch": 0.14, "grad_norm": 1.6171875, "learning_rate": 9.965662470498253e-06, "loss": 1.0353288650512695, "step": 210 }, { "epoch": 0.14133333333333334, "grad_norm": 4.125, "learning_rate": 9.96450022415079e-06, "loss": 1.5584754943847656, "step": 212 }, { "epoch": 0.14266666666666666, "grad_norm": 10.625, "learning_rate": 9.963318718244706e-06, "loss": 1.9951732158660889, "step": 214 }, { "epoch": 0.144, "grad_norm": 3.25, "learning_rate": 9.9621179582882e-06, "loss": 1.2333295345306396, "step": 216 }, { "epoch": 0.14533333333333334, "grad_norm": 7.25, "learning_rate": 9.960897949879232e-06, "loss": 1.8798540830612183, "step": 218 }, { "epoch": 0.14666666666666667, "grad_norm": 5.25, "learning_rate": 9.959658698705497e-06, "loss": 1.6423976421356201, "step": 220 }, { "epoch": 0.148, "grad_norm": 18.25, "learning_rate": 9.958400210544404e-06, "loss": 1.7932629585266113, "step": 222 }, { "epoch": 0.14933333333333335, "grad_norm": 7.90625, "learning_rate": 9.957122491263038e-06, "loss": 1.6173839569091797, "step": 224 }, { "epoch": 0.15066666666666667, "grad_norm": 8.0, "learning_rate": 9.95582554681815e-06, "loss": 2.040992259979248, "step": 226 }, { "epoch": 0.152, "grad_norm": 17.875, "learning_rate": 9.95450938325611e-06, "loss": 1.217178225517273, "step": 228 }, { "epoch": 0.15333333333333332, "grad_norm": 3.25, "learning_rate": 9.953174006712894e-06, "loss": 1.5595924854278564, "step": 230 }, { "epoch": 0.15466666666666667, "grad_norm": 5.6875, "learning_rate": 9.951819423414044e-06, "loss": 1.7298460006713867, "step": 232 }, { "epoch": 0.156, "grad_norm": 39.5, "learning_rate": 9.950445639674647e-06, "loss": 1.4321881532669067, "step": 234 }, { "epoch": 0.15733333333333333, "grad_norm": 8.0, "learning_rate": 9.9490526618993e-06, "loss": 1.7013092041015625, "step": 236 }, { "epoch": 0.15866666666666668, "grad_norm": 17.625, "learning_rate": 9.947640496582092e-06, "loss": 2.0311379432678223, "step": 238 }, { "epoch": 0.16, "grad_norm": 3.46875, "learning_rate": 9.94620915030655e-06, "loss": 1.2982442378997803, "step": 240 }, { "epoch": 0.16133333333333333, "grad_norm": 4.90625, "learning_rate": 9.944758629745635e-06, "loss": 1.5099470615386963, "step": 242 }, { "epoch": 0.16266666666666665, "grad_norm": 5.90625, "learning_rate": 9.943288941661693e-06, "loss": 1.9453644752502441, "step": 244 }, { "epoch": 0.164, "grad_norm": 5.125, "learning_rate": 9.941800092906431e-06, "loss": 1.4081361293792725, "step": 246 }, { "epoch": 0.16533333333333333, "grad_norm": 6.09375, "learning_rate": 9.940292090420882e-06, "loss": 1.5031116008758545, "step": 248 }, { "epoch": 0.16666666666666666, "grad_norm": 6.25, "learning_rate": 9.938764941235376e-06, "loss": 1.620882272720337, "step": 250 }, { "epoch": 0.168, "grad_norm": 4.09375, "learning_rate": 9.937218652469508e-06, "loss": 1.623213291168213, "step": 252 }, { "epoch": 0.16933333333333334, "grad_norm": 6.28125, "learning_rate": 9.93565323133209e-06, "loss": 1.0710468292236328, "step": 254 }, { "epoch": 0.17066666666666666, "grad_norm": 3.609375, "learning_rate": 9.934068685121144e-06, "loss": 1.6882750988006592, "step": 256 }, { "epoch": 0.172, "grad_norm": 3.171875, "learning_rate": 9.932465021223843e-06, "loss": 1.2838215827941895, "step": 258 }, { "epoch": 0.17333333333333334, "grad_norm": 7.78125, "learning_rate": 9.930842247116495e-06, "loss": 1.9634010791778564, "step": 260 }, { "epoch": 0.17466666666666666, "grad_norm": 4.96875, "learning_rate": 9.929200370364492e-06, "loss": 1.5601741075515747, "step": 262 }, { "epoch": 0.176, "grad_norm": 1.46875, "learning_rate": 9.927539398622288e-06, "loss": 1.2826993465423584, "step": 264 }, { "epoch": 0.17733333333333334, "grad_norm": 7.6875, "learning_rate": 9.925859339633355e-06, "loss": 1.7858996391296387, "step": 266 }, { "epoch": 0.17866666666666667, "grad_norm": 4.65625, "learning_rate": 9.924160201230157e-06, "loss": 1.612287163734436, "step": 268 }, { "epoch": 0.18, "grad_norm": 4.0, "learning_rate": 9.922441991334097e-06, "loss": 1.0408704280853271, "step": 270 }, { "epoch": 0.18133333333333335, "grad_norm": 2.546875, "learning_rate": 9.920704717955494e-06, "loss": 1.4308617115020752, "step": 272 }, { "epoch": 0.18266666666666667, "grad_norm": 4.53125, "learning_rate": 9.918948389193544e-06, "loss": 1.5153369903564453, "step": 274 }, { "epoch": 0.184, "grad_norm": 4.75, "learning_rate": 9.917173013236274e-06, "loss": 1.577946662902832, "step": 276 }, { "epoch": 0.18533333333333332, "grad_norm": 9.25, "learning_rate": 9.915378598360513e-06, "loss": 1.7744827270507812, "step": 278 }, { "epoch": 0.18666666666666668, "grad_norm": 1.78125, "learning_rate": 9.913565152931848e-06, "loss": 1.1672523021697998, "step": 280 }, { "epoch": 0.188, "grad_norm": 6.6875, "learning_rate": 9.911732685404586e-06, "loss": 1.0714428424835205, "step": 282 }, { "epoch": 0.18933333333333333, "grad_norm": 13.6875, "learning_rate": 9.909881204321719e-06, "loss": 1.6007957458496094, "step": 284 }, { "epoch": 0.19066666666666668, "grad_norm": 3.515625, "learning_rate": 9.908010718314878e-06, "loss": 1.1711657047271729, "step": 286 }, { "epoch": 0.192, "grad_norm": 1.90625, "learning_rate": 9.906121236104294e-06, "loss": 0.9995139837265015, "step": 288 }, { "epoch": 0.19333333333333333, "grad_norm": 2.53125, "learning_rate": 9.90421276649876e-06, "loss": 1.2077773809432983, "step": 290 }, { "epoch": 0.19466666666666665, "grad_norm": 4.625, "learning_rate": 9.902285318395588e-06, "loss": 1.6521837711334229, "step": 292 }, { "epoch": 0.196, "grad_norm": 3.921875, "learning_rate": 9.90033890078057e-06, "loss": 1.549246072769165, "step": 294 }, { "epoch": 0.19733333333333333, "grad_norm": 6.0, "learning_rate": 9.898373522727933e-06, "loss": 1.6926743984222412, "step": 296 }, { "epoch": 0.19866666666666666, "grad_norm": 4.09375, "learning_rate": 9.896389193400296e-06, "loss": 1.424901008605957, "step": 298 }, { "epoch": 0.2, "grad_norm": 6.4375, "learning_rate": 9.894385922048627e-06, "loss": 1.5778025388717651, "step": 300 }, { "epoch": 0.20133333333333334, "grad_norm": 10.5, "learning_rate": 9.89236371801221e-06, "loss": 1.8592967987060547, "step": 302 }, { "epoch": 0.20266666666666666, "grad_norm": 4.875, "learning_rate": 9.890322590718588e-06, "loss": 1.5442957878112793, "step": 304 }, { "epoch": 0.204, "grad_norm": 3.15625, "learning_rate": 9.888262549683528e-06, "loss": 1.1914174556732178, "step": 306 }, { "epoch": 0.20533333333333334, "grad_norm": 5.78125, "learning_rate": 9.886183604510962e-06, "loss": 1.9909839630126953, "step": 308 }, { "epoch": 0.20666666666666667, "grad_norm": 5.34375, "learning_rate": 9.884085764892972e-06, "loss": 1.573006510734558, "step": 310 }, { "epoch": 0.208, "grad_norm": 2.703125, "learning_rate": 9.881969040609709e-06, "loss": 1.158943772315979, "step": 312 }, { "epoch": 0.20933333333333334, "grad_norm": 2.125, "learning_rate": 9.879833441529376e-06, "loss": 1.1194008588790894, "step": 314 }, { "epoch": 0.21066666666666667, "grad_norm": 8.4375, "learning_rate": 9.877678977608163e-06, "loss": 1.5121419429779053, "step": 316 }, { "epoch": 0.212, "grad_norm": 7.1875, "learning_rate": 9.875505658890214e-06, "loss": 1.510066032409668, "step": 318 }, { "epoch": 0.21333333333333335, "grad_norm": 11.1875, "learning_rate": 9.873313495507569e-06, "loss": 0.9876103401184082, "step": 320 }, { "epoch": 0.21466666666666667, "grad_norm": 4.875, "learning_rate": 9.871102497680127e-06, "loss": 1.8244948387145996, "step": 322 }, { "epoch": 0.216, "grad_norm": 4.78125, "learning_rate": 9.86887267571559e-06, "loss": 1.1998775005340576, "step": 324 }, { "epoch": 0.21733333333333332, "grad_norm": 4.25, "learning_rate": 9.86662404000942e-06, "loss": 1.5374467372894287, "step": 326 }, { "epoch": 0.21866666666666668, "grad_norm": 2.328125, "learning_rate": 9.864356601044789e-06, "loss": 1.1450176239013672, "step": 328 }, { "epoch": 0.22, "grad_norm": 4.46875, "learning_rate": 9.86207036939253e-06, "loss": 1.261959195137024, "step": 330 }, { "epoch": 0.22133333333333333, "grad_norm": 3.421875, "learning_rate": 9.859765355711084e-06, "loss": 1.1870423555374146, "step": 332 }, { "epoch": 0.22266666666666668, "grad_norm": 3.359375, "learning_rate": 9.85744157074646e-06, "loss": 1.5192539691925049, "step": 334 }, { "epoch": 0.224, "grad_norm": 2.5, "learning_rate": 9.855099025332178e-06, "loss": 1.0173918008804321, "step": 336 }, { "epoch": 0.22533333333333333, "grad_norm": 1.4375, "learning_rate": 9.852737730389217e-06, "loss": 1.1494295597076416, "step": 338 }, { "epoch": 0.22666666666666666, "grad_norm": 4.65625, "learning_rate": 9.850357696925965e-06, "loss": 1.9026292562484741, "step": 340 }, { "epoch": 0.228, "grad_norm": 4.71875, "learning_rate": 9.847958936038176e-06, "loss": 1.59890878200531, "step": 342 }, { "epoch": 0.22933333333333333, "grad_norm": 1.8203125, "learning_rate": 9.845541458908903e-06, "loss": 1.1450040340423584, "step": 344 }, { "epoch": 0.23066666666666666, "grad_norm": 5.9375, "learning_rate": 9.84310527680846e-06, "loss": 1.528599739074707, "step": 346 }, { "epoch": 0.232, "grad_norm": 7.6875, "learning_rate": 9.840650401094363e-06, "loss": 1.938246488571167, "step": 348 }, { "epoch": 0.23333333333333334, "grad_norm": 2.0625, "learning_rate": 9.838176843211278e-06, "loss": 1.1424744129180908, "step": 350 }, { "epoch": 0.23466666666666666, "grad_norm": 4.21875, "learning_rate": 9.835684614690967e-06, "loss": 1.617881178855896, "step": 352 }, { "epoch": 0.236, "grad_norm": 11.4375, "learning_rate": 9.833173727152234e-06, "loss": 1.0590524673461914, "step": 354 }, { "epoch": 0.23733333333333334, "grad_norm": 4.6875, "learning_rate": 9.830644192300871e-06, "loss": 1.597219467163086, "step": 356 }, { "epoch": 0.23866666666666667, "grad_norm": 5.6875, "learning_rate": 9.828096021929607e-06, "loss": 2.0535879135131836, "step": 358 }, { "epoch": 0.24, "grad_norm": 5.03125, "learning_rate": 9.825529227918052e-06, "loss": 1.5197744369506836, "step": 360 }, { "epoch": 0.24133333333333334, "grad_norm": 7.0, "learning_rate": 9.822943822232627e-06, "loss": 1.502641201019287, "step": 362 }, { "epoch": 0.24266666666666667, "grad_norm": 5.40625, "learning_rate": 9.820339816926538e-06, "loss": 1.582297682762146, "step": 364 }, { "epoch": 0.244, "grad_norm": 7.34375, "learning_rate": 9.817717224139689e-06, "loss": 1.879384994506836, "step": 366 }, { "epoch": 0.24533333333333332, "grad_norm": 3.84375, "learning_rate": 9.815076056098651e-06, "loss": 1.1634621620178223, "step": 368 }, { "epoch": 0.24666666666666667, "grad_norm": 4.1875, "learning_rate": 9.81241632511658e-06, "loss": 1.5249799489974976, "step": 370 }, { "epoch": 0.248, "grad_norm": 2.84375, "learning_rate": 9.809738043593187e-06, "loss": 1.0248550176620483, "step": 372 }, { "epoch": 0.24933333333333332, "grad_norm": 3.28125, "learning_rate": 9.807041224014651e-06, "loss": 1.5375021696090698, "step": 374 }, { "epoch": 0.25066666666666665, "grad_norm": 4.0, "learning_rate": 9.804325878953588e-06, "loss": 1.4876121282577515, "step": 376 }, { "epoch": 0.252, "grad_norm": 4.71875, "learning_rate": 9.801592021068973e-06, "loss": 1.5311915874481201, "step": 378 }, { "epoch": 0.25333333333333335, "grad_norm": 1.8671875, "learning_rate": 9.79883966310609e-06, "loss": 1.199878215789795, "step": 380 }, { "epoch": 0.25466666666666665, "grad_norm": 1.7890625, "learning_rate": 9.796068817896474e-06, "loss": 1.1104457378387451, "step": 382 }, { "epoch": 0.256, "grad_norm": 1.046875, "learning_rate": 9.793279498357842e-06, "loss": 1.2461895942687988, "step": 384 }, { "epoch": 0.25733333333333336, "grad_norm": 1.6875, "learning_rate": 9.790471717494038e-06, "loss": 1.0979530811309814, "step": 386 }, { "epoch": 0.25866666666666666, "grad_norm": 9.5, "learning_rate": 9.787645488394985e-06, "loss": 1.9058414697647095, "step": 388 }, { "epoch": 0.26, "grad_norm": 6.6875, "learning_rate": 9.784800824236595e-06, "loss": 1.4592888355255127, "step": 390 }, { "epoch": 0.2613333333333333, "grad_norm": 12.0, "learning_rate": 9.781937738280735e-06, "loss": 1.8315216302871704, "step": 392 }, { "epoch": 0.26266666666666666, "grad_norm": 5.75, "learning_rate": 9.779056243875155e-06, "loss": 1.5205374956130981, "step": 394 }, { "epoch": 0.264, "grad_norm": 10.75, "learning_rate": 9.77615635445342e-06, "loss": 1.4809885025024414, "step": 396 }, { "epoch": 0.2653333333333333, "grad_norm": 8.75, "learning_rate": 9.773238083534857e-06, "loss": 2.0717709064483643, "step": 398 }, { "epoch": 0.26666666666666666, "grad_norm": 2.15625, "learning_rate": 9.770301444724484e-06, "loss": 0.9559568762779236, "step": 400 }, { "epoch": 0.268, "grad_norm": 7.46875, "learning_rate": 9.767346451712955e-06, "loss": 1.602325439453125, "step": 402 }, { "epoch": 0.2693333333333333, "grad_norm": 1.890625, "learning_rate": 9.76437311827649e-06, "loss": 1.3470821380615234, "step": 404 }, { "epoch": 0.27066666666666667, "grad_norm": 7.6875, "learning_rate": 9.76138145827681e-06, "loss": 2.051486015319824, "step": 406 }, { "epoch": 0.272, "grad_norm": 9.3125, "learning_rate": 9.758371485661076e-06, "loss": 1.547593116760254, "step": 408 }, { "epoch": 0.2733333333333333, "grad_norm": 12.1875, "learning_rate": 9.755343214461826e-06, "loss": 0.7995688915252686, "step": 410 }, { "epoch": 0.27466666666666667, "grad_norm": 2.609375, "learning_rate": 9.752296658796896e-06, "loss": 1.067533254623413, "step": 412 }, { "epoch": 0.276, "grad_norm": 2.609375, "learning_rate": 9.749231832869382e-06, "loss": 1.1320441961288452, "step": 414 }, { "epoch": 0.2773333333333333, "grad_norm": 5.53125, "learning_rate": 9.746148750967537e-06, "loss": 1.570180058479309, "step": 416 }, { "epoch": 0.2786666666666667, "grad_norm": 2.59375, "learning_rate": 9.743047427464738e-06, "loss": 1.1230032444000244, "step": 418 }, { "epoch": 0.28, "grad_norm": 1.65625, "learning_rate": 9.739927876819396e-06, "loss": 1.3301358222961426, "step": 420 }, { "epoch": 0.2813333333333333, "grad_norm": 4.78125, "learning_rate": 9.736790113574905e-06, "loss": 1.5038044452667236, "step": 422 }, { "epoch": 0.2826666666666667, "grad_norm": 1.34375, "learning_rate": 9.733634152359554e-06, "loss": 1.1231873035430908, "step": 424 }, { "epoch": 0.284, "grad_norm": 5.46875, "learning_rate": 9.730460007886487e-06, "loss": 1.4550846815109253, "step": 426 }, { "epoch": 0.2853333333333333, "grad_norm": 2.828125, "learning_rate": 9.727267694953607e-06, "loss": 1.2031742334365845, "step": 428 }, { "epoch": 0.2866666666666667, "grad_norm": 7.625, "learning_rate": 9.72405722844352e-06, "loss": 2.016512870788574, "step": 430 }, { "epoch": 0.288, "grad_norm": 10.9375, "learning_rate": 9.720828623323469e-06, "loss": 1.8591995239257812, "step": 432 }, { "epoch": 0.28933333333333333, "grad_norm": 5.34375, "learning_rate": 9.717581894645257e-06, "loss": 1.607204556465149, "step": 434 }, { "epoch": 0.2906666666666667, "grad_norm": 6.5625, "learning_rate": 9.714317057545176e-06, "loss": 1.7864959239959717, "step": 436 }, { "epoch": 0.292, "grad_norm": 60.25, "learning_rate": 9.711034127243948e-06, "loss": 1.471695899963379, "step": 438 }, { "epoch": 0.29333333333333333, "grad_norm": 12.375, "learning_rate": 9.707733119046636e-06, "loss": 1.7200267314910889, "step": 440 }, { "epoch": 0.2946666666666667, "grad_norm": 4.15625, "learning_rate": 9.70441404834259e-06, "loss": 1.4870445728302002, "step": 442 }, { "epoch": 0.296, "grad_norm": 8.8125, "learning_rate": 9.701076930605364e-06, "loss": 1.579514503479004, "step": 444 }, { "epoch": 0.29733333333333334, "grad_norm": 11.25, "learning_rate": 9.697721781392649e-06, "loss": 1.1523479223251343, "step": 446 }, { "epoch": 0.2986666666666667, "grad_norm": 11.375, "learning_rate": 9.694348616346195e-06, "loss": 1.970068097114563, "step": 448 }, { "epoch": 0.3, "grad_norm": 5.0, "learning_rate": 9.690957451191745e-06, "loss": 1.5304884910583496, "step": 450 }, { "epoch": 0.30133333333333334, "grad_norm": 12.625, "learning_rate": 9.687548301738965e-06, "loss": 1.4972553253173828, "step": 452 }, { "epoch": 0.30266666666666664, "grad_norm": 8.1875, "learning_rate": 9.684121183881354e-06, "loss": 1.4987800121307373, "step": 454 }, { "epoch": 0.304, "grad_norm": 3.984375, "learning_rate": 9.680676113596183e-06, "loss": 1.607285499572754, "step": 456 }, { "epoch": 0.30533333333333335, "grad_norm": 5.09375, "learning_rate": 9.677213106944422e-06, "loss": 1.5995099544525146, "step": 458 }, { "epoch": 0.30666666666666664, "grad_norm": 16.0, "learning_rate": 9.673732180070654e-06, "loss": 1.8780418634414673, "step": 460 }, { "epoch": 0.308, "grad_norm": 17.625, "learning_rate": 9.670233349203008e-06, "loss": 1.6614197492599487, "step": 462 }, { "epoch": 0.30933333333333335, "grad_norm": 1.9375, "learning_rate": 9.666716630653087e-06, "loss": 1.0368998050689697, "step": 464 }, { "epoch": 0.31066666666666665, "grad_norm": 14.875, "learning_rate": 9.663182040815883e-06, "loss": 1.773169755935669, "step": 466 }, { "epoch": 0.312, "grad_norm": 1.921875, "learning_rate": 9.659629596169704e-06, "loss": 1.0493347644805908, "step": 468 }, { "epoch": 0.31333333333333335, "grad_norm": 4.40625, "learning_rate": 9.656059313276094e-06, "loss": 1.3263812065124512, "step": 470 }, { "epoch": 0.31466666666666665, "grad_norm": 16.25, "learning_rate": 9.65247120877976e-06, "loss": 1.6804672479629517, "step": 472 }, { "epoch": 0.316, "grad_norm": 9.375, "learning_rate": 9.648865299408506e-06, "loss": 1.946678638458252, "step": 474 }, { "epoch": 0.31733333333333336, "grad_norm": 5.09375, "learning_rate": 9.645241601973123e-06, "loss": 1.5437986850738525, "step": 476 }, { "epoch": 0.31866666666666665, "grad_norm": 4.8125, "learning_rate": 9.641600133367346e-06, "loss": 1.4694257974624634, "step": 478 }, { "epoch": 0.32, "grad_norm": 8.4375, "learning_rate": 9.63794091056775e-06, "loss": 1.4415161609649658, "step": 480 }, { "epoch": 0.32133333333333336, "grad_norm": 7.0, "learning_rate": 9.634263950633682e-06, "loss": 1.4647676944732666, "step": 482 }, { "epoch": 0.32266666666666666, "grad_norm": 10.4375, "learning_rate": 9.630569270707186e-06, "loss": 1.9553511142730713, "step": 484 }, { "epoch": 0.324, "grad_norm": 1.8828125, "learning_rate": 9.62685688801291e-06, "loss": 1.3038352727890015, "step": 486 }, { "epoch": 0.3253333333333333, "grad_norm": 5.09375, "learning_rate": 9.623126819858035e-06, "loss": 1.6100306510925293, "step": 488 }, { "epoch": 0.32666666666666666, "grad_norm": 6.125, "learning_rate": 9.61937908363219e-06, "loss": 1.477756381034851, "step": 490 }, { "epoch": 0.328, "grad_norm": 6.4375, "learning_rate": 9.615613696807377e-06, "loss": 1.5422775745391846, "step": 492 }, { "epoch": 0.3293333333333333, "grad_norm": 11.1875, "learning_rate": 9.611830676937881e-06, "loss": 1.6656134128570557, "step": 494 }, { "epoch": 0.33066666666666666, "grad_norm": 8.5625, "learning_rate": 9.608030041660195e-06, "loss": 2.0399422645568848, "step": 496 }, { "epoch": 0.332, "grad_norm": 7.78125, "learning_rate": 9.604211808692936e-06, "loss": 1.023806095123291, "step": 498 }, { "epoch": 0.3333333333333333, "grad_norm": 5.21875, "learning_rate": 9.600375995836757e-06, "loss": 1.828716516494751, "step": 500 }, { "epoch": 0.33466666666666667, "grad_norm": 5.3125, "learning_rate": 9.596522620974274e-06, "loss": 1.6109929084777832, "step": 502 }, { "epoch": 0.336, "grad_norm": 1.8828125, "learning_rate": 9.59265170206997e-06, "loss": 1.0516669750213623, "step": 504 }, { "epoch": 0.3373333333333333, "grad_norm": 4.6875, "learning_rate": 9.588763257170135e-06, "loss": 1.4694746732711792, "step": 506 }, { "epoch": 0.33866666666666667, "grad_norm": 7.6875, "learning_rate": 9.584857304402746e-06, "loss": 1.5151875019073486, "step": 508 }, { "epoch": 0.34, "grad_norm": 12.9375, "learning_rate": 9.58093386197741e-06, "loss": 1.5199638605117798, "step": 510 }, { "epoch": 0.3413333333333333, "grad_norm": 1.6953125, "learning_rate": 9.576992948185276e-06, "loss": 1.1889758110046387, "step": 512 }, { "epoch": 0.3426666666666667, "grad_norm": 9.875, "learning_rate": 9.573034581398937e-06, "loss": 1.5682647228240967, "step": 514 }, { "epoch": 0.344, "grad_norm": 3.875, "learning_rate": 9.569058780072353e-06, "loss": 1.5848019123077393, "step": 516 }, { "epoch": 0.3453333333333333, "grad_norm": 9.25, "learning_rate": 9.565065562740769e-06, "loss": 1.883324146270752, "step": 518 }, { "epoch": 0.3466666666666667, "grad_norm": 4.03125, "learning_rate": 9.561054948020623e-06, "loss": 1.1338858604431152, "step": 520 }, { "epoch": 0.348, "grad_norm": 4.5, "learning_rate": 9.557026954609452e-06, "loss": 1.504443883895874, "step": 522 }, { "epoch": 0.34933333333333333, "grad_norm": 13.375, "learning_rate": 9.552981601285822e-06, "loss": 1.4343321323394775, "step": 524 }, { "epoch": 0.3506666666666667, "grad_norm": 4.4375, "learning_rate": 9.548918906909225e-06, "loss": 1.5061818361282349, "step": 526 }, { "epoch": 0.352, "grad_norm": 4.96875, "learning_rate": 9.544838890420005e-06, "loss": 1.6417787075042725, "step": 528 }, { "epoch": 0.35333333333333333, "grad_norm": 2.46875, "learning_rate": 9.540741570839254e-06, "loss": 1.2109320163726807, "step": 530 }, { "epoch": 0.3546666666666667, "grad_norm": 12.8125, "learning_rate": 9.53662696726873e-06, "loss": 1.592550277709961, "step": 532 }, { "epoch": 0.356, "grad_norm": 2.25, "learning_rate": 9.53249509889078e-06, "loss": 1.0606516599655151, "step": 534 }, { "epoch": 0.35733333333333334, "grad_norm": 4.25, "learning_rate": 9.528345984968229e-06, "loss": 1.4385344982147217, "step": 536 }, { "epoch": 0.3586666666666667, "grad_norm": 7.71875, "learning_rate": 9.524179644844303e-06, "loss": 1.8518590927124023, "step": 538 }, { "epoch": 0.36, "grad_norm": 4.6875, "learning_rate": 9.519996097942541e-06, "loss": 1.7862706184387207, "step": 540 }, { "epoch": 0.36133333333333334, "grad_norm": 4.65625, "learning_rate": 9.5157953637667e-06, "loss": 1.541890263557434, "step": 542 }, { "epoch": 0.3626666666666667, "grad_norm": 4.28125, "learning_rate": 9.51157746190066e-06, "loss": 1.0391428470611572, "step": 544 }, { "epoch": 0.364, "grad_norm": 5.53125, "learning_rate": 9.50734241200834e-06, "loss": 1.4924867153167725, "step": 546 }, { "epoch": 0.36533333333333334, "grad_norm": 3.859375, "learning_rate": 9.503090233833603e-06, "loss": 1.4717371463775635, "step": 548 }, { "epoch": 0.36666666666666664, "grad_norm": 7.5, "learning_rate": 9.498820947200163e-06, "loss": 1.8459192514419556, "step": 550 }, { "epoch": 0.368, "grad_norm": 4.6875, "learning_rate": 9.494534572011493e-06, "loss": 1.5080983638763428, "step": 552 }, { "epoch": 0.36933333333333335, "grad_norm": 4.375, "learning_rate": 9.49023112825074e-06, "loss": 1.432806372642517, "step": 554 }, { "epoch": 0.37066666666666664, "grad_norm": 2.1875, "learning_rate": 9.485910635980615e-06, "loss": 1.2087211608886719, "step": 556 }, { "epoch": 0.372, "grad_norm": 3.453125, "learning_rate": 9.481573115343316e-06, "loss": 1.5064131021499634, "step": 558 }, { "epoch": 0.37333333333333335, "grad_norm": 8.125, "learning_rate": 9.477218586560428e-06, "loss": 1.9642555713653564, "step": 560 }, { "epoch": 0.37466666666666665, "grad_norm": 1.6328125, "learning_rate": 9.472847069932823e-06, "loss": 1.278930425643921, "step": 562 }, { "epoch": 0.376, "grad_norm": 5.71875, "learning_rate": 9.468458585840574e-06, "loss": 1.361438512802124, "step": 564 }, { "epoch": 0.37733333333333335, "grad_norm": 4.8125, "learning_rate": 9.464053154742856e-06, "loss": 1.5573828220367432, "step": 566 }, { "epoch": 0.37866666666666665, "grad_norm": 7.3125, "learning_rate": 9.459630797177852e-06, "loss": 1.8953866958618164, "step": 568 }, { "epoch": 0.38, "grad_norm": 8.3125, "learning_rate": 9.455191533762656e-06, "loss": 1.8274908065795898, "step": 570 }, { "epoch": 0.38133333333333336, "grad_norm": 3.484375, "learning_rate": 9.450735385193174e-06, "loss": 0.9719834327697754, "step": 572 }, { "epoch": 0.38266666666666665, "grad_norm": 4.59375, "learning_rate": 9.446262372244037e-06, "loss": 1.5405220985412598, "step": 574 }, { "epoch": 0.384, "grad_norm": 4.4375, "learning_rate": 9.441772515768496e-06, "loss": 1.5655242204666138, "step": 576 }, { "epoch": 0.38533333333333336, "grad_norm": 10.5625, "learning_rate": 9.437265836698321e-06, "loss": 2.027954578399658, "step": 578 }, { "epoch": 0.38666666666666666, "grad_norm": 6.40625, "learning_rate": 9.432742356043716e-06, "loss": 1.5380610227584839, "step": 580 }, { "epoch": 0.388, "grad_norm": 3.875, "learning_rate": 9.428202094893212e-06, "loss": 1.251591682434082, "step": 582 }, { "epoch": 0.3893333333333333, "grad_norm": 2.984375, "learning_rate": 9.423645074413573e-06, "loss": 1.127235770225525, "step": 584 }, { "epoch": 0.39066666666666666, "grad_norm": 11.1875, "learning_rate": 9.419071315849689e-06, "loss": 1.574254035949707, "step": 586 }, { "epoch": 0.392, "grad_norm": 6.65625, "learning_rate": 9.41448084052449e-06, "loss": 1.6922552585601807, "step": 588 }, { "epoch": 0.3933333333333333, "grad_norm": 6.53125, "learning_rate": 9.409873669838836e-06, "loss": 1.503310203552246, "step": 590 }, { "epoch": 0.39466666666666667, "grad_norm": 4.75, "learning_rate": 9.405249825271422e-06, "loss": 1.559074878692627, "step": 592 }, { "epoch": 0.396, "grad_norm": 4.25, "learning_rate": 9.400609328378677e-06, "loss": 1.4986786842346191, "step": 594 }, { "epoch": 0.3973333333333333, "grad_norm": 6.21875, "learning_rate": 9.395952200794667e-06, "loss": 1.4592822790145874, "step": 596 }, { "epoch": 0.39866666666666667, "grad_norm": 15.1875, "learning_rate": 9.39127846423098e-06, "loss": 0.4564563035964966, "step": 598 }, { "epoch": 0.4, "grad_norm": 3.96875, "learning_rate": 9.386588140476646e-06, "loss": 1.4600090980529785, "step": 600 }, { "epoch": 0.4013333333333333, "grad_norm": 5.78125, "learning_rate": 9.381881251398022e-06, "loss": 1.618513822555542, "step": 602 }, { "epoch": 0.4026666666666667, "grad_norm": 2.6875, "learning_rate": 9.377157818938689e-06, "loss": 0.9879556894302368, "step": 604 }, { "epoch": 0.404, "grad_norm": 1.5703125, "learning_rate": 9.372417865119359e-06, "loss": 1.0576777458190918, "step": 606 }, { "epoch": 0.4053333333333333, "grad_norm": 8.5, "learning_rate": 9.367661412037758e-06, "loss": 0.7936822175979614, "step": 608 }, { "epoch": 0.4066666666666667, "grad_norm": 7.25, "learning_rate": 9.362888481868543e-06, "loss": 1.8808355331420898, "step": 610 }, { "epoch": 0.408, "grad_norm": 2.25, "learning_rate": 9.358099096863185e-06, "loss": 0.9202804565429688, "step": 612 }, { "epoch": 0.4093333333333333, "grad_norm": 4.90625, "learning_rate": 9.353293279349855e-06, "loss": 1.534444808959961, "step": 614 }, { "epoch": 0.4106666666666667, "grad_norm": 4.0, "learning_rate": 9.348471051733351e-06, "loss": 1.4413414001464844, "step": 616 }, { "epoch": 0.412, "grad_norm": 9.375, "learning_rate": 9.343632436494966e-06, "loss": 1.8454234600067139, "step": 618 }, { "epoch": 0.41333333333333333, "grad_norm": 5.65625, "learning_rate": 9.338777456192387e-06, "loss": 1.5563803911209106, "step": 620 }, { "epoch": 0.4146666666666667, "grad_norm": 7.40625, "learning_rate": 9.333906133459608e-06, "loss": 1.7403740882873535, "step": 622 }, { "epoch": 0.416, "grad_norm": 6.40625, "learning_rate": 9.329018491006796e-06, "loss": 1.380486249923706, "step": 624 }, { "epoch": 0.41733333333333333, "grad_norm": 10.25, "learning_rate": 9.324114551620216e-06, "loss": 1.8002688884735107, "step": 626 }, { "epoch": 0.4186666666666667, "grad_norm": 2.15625, "learning_rate": 9.319194338162103e-06, "loss": 1.0972381830215454, "step": 628 }, { "epoch": 0.42, "grad_norm": 8.375, "learning_rate": 9.31425787357056e-06, "loss": 1.166933536529541, "step": 630 }, { "epoch": 0.42133333333333334, "grad_norm": 4.90625, "learning_rate": 9.309305180859455e-06, "loss": 1.0162211656570435, "step": 632 }, { "epoch": 0.4226666666666667, "grad_norm": 11.3125, "learning_rate": 9.304336283118313e-06, "loss": 1.5658559799194336, "step": 634 }, { "epoch": 0.424, "grad_norm": 4.625, "learning_rate": 9.299351203512204e-06, "loss": 1.5108516216278076, "step": 636 }, { "epoch": 0.42533333333333334, "grad_norm": 1.78125, "learning_rate": 9.29434996528164e-06, "loss": 1.030600905418396, "step": 638 }, { "epoch": 0.4266666666666667, "grad_norm": 6.4375, "learning_rate": 9.289332591742465e-06, "loss": 1.501643419265747, "step": 640 }, { "epoch": 0.428, "grad_norm": 5.8125, "learning_rate": 9.284299106285748e-06, "loss": 1.3692076206207275, "step": 642 }, { "epoch": 0.42933333333333334, "grad_norm": 4.21875, "learning_rate": 9.279249532377663e-06, "loss": 1.4648946523666382, "step": 644 }, { "epoch": 0.43066666666666664, "grad_norm": 5.0, "learning_rate": 9.2741838935594e-06, "loss": 1.129237174987793, "step": 646 }, { "epoch": 0.432, "grad_norm": 3.84375, "learning_rate": 9.26910221344704e-06, "loss": 1.4659708738327026, "step": 648 }, { "epoch": 0.43333333333333335, "grad_norm": 7.34375, "learning_rate": 9.264004515731449e-06, "loss": 1.9087955951690674, "step": 650 }, { "epoch": 0.43466666666666665, "grad_norm": 6.3125, "learning_rate": 9.25889082417816e-06, "loss": 1.4802827835083008, "step": 652 }, { "epoch": 0.436, "grad_norm": 4.15625, "learning_rate": 9.253761162627278e-06, "loss": 1.500867247581482, "step": 654 }, { "epoch": 0.43733333333333335, "grad_norm": 5.625, "learning_rate": 9.248615554993359e-06, "loss": 1.6107925176620483, "step": 656 }, { "epoch": 0.43866666666666665, "grad_norm": 5.25, "learning_rate": 9.243454025265297e-06, "loss": 1.5453171730041504, "step": 658 }, { "epoch": 0.44, "grad_norm": 6.21875, "learning_rate": 9.23827659750622e-06, "loss": 1.2661125659942627, "step": 660 }, { "epoch": 0.44133333333333336, "grad_norm": 13.375, "learning_rate": 9.233083295853367e-06, "loss": 1.44877290725708, "step": 662 }, { "epoch": 0.44266666666666665, "grad_norm": 1.5234375, "learning_rate": 9.227874144517984e-06, "loss": 1.1241137981414795, "step": 664 }, { "epoch": 0.444, "grad_norm": 5.40625, "learning_rate": 9.222649167785209e-06, "loss": 1.8743245601654053, "step": 666 }, { "epoch": 0.44533333333333336, "grad_norm": 6.40625, "learning_rate": 9.21740839001396e-06, "loss": 1.4891200065612793, "step": 668 }, { "epoch": 0.44666666666666666, "grad_norm": 2.4375, "learning_rate": 9.21215183563681e-06, "loss": 1.1671557426452637, "step": 670 }, { "epoch": 0.448, "grad_norm": 3.65625, "learning_rate": 9.2068795291599e-06, "loss": 1.3477826118469238, "step": 672 }, { "epoch": 0.4493333333333333, "grad_norm": 4.84375, "learning_rate": 9.201591495162792e-06, "loss": 1.5511021614074707, "step": 674 }, { "epoch": 0.45066666666666666, "grad_norm": 10.8125, "learning_rate": 9.196287758298372e-06, "loss": 1.676473617553711, "step": 676 }, { "epoch": 0.452, "grad_norm": 2.515625, "learning_rate": 9.190968343292743e-06, "loss": 1.0571801662445068, "step": 678 }, { "epoch": 0.4533333333333333, "grad_norm": 6.375, "learning_rate": 9.18563327494509e-06, "loss": 1.7745697498321533, "step": 680 }, { "epoch": 0.45466666666666666, "grad_norm": 9.625, "learning_rate": 9.180282578127578e-06, "loss": 1.5120433568954468, "step": 682 }, { "epoch": 0.456, "grad_norm": 4.84375, "learning_rate": 9.17491627778523e-06, "loss": 1.5437407493591309, "step": 684 }, { "epoch": 0.4573333333333333, "grad_norm": 4.8125, "learning_rate": 9.169534398935817e-06, "loss": 1.3872923851013184, "step": 686 }, { "epoch": 0.45866666666666667, "grad_norm": 4.375, "learning_rate": 9.164136966669735e-06, "loss": 1.4649873971939087, "step": 688 }, { "epoch": 0.46, "grad_norm": 6.40625, "learning_rate": 9.158724006149884e-06, "loss": 1.4206476211547852, "step": 690 }, { "epoch": 0.4613333333333333, "grad_norm": 19.125, "learning_rate": 9.153295542611568e-06, "loss": 1.798445463180542, "step": 692 }, { "epoch": 0.46266666666666667, "grad_norm": 4.09375, "learning_rate": 9.147851601362361e-06, "loss": 1.6945797204971313, "step": 694 }, { "epoch": 0.464, "grad_norm": 3.6875, "learning_rate": 9.142392207781989e-06, "loss": 1.3889479637145996, "step": 696 }, { "epoch": 0.4653333333333333, "grad_norm": 11.0625, "learning_rate": 9.136917387322231e-06, "loss": 0.5246891975402832, "step": 698 }, { "epoch": 0.4666666666666667, "grad_norm": 8.25, "learning_rate": 9.131427165506768e-06, "loss": 1.4431519508361816, "step": 700 }, { "epoch": 0.468, "grad_norm": 5.125, "learning_rate": 9.1259215679311e-06, "loss": 1.6847102642059326, "step": 702 }, { "epoch": 0.4693333333333333, "grad_norm": 3.328125, "learning_rate": 9.120400620262395e-06, "loss": 1.1731724739074707, "step": 704 }, { "epoch": 0.4706666666666667, "grad_norm": 5.03125, "learning_rate": 9.114864348239393e-06, "loss": 1.4725532531738281, "step": 706 }, { "epoch": 0.472, "grad_norm": 12.75, "learning_rate": 9.109312777672273e-06, "loss": 1.4579191207885742, "step": 708 }, { "epoch": 0.47333333333333333, "grad_norm": 5.9375, "learning_rate": 9.103745934442531e-06, "loss": 1.4855751991271973, "step": 710 }, { "epoch": 0.4746666666666667, "grad_norm": 7.0625, "learning_rate": 9.098163844502876e-06, "loss": 2.031588077545166, "step": 712 }, { "epoch": 0.476, "grad_norm": 6.3125, "learning_rate": 9.092566533877083e-06, "loss": 1.0525641441345215, "step": 714 }, { "epoch": 0.47733333333333333, "grad_norm": 5.21875, "learning_rate": 9.0869540286599e-06, "loss": 1.4468775987625122, "step": 716 }, { "epoch": 0.4786666666666667, "grad_norm": 5.6875, "learning_rate": 9.081326355016904e-06, "loss": 1.4774446487426758, "step": 718 }, { "epoch": 0.48, "grad_norm": 4.375, "learning_rate": 9.075683539184386e-06, "loss": 1.4556554555892944, "step": 720 }, { "epoch": 0.48133333333333334, "grad_norm": 5.875, "learning_rate": 9.070025607469237e-06, "loss": 1.673704743385315, "step": 722 }, { "epoch": 0.4826666666666667, "grad_norm": 2.046875, "learning_rate": 9.064352586248812e-06, "loss": 1.1458492279052734, "step": 724 }, { "epoch": 0.484, "grad_norm": 10.5, "learning_rate": 9.05866450197082e-06, "loss": 1.717451810836792, "step": 726 }, { "epoch": 0.48533333333333334, "grad_norm": 3.90625, "learning_rate": 9.05296138115319e-06, "loss": 1.434446096420288, "step": 728 }, { "epoch": 0.4866666666666667, "grad_norm": 7.28125, "learning_rate": 9.047243250383949e-06, "loss": 1.9059016704559326, "step": 730 }, { "epoch": 0.488, "grad_norm": 4.875, "learning_rate": 9.041510136321105e-06, "loss": 1.4807331562042236, "step": 732 }, { "epoch": 0.48933333333333334, "grad_norm": 5.34375, "learning_rate": 9.03576206569252e-06, "loss": 1.560255765914917, "step": 734 }, { "epoch": 0.49066666666666664, "grad_norm": 7.90625, "learning_rate": 9.029999065295777e-06, "loss": 1.9080533981323242, "step": 736 }, { "epoch": 0.492, "grad_norm": 2.8125, "learning_rate": 9.024221161998066e-06, "loss": 1.1071043014526367, "step": 738 }, { "epoch": 0.49333333333333335, "grad_norm": 2.984375, "learning_rate": 9.018428382736055e-06, "loss": 0.9837844371795654, "step": 740 }, { "epoch": 0.49466666666666664, "grad_norm": 5.6875, "learning_rate": 9.012620754515764e-06, "loss": 1.493727207183838, "step": 742 }, { "epoch": 0.496, "grad_norm": 7.71875, "learning_rate": 9.006798304412436e-06, "loss": 1.7983622550964355, "step": 744 }, { "epoch": 0.49733333333333335, "grad_norm": 2.015625, "learning_rate": 9.000961059570418e-06, "loss": 1.0712119340896606, "step": 746 }, { "epoch": 0.49866666666666665, "grad_norm": 1.3984375, "learning_rate": 8.995109047203028e-06, "loss": 1.1010278463363647, "step": 748 }, { "epoch": 0.5, "grad_norm": 3.78125, "learning_rate": 8.989242294592432e-06, "loss": 1.5035382509231567, "step": 750 }, { "epoch": 0.5013333333333333, "grad_norm": 5.46875, "learning_rate": 8.983360829089506e-06, "loss": 1.836085557937622, "step": 752 }, { "epoch": 0.5026666666666667, "grad_norm": 3.71875, "learning_rate": 8.977464678113734e-06, "loss": 1.0614256858825684, "step": 754 }, { "epoch": 0.504, "grad_norm": 19.75, "learning_rate": 8.971553869153054e-06, "loss": 1.9808733463287354, "step": 756 }, { "epoch": 0.5053333333333333, "grad_norm": 8.875, "learning_rate": 8.965628429763739e-06, "loss": 1.838444471359253, "step": 758 }, { "epoch": 0.5066666666666667, "grad_norm": 5.5625, "learning_rate": 8.959688387570273e-06, "loss": 1.0896308422088623, "step": 760 }, { "epoch": 0.508, "grad_norm": 14.25, "learning_rate": 8.953733770265217e-06, "loss": 1.8753701448440552, "step": 762 }, { "epoch": 0.5093333333333333, "grad_norm": 1.828125, "learning_rate": 8.94776460560908e-06, "loss": 1.1300835609436035, "step": 764 }, { "epoch": 0.5106666666666667, "grad_norm": 6.53125, "learning_rate": 8.941780921430192e-06, "loss": 1.5389584302902222, "step": 766 }, { "epoch": 0.512, "grad_norm": 6.53125, "learning_rate": 8.935782745624575e-06, "loss": 1.5212798118591309, "step": 768 }, { "epoch": 0.5133333333333333, "grad_norm": 5.15625, "learning_rate": 8.92977010615581e-06, "loss": 1.4728401899337769, "step": 770 }, { "epoch": 0.5146666666666667, "grad_norm": 1.0859375, "learning_rate": 8.923743031054906e-06, "loss": 0.9624325037002563, "step": 772 }, { "epoch": 0.516, "grad_norm": 1.2578125, "learning_rate": 8.917701548420173e-06, "loss": 1.0515624284744263, "step": 774 }, { "epoch": 0.5173333333333333, "grad_norm": 11.6875, "learning_rate": 8.911645686417087e-06, "loss": 2.039482593536377, "step": 776 }, { "epoch": 0.5186666666666667, "grad_norm": 7.40625, "learning_rate": 8.905575473278167e-06, "loss": 1.6416807174682617, "step": 778 }, { "epoch": 0.52, "grad_norm": 7.71875, "learning_rate": 8.899490937302828e-06, "loss": 2.006240129470825, "step": 780 }, { "epoch": 0.5213333333333333, "grad_norm": 2.734375, "learning_rate": 8.893392106857269e-06, "loss": 1.2567050457000732, "step": 782 }, { "epoch": 0.5226666666666666, "grad_norm": 29.5, "learning_rate": 8.887279010374317e-06, "loss": 1.0010839700698853, "step": 784 }, { "epoch": 0.524, "grad_norm": 7.65625, "learning_rate": 8.881151676353316e-06, "loss": 1.7621567249298096, "step": 786 }, { "epoch": 0.5253333333333333, "grad_norm": 9.0, "learning_rate": 8.875010133359989e-06, "loss": 1.4890618324279785, "step": 788 }, { "epoch": 0.5266666666666666, "grad_norm": 1.140625, "learning_rate": 8.868854410026291e-06, "loss": 0.954632043838501, "step": 790 }, { "epoch": 0.528, "grad_norm": 4.5, "learning_rate": 8.862684535050296e-06, "loss": 1.0927908420562744, "step": 792 }, { "epoch": 0.5293333333333333, "grad_norm": 5.375, "learning_rate": 8.856500537196044e-06, "loss": 1.6923635005950928, "step": 794 }, { "epoch": 0.5306666666666666, "grad_norm": 7.03125, "learning_rate": 8.850302445293424e-06, "loss": 1.4436423778533936, "step": 796 }, { "epoch": 0.532, "grad_norm": 2.1875, "learning_rate": 8.844090288238026e-06, "loss": 1.0953271389007568, "step": 798 }, { "epoch": 0.5333333333333333, "grad_norm": 3.078125, "learning_rate": 8.837864094991015e-06, "loss": 1.1574478149414062, "step": 800 }, { "epoch": 0.5346666666666666, "grad_norm": 7.0, "learning_rate": 8.831623894578995e-06, "loss": 1.6270692348480225, "step": 802 }, { "epoch": 0.536, "grad_norm": 2.6875, "learning_rate": 8.825369716093865e-06, "loss": 1.1011627912521362, "step": 804 }, { "epoch": 0.5373333333333333, "grad_norm": 10.4375, "learning_rate": 8.819101588692695e-06, "loss": 1.896059513092041, "step": 806 }, { "epoch": 0.5386666666666666, "grad_norm": 1.0078125, "learning_rate": 8.812819541597586e-06, "loss": 1.1611248254776, "step": 808 }, { "epoch": 0.54, "grad_norm": 4.84375, "learning_rate": 8.806523604095527e-06, "loss": 1.676903247833252, "step": 810 }, { "epoch": 0.5413333333333333, "grad_norm": 9.125, "learning_rate": 8.800213805538272e-06, "loss": 1.8192381858825684, "step": 812 }, { "epoch": 0.5426666666666666, "grad_norm": 5.125, "learning_rate": 8.793890175342186e-06, "loss": 1.8401235342025757, "step": 814 }, { "epoch": 0.544, "grad_norm": 5.84375, "learning_rate": 8.787552742988125e-06, "loss": 1.5326521396636963, "step": 816 }, { "epoch": 0.5453333333333333, "grad_norm": 7.40625, "learning_rate": 8.781201538021294e-06, "loss": 1.659316062927246, "step": 818 }, { "epoch": 0.5466666666666666, "grad_norm": 20.75, "learning_rate": 8.77483659005109e-06, "loss": 0.5096349716186523, "step": 820 }, { "epoch": 0.548, "grad_norm": 13.25, "learning_rate": 8.768457928751e-06, "loss": 1.4871480464935303, "step": 822 }, { "epoch": 0.5493333333333333, "grad_norm": 18.375, "learning_rate": 8.76206558385843e-06, "loss": 1.8885602951049805, "step": 824 }, { "epoch": 0.5506666666666666, "grad_norm": 5.65625, "learning_rate": 8.755659585174581e-06, "loss": 1.979843258857727, "step": 826 }, { "epoch": 0.552, "grad_norm": 6.375, "learning_rate": 8.749239962564309e-06, "loss": 1.6709187030792236, "step": 828 }, { "epoch": 0.5533333333333333, "grad_norm": 5.3125, "learning_rate": 8.742806745955992e-06, "loss": 1.5816951990127563, "step": 830 }, { "epoch": 0.5546666666666666, "grad_norm": 6.15625, "learning_rate": 8.73635996534137e-06, "loss": 1.7703216075897217, "step": 832 }, { "epoch": 0.556, "grad_norm": 6.84375, "learning_rate": 8.729899650775428e-06, "loss": 1.8280192613601685, "step": 834 }, { "epoch": 0.5573333333333333, "grad_norm": 4.28125, "learning_rate": 8.723425832376247e-06, "loss": 1.4863190650939941, "step": 836 }, { "epoch": 0.5586666666666666, "grad_norm": 3.625, "learning_rate": 8.716938540324853e-06, "loss": 1.2123053073883057, "step": 838 }, { "epoch": 0.56, "grad_norm": 16.25, "learning_rate": 8.710437804865101e-06, "loss": 0.41149356961250305, "step": 840 }, { "epoch": 0.5613333333333334, "grad_norm": 8.9375, "learning_rate": 8.70392365630351e-06, "loss": 0.36364132165908813, "step": 842 }, { "epoch": 0.5626666666666666, "grad_norm": 8.125, "learning_rate": 8.697396125009132e-06, "loss": 0.7439370155334473, "step": 844 }, { "epoch": 0.564, "grad_norm": 4.625, "learning_rate": 8.69085524141341e-06, "loss": 1.428462266921997, "step": 846 }, { "epoch": 0.5653333333333334, "grad_norm": 7.875, "learning_rate": 8.684301036010034e-06, "loss": 1.4296550750732422, "step": 848 }, { "epoch": 0.5666666666666667, "grad_norm": 4.78125, "learning_rate": 8.677733539354807e-06, "loss": 1.4440577030181885, "step": 850 }, { "epoch": 0.568, "grad_norm": 7.53125, "learning_rate": 8.671152782065488e-06, "loss": 1.9406943321228027, "step": 852 }, { "epoch": 0.5693333333333334, "grad_norm": 4.15625, "learning_rate": 8.664558794821665e-06, "loss": 1.0483615398406982, "step": 854 }, { "epoch": 0.5706666666666667, "grad_norm": 4.5, "learning_rate": 8.657951608364596e-06, "loss": 1.4695384502410889, "step": 856 }, { "epoch": 0.572, "grad_norm": 4.5, "learning_rate": 8.651331253497079e-06, "loss": 1.4279370307922363, "step": 858 }, { "epoch": 0.5733333333333334, "grad_norm": 7.6875, "learning_rate": 8.644697761083303e-06, "loss": 1.5009353160858154, "step": 860 }, { "epoch": 0.5746666666666667, "grad_norm": 8.6875, "learning_rate": 8.638051162048704e-06, "loss": 1.4930593967437744, "step": 862 }, { "epoch": 0.576, "grad_norm": 5.5, "learning_rate": 8.631391487379819e-06, "loss": 1.530214786529541, "step": 864 }, { "epoch": 0.5773333333333334, "grad_norm": 7.25, "learning_rate": 8.624718768124147e-06, "loss": 1.4129531383514404, "step": 866 }, { "epoch": 0.5786666666666667, "grad_norm": 6.90625, "learning_rate": 8.61803303539e-06, "loss": 1.3828375339508057, "step": 868 }, { "epoch": 0.58, "grad_norm": 6.875, "learning_rate": 8.611334320346358e-06, "loss": 1.763295292854309, "step": 870 }, { "epoch": 0.5813333333333334, "grad_norm": 5.53125, "learning_rate": 8.604622654222728e-06, "loss": 1.4801650047302246, "step": 872 }, { "epoch": 0.5826666666666667, "grad_norm": 9.25, "learning_rate": 8.59789806830899e-06, "loss": 1.6105256080627441, "step": 874 }, { "epoch": 0.584, "grad_norm": 2.171875, "learning_rate": 8.591160593955256e-06, "loss": 0.9670834541320801, "step": 876 }, { "epoch": 0.5853333333333334, "grad_norm": 4.5, "learning_rate": 8.584410262571734e-06, "loss": 1.429821491241455, "step": 878 }, { "epoch": 0.5866666666666667, "grad_norm": 7.21875, "learning_rate": 8.577647105628562e-06, "loss": 1.786545753479004, "step": 880 }, { "epoch": 0.588, "grad_norm": 7.40625, "learning_rate": 8.570871154655672e-06, "loss": 1.392760992050171, "step": 882 }, { "epoch": 0.5893333333333334, "grad_norm": 12.4375, "learning_rate": 8.564082441242643e-06, "loss": 1.8015222549438477, "step": 884 }, { "epoch": 0.5906666666666667, "grad_norm": 9.0625, "learning_rate": 8.557280997038552e-06, "loss": 1.9965815544128418, "step": 886 }, { "epoch": 0.592, "grad_norm": 8.9375, "learning_rate": 8.550466853751834e-06, "loss": 1.038320541381836, "step": 888 }, { "epoch": 0.5933333333333334, "grad_norm": 5.09375, "learning_rate": 8.543640043150117e-06, "loss": 1.5173522233963013, "step": 890 }, { "epoch": 0.5946666666666667, "grad_norm": 5.90625, "learning_rate": 8.536800597060092e-06, "loss": 1.5306694507598877, "step": 892 }, { "epoch": 0.596, "grad_norm": 6.375, "learning_rate": 8.529948547367348e-06, "loss": 1.4445128440856934, "step": 894 }, { "epoch": 0.5973333333333334, "grad_norm": 5.75, "learning_rate": 8.523083926016245e-06, "loss": 1.7182955741882324, "step": 896 }, { "epoch": 0.5986666666666667, "grad_norm": 5.0625, "learning_rate": 8.51620676500974e-06, "loss": 1.1675145626068115, "step": 898 }, { "epoch": 0.6, "grad_norm": 5.09375, "learning_rate": 8.509317096409258e-06, "loss": 1.4480347633361816, "step": 900 }, { "epoch": 0.6013333333333334, "grad_norm": 11.5625, "learning_rate": 8.50241495233453e-06, "loss": 2.055203914642334, "step": 902 }, { "epoch": 0.6026666666666667, "grad_norm": 4.375, "learning_rate": 8.49550036496345e-06, "loss": 1.021264910697937, "step": 904 }, { "epoch": 0.604, "grad_norm": 5.6875, "learning_rate": 8.48857336653192e-06, "loss": 1.2289679050445557, "step": 906 }, { "epoch": 0.6053333333333333, "grad_norm": 3.703125, "learning_rate": 8.481633989333709e-06, "loss": 1.4245610237121582, "step": 908 }, { "epoch": 0.6066666666666667, "grad_norm": 6.71875, "learning_rate": 8.474682265720291e-06, "loss": 1.4456334114074707, "step": 910 }, { "epoch": 0.608, "grad_norm": 4.96875, "learning_rate": 8.4677182281007e-06, "loss": 1.515615463256836, "step": 912 }, { "epoch": 0.6093333333333333, "grad_norm": 1.765625, "learning_rate": 8.460741908941376e-06, "loss": 1.0593926906585693, "step": 914 }, { "epoch": 0.6106666666666667, "grad_norm": 3.671875, "learning_rate": 8.453753340766018e-06, "loss": 1.4384649991989136, "step": 916 }, { "epoch": 0.612, "grad_norm": 6.125, "learning_rate": 8.446752556155434e-06, "loss": 1.5307202339172363, "step": 918 }, { "epoch": 0.6133333333333333, "grad_norm": 10.0, "learning_rate": 8.439739587747375e-06, "loss": 1.749891757965088, "step": 920 }, { "epoch": 0.6146666666666667, "grad_norm": 7.21875, "learning_rate": 8.432714468236404e-06, "loss": 1.684350609779358, "step": 922 }, { "epoch": 0.616, "grad_norm": 8.125, "learning_rate": 8.425677230373727e-06, "loss": 1.4872686862945557, "step": 924 }, { "epoch": 0.6173333333333333, "grad_norm": 4.0625, "learning_rate": 8.418627906967045e-06, "loss": 1.7606031894683838, "step": 926 }, { "epoch": 0.6186666666666667, "grad_norm": 7.5, "learning_rate": 8.411566530880405e-06, "loss": 1.8105180263519287, "step": 928 }, { "epoch": 0.62, "grad_norm": 7.15625, "learning_rate": 8.404493135034041e-06, "loss": 1.4707257747650146, "step": 930 }, { "epoch": 0.6213333333333333, "grad_norm": 6.03125, "learning_rate": 8.397407752404228e-06, "loss": 1.917523741722107, "step": 932 }, { "epoch": 0.6226666666666667, "grad_norm": 2.0625, "learning_rate": 8.390310416023116e-06, "loss": 1.1204737424850464, "step": 934 }, { "epoch": 0.624, "grad_norm": 41.5, "learning_rate": 8.38320115897859e-06, "loss": 0.6065104603767395, "step": 936 }, { "epoch": 0.6253333333333333, "grad_norm": 4.9375, "learning_rate": 8.376080014414105e-06, "loss": 1.421940803527832, "step": 938 }, { "epoch": 0.6266666666666667, "grad_norm": 9.0625, "learning_rate": 8.368947015528544e-06, "loss": 1.8984816074371338, "step": 940 }, { "epoch": 0.628, "grad_norm": 5.28125, "learning_rate": 8.36180219557604e-06, "loss": 1.528894066810608, "step": 942 }, { "epoch": 0.6293333333333333, "grad_norm": 5.5625, "learning_rate": 8.354645587865852e-06, "loss": 1.6361967325210571, "step": 944 }, { "epoch": 0.6306666666666667, "grad_norm": 5.5625, "learning_rate": 8.347477225762186e-06, "loss": 1.4143483638763428, "step": 946 }, { "epoch": 0.632, "grad_norm": 4.6875, "learning_rate": 8.340297142684044e-06, "loss": 1.4818150997161865, "step": 948 }, { "epoch": 0.6333333333333333, "grad_norm": 6.5, "learning_rate": 8.333105372105079e-06, "loss": 1.1189380884170532, "step": 950 }, { "epoch": 0.6346666666666667, "grad_norm": 1.7265625, "learning_rate": 8.325901947553426e-06, "loss": 1.1370716094970703, "step": 952 }, { "epoch": 0.636, "grad_norm": 11.375, "learning_rate": 8.31868690261155e-06, "loss": 1.6399116516113281, "step": 954 }, { "epoch": 0.6373333333333333, "grad_norm": 3.78125, "learning_rate": 8.311460270916094e-06, "loss": 1.1279245615005493, "step": 956 }, { "epoch": 0.6386666666666667, "grad_norm": 7.71875, "learning_rate": 8.30422208615772e-06, "loss": 1.127082109451294, "step": 958 }, { "epoch": 0.64, "grad_norm": 3.3125, "learning_rate": 8.296972382080947e-06, "loss": 1.1065402030944824, "step": 960 }, { "epoch": 0.6413333333333333, "grad_norm": 7.78125, "learning_rate": 8.289711192483998e-06, "loss": 1.9919843673706055, "step": 962 }, { "epoch": 0.6426666666666667, "grad_norm": 8.3125, "learning_rate": 8.282438551218638e-06, "loss": 1.7666702270507812, "step": 964 }, { "epoch": 0.644, "grad_norm": 7.59375, "learning_rate": 8.27515449219003e-06, "loss": 1.8833098411560059, "step": 966 }, { "epoch": 0.6453333333333333, "grad_norm": 7.40625, "learning_rate": 8.267859049356558e-06, "loss": 1.4413492679595947, "step": 968 }, { "epoch": 0.6466666666666666, "grad_norm": 5.25, "learning_rate": 8.260552256729675e-06, "loss": 1.3773534297943115, "step": 970 }, { "epoch": 0.648, "grad_norm": 20.75, "learning_rate": 8.25323414837376e-06, "loss": 0.8820421695709229, "step": 972 }, { "epoch": 0.6493333333333333, "grad_norm": 7.03125, "learning_rate": 8.245904758405934e-06, "loss": 1.8331353664398193, "step": 974 }, { "epoch": 0.6506666666666666, "grad_norm": 7.21875, "learning_rate": 8.238564120995915e-06, "loss": 1.7633671760559082, "step": 976 }, { "epoch": 0.652, "grad_norm": 7.78125, "learning_rate": 8.231212270365862e-06, "loss": 1.8337441682815552, "step": 978 }, { "epoch": 0.6533333333333333, "grad_norm": 8.3125, "learning_rate": 8.223849240790204e-06, "loss": 1.0776680707931519, "step": 980 }, { "epoch": 0.6546666666666666, "grad_norm": 12.9375, "learning_rate": 8.216475066595492e-06, "loss": 1.4760407209396362, "step": 982 }, { "epoch": 0.656, "grad_norm": 2.484375, "learning_rate": 8.209089782160233e-06, "loss": 1.1044740676879883, "step": 984 }, { "epoch": 0.6573333333333333, "grad_norm": 14.0625, "learning_rate": 8.20169342191472e-06, "loss": 1.8829679489135742, "step": 986 }, { "epoch": 0.6586666666666666, "grad_norm": 2.09375, "learning_rate": 8.194286020340895e-06, "loss": 0.9792040586471558, "step": 988 }, { "epoch": 0.66, "grad_norm": 6.5625, "learning_rate": 8.18686761197217e-06, "loss": 1.521083116531372, "step": 990 }, { "epoch": 0.6613333333333333, "grad_norm": 6.0625, "learning_rate": 8.179438231393266e-06, "loss": 1.530885934829712, "step": 992 }, { "epoch": 0.6626666666666666, "grad_norm": 12.25, "learning_rate": 8.171997913240062e-06, "loss": 1.8062398433685303, "step": 994 }, { "epoch": 0.664, "grad_norm": 1.9453125, "learning_rate": 8.164546692199426e-06, "loss": 1.1137508153915405, "step": 996 }, { "epoch": 0.6653333333333333, "grad_norm": 6.96875, "learning_rate": 8.15708460300906e-06, "loss": 1.7198907136917114, "step": 998 }, { "epoch": 0.6666666666666666, "grad_norm": 6.125, "learning_rate": 8.149611680457326e-06, "loss": 1.5810315608978271, "step": 1000 }, { "epoch": 0.668, "grad_norm": 12.25, "learning_rate": 8.142127959383094e-06, "loss": 1.9013679027557373, "step": 1002 }, { "epoch": 0.6693333333333333, "grad_norm": 3.59375, "learning_rate": 8.134633474675583e-06, "loss": 1.0885121822357178, "step": 1004 }, { "epoch": 0.6706666666666666, "grad_norm": 8.6875, "learning_rate": 8.127128261274182e-06, "loss": 1.455412745475769, "step": 1006 }, { "epoch": 0.672, "grad_norm": 17.5, "learning_rate": 8.119612354168303e-06, "loss": 1.4445679187774658, "step": 1008 }, { "epoch": 0.6733333333333333, "grad_norm": 18.0, "learning_rate": 8.112085788397212e-06, "loss": 1.8903926610946655, "step": 1010 }, { "epoch": 0.6746666666666666, "grad_norm": 5.09375, "learning_rate": 8.104548599049869e-06, "loss": 1.3634119033813477, "step": 1012 }, { "epoch": 0.676, "grad_norm": 7.96875, "learning_rate": 8.09700082126475e-06, "loss": 1.8946447372436523, "step": 1014 }, { "epoch": 0.6773333333333333, "grad_norm": 14.6875, "learning_rate": 8.08944249022971e-06, "loss": 1.7080318927764893, "step": 1016 }, { "epoch": 0.6786666666666666, "grad_norm": 10.9375, "learning_rate": 8.081873641181789e-06, "loss": 1.9619665145874023, "step": 1018 }, { "epoch": 0.68, "grad_norm": 1.859375, "learning_rate": 8.074294309407072e-06, "loss": 1.1800537109375, "step": 1020 }, { "epoch": 0.6813333333333333, "grad_norm": 6.1875, "learning_rate": 8.066704530240512e-06, "loss": 1.4908158779144287, "step": 1022 }, { "epoch": 0.6826666666666666, "grad_norm": 5.25, "learning_rate": 8.059104339065764e-06, "loss": 1.5013716220855713, "step": 1024 }, { "epoch": 0.684, "grad_norm": 2.21875, "learning_rate": 8.051493771315029e-06, "loss": 1.1278164386749268, "step": 1026 }, { "epoch": 0.6853333333333333, "grad_norm": 2.34375, "learning_rate": 8.043872862468882e-06, "loss": 1.2503137588500977, "step": 1028 }, { "epoch": 0.6866666666666666, "grad_norm": 7.0, "learning_rate": 8.036241648056104e-06, "loss": 1.0977543592453003, "step": 1030 }, { "epoch": 0.688, "grad_norm": 3.703125, "learning_rate": 8.028600163653533e-06, "loss": 1.4442572593688965, "step": 1032 }, { "epoch": 0.6893333333333334, "grad_norm": 6.125, "learning_rate": 8.020948444885872e-06, "loss": 1.5718536376953125, "step": 1034 }, { "epoch": 0.6906666666666667, "grad_norm": 5.34375, "learning_rate": 8.01328652742554e-06, "loss": 1.912582278251648, "step": 1036 }, { "epoch": 0.692, "grad_norm": 4.90625, "learning_rate": 8.005614446992514e-06, "loss": 1.5022928714752197, "step": 1038 }, { "epoch": 0.6933333333333334, "grad_norm": 8.875, "learning_rate": 7.99793223935413e-06, "loss": 1.676508903503418, "step": 1040 }, { "epoch": 0.6946666666666667, "grad_norm": 10.6875, "learning_rate": 7.99023994032496e-06, "loss": 1.5803358554840088, "step": 1042 }, { "epoch": 0.696, "grad_norm": 5.3125, "learning_rate": 7.982537585766603e-06, "loss": 1.4909937381744385, "step": 1044 }, { "epoch": 0.6973333333333334, "grad_norm": 11.5, "learning_rate": 7.97482521158755e-06, "loss": 0.35839077830314636, "step": 1046 }, { "epoch": 0.6986666666666667, "grad_norm": 17.875, "learning_rate": 7.967102853742996e-06, "loss": 1.632436752319336, "step": 1048 }, { "epoch": 0.7, "grad_norm": 4.03125, "learning_rate": 7.959370548234682e-06, "loss": 1.4115333557128906, "step": 1050 }, { "epoch": 0.7013333333333334, "grad_norm": 7.3125, "learning_rate": 7.951628331110727e-06, "loss": 1.40264892578125, "step": 1052 }, { "epoch": 0.7026666666666667, "grad_norm": 3.296875, "learning_rate": 7.943876238465461e-06, "loss": 1.0617637634277344, "step": 1054 }, { "epoch": 0.704, "grad_norm": 6.125, "learning_rate": 7.936114306439246e-06, "loss": 1.4370262622833252, "step": 1056 }, { "epoch": 0.7053333333333334, "grad_norm": 6.5, "learning_rate": 7.92834257121832e-06, "loss": 1.9666515588760376, "step": 1058 }, { "epoch": 0.7066666666666667, "grad_norm": 4.3125, "learning_rate": 7.92056106903462e-06, "loss": 1.4887534379959106, "step": 1060 }, { "epoch": 0.708, "grad_norm": 3.1875, "learning_rate": 7.912769836165623e-06, "loss": 1.0378882884979248, "step": 1062 }, { "epoch": 0.7093333333333334, "grad_norm": 2.59375, "learning_rate": 7.904968908934165e-06, "loss": 1.0224369764328003, "step": 1064 }, { "epoch": 0.7106666666666667, "grad_norm": 1.546875, "learning_rate": 7.897158323708282e-06, "loss": 1.011722445487976, "step": 1066 }, { "epoch": 0.712, "grad_norm": 37.5, "learning_rate": 7.889338116901031e-06, "loss": 1.8897815942764282, "step": 1068 }, { "epoch": 0.7133333333333334, "grad_norm": 5.5, "learning_rate": 7.881508324970329e-06, "loss": 1.4885183572769165, "step": 1070 }, { "epoch": 0.7146666666666667, "grad_norm": 13.875, "learning_rate": 7.873668984418772e-06, "loss": 1.6457788944244385, "step": 1072 }, { "epoch": 0.716, "grad_norm": 6.34375, "learning_rate": 7.865820131793483e-06, "loss": 1.7942242622375488, "step": 1074 }, { "epoch": 0.7173333333333334, "grad_norm": 7.875, "learning_rate": 7.85796180368592e-06, "loss": 1.6265013217926025, "step": 1076 }, { "epoch": 0.7186666666666667, "grad_norm": 4.53125, "learning_rate": 7.85009403673172e-06, "loss": 1.425769567489624, "step": 1078 }, { "epoch": 0.72, "grad_norm": 5.78125, "learning_rate": 7.842216867610528e-06, "loss": 1.4441373348236084, "step": 1080 }, { "epoch": 0.7213333333333334, "grad_norm": 5.125, "learning_rate": 7.834330333045817e-06, "loss": 1.4369800090789795, "step": 1082 }, { "epoch": 0.7226666666666667, "grad_norm": 7.375, "learning_rate": 7.82643446980472e-06, "loss": 2.045433521270752, "step": 1084 }, { "epoch": 0.724, "grad_norm": 6.09375, "learning_rate": 7.818529314697865e-06, "loss": 1.462162971496582, "step": 1086 }, { "epoch": 0.7253333333333334, "grad_norm": 11.875, "learning_rate": 7.810614904579196e-06, "loss": 1.4759876728057861, "step": 1088 }, { "epoch": 0.7266666666666667, "grad_norm": 5.25, "learning_rate": 7.802691276345811e-06, "loss": 1.4259663820266724, "step": 1090 }, { "epoch": 0.728, "grad_norm": 9.5, "learning_rate": 7.794758466937768e-06, "loss": 0.3171471953392029, "step": 1092 }, { "epoch": 0.7293333333333333, "grad_norm": 3.375, "learning_rate": 7.786816513337945e-06, "loss": 1.1333750486373901, "step": 1094 }, { "epoch": 0.7306666666666667, "grad_norm": 5.875, "learning_rate": 7.778865452571835e-06, "loss": 1.4517849683761597, "step": 1096 }, { "epoch": 0.732, "grad_norm": 4.625, "learning_rate": 7.770905321707402e-06, "loss": 1.5269715785980225, "step": 1098 }, { "epoch": 0.7333333333333333, "grad_norm": 2.25, "learning_rate": 7.76293615785489e-06, "loss": 1.064500331878662, "step": 1100 }, { "epoch": 0.7346666666666667, "grad_norm": 4.375, "learning_rate": 7.754957998166646e-06, "loss": 1.386234998703003, "step": 1102 }, { "epoch": 0.736, "grad_norm": 12.375, "learning_rate": 7.74697087983697e-06, "loss": 1.8305230140686035, "step": 1104 }, { "epoch": 0.7373333333333333, "grad_norm": 1.8125, "learning_rate": 7.738974840101921e-06, "loss": 1.1282780170440674, "step": 1106 }, { "epoch": 0.7386666666666667, "grad_norm": 5.3125, "learning_rate": 7.730969916239145e-06, "loss": 1.5412876605987549, "step": 1108 }, { "epoch": 0.74, "grad_norm": 5.84375, "learning_rate": 7.722956145567715e-06, "loss": 1.4641010761260986, "step": 1110 }, { "epoch": 0.7413333333333333, "grad_norm": 1.3125, "learning_rate": 7.714933565447942e-06, "loss": 1.0171947479248047, "step": 1112 }, { "epoch": 0.7426666666666667, "grad_norm": 4.8125, "learning_rate": 7.706902213281208e-06, "loss": 1.4489610195159912, "step": 1114 }, { "epoch": 0.744, "grad_norm": 5.5, "learning_rate": 7.69886212650979e-06, "loss": 1.5235693454742432, "step": 1116 }, { "epoch": 0.7453333333333333, "grad_norm": 6.6875, "learning_rate": 7.690813342616687e-06, "loss": 1.5696840286254883, "step": 1118 }, { "epoch": 0.7466666666666667, "grad_norm": 3.125, "learning_rate": 7.682755899125447e-06, "loss": 1.0552146434783936, "step": 1120 }, { "epoch": 0.748, "grad_norm": 3.875, "learning_rate": 7.67468983359998e-06, "loss": 1.1165143251419067, "step": 1122 }, { "epoch": 0.7493333333333333, "grad_norm": 3.65625, "learning_rate": 7.666615183644402e-06, "loss": 1.4511375427246094, "step": 1124 }, { "epoch": 0.7506666666666667, "grad_norm": 5.25, "learning_rate": 7.658531986902843e-06, "loss": 1.159609317779541, "step": 1126 }, { "epoch": 0.752, "grad_norm": 4.6875, "learning_rate": 7.650440281059284e-06, "loss": 1.4254381656646729, "step": 1128 }, { "epoch": 0.7533333333333333, "grad_norm": 2.546875, "learning_rate": 7.642340103837368e-06, "loss": 1.1249420642852783, "step": 1130 }, { "epoch": 0.7546666666666667, "grad_norm": 8.8125, "learning_rate": 7.63423149300024e-06, "loss": 1.8620219230651855, "step": 1132 }, { "epoch": 0.756, "grad_norm": 1.8828125, "learning_rate": 7.626114486350358e-06, "loss": 1.103478193283081, "step": 1134 }, { "epoch": 0.7573333333333333, "grad_norm": 5.28125, "learning_rate": 7.617989121729319e-06, "loss": 1.6233323812484741, "step": 1136 }, { "epoch": 0.7586666666666667, "grad_norm": 5.1875, "learning_rate": 7.609855437017693e-06, "loss": 1.4830645322799683, "step": 1138 }, { "epoch": 0.76, "grad_norm": 4.9375, "learning_rate": 7.6017134701348285e-06, "loss": 1.5413252115249634, "step": 1140 }, { "epoch": 0.7613333333333333, "grad_norm": 4.65625, "learning_rate": 7.593563259038692e-06, "loss": 1.5256080627441406, "step": 1142 }, { "epoch": 0.7626666666666667, "grad_norm": 3.984375, "learning_rate": 7.585404841725686e-06, "loss": 1.0813350677490234, "step": 1144 }, { "epoch": 0.764, "grad_norm": 11.6875, "learning_rate": 7.577238256230466e-06, "loss": 2.204179286956787, "step": 1146 }, { "epoch": 0.7653333333333333, "grad_norm": 8.0, "learning_rate": 7.569063540625767e-06, "loss": 1.8322408199310303, "step": 1148 }, { "epoch": 0.7666666666666667, "grad_norm": 1.9453125, "learning_rate": 7.560880733022233e-06, "loss": 1.1383694410324097, "step": 1150 }, { "epoch": 0.768, "grad_norm": 36.0, "learning_rate": 7.5526898715682286e-06, "loss": 1.9306056499481201, "step": 1152 }, { "epoch": 0.7693333333333333, "grad_norm": 4.6875, "learning_rate": 7.544490994449662e-06, "loss": 1.4435687065124512, "step": 1154 }, { "epoch": 0.7706666666666667, "grad_norm": 13.8125, "learning_rate": 7.536284139889818e-06, "loss": 1.794223427772522, "step": 1156 }, { "epoch": 0.772, "grad_norm": 8.0, "learning_rate": 7.52806934614917e-06, "loss": 1.4377973079681396, "step": 1158 }, { "epoch": 0.7733333333333333, "grad_norm": 7.90625, "learning_rate": 7.519846651525198e-06, "loss": 1.5403916835784912, "step": 1160 }, { "epoch": 0.7746666666666666, "grad_norm": 6.65625, "learning_rate": 7.5116160943522255e-06, "loss": 1.64451003074646, "step": 1162 }, { "epoch": 0.776, "grad_norm": 7.375, "learning_rate": 7.503377713001223e-06, "loss": 1.6721255779266357, "step": 1164 }, { "epoch": 0.7773333333333333, "grad_norm": 15.0, "learning_rate": 7.495131545879646e-06, "loss": 1.9117183685302734, "step": 1166 }, { "epoch": 0.7786666666666666, "grad_norm": 8.0625, "learning_rate": 7.48687763143124e-06, "loss": 1.6716641187667847, "step": 1168 }, { "epoch": 0.78, "grad_norm": 1.4375, "learning_rate": 7.47861600813587e-06, "loss": 1.098170280456543, "step": 1170 }, { "epoch": 0.7813333333333333, "grad_norm": 3.640625, "learning_rate": 7.470346714509342e-06, "loss": 1.4096426963806152, "step": 1172 }, { "epoch": 0.7826666666666666, "grad_norm": 1.859375, "learning_rate": 7.462069789103221e-06, "loss": 1.2622625827789307, "step": 1174 }, { "epoch": 0.784, "grad_norm": 4.34375, "learning_rate": 7.45378527050465e-06, "loss": 1.4845378398895264, "step": 1176 }, { "epoch": 0.7853333333333333, "grad_norm": 5.5625, "learning_rate": 7.445493197336169e-06, "loss": 1.416355848312378, "step": 1178 }, { "epoch": 0.7866666666666666, "grad_norm": 5.21875, "learning_rate": 7.437193608255546e-06, "loss": 1.012062668800354, "step": 1180 }, { "epoch": 0.788, "grad_norm": 4.6875, "learning_rate": 7.428886541955582e-06, "loss": 1.4908556938171387, "step": 1182 }, { "epoch": 0.7893333333333333, "grad_norm": 5.15625, "learning_rate": 7.4205720371639354e-06, "loss": 1.5503168106079102, "step": 1184 }, { "epoch": 0.7906666666666666, "grad_norm": 6.09375, "learning_rate": 7.412250132642946e-06, "loss": 1.9686577320098877, "step": 1186 }, { "epoch": 0.792, "grad_norm": 15.0, "learning_rate": 7.403920867189449e-06, "loss": 1.7605036497116089, "step": 1188 }, { "epoch": 0.7933333333333333, "grad_norm": 4.28125, "learning_rate": 7.395584279634604e-06, "loss": 1.2100725173950195, "step": 1190 }, { "epoch": 0.7946666666666666, "grad_norm": 10.3125, "learning_rate": 7.387240408843694e-06, "loss": 1.617134690284729, "step": 1192 }, { "epoch": 0.796, "grad_norm": 9.1875, "learning_rate": 7.378889293715967e-06, "loss": 1.771061897277832, "step": 1194 }, { "epoch": 0.7973333333333333, "grad_norm": 10.875, "learning_rate": 7.370530973184438e-06, "loss": 1.6546101570129395, "step": 1196 }, { "epoch": 0.7986666666666666, "grad_norm": 5.6875, "learning_rate": 7.362165486215718e-06, "loss": 1.8130102157592773, "step": 1198 }, { "epoch": 0.8, "grad_norm": 1.40625, "learning_rate": 7.3537928718098235e-06, "loss": 1.0263370275497437, "step": 1200 }, { "epoch": 0.8013333333333333, "grad_norm": 3.03125, "learning_rate": 7.3454131690000015e-06, "loss": 1.0432413816452026, "step": 1202 }, { "epoch": 0.8026666666666666, "grad_norm": 6.5, "learning_rate": 7.337026416852547e-06, "loss": 1.5051829814910889, "step": 1204 }, { "epoch": 0.804, "grad_norm": 9.6875, "learning_rate": 7.3286326544666166e-06, "loss": 1.7957940101623535, "step": 1206 }, { "epoch": 0.8053333333333333, "grad_norm": 5.84375, "learning_rate": 7.320231920974048e-06, "loss": 1.3876800537109375, "step": 1208 }, { "epoch": 0.8066666666666666, "grad_norm": 5.34375, "learning_rate": 7.3118242555391835e-06, "loss": 1.4170258045196533, "step": 1210 }, { "epoch": 0.808, "grad_norm": 10.125, "learning_rate": 7.303409697358676e-06, "loss": 1.6540006399154663, "step": 1212 }, { "epoch": 0.8093333333333333, "grad_norm": 3.953125, "learning_rate": 7.294988285661315e-06, "loss": 1.411388635635376, "step": 1214 }, { "epoch": 0.8106666666666666, "grad_norm": 6.0, "learning_rate": 7.286560059707843e-06, "loss": 1.4670600891113281, "step": 1216 }, { "epoch": 0.812, "grad_norm": 4.5, "learning_rate": 7.278125058790768e-06, "loss": 1.5195939540863037, "step": 1218 }, { "epoch": 0.8133333333333334, "grad_norm": 3.984375, "learning_rate": 7.269683322234182e-06, "loss": 1.498016357421875, "step": 1220 }, { "epoch": 0.8146666666666667, "grad_norm": 9.5, "learning_rate": 7.261234889393582e-06, "loss": 1.7424201965332031, "step": 1222 }, { "epoch": 0.816, "grad_norm": 4.59375, "learning_rate": 7.252779799655685e-06, "loss": 1.5053367614746094, "step": 1224 }, { "epoch": 0.8173333333333334, "grad_norm": 5.15625, "learning_rate": 7.244318092438231e-06, "loss": 1.4631271362304688, "step": 1226 }, { "epoch": 0.8186666666666667, "grad_norm": 4.34375, "learning_rate": 7.235849807189828e-06, "loss": 1.5035299062728882, "step": 1228 }, { "epoch": 0.82, "grad_norm": 4.28125, "learning_rate": 7.227374983389737e-06, "loss": 1.3052916526794434, "step": 1230 }, { "epoch": 0.8213333333333334, "grad_norm": 1.6484375, "learning_rate": 7.2188936605477075e-06, "loss": 1.1444281339645386, "step": 1232 }, { "epoch": 0.8226666666666667, "grad_norm": 26.375, "learning_rate": 7.210405878203786e-06, "loss": 1.1232807636260986, "step": 1234 }, { "epoch": 0.824, "grad_norm": 2.25, "learning_rate": 7.201911675928137e-06, "loss": 1.2082382440567017, "step": 1236 }, { "epoch": 0.8253333333333334, "grad_norm": 45.75, "learning_rate": 7.19341109332085e-06, "loss": 1.8112459182739258, "step": 1238 }, { "epoch": 0.8266666666666667, "grad_norm": 6.75, "learning_rate": 7.1849041700117595e-06, "loss": 1.9334352016448975, "step": 1240 }, { "epoch": 0.828, "grad_norm": 1.7890625, "learning_rate": 7.176390945660267e-06, "loss": 1.0827105045318604, "step": 1242 }, { "epoch": 0.8293333333333334, "grad_norm": 5.84375, "learning_rate": 7.167871459955143e-06, "loss": 1.5978076457977295, "step": 1244 }, { "epoch": 0.8306666666666667, "grad_norm": 6.78125, "learning_rate": 7.159345752614351e-06, "loss": 1.5036733150482178, "step": 1246 }, { "epoch": 0.832, "grad_norm": 6.65625, "learning_rate": 7.150813863384858e-06, "loss": 1.544978141784668, "step": 1248 }, { "epoch": 0.8333333333333334, "grad_norm": 9.875, "learning_rate": 7.142275832042453e-06, "loss": 1.5280275344848633, "step": 1250 }, { "epoch": 0.8346666666666667, "grad_norm": 6.96875, "learning_rate": 7.133731698391562e-06, "loss": 1.8519248962402344, "step": 1252 }, { "epoch": 0.836, "grad_norm": 21.25, "learning_rate": 7.125181502265053e-06, "loss": 1.7857600450515747, "step": 1254 }, { "epoch": 0.8373333333333334, "grad_norm": 6.3125, "learning_rate": 7.116625283524064e-06, "loss": 1.5039316415786743, "step": 1256 }, { "epoch": 0.8386666666666667, "grad_norm": 4.78125, "learning_rate": 7.108063082057808e-06, "loss": 1.5093042850494385, "step": 1258 }, { "epoch": 0.84, "grad_norm": 6.375, "learning_rate": 7.099494937783389e-06, "loss": 1.9330856800079346, "step": 1260 }, { "epoch": 0.8413333333333334, "grad_norm": 4.875, "learning_rate": 7.090920890645618e-06, "loss": 1.3826791048049927, "step": 1262 }, { "epoch": 0.8426666666666667, "grad_norm": 5.0625, "learning_rate": 7.0823409806168246e-06, "loss": 1.384697437286377, "step": 1264 }, { "epoch": 0.844, "grad_norm": 9.9375, "learning_rate": 7.07375524769667e-06, "loss": 1.4175405502319336, "step": 1266 }, { "epoch": 0.8453333333333334, "grad_norm": 2.71875, "learning_rate": 7.065163731911962e-06, "loss": 1.0599411725997925, "step": 1268 }, { "epoch": 0.8466666666666667, "grad_norm": 2.3125, "learning_rate": 7.05656647331647e-06, "loss": 1.0350122451782227, "step": 1270 }, { "epoch": 0.848, "grad_norm": 2.046875, "learning_rate": 7.047963511990737e-06, "loss": 1.0036098957061768, "step": 1272 }, { "epoch": 0.8493333333333334, "grad_norm": 4.34375, "learning_rate": 7.03935488804189e-06, "loss": 1.5463430881500244, "step": 1274 }, { "epoch": 0.8506666666666667, "grad_norm": 5.65625, "learning_rate": 7.030740641603451e-06, "loss": 1.474896788597107, "step": 1276 }, { "epoch": 0.852, "grad_norm": 16.625, "learning_rate": 7.022120812835165e-06, "loss": 1.454477310180664, "step": 1278 }, { "epoch": 0.8533333333333334, "grad_norm": 6.21875, "learning_rate": 7.0134954419227955e-06, "loss": 1.5140109062194824, "step": 1280 }, { "epoch": 0.8546666666666667, "grad_norm": 7.25, "learning_rate": 7.004864569077941e-06, "loss": 0.6668561697006226, "step": 1282 }, { "epoch": 0.856, "grad_norm": 4.90625, "learning_rate": 6.996228234537856e-06, "loss": 1.6097631454467773, "step": 1284 }, { "epoch": 0.8573333333333333, "grad_norm": 2.140625, "learning_rate": 6.9875864785652514e-06, "loss": 1.0738332271575928, "step": 1286 }, { "epoch": 0.8586666666666667, "grad_norm": 4.9375, "learning_rate": 6.978939341448119e-06, "loss": 1.541915774345398, "step": 1288 }, { "epoch": 0.86, "grad_norm": 1.8828125, "learning_rate": 6.970286863499534e-06, "loss": 1.084245204925537, "step": 1290 }, { "epoch": 0.8613333333333333, "grad_norm": 6.59375, "learning_rate": 6.961629085057471e-06, "loss": 1.7440471649169922, "step": 1292 }, { "epoch": 0.8626666666666667, "grad_norm": 8.1875, "learning_rate": 6.952966046484615e-06, "loss": 1.2029621601104736, "step": 1294 }, { "epoch": 0.864, "grad_norm": 20.375, "learning_rate": 6.944297788168173e-06, "loss": 1.1356322765350342, "step": 1296 }, { "epoch": 0.8653333333333333, "grad_norm": 1.03125, "learning_rate": 6.935624350519694e-06, "loss": 1.2489497661590576, "step": 1298 }, { "epoch": 0.8666666666666667, "grad_norm": 1.9140625, "learning_rate": 6.9269457739748625e-06, "loss": 1.0705386400222778, "step": 1300 }, { "epoch": 0.868, "grad_norm": 1.4140625, "learning_rate": 6.918262098993327e-06, "loss": 1.146819829940796, "step": 1302 }, { "epoch": 0.8693333333333333, "grad_norm": 5.6875, "learning_rate": 6.909573366058502e-06, "loss": 1.975623369216919, "step": 1304 }, { "epoch": 0.8706666666666667, "grad_norm": 4.8125, "learning_rate": 6.900879615677385e-06, "loss": 1.4106535911560059, "step": 1306 }, { "epoch": 0.872, "grad_norm": 5.0, "learning_rate": 6.892180888380364e-06, "loss": 1.452235460281372, "step": 1308 }, { "epoch": 0.8733333333333333, "grad_norm": 11.5, "learning_rate": 6.883477224721027e-06, "loss": 1.9186886548995972, "step": 1310 }, { "epoch": 0.8746666666666667, "grad_norm": 2.09375, "learning_rate": 6.874768665275982e-06, "loss": 1.108964204788208, "step": 1312 }, { "epoch": 0.876, "grad_norm": 5.03125, "learning_rate": 6.86605525064465e-06, "loss": 1.5007225275039673, "step": 1314 }, { "epoch": 0.8773333333333333, "grad_norm": 7.0625, "learning_rate": 6.857337021449098e-06, "loss": 1.7579610347747803, "step": 1316 }, { "epoch": 0.8786666666666667, "grad_norm": 7.90625, "learning_rate": 6.848614018333832e-06, "loss": 1.4250476360321045, "step": 1318 }, { "epoch": 0.88, "grad_norm": 2.75, "learning_rate": 6.839886281965618e-06, "loss": 1.032175898551941, "step": 1320 }, { "epoch": 0.8813333333333333, "grad_norm": 4.28125, "learning_rate": 6.831153853033285e-06, "loss": 1.1080658435821533, "step": 1322 }, { "epoch": 0.8826666666666667, "grad_norm": 4.375, "learning_rate": 6.822416772247542e-06, "loss": 1.5906773805618286, "step": 1324 }, { "epoch": 0.884, "grad_norm": 2.15625, "learning_rate": 6.8136750803407824e-06, "loss": 1.1360021829605103, "step": 1326 }, { "epoch": 0.8853333333333333, "grad_norm": 7.1875, "learning_rate": 6.804928818066898e-06, "loss": 1.87527334690094, "step": 1328 }, { "epoch": 0.8866666666666667, "grad_norm": 3.484375, "learning_rate": 6.79617802620109e-06, "loss": 1.4536571502685547, "step": 1330 }, { "epoch": 0.888, "grad_norm": 15.125, "learning_rate": 6.787422745539669e-06, "loss": 1.52134370803833, "step": 1332 }, { "epoch": 0.8893333333333333, "grad_norm": 7.125, "learning_rate": 6.778663016899882e-06, "loss": 0.9342854619026184, "step": 1334 }, { "epoch": 0.8906666666666667, "grad_norm": 13.75, "learning_rate": 6.769898881119708e-06, "loss": 1.2193070650100708, "step": 1336 }, { "epoch": 0.892, "grad_norm": 4.875, "learning_rate": 6.761130379057667e-06, "loss": 1.4399094581604004, "step": 1338 }, { "epoch": 0.8933333333333333, "grad_norm": 5.1875, "learning_rate": 6.7523575515926476e-06, "loss": 1.6470527648925781, "step": 1340 }, { "epoch": 0.8946666666666667, "grad_norm": 14.75, "learning_rate": 6.743580439623689e-06, "loss": 1.4364392757415771, "step": 1342 }, { "epoch": 0.896, "grad_norm": 3.515625, "learning_rate": 6.734799084069817e-06, "loss": 1.100862979888916, "step": 1344 }, { "epoch": 0.8973333333333333, "grad_norm": 6.78125, "learning_rate": 6.726013525869832e-06, "loss": 1.6640863418579102, "step": 1346 }, { "epoch": 0.8986666666666666, "grad_norm": 2.609375, "learning_rate": 6.7172238059821335e-06, "loss": 1.0758508443832397, "step": 1348 }, { "epoch": 0.9, "grad_norm": 6.3125, "learning_rate": 6.70842996538452e-06, "loss": 1.763936161994934, "step": 1350 }, { "epoch": 0.9013333333333333, "grad_norm": 2.6875, "learning_rate": 6.699632045073996e-06, "loss": 1.2208075523376465, "step": 1352 }, { "epoch": 0.9026666666666666, "grad_norm": 5.0625, "learning_rate": 6.690830086066598e-06, "loss": 1.3647022247314453, "step": 1354 }, { "epoch": 0.904, "grad_norm": 5.90625, "learning_rate": 6.68202412939718e-06, "loss": 1.4302599430084229, "step": 1356 }, { "epoch": 0.9053333333333333, "grad_norm": 4.9375, "learning_rate": 6.673214216119239e-06, "loss": 1.7554941177368164, "step": 1358 }, { "epoch": 0.9066666666666666, "grad_norm": 2.671875, "learning_rate": 6.664400387304712e-06, "loss": 1.050219178199768, "step": 1360 }, { "epoch": 0.908, "grad_norm": 3.9375, "learning_rate": 6.655582684043797e-06, "loss": 1.487766981124878, "step": 1362 }, { "epoch": 0.9093333333333333, "grad_norm": 1.7109375, "learning_rate": 6.646761147444749e-06, "loss": 1.0724763870239258, "step": 1364 }, { "epoch": 0.9106666666666666, "grad_norm": 4.09375, "learning_rate": 6.637935818633701e-06, "loss": 1.0730855464935303, "step": 1366 }, { "epoch": 0.912, "grad_norm": 2.03125, "learning_rate": 6.629106738754456e-06, "loss": 1.134033441543579, "step": 1368 }, { "epoch": 0.9133333333333333, "grad_norm": 9.25, "learning_rate": 6.620273948968312e-06, "loss": 1.4531991481781006, "step": 1370 }, { "epoch": 0.9146666666666666, "grad_norm": 7.25, "learning_rate": 6.61143749045386e-06, "loss": 1.7324318885803223, "step": 1372 }, { "epoch": 0.916, "grad_norm": 8.875, "learning_rate": 6.6025974044067965e-06, "loss": 1.804641842842102, "step": 1374 }, { "epoch": 0.9173333333333333, "grad_norm": 3.9375, "learning_rate": 6.593753732039725e-06, "loss": 1.4009830951690674, "step": 1376 }, { "epoch": 0.9186666666666666, "grad_norm": 4.0, "learning_rate": 6.584906514581973e-06, "loss": 1.5420567989349365, "step": 1378 }, { "epoch": 0.92, "grad_norm": 7.375, "learning_rate": 6.576055793279394e-06, "loss": 1.7248209714889526, "step": 1380 }, { "epoch": 0.9213333333333333, "grad_norm": 5.71875, "learning_rate": 6.567201609394176e-06, "loss": 1.5272363424301147, "step": 1382 }, { "epoch": 0.9226666666666666, "grad_norm": 6.59375, "learning_rate": 6.5583440042046494e-06, "loss": 1.7931103706359863, "step": 1384 }, { "epoch": 0.924, "grad_norm": 2.1875, "learning_rate": 6.549483019005096e-06, "loss": 1.0144383907318115, "step": 1386 }, { "epoch": 0.9253333333333333, "grad_norm": 13.3125, "learning_rate": 6.540618695105554e-06, "loss": 1.9607112407684326, "step": 1388 }, { "epoch": 0.9266666666666666, "grad_norm": 10.375, "learning_rate": 6.531751073831625e-06, "loss": 1.7285571098327637, "step": 1390 }, { "epoch": 0.928, "grad_norm": 7.15625, "learning_rate": 6.522880196524289e-06, "loss": 1.5882502794265747, "step": 1392 }, { "epoch": 0.9293333333333333, "grad_norm": 17.75, "learning_rate": 6.5140061045397e-06, "loss": 1.8799965381622314, "step": 1394 }, { "epoch": 0.9306666666666666, "grad_norm": 2.640625, "learning_rate": 6.505128839249e-06, "loss": 1.1083283424377441, "step": 1396 }, { "epoch": 0.932, "grad_norm": 11.3125, "learning_rate": 6.496248442038124e-06, "loss": 1.8841416835784912, "step": 1398 }, { "epoch": 0.9333333333333333, "grad_norm": 10.6875, "learning_rate": 6.487364954307616e-06, "loss": 1.6003661155700684, "step": 1400 }, { "epoch": 0.9346666666666666, "grad_norm": 3.90625, "learning_rate": 6.4784784174724155e-06, "loss": 0.9441222548484802, "step": 1402 }, { "epoch": 0.936, "grad_norm": 4.53125, "learning_rate": 6.469588872961687e-06, "loss": 1.528754711151123, "step": 1404 }, { "epoch": 0.9373333333333334, "grad_norm": 8.8125, "learning_rate": 6.460696362218611e-06, "loss": 1.457127571105957, "step": 1406 }, { "epoch": 0.9386666666666666, "grad_norm": 3.09375, "learning_rate": 6.451800926700197e-06, "loss": 1.2754069566726685, "step": 1408 }, { "epoch": 0.94, "grad_norm": 26.25, "learning_rate": 6.442902607877095e-06, "loss": 2.1131834983825684, "step": 1410 }, { "epoch": 0.9413333333333334, "grad_norm": 14.1875, "learning_rate": 6.434001447233392e-06, "loss": 1.3996620178222656, "step": 1412 }, { "epoch": 0.9426666666666667, "grad_norm": 2.5625, "learning_rate": 6.425097486266426e-06, "loss": 1.2032909393310547, "step": 1414 }, { "epoch": 0.944, "grad_norm": 6.875, "learning_rate": 6.416190766486588e-06, "loss": 1.7661256790161133, "step": 1416 }, { "epoch": 0.9453333333333334, "grad_norm": 5.15625, "learning_rate": 6.407281329417133e-06, "loss": 1.0344789028167725, "step": 1418 }, { "epoch": 0.9466666666666667, "grad_norm": 1.5703125, "learning_rate": 6.398369216593981e-06, "loss": 1.160454511642456, "step": 1420 }, { "epoch": 0.948, "grad_norm": 5.0, "learning_rate": 6.38945446956553e-06, "loss": 1.5346543788909912, "step": 1422 }, { "epoch": 0.9493333333333334, "grad_norm": 2.75, "learning_rate": 6.380537129892458e-06, "loss": 1.118833303451538, "step": 1424 }, { "epoch": 0.9506666666666667, "grad_norm": 7.3125, "learning_rate": 6.371617239147527e-06, "loss": 1.8901457786560059, "step": 1426 }, { "epoch": 0.952, "grad_norm": 4.34375, "learning_rate": 6.3626948389153955e-06, "loss": 1.372290849685669, "step": 1428 }, { "epoch": 0.9533333333333334, "grad_norm": 8.375, "learning_rate": 6.35376997079242e-06, "loss": 1.510221004486084, "step": 1430 }, { "epoch": 0.9546666666666667, "grad_norm": 6.6875, "learning_rate": 6.344842676386459e-06, "loss": 1.7555416822433472, "step": 1432 }, { "epoch": 0.956, "grad_norm": 4.5625, "learning_rate": 6.335912997316689e-06, "loss": 1.3952423334121704, "step": 1434 }, { "epoch": 0.9573333333333334, "grad_norm": 3.21875, "learning_rate": 6.3269809752134005e-06, "loss": 1.2118666172027588, "step": 1436 }, { "epoch": 0.9586666666666667, "grad_norm": 15.5625, "learning_rate": 6.3180466517178065e-06, "loss": 1.5054240226745605, "step": 1438 }, { "epoch": 0.96, "grad_norm": 6.53125, "learning_rate": 6.30911006848185e-06, "loss": 1.5465056896209717, "step": 1440 }, { "epoch": 0.9613333333333334, "grad_norm": 1.65625, "learning_rate": 6.300171267168006e-06, "loss": 1.240868330001831, "step": 1442 }, { "epoch": 0.9626666666666667, "grad_norm": 6.6875, "learning_rate": 6.291230289449095e-06, "loss": 0.4037482738494873, "step": 1444 }, { "epoch": 0.964, "grad_norm": 4.53125, "learning_rate": 6.282287177008084e-06, "loss": 1.2513530254364014, "step": 1446 }, { "epoch": 0.9653333333333334, "grad_norm": 12.1875, "learning_rate": 6.273341971537888e-06, "loss": 1.4814857244491577, "step": 1448 }, { "epoch": 0.9666666666666667, "grad_norm": 1.390625, "learning_rate": 6.264394714741182e-06, "loss": 1.1147644519805908, "step": 1450 }, { "epoch": 0.968, "grad_norm": 3.328125, "learning_rate": 6.255445448330204e-06, "loss": 1.2680392265319824, "step": 1452 }, { "epoch": 0.9693333333333334, "grad_norm": 1.4140625, "learning_rate": 6.246494214026562e-06, "loss": 1.0437490940093994, "step": 1454 }, { "epoch": 0.9706666666666667, "grad_norm": 1.8359375, "learning_rate": 6.237541053561034e-06, "loss": 1.238845705986023, "step": 1456 }, { "epoch": 0.972, "grad_norm": 4.78125, "learning_rate": 6.228586008673385e-06, "loss": 1.4940769672393799, "step": 1458 }, { "epoch": 0.9733333333333334, "grad_norm": 16.25, "learning_rate": 6.219629121112159e-06, "loss": 1.5105171203613281, "step": 1460 }, { "epoch": 0.9746666666666667, "grad_norm": 6.4375, "learning_rate": 6.210670432634491e-06, "loss": 1.7444933652877808, "step": 1462 }, { "epoch": 0.976, "grad_norm": 8.0625, "learning_rate": 6.201709985005918e-06, "loss": 1.7194395065307617, "step": 1464 }, { "epoch": 0.9773333333333334, "grad_norm": 4.375, "learning_rate": 6.192747820000171e-06, "loss": 1.3826802968978882, "step": 1466 }, { "epoch": 0.9786666666666667, "grad_norm": 12.125, "learning_rate": 6.183783979398991e-06, "loss": 1.9960919618606567, "step": 1468 }, { "epoch": 0.98, "grad_norm": 4.3125, "learning_rate": 6.174818504991931e-06, "loss": 1.4267585277557373, "step": 1470 }, { "epoch": 0.9813333333333333, "grad_norm": 5.28125, "learning_rate": 6.165851438576158e-06, "loss": 1.76206374168396, "step": 1472 }, { "epoch": 0.9826666666666667, "grad_norm": 1.09375, "learning_rate": 6.156882821956265e-06, "loss": 0.9488676190376282, "step": 1474 }, { "epoch": 0.984, "grad_norm": 6.03125, "learning_rate": 6.147912696944067e-06, "loss": 1.924933910369873, "step": 1476 }, { "epoch": 0.9853333333333333, "grad_norm": 4.5, "learning_rate": 6.1389411053584145e-06, "loss": 1.7618391513824463, "step": 1478 }, { "epoch": 0.9866666666666667, "grad_norm": 12.375, "learning_rate": 6.129968089024998e-06, "loss": 1.6995925903320312, "step": 1480 }, { "epoch": 0.988, "grad_norm": 6.125, "learning_rate": 6.1209936897761446e-06, "loss": 1.4753309488296509, "step": 1482 }, { "epoch": 0.9893333333333333, "grad_norm": 6.375, "learning_rate": 6.112017949450629e-06, "loss": 1.1274147033691406, "step": 1484 }, { "epoch": 0.9906666666666667, "grad_norm": 7.46875, "learning_rate": 6.1030409098934824e-06, "loss": 1.7124284505844116, "step": 1486 }, { "epoch": 0.992, "grad_norm": 15.1875, "learning_rate": 6.094062612955791e-06, "loss": 1.7338926792144775, "step": 1488 }, { "epoch": 0.9933333333333333, "grad_norm": 4.5, "learning_rate": 6.085083100494499e-06, "loss": 1.5683114528656006, "step": 1490 }, { "epoch": 0.9946666666666667, "grad_norm": 5.625, "learning_rate": 6.076102414372225e-06, "loss": 1.499389410018921, "step": 1492 }, { "epoch": 0.996, "grad_norm": 2.828125, "learning_rate": 6.067120596457053e-06, "loss": 1.1616817712783813, "step": 1494 }, { "epoch": 0.9973333333333333, "grad_norm": 7.4375, "learning_rate": 6.058137688622343e-06, "loss": 1.6491494178771973, "step": 1496 }, { "epoch": 0.9986666666666667, "grad_norm": 5.71875, "learning_rate": 6.049153732746543e-06, "loss": 1.3628113269805908, "step": 1498 }, { "epoch": 1.0, "grad_norm": 1.375, "learning_rate": 6.040168770712982e-06, "loss": 1.0581028461456299, "step": 1500 }, { "epoch": 1.0013333333333334, "grad_norm": 1.1875, "learning_rate": 6.031182844409678e-06, "loss": 1.3563737869262695, "step": 1502 }, { "epoch": 1.0026666666666666, "grad_norm": 1.7734375, "learning_rate": 6.0221959957291485e-06, "loss": 0.9635358452796936, "step": 1504 }, { "epoch": 1.004, "grad_norm": 5.84375, "learning_rate": 6.013208266568209e-06, "loss": 1.936806082725525, "step": 1506 }, { "epoch": 1.0053333333333334, "grad_norm": 7.1875, "learning_rate": 6.00421969882778e-06, "loss": 1.5574287176132202, "step": 1508 }, { "epoch": 1.0066666666666666, "grad_norm": 8.625, "learning_rate": 5.995230334412691e-06, "loss": 1.64463472366333, "step": 1510 }, { "epoch": 1.008, "grad_norm": 11.5, "learning_rate": 5.986240215231489e-06, "loss": 1.4681963920593262, "step": 1512 }, { "epoch": 1.0093333333333334, "grad_norm": 6.0, "learning_rate": 5.977249383196235e-06, "loss": 1.4651533365249634, "step": 1514 }, { "epoch": 1.0106666666666666, "grad_norm": 22.0, "learning_rate": 5.968257880222317e-06, "loss": 1.7012189626693726, "step": 1516 }, { "epoch": 1.012, "grad_norm": 6.1875, "learning_rate": 5.959265748228247e-06, "loss": 1.9330545663833618, "step": 1518 }, { "epoch": 1.0133333333333334, "grad_norm": 4.75, "learning_rate": 5.950273029135475e-06, "loss": 1.493942379951477, "step": 1520 }, { "epoch": 1.0146666666666666, "grad_norm": 3.859375, "learning_rate": 5.941279764868182e-06, "loss": 1.4157612323760986, "step": 1522 }, { "epoch": 1.016, "grad_norm": 9.125, "learning_rate": 5.932285997353093e-06, "loss": 1.4143327474594116, "step": 1524 }, { "epoch": 1.0173333333333334, "grad_norm": 1.21875, "learning_rate": 5.923291768519284e-06, "loss": 1.0516184568405151, "step": 1526 }, { "epoch": 1.0186666666666666, "grad_norm": 5.40625, "learning_rate": 5.9142971202979735e-06, "loss": 1.429210901260376, "step": 1528 }, { "epoch": 1.02, "grad_norm": 3.65625, "learning_rate": 5.905302094622339e-06, "loss": 1.4731173515319824, "step": 1530 }, { "epoch": 1.0213333333333334, "grad_norm": 6.3125, "learning_rate": 5.896306733427322e-06, "loss": 1.517582893371582, "step": 1532 }, { "epoch": 1.0226666666666666, "grad_norm": 6.1875, "learning_rate": 5.887311078649418e-06, "loss": 1.052391529083252, "step": 1534 }, { "epoch": 1.024, "grad_norm": 6.0, "learning_rate": 5.8783151722265005e-06, "loss": 1.5596401691436768, "step": 1536 }, { "epoch": 1.0253333333333334, "grad_norm": 2.796875, "learning_rate": 5.869319056097613e-06, "loss": 1.2670550346374512, "step": 1538 }, { "epoch": 1.0266666666666666, "grad_norm": 4.90625, "learning_rate": 5.860322772202776e-06, "loss": 1.4631175994873047, "step": 1540 }, { "epoch": 1.028, "grad_norm": 22.5, "learning_rate": 5.851326362482792e-06, "loss": 1.8308687210083008, "step": 1542 }, { "epoch": 1.0293333333333334, "grad_norm": 6.1875, "learning_rate": 5.842329868879051e-06, "loss": 1.648712396621704, "step": 1544 }, { "epoch": 1.0306666666666666, "grad_norm": 5.09375, "learning_rate": 5.833333333333333e-06, "loss": 1.523130178451538, "step": 1546 }, { "epoch": 1.032, "grad_norm": 6.6875, "learning_rate": 5.824336797787617e-06, "loss": 1.545793056488037, "step": 1548 }, { "epoch": 1.0333333333333334, "grad_norm": 2.140625, "learning_rate": 5.815340304183876e-06, "loss": 1.0260173082351685, "step": 1550 }, { "epoch": 1.0346666666666666, "grad_norm": 13.4375, "learning_rate": 5.806343894463893e-06, "loss": 2.0390031337738037, "step": 1552 }, { "epoch": 1.036, "grad_norm": 6.65625, "learning_rate": 5.7973476105690554e-06, "loss": 1.7032217979431152, "step": 1554 }, { "epoch": 1.0373333333333334, "grad_norm": 12.4375, "learning_rate": 5.788351494440167e-06, "loss": 1.8185737133026123, "step": 1556 }, { "epoch": 1.0386666666666666, "grad_norm": 9.8125, "learning_rate": 5.779355588017249e-06, "loss": 1.8823127746582031, "step": 1558 }, { "epoch": 1.04, "grad_norm": 1.203125, "learning_rate": 5.770359933239347e-06, "loss": 1.0645382404327393, "step": 1560 }, { "epoch": 1.0413333333333332, "grad_norm": 11.5, "learning_rate": 5.761364572044328e-06, "loss": 1.8362276554107666, "step": 1562 }, { "epoch": 1.0426666666666666, "grad_norm": 6.03125, "learning_rate": 5.752369546368694e-06, "loss": 1.656673550605774, "step": 1564 }, { "epoch": 1.044, "grad_norm": 5.8125, "learning_rate": 5.743374898147385e-06, "loss": 0.9415713548660278, "step": 1566 }, { "epoch": 1.0453333333333332, "grad_norm": 1.3515625, "learning_rate": 5.734380669313575e-06, "loss": 0.947942316532135, "step": 1568 }, { "epoch": 1.0466666666666666, "grad_norm": 10.5625, "learning_rate": 5.725386901798486e-06, "loss": 1.4679059982299805, "step": 1570 }, { "epoch": 1.048, "grad_norm": 12.0, "learning_rate": 5.716393637531194e-06, "loss": 0.5725986957550049, "step": 1572 }, { "epoch": 1.0493333333333332, "grad_norm": 2.015625, "learning_rate": 5.707400918438422e-06, "loss": 1.0623714923858643, "step": 1574 }, { "epoch": 1.0506666666666666, "grad_norm": 8.8125, "learning_rate": 5.698408786444352e-06, "loss": 1.8116446733474731, "step": 1576 }, { "epoch": 1.052, "grad_norm": 5.71875, "learning_rate": 5.689417283470433e-06, "loss": 1.4730396270751953, "step": 1578 }, { "epoch": 1.0533333333333332, "grad_norm": 3.765625, "learning_rate": 5.6804264514351795e-06, "loss": 1.1235568523406982, "step": 1580 }, { "epoch": 1.0546666666666666, "grad_norm": 13.125, "learning_rate": 5.671436332253977e-06, "loss": 1.8619860410690308, "step": 1582 }, { "epoch": 1.056, "grad_norm": 28.0, "learning_rate": 5.662446967838888e-06, "loss": 1.3870640993118286, "step": 1584 }, { "epoch": 1.0573333333333332, "grad_norm": 4.78125, "learning_rate": 5.653458400098461e-06, "loss": 1.4273823499679565, "step": 1586 }, { "epoch": 1.0586666666666666, "grad_norm": 3.484375, "learning_rate": 5.644470670937521e-06, "loss": 1.3886492252349854, "step": 1588 }, { "epoch": 1.06, "grad_norm": 1.296875, "learning_rate": 5.635483822256991e-06, "loss": 1.109363317489624, "step": 1590 }, { "epoch": 1.0613333333333332, "grad_norm": 2.859375, "learning_rate": 5.626497895953685e-06, "loss": 0.9141336679458618, "step": 1592 }, { "epoch": 1.0626666666666666, "grad_norm": 6.125, "learning_rate": 5.617512933920124e-06, "loss": 1.3852533102035522, "step": 1594 }, { "epoch": 1.064, "grad_norm": 7.65625, "learning_rate": 5.608528978044323e-06, "loss": 1.6646533012390137, "step": 1596 }, { "epoch": 1.0653333333333332, "grad_norm": 5.125, "learning_rate": 5.599546070209616e-06, "loss": 1.457612156867981, "step": 1598 }, { "epoch": 1.0666666666666667, "grad_norm": 4.53125, "learning_rate": 5.590564252294443e-06, "loss": 1.4722715616226196, "step": 1600 }, { "epoch": 1.068, "grad_norm": 16.25, "learning_rate": 5.581583566172169e-06, "loss": 1.3487780094146729, "step": 1602 }, { "epoch": 1.0693333333333332, "grad_norm": 4.90625, "learning_rate": 5.5726040537108775e-06, "loss": 1.5795001983642578, "step": 1604 }, { "epoch": 1.0706666666666667, "grad_norm": 4.6875, "learning_rate": 5.5636257567731855e-06, "loss": 1.5326015949249268, "step": 1606 }, { "epoch": 1.072, "grad_norm": 6.0625, "learning_rate": 5.554648717216038e-06, "loss": 1.40179443359375, "step": 1608 }, { "epoch": 1.0733333333333333, "grad_norm": 5.9375, "learning_rate": 5.545672976890523e-06, "loss": 1.750922441482544, "step": 1610 }, { "epoch": 1.0746666666666667, "grad_norm": 17.125, "learning_rate": 5.536698577641669e-06, "loss": 1.8629913330078125, "step": 1612 }, { "epoch": 1.076, "grad_norm": 1.9453125, "learning_rate": 5.5277255613082526e-06, "loss": 1.1251063346862793, "step": 1614 }, { "epoch": 1.0773333333333333, "grad_norm": 4.3125, "learning_rate": 5.518753969722601e-06, "loss": 1.4921822547912598, "step": 1616 }, { "epoch": 1.0786666666666667, "grad_norm": 1.8671875, "learning_rate": 5.509783844710404e-06, "loss": 1.209433674812317, "step": 1618 }, { "epoch": 1.08, "grad_norm": 3.75, "learning_rate": 5.50081522809051e-06, "loss": 1.4612817764282227, "step": 1620 }, { "epoch": 1.0813333333333333, "grad_norm": 8.0, "learning_rate": 5.491848161674737e-06, "loss": 1.541589379310608, "step": 1622 }, { "epoch": 1.0826666666666667, "grad_norm": 1.859375, "learning_rate": 5.482882687267677e-06, "loss": 1.2038989067077637, "step": 1624 }, { "epoch": 1.084, "grad_norm": 3.0, "learning_rate": 5.473918846666497e-06, "loss": 1.2030503749847412, "step": 1626 }, { "epoch": 1.0853333333333333, "grad_norm": 3.984375, "learning_rate": 5.464956681660749e-06, "loss": 1.0769493579864502, "step": 1628 }, { "epoch": 1.0866666666666667, "grad_norm": 2.8125, "learning_rate": 5.455996234032177e-06, "loss": 1.2764222621917725, "step": 1630 }, { "epoch": 1.088, "grad_norm": 8.1875, "learning_rate": 5.44703754555451e-06, "loss": 1.7506179809570312, "step": 1632 }, { "epoch": 1.0893333333333333, "grad_norm": 17.75, "learning_rate": 5.4380806579932835e-06, "loss": 1.7872695922851562, "step": 1634 }, { "epoch": 1.0906666666666667, "grad_norm": 4.25, "learning_rate": 5.429125613105633e-06, "loss": 1.408817172050476, "step": 1636 }, { "epoch": 1.092, "grad_norm": 7.5, "learning_rate": 5.420172452640107e-06, "loss": 1.7498708963394165, "step": 1638 }, { "epoch": 1.0933333333333333, "grad_norm": 4.875, "learning_rate": 5.411221218336463e-06, "loss": 1.3137381076812744, "step": 1640 }, { "epoch": 1.0946666666666667, "grad_norm": 5.53125, "learning_rate": 5.4022719519254855e-06, "loss": 1.5489161014556885, "step": 1642 }, { "epoch": 1.096, "grad_norm": 2.09375, "learning_rate": 5.393324695128779e-06, "loss": 1.0227785110473633, "step": 1644 }, { "epoch": 1.0973333333333333, "grad_norm": 8.875, "learning_rate": 5.3843794896585835e-06, "loss": 0.24966874718666077, "step": 1646 }, { "epoch": 1.0986666666666667, "grad_norm": 4.375, "learning_rate": 5.375436377217571e-06, "loss": 1.442673921585083, "step": 1648 }, { "epoch": 1.1, "grad_norm": 4.21875, "learning_rate": 5.366495399498661e-06, "loss": 1.3785851001739502, "step": 1650 }, { "epoch": 1.1013333333333333, "grad_norm": 7.5, "learning_rate": 5.357556598184819e-06, "loss": 1.7751030921936035, "step": 1652 }, { "epoch": 1.1026666666666667, "grad_norm": 6.5625, "learning_rate": 5.348620014948862e-06, "loss": 1.5587515830993652, "step": 1654 }, { "epoch": 1.104, "grad_norm": 4.4375, "learning_rate": 5.3396856914532666e-06, "loss": 1.446319580078125, "step": 1656 }, { "epoch": 1.1053333333333333, "grad_norm": 1.5703125, "learning_rate": 5.330753669349978e-06, "loss": 1.0275702476501465, "step": 1658 }, { "epoch": 1.1066666666666667, "grad_norm": 7.9375, "learning_rate": 5.321823990280208e-06, "loss": 1.3751928806304932, "step": 1660 }, { "epoch": 1.108, "grad_norm": 4.8125, "learning_rate": 5.31289669587425e-06, "loss": 1.4437367916107178, "step": 1662 }, { "epoch": 1.1093333333333333, "grad_norm": 4.53125, "learning_rate": 5.303971827751273e-06, "loss": 1.497580647468567, "step": 1664 }, { "epoch": 1.1106666666666667, "grad_norm": 1.5390625, "learning_rate": 5.295049427519141e-06, "loss": 1.0452079772949219, "step": 1666 }, { "epoch": 1.112, "grad_norm": 4.46875, "learning_rate": 5.286129536774211e-06, "loss": 1.5819206237792969, "step": 1668 }, { "epoch": 1.1133333333333333, "grad_norm": 3.3125, "learning_rate": 5.2772121971011384e-06, "loss": 1.5034122467041016, "step": 1670 }, { "epoch": 1.1146666666666667, "grad_norm": 6.375, "learning_rate": 5.268297450072687e-06, "loss": 1.442948341369629, "step": 1672 }, { "epoch": 1.116, "grad_norm": 1.765625, "learning_rate": 5.259385337249536e-06, "loss": 1.045128345489502, "step": 1674 }, { "epoch": 1.1173333333333333, "grad_norm": 3.265625, "learning_rate": 5.250475900180081e-06, "loss": 1.1670646667480469, "step": 1676 }, { "epoch": 1.1186666666666667, "grad_norm": 8.1875, "learning_rate": 5.241569180400243e-06, "loss": 1.6837050914764404, "step": 1678 }, { "epoch": 1.12, "grad_norm": 17.25, "learning_rate": 5.232665219433276e-06, "loss": 1.7098231315612793, "step": 1680 }, { "epoch": 1.1213333333333333, "grad_norm": 3.984375, "learning_rate": 5.223764058789573e-06, "loss": 1.4151331186294556, "step": 1682 }, { "epoch": 1.1226666666666667, "grad_norm": 4.875, "learning_rate": 5.214865739966471e-06, "loss": 1.4133689403533936, "step": 1684 }, { "epoch": 1.124, "grad_norm": 4.25, "learning_rate": 5.205970304448058e-06, "loss": 1.3391132354736328, "step": 1686 }, { "epoch": 1.1253333333333333, "grad_norm": 6.3125, "learning_rate": 5.197077793704981e-06, "loss": 1.3253040313720703, "step": 1688 }, { "epoch": 1.1266666666666667, "grad_norm": 5.4375, "learning_rate": 5.188188249194251e-06, "loss": 1.507164478302002, "step": 1690 }, { "epoch": 1.1280000000000001, "grad_norm": 9.25, "learning_rate": 5.1793017123590505e-06, "loss": 1.377781629562378, "step": 1692 }, { "epoch": 1.1293333333333333, "grad_norm": 2.171875, "learning_rate": 5.170418224628541e-06, "loss": 1.006546974182129, "step": 1694 }, { "epoch": 1.1306666666666667, "grad_norm": 5.78125, "learning_rate": 5.1615378274176674e-06, "loss": 1.8399200439453125, "step": 1696 }, { "epoch": 1.1320000000000001, "grad_norm": 4.875, "learning_rate": 5.152660562126967e-06, "loss": 1.4275052547454834, "step": 1698 }, { "epoch": 1.1333333333333333, "grad_norm": 1.1015625, "learning_rate": 5.143786470142378e-06, "loss": 1.1076140403747559, "step": 1700 }, { "epoch": 1.1346666666666667, "grad_norm": 5.6875, "learning_rate": 5.134915592835041e-06, "loss": 1.487177848815918, "step": 1702 }, { "epoch": 1.1360000000000001, "grad_norm": 10.25, "learning_rate": 5.126047971561115e-06, "loss": 1.8975412845611572, "step": 1704 }, { "epoch": 1.1373333333333333, "grad_norm": 3.25, "learning_rate": 5.117183647661572e-06, "loss": 1.4046539068222046, "step": 1706 }, { "epoch": 1.1386666666666667, "grad_norm": 6.09375, "learning_rate": 5.108322662462018e-06, "loss": 1.5340514183044434, "step": 1708 }, { "epoch": 1.1400000000000001, "grad_norm": 6.40625, "learning_rate": 5.099465057272491e-06, "loss": 0.9755153059959412, "step": 1710 }, { "epoch": 1.1413333333333333, "grad_norm": 4.25, "learning_rate": 5.090610873387274e-06, "loss": 1.375262975692749, "step": 1712 }, { "epoch": 1.1426666666666667, "grad_norm": 5.46875, "learning_rate": 5.081760152084694e-06, "loss": 1.8634710311889648, "step": 1714 }, { "epoch": 1.144, "grad_norm": 3.90625, "learning_rate": 5.072912934626943e-06, "loss": 1.1578799486160278, "step": 1716 }, { "epoch": 1.1453333333333333, "grad_norm": 15.75, "learning_rate": 5.064069262259872e-06, "loss": 1.7285916805267334, "step": 1718 }, { "epoch": 1.1466666666666667, "grad_norm": 5.8125, "learning_rate": 5.055229176212808e-06, "loss": 1.4551498889923096, "step": 1720 }, { "epoch": 1.148, "grad_norm": 7.4375, "learning_rate": 5.046392717698355e-06, "loss": 1.5213419198989868, "step": 1722 }, { "epoch": 1.1493333333333333, "grad_norm": 6.0, "learning_rate": 5.037559927912212e-06, "loss": 1.4255318641662598, "step": 1724 }, { "epoch": 1.1506666666666667, "grad_norm": 8.5625, "learning_rate": 5.028730848032968e-06, "loss": 1.910698413848877, "step": 1726 }, { "epoch": 1.152, "grad_norm": 76.0, "learning_rate": 5.019905519221917e-06, "loss": 0.788556694984436, "step": 1728 }, { "epoch": 1.1533333333333333, "grad_norm": 4.1875, "learning_rate": 5.011083982622871e-06, "loss": 1.4046937227249146, "step": 1730 }, { "epoch": 1.1546666666666667, "grad_norm": 6.25, "learning_rate": 5.0022662793619555e-06, "loss": 1.6050171852111816, "step": 1732 }, { "epoch": 1.156, "grad_norm": 13.75, "learning_rate": 4.993452450547429e-06, "loss": 1.185960292816162, "step": 1734 }, { "epoch": 1.1573333333333333, "grad_norm": 4.59375, "learning_rate": 4.984642537269487e-06, "loss": 1.559330701828003, "step": 1736 }, { "epoch": 1.1586666666666667, "grad_norm": 5.78125, "learning_rate": 4.975836580600069e-06, "loss": 1.9091460704803467, "step": 1738 }, { "epoch": 1.16, "grad_norm": 21.375, "learning_rate": 4.96703462159267e-06, "loss": 1.2126508951187134, "step": 1740 }, { "epoch": 1.1613333333333333, "grad_norm": 3.78125, "learning_rate": 4.958236701282149e-06, "loss": 1.3792331218719482, "step": 1742 }, { "epoch": 1.1626666666666667, "grad_norm": 6.03125, "learning_rate": 4.9494428606845335e-06, "loss": 1.8158106803894043, "step": 1744 }, { "epoch": 1.164, "grad_norm": 5.53125, "learning_rate": 4.940653140796835e-06, "loss": 1.2978074550628662, "step": 1746 }, { "epoch": 1.1653333333333333, "grad_norm": 4.4375, "learning_rate": 4.931867582596851e-06, "loss": 1.339666724205017, "step": 1748 }, { "epoch": 1.1666666666666667, "grad_norm": 7.40625, "learning_rate": 4.923086227042978e-06, "loss": 1.487107276916504, "step": 1750 }, { "epoch": 1.168, "grad_norm": 5.21875, "learning_rate": 4.914309115074021e-06, "loss": 1.468918800354004, "step": 1752 }, { "epoch": 1.1693333333333333, "grad_norm": 1.859375, "learning_rate": 4.9055362876090005e-06, "loss": 1.0235750675201416, "step": 1754 }, { "epoch": 1.1706666666666667, "grad_norm": 4.375, "learning_rate": 4.896767785546963e-06, "loss": 1.5452258586883545, "step": 1756 }, { "epoch": 1.172, "grad_norm": 4.375, "learning_rate": 4.888003649766786e-06, "loss": 1.1912848949432373, "step": 1758 }, { "epoch": 1.1733333333333333, "grad_norm": 6.46875, "learning_rate": 4.879243921127e-06, "loss": 1.8611294031143188, "step": 1760 }, { "epoch": 1.1746666666666667, "grad_norm": 17.25, "learning_rate": 4.870488640465579e-06, "loss": 1.4652965068817139, "step": 1762 }, { "epoch": 1.176, "grad_norm": 2.703125, "learning_rate": 4.861737848599769e-06, "loss": 1.2129669189453125, "step": 1764 }, { "epoch": 1.1773333333333333, "grad_norm": 7.4375, "learning_rate": 4.8529915863258855e-06, "loss": 1.679603099822998, "step": 1766 }, { "epoch": 1.1786666666666668, "grad_norm": 5.28125, "learning_rate": 4.844249894419126e-06, "loss": 1.4588364362716675, "step": 1768 }, { "epoch": 1.18, "grad_norm": 1.8984375, "learning_rate": 4.835512813633384e-06, "loss": 0.9822990298271179, "step": 1770 }, { "epoch": 1.1813333333333333, "grad_norm": 2.59375, "learning_rate": 4.826780384701051e-06, "loss": 1.3673211336135864, "step": 1772 }, { "epoch": 1.1826666666666668, "grad_norm": 9.875, "learning_rate": 4.818052648332835e-06, "loss": 1.3989946842193604, "step": 1774 }, { "epoch": 1.184, "grad_norm": 6.03125, "learning_rate": 4.8093296452175694e-06, "loss": 1.4319931268692017, "step": 1776 }, { "epoch": 1.1853333333333333, "grad_norm": 15.125, "learning_rate": 4.800611416022017e-06, "loss": 1.6122653484344482, "step": 1778 }, { "epoch": 1.1866666666666668, "grad_norm": 2.046875, "learning_rate": 4.791898001390686e-06, "loss": 1.1115684509277344, "step": 1780 }, { "epoch": 1.188, "grad_norm": 2.09375, "learning_rate": 4.783189441945639e-06, "loss": 1.0223889350891113, "step": 1782 }, { "epoch": 1.1893333333333334, "grad_norm": 13.0, "learning_rate": 4.7744857782863036e-06, "loss": 1.4864284992218018, "step": 1784 }, { "epoch": 1.1906666666666668, "grad_norm": 4.125, "learning_rate": 4.765787050989282e-06, "loss": 1.0978294610977173, "step": 1786 }, { "epoch": 1.192, "grad_norm": 7.5, "learning_rate": 4.757093300608166e-06, "loss": 0.9597824811935425, "step": 1788 }, { "epoch": 1.1933333333333334, "grad_norm": 2.78125, "learning_rate": 4.7484045676733415e-06, "loss": 1.156911849975586, "step": 1790 }, { "epoch": 1.1946666666666665, "grad_norm": 3.890625, "learning_rate": 4.7397208926918045e-06, "loss": 1.52815842628479, "step": 1792 }, { "epoch": 1.196, "grad_norm": 4.0625, "learning_rate": 4.731042316146973e-06, "loss": 1.4148904085159302, "step": 1794 }, { "epoch": 1.1973333333333334, "grad_norm": 7.25, "learning_rate": 4.722368878498493e-06, "loss": 1.563035249710083, "step": 1796 }, { "epoch": 1.1986666666666665, "grad_norm": 6.78125, "learning_rate": 4.713700620182053e-06, "loss": 1.3035117387771606, "step": 1798 }, { "epoch": 1.2, "grad_norm": 5.78125, "learning_rate": 4.705037581609198e-06, "loss": 1.445461392402649, "step": 1800 }, { "epoch": 1.2013333333333334, "grad_norm": 8.4375, "learning_rate": 4.696379803167134e-06, "loss": 1.735097885131836, "step": 1802 }, { "epoch": 1.2026666666666666, "grad_norm": 4.71875, "learning_rate": 4.687727325218548e-06, "loss": 1.4002565145492554, "step": 1804 }, { "epoch": 1.204, "grad_norm": 3.078125, "learning_rate": 4.679080188101416e-06, "loss": 1.1411118507385254, "step": 1806 }, { "epoch": 1.2053333333333334, "grad_norm": 5.4375, "learning_rate": 4.670438432128812e-06, "loss": 1.8767681121826172, "step": 1808 }, { "epoch": 1.2066666666666666, "grad_norm": 5.21875, "learning_rate": 4.661802097588727e-06, "loss": 1.4633359909057617, "step": 1810 }, { "epoch": 1.208, "grad_norm": 1.2734375, "learning_rate": 4.653171224743872e-06, "loss": 1.1138715744018555, "step": 1812 }, { "epoch": 1.2093333333333334, "grad_norm": 2.640625, "learning_rate": 4.644545853831501e-06, "loss": 1.0692567825317383, "step": 1814 }, { "epoch": 1.2106666666666666, "grad_norm": 7.59375, "learning_rate": 4.635926025063216e-06, "loss": 1.3959109783172607, "step": 1816 }, { "epoch": 1.212, "grad_norm": 5.03125, "learning_rate": 4.62731177862478e-06, "loss": 1.3984177112579346, "step": 1818 }, { "epoch": 1.2133333333333334, "grad_norm": 6.625, "learning_rate": 4.618703154675931e-06, "loss": 0.8294498920440674, "step": 1820 }, { "epoch": 1.2146666666666666, "grad_norm": 12.1875, "learning_rate": 4.610100193350197e-06, "loss": 1.740832805633545, "step": 1822 }, { "epoch": 1.216, "grad_norm": 2.734375, "learning_rate": 4.601502934754706e-06, "loss": 1.155540108680725, "step": 1824 }, { "epoch": 1.2173333333333334, "grad_norm": 3.5625, "learning_rate": 4.592911418969999e-06, "loss": 1.4470839500427246, "step": 1826 }, { "epoch": 1.2186666666666666, "grad_norm": 7.6875, "learning_rate": 4.584325686049843e-06, "loss": 1.1068997383117676, "step": 1828 }, { "epoch": 1.22, "grad_norm": 13.5625, "learning_rate": 4.57574577602105e-06, "loss": 1.221320629119873, "step": 1830 }, { "epoch": 1.2213333333333334, "grad_norm": 2.296875, "learning_rate": 4.567171728883279e-06, "loss": 1.142722725868225, "step": 1832 }, { "epoch": 1.2226666666666666, "grad_norm": 4.15625, "learning_rate": 4.558603584608859e-06, "loss": 1.4071441888809204, "step": 1834 }, { "epoch": 1.224, "grad_norm": 1.46875, "learning_rate": 4.5500413831426034e-06, "loss": 0.9861024022102356, "step": 1836 }, { "epoch": 1.2253333333333334, "grad_norm": 1.390625, "learning_rate": 4.541485164401616e-06, "loss": 1.1196272373199463, "step": 1838 }, { "epoch": 1.2266666666666666, "grad_norm": 6.46875, "learning_rate": 4.532934968275108e-06, "loss": 1.842470645904541, "step": 1840 }, { "epoch": 1.228, "grad_norm": 5.15625, "learning_rate": 4.524390834624216e-06, "loss": 1.4868441820144653, "step": 1842 }, { "epoch": 1.2293333333333334, "grad_norm": 2.734375, "learning_rate": 4.5158528032818115e-06, "loss": 1.111555814743042, "step": 1844 }, { "epoch": 1.2306666666666666, "grad_norm": 11.0625, "learning_rate": 4.507320914052319e-06, "loss": 1.41820228099823, "step": 1846 }, { "epoch": 1.232, "grad_norm": 6.53125, "learning_rate": 4.498795206711525e-06, "loss": 1.8366367816925049, "step": 1848 }, { "epoch": 1.2333333333333334, "grad_norm": 2.828125, "learning_rate": 4.4902757210064005e-06, "loss": 1.1064856052398682, "step": 1850 }, { "epoch": 1.2346666666666666, "grad_norm": 5.0625, "learning_rate": 4.481762496654908e-06, "loss": 1.5134849548339844, "step": 1852 }, { "epoch": 1.236, "grad_norm": 2.171875, "learning_rate": 4.473255573345819e-06, "loss": 1.0301719903945923, "step": 1854 }, { "epoch": 1.2373333333333334, "grad_norm": 4.71875, "learning_rate": 4.464754990738531e-06, "loss": 1.4889826774597168, "step": 1856 }, { "epoch": 1.2386666666666666, "grad_norm": 10.8125, "learning_rate": 4.45626078846288e-06, "loss": 1.9825019836425781, "step": 1858 }, { "epoch": 1.24, "grad_norm": 7.21875, "learning_rate": 4.447773006118961e-06, "loss": 1.425232172012329, "step": 1860 }, { "epoch": 1.2413333333333334, "grad_norm": 3.609375, "learning_rate": 4.439291683276931e-06, "loss": 1.4104689359664917, "step": 1862 }, { "epoch": 1.2426666666666666, "grad_norm": 5.3125, "learning_rate": 4.43081685947684e-06, "loss": 1.4762451648712158, "step": 1864 }, { "epoch": 1.244, "grad_norm": 8.6875, "learning_rate": 4.422348574228434e-06, "loss": 1.7859766483306885, "step": 1866 }, { "epoch": 1.2453333333333334, "grad_norm": 2.78125, "learning_rate": 4.413886867010984e-06, "loss": 1.1129896640777588, "step": 1868 }, { "epoch": 1.2466666666666666, "grad_norm": 6.96875, "learning_rate": 4.405431777273084e-06, "loss": 1.415675401687622, "step": 1870 }, { "epoch": 1.248, "grad_norm": 2.078125, "learning_rate": 4.396983344432485e-06, "loss": 0.9921229481697083, "step": 1872 }, { "epoch": 1.2493333333333334, "grad_norm": 4.34375, "learning_rate": 4.3885416078759e-06, "loss": 1.444735050201416, "step": 1874 }, { "epoch": 1.2506666666666666, "grad_norm": 11.625, "learning_rate": 4.380106606958824e-06, "loss": 1.397036075592041, "step": 1876 }, { "epoch": 1.252, "grad_norm": 5.125, "learning_rate": 4.371678381005352e-06, "loss": 1.4307284355163574, "step": 1878 }, { "epoch": 1.2533333333333334, "grad_norm": 1.4765625, "learning_rate": 4.363256969307992e-06, "loss": 1.1688439846038818, "step": 1880 }, { "epoch": 1.2546666666666666, "grad_norm": 1.28125, "learning_rate": 4.3548424111274835e-06, "loss": 1.0812777280807495, "step": 1882 }, { "epoch": 1.256, "grad_norm": 1.4453125, "learning_rate": 4.3464347456926186e-06, "loss": 1.224534034729004, "step": 1884 }, { "epoch": 1.2573333333333334, "grad_norm": 2.5625, "learning_rate": 4.338034012200051e-06, "loss": 1.0692505836486816, "step": 1886 }, { "epoch": 1.2586666666666666, "grad_norm": 7.53125, "learning_rate": 4.329640249814121e-06, "loss": 1.8193671703338623, "step": 1888 }, { "epoch": 1.26, "grad_norm": 6.28125, "learning_rate": 4.3212534976666655e-06, "loss": 1.3666338920593262, "step": 1890 }, { "epoch": 1.2613333333333334, "grad_norm": 8.75, "learning_rate": 4.312873794856845e-06, "loss": 1.7071934938430786, "step": 1892 }, { "epoch": 1.2626666666666666, "grad_norm": 10.875, "learning_rate": 4.30450118045095e-06, "loss": 1.441591501235962, "step": 1894 }, { "epoch": 1.264, "grad_norm": 7.6875, "learning_rate": 4.2961356934822294e-06, "loss": 1.3926138877868652, "step": 1896 }, { "epoch": 1.2653333333333334, "grad_norm": 16.75, "learning_rate": 4.287777372950701e-06, "loss": 1.9801844358444214, "step": 1898 }, { "epoch": 1.2666666666666666, "grad_norm": 2.75, "learning_rate": 4.279426257822973e-06, "loss": 0.9289498329162598, "step": 1900 }, { "epoch": 1.268, "grad_norm": 5.3125, "learning_rate": 4.271082387032064e-06, "loss": 1.5062365531921387, "step": 1902 }, { "epoch": 1.2693333333333334, "grad_norm": 1.6328125, "learning_rate": 4.262745799477217e-06, "loss": 1.3158210515975952, "step": 1904 }, { "epoch": 1.2706666666666666, "grad_norm": 7.5625, "learning_rate": 4.254416534023722e-06, "loss": 1.9733731746673584, "step": 1906 }, { "epoch": 1.272, "grad_norm": 4.875, "learning_rate": 4.246094629502733e-06, "loss": 1.4407968521118164, "step": 1908 }, { "epoch": 1.2733333333333334, "grad_norm": 4.40625, "learning_rate": 4.2377801247110865e-06, "loss": 0.6475011706352234, "step": 1910 }, { "epoch": 1.2746666666666666, "grad_norm": 2.125, "learning_rate": 4.229473058411121e-06, "loss": 1.043494462966919, "step": 1912 }, { "epoch": 1.276, "grad_norm": 3.984375, "learning_rate": 4.2211734693304976e-06, "loss": 1.1116821765899658, "step": 1914 }, { "epoch": 1.2773333333333334, "grad_norm": 4.84375, "learning_rate": 4.212881396162019e-06, "loss": 1.4613234996795654, "step": 1916 }, { "epoch": 1.2786666666666666, "grad_norm": 4.75, "learning_rate": 4.204596877563448e-06, "loss": 1.0637935400009155, "step": 1918 }, { "epoch": 1.28, "grad_norm": 1.453125, "learning_rate": 4.1963199521573265e-06, "loss": 1.301331639289856, "step": 1920 }, { "epoch": 1.2813333333333334, "grad_norm": 3.703125, "learning_rate": 4.188050658530799e-06, "loss": 1.419353723526001, "step": 1922 }, { "epoch": 1.2826666666666666, "grad_norm": 0.94921875, "learning_rate": 4.179789035235429e-06, "loss": 1.1043145656585693, "step": 1924 }, { "epoch": 1.284, "grad_norm": 9.5, "learning_rate": 4.171535120787022e-06, "loss": 1.3741405010223389, "step": 1926 }, { "epoch": 1.2853333333333334, "grad_norm": 3.140625, "learning_rate": 4.163288953665444e-06, "loss": 1.1466556787490845, "step": 1928 }, { "epoch": 1.2866666666666666, "grad_norm": 7.5, "learning_rate": 4.155050572314444e-06, "loss": 1.950070858001709, "step": 1930 }, { "epoch": 1.288, "grad_norm": 12.125, "learning_rate": 4.146820015141471e-06, "loss": 1.7856245040893555, "step": 1932 }, { "epoch": 1.2893333333333334, "grad_norm": 10.25, "learning_rate": 4.1385973205175e-06, "loss": 1.5132737159729004, "step": 1934 }, { "epoch": 1.2906666666666666, "grad_norm": 4.21875, "learning_rate": 4.13038252677685e-06, "loss": 1.7371140718460083, "step": 1936 }, { "epoch": 1.292, "grad_norm": 5.25, "learning_rate": 4.122175672217006e-06, "loss": 1.3733547925949097, "step": 1938 }, { "epoch": 1.2933333333333334, "grad_norm": 14.125, "learning_rate": 4.113976795098441e-06, "loss": 1.6105353832244873, "step": 1940 }, { "epoch": 1.2946666666666666, "grad_norm": 4.09375, "learning_rate": 4.105785933644435e-06, "loss": 1.4054853916168213, "step": 1942 }, { "epoch": 1.296, "grad_norm": 7.1875, "learning_rate": 4.097603126040899e-06, "loss": 1.4901647567749023, "step": 1944 }, { "epoch": 1.2973333333333334, "grad_norm": 4.90625, "learning_rate": 4.089428410436202e-06, "loss": 1.127669334411621, "step": 1946 }, { "epoch": 1.2986666666666666, "grad_norm": 29.125, "learning_rate": 4.081261824940981e-06, "loss": 1.8731911182403564, "step": 1948 }, { "epoch": 1.3, "grad_norm": 4.15625, "learning_rate": 4.073103407627975e-06, "loss": 1.436967134475708, "step": 1950 }, { "epoch": 1.3013333333333335, "grad_norm": 5.3125, "learning_rate": 4.06495319653184e-06, "loss": 1.4082098007202148, "step": 1952 }, { "epoch": 1.3026666666666666, "grad_norm": 7.28125, "learning_rate": 4.056811229648977e-06, "loss": 1.4131418466567993, "step": 1954 }, { "epoch": 1.304, "grad_norm": 6.25, "learning_rate": 4.0486775449373476e-06, "loss": 1.5199666023254395, "step": 1956 }, { "epoch": 1.3053333333333335, "grad_norm": 5.90625, "learning_rate": 4.04055218031631e-06, "loss": 1.4956390857696533, "step": 1958 }, { "epoch": 1.3066666666666666, "grad_norm": 57.25, "learning_rate": 4.032435173666427e-06, "loss": 1.8000434637069702, "step": 1960 }, { "epoch": 1.308, "grad_norm": 27.25, "learning_rate": 4.0243265628293e-06, "loss": 1.5463436841964722, "step": 1962 }, { "epoch": 1.3093333333333335, "grad_norm": 7.15625, "learning_rate": 4.0162263856073845e-06, "loss": 1.0135364532470703, "step": 1964 }, { "epoch": 1.3106666666666666, "grad_norm": 16.375, "learning_rate": 4.008134679763825e-06, "loss": 1.7062512636184692, "step": 1966 }, { "epoch": 1.312, "grad_norm": 1.640625, "learning_rate": 4.000051483022266e-06, "loss": 1.0296456813812256, "step": 1968 }, { "epoch": 1.3133333333333335, "grad_norm": 8.1875, "learning_rate": 3.991976833066687e-06, "loss": 1.2677695751190186, "step": 1970 }, { "epoch": 1.3146666666666667, "grad_norm": 12.375, "learning_rate": 3.983910767541221e-06, "loss": 1.590986728668213, "step": 1972 }, { "epoch": 1.316, "grad_norm": 7.6875, "learning_rate": 3.975853324049979e-06, "loss": 1.8669140338897705, "step": 1974 }, { "epoch": 1.3173333333333335, "grad_norm": 5.375, "learning_rate": 3.967804540156878e-06, "loss": 1.4626425504684448, "step": 1976 }, { "epoch": 1.3186666666666667, "grad_norm": 5.21875, "learning_rate": 3.9597644533854604e-06, "loss": 1.3915584087371826, "step": 1978 }, { "epoch": 1.32, "grad_norm": 5.375, "learning_rate": 3.951733101218726e-06, "loss": 1.3798573017120361, "step": 1980 }, { "epoch": 1.3213333333333335, "grad_norm": 5.0625, "learning_rate": 3.943710521098953e-06, "loss": 1.3979811668395996, "step": 1982 }, { "epoch": 1.3226666666666667, "grad_norm": 7.6875, "learning_rate": 3.935696750427523e-06, "loss": 1.8864164352416992, "step": 1984 }, { "epoch": 1.324, "grad_norm": 3.109375, "learning_rate": 3.927691826564748e-06, "loss": 1.28287672996521, "step": 1986 }, { "epoch": 1.3253333333333333, "grad_norm": 6.15625, "learning_rate": 3.9196957868296956e-06, "loss": 1.5379631519317627, "step": 1988 }, { "epoch": 1.3266666666666667, "grad_norm": 4.3125, "learning_rate": 3.91170866850002e-06, "loss": 1.4094090461730957, "step": 1990 }, { "epoch": 1.328, "grad_norm": 4.84375, "learning_rate": 3.903730508811778e-06, "loss": 1.4487733840942383, "step": 1992 }, { "epoch": 1.3293333333333333, "grad_norm": 11.625, "learning_rate": 3.8957613449592635e-06, "loss": 1.5799566507339478, "step": 1994 }, { "epoch": 1.3306666666666667, "grad_norm": 7.125, "learning_rate": 3.887801214094831e-06, "loss": 1.9759260416030884, "step": 1996 }, { "epoch": 1.332, "grad_norm": 6.125, "learning_rate": 3.879850153328723e-06, "loss": 1.0006651878356934, "step": 1998 }, { "epoch": 1.3333333333333333, "grad_norm": 7.71875, "learning_rate": 3.871908199728899e-06, "loss": 1.775663137435913, "step": 2000 }, { "epoch": 1.3346666666666667, "grad_norm": 7.28125, "learning_rate": 3.863975390320857e-06, "loss": 1.5372567176818848, "step": 2002 }, { "epoch": 1.336, "grad_norm": 2.0, "learning_rate": 3.85605176208747e-06, "loss": 1.0319498777389526, "step": 2004 }, { "epoch": 1.3373333333333333, "grad_norm": 5.6875, "learning_rate": 3.8481373519688025e-06, "loss": 1.3900774717330933, "step": 2006 }, { "epoch": 1.3386666666666667, "grad_norm": 4.46875, "learning_rate": 3.840232196861948e-06, "loss": 1.4347116947174072, "step": 2008 }, { "epoch": 1.34, "grad_norm": 6.53125, "learning_rate": 3.832336333620851e-06, "loss": 1.4486432075500488, "step": 2010 }, { "epoch": 1.3413333333333333, "grad_norm": 2.234375, "learning_rate": 3.824449799056139e-06, "loss": 1.1662362813949585, "step": 2012 }, { "epoch": 1.3426666666666667, "grad_norm": 5.40625, "learning_rate": 3.816572629934947e-06, "loss": 1.4935212135314941, "step": 2014 }, { "epoch": 1.3439999999999999, "grad_norm": 4.375, "learning_rate": 3.8087048629807487e-06, "loss": 1.5006301403045654, "step": 2016 }, { "epoch": 1.3453333333333333, "grad_norm": 11.3125, "learning_rate": 3.8008465348731865e-06, "loss": 1.8255863189697266, "step": 2018 }, { "epoch": 1.3466666666666667, "grad_norm": 1.8515625, "learning_rate": 3.7929976822478963e-06, "loss": 1.1015727519989014, "step": 2020 }, { "epoch": 1.3479999999999999, "grad_norm": 4.40625, "learning_rate": 3.785158341696342e-06, "loss": 1.4135279655456543, "step": 2022 }, { "epoch": 1.3493333333333333, "grad_norm": 4.625, "learning_rate": 3.777328549765638e-06, "loss": 1.3733489513397217, "step": 2024 }, { "epoch": 1.3506666666666667, "grad_norm": 5.6875, "learning_rate": 3.769508342958387e-06, "loss": 1.4328157901763916, "step": 2026 }, { "epoch": 1.3519999999999999, "grad_norm": 5.5625, "learning_rate": 3.7616977577325032e-06, "loss": 1.6042231321334839, "step": 2028 }, { "epoch": 1.3533333333333333, "grad_norm": 1.2109375, "learning_rate": 3.753896830501045e-06, "loss": 1.1938247680664062, "step": 2030 }, { "epoch": 1.3546666666666667, "grad_norm": 16.125, "learning_rate": 3.7461055976320482e-06, "loss": 1.4999253749847412, "step": 2032 }, { "epoch": 1.3559999999999999, "grad_norm": 8.0625, "learning_rate": 3.738324095448349e-06, "loss": 1.0432729721069336, "step": 2034 }, { "epoch": 1.3573333333333333, "grad_norm": 6.28125, "learning_rate": 3.730552360227422e-06, "loss": 1.3648273944854736, "step": 2036 }, { "epoch": 1.3586666666666667, "grad_norm": 6.375, "learning_rate": 3.722790428201206e-06, "loss": 1.8152570724487305, "step": 2038 }, { "epoch": 1.3599999999999999, "grad_norm": 12.5, "learning_rate": 3.715038335555939e-06, "loss": 1.746189832687378, "step": 2040 }, { "epoch": 1.3613333333333333, "grad_norm": 8.1875, "learning_rate": 3.7072961184319857e-06, "loss": 1.4744912385940552, "step": 2042 }, { "epoch": 1.3626666666666667, "grad_norm": 2.3125, "learning_rate": 3.6995638129236735e-06, "loss": 1.0192598104476929, "step": 2044 }, { "epoch": 1.3639999999999999, "grad_norm": 5.125, "learning_rate": 3.6918414550791193e-06, "loss": 1.4223957061767578, "step": 2046 }, { "epoch": 1.3653333333333333, "grad_norm": 4.46875, "learning_rate": 3.6841290809000636e-06, "loss": 1.407201886177063, "step": 2048 }, { "epoch": 1.3666666666666667, "grad_norm": 15.0625, "learning_rate": 3.6764267263417073e-06, "loss": 1.7757458686828613, "step": 2050 }, { "epoch": 1.3679999999999999, "grad_norm": 5.34375, "learning_rate": 3.6687344273125346e-06, "loss": 1.4260222911834717, "step": 2052 }, { "epoch": 1.3693333333333333, "grad_norm": 4.71875, "learning_rate": 3.661052219674154e-06, "loss": 1.3600423336029053, "step": 2054 }, { "epoch": 1.3706666666666667, "grad_norm": 2.5, "learning_rate": 3.653380139241125e-06, "loss": 1.1860934495925903, "step": 2056 }, { "epoch": 1.3719999999999999, "grad_norm": 4.75, "learning_rate": 3.645718221780795e-06, "loss": 1.4395768642425537, "step": 2058 }, { "epoch": 1.3733333333333333, "grad_norm": 8.875, "learning_rate": 3.638066503013134e-06, "loss": 1.9235694408416748, "step": 2060 }, { "epoch": 1.3746666666666667, "grad_norm": 3.5625, "learning_rate": 3.6304250186105616e-06, "loss": 1.2579543590545654, "step": 2062 }, { "epoch": 1.376, "grad_norm": 11.0, "learning_rate": 3.6227938041977863e-06, "loss": 1.2985129356384277, "step": 2064 }, { "epoch": 1.3773333333333333, "grad_norm": 5.78125, "learning_rate": 3.615172895351639e-06, "loss": 1.4874852895736694, "step": 2066 }, { "epoch": 1.3786666666666667, "grad_norm": 8.5, "learning_rate": 3.607562327600904e-06, "loss": 1.846003770828247, "step": 2068 }, { "epoch": 1.38, "grad_norm": 12.4375, "learning_rate": 3.5999621364261572e-06, "loss": 1.7919820547103882, "step": 2070 }, { "epoch": 1.3813333333333333, "grad_norm": 5.09375, "learning_rate": 3.592372357259596e-06, "loss": 0.9578616619110107, "step": 2072 }, { "epoch": 1.3826666666666667, "grad_norm": 15.6875, "learning_rate": 3.5847930254848793e-06, "loss": 1.4702143669128418, "step": 2074 }, { "epoch": 1.384, "grad_norm": 4.34375, "learning_rate": 3.5772241764369596e-06, "loss": 1.4963748455047607, "step": 2076 }, { "epoch": 1.3853333333333333, "grad_norm": 18.5, "learning_rate": 3.569665845401918e-06, "loss": 1.9716095924377441, "step": 2078 }, { "epoch": 1.3866666666666667, "grad_norm": 4.8125, "learning_rate": 3.562118067616799e-06, "loss": 1.4789984226226807, "step": 2080 }, { "epoch": 1.388, "grad_norm": 4.4375, "learning_rate": 3.5545808782694536e-06, "loss": 1.2054288387298584, "step": 2082 }, { "epoch": 1.3893333333333333, "grad_norm": 5.84375, "learning_rate": 3.5470543124983634e-06, "loss": 1.1057885885238647, "step": 2084 }, { "epoch": 1.3906666666666667, "grad_norm": 4.65625, "learning_rate": 3.5395384053924855e-06, "loss": 1.513080358505249, "step": 2086 }, { "epoch": 1.392, "grad_norm": 47.0, "learning_rate": 3.5320331919910845e-06, "loss": 1.6390080451965332, "step": 2088 }, { "epoch": 1.3933333333333333, "grad_norm": 5.5625, "learning_rate": 3.524538707283571e-06, "loss": 1.4461960792541504, "step": 2090 }, { "epoch": 1.3946666666666667, "grad_norm": 4.78125, "learning_rate": 3.517054986209341e-06, "loss": 1.4935176372528076, "step": 2092 }, { "epoch": 1.396, "grad_norm": 4.375, "learning_rate": 3.5095820636576072e-06, "loss": 1.443993330001831, "step": 2094 }, { "epoch": 1.3973333333333333, "grad_norm": 4.8125, "learning_rate": 3.50211997446724e-06, "loss": 1.4108878374099731, "step": 2096 }, { "epoch": 1.3986666666666667, "grad_norm": 4.75, "learning_rate": 3.4946687534266054e-06, "loss": 0.2819749712944031, "step": 2098 }, { "epoch": 1.4, "grad_norm": 4.5625, "learning_rate": 3.487228435273402e-06, "loss": 1.4009244441986084, "step": 2100 }, { "epoch": 1.4013333333333333, "grad_norm": 5.40625, "learning_rate": 3.4797990546944983e-06, "loss": 1.5566036701202393, "step": 2102 }, { "epoch": 1.4026666666666667, "grad_norm": 2.828125, "learning_rate": 3.4723806463257713e-06, "loss": 0.9677723050117493, "step": 2104 }, { "epoch": 1.404, "grad_norm": 1.8125, "learning_rate": 3.464973244751947e-06, "loss": 1.0396676063537598, "step": 2106 }, { "epoch": 1.4053333333333333, "grad_norm": 7.78125, "learning_rate": 3.4575768845064356e-06, "loss": 0.672480046749115, "step": 2108 }, { "epoch": 1.4066666666666667, "grad_norm": 5.34375, "learning_rate": 3.4501916000711745e-06, "loss": 1.828851342201233, "step": 2110 }, { "epoch": 1.408, "grad_norm": 1.6875, "learning_rate": 3.442817425876463e-06, "loss": 0.9009377956390381, "step": 2112 }, { "epoch": 1.4093333333333333, "grad_norm": 4.9375, "learning_rate": 3.435454396300807e-06, "loss": 1.4665517807006836, "step": 2114 }, { "epoch": 1.4106666666666667, "grad_norm": 9.625, "learning_rate": 3.428102545670754e-06, "loss": 1.377671718597412, "step": 2116 }, { "epoch": 1.412, "grad_norm": 7.9375, "learning_rate": 3.4207619082607365e-06, "loss": 1.7818158864974976, "step": 2118 }, { "epoch": 1.4133333333333333, "grad_norm": 4.90625, "learning_rate": 3.4134325182929097e-06, "loss": 1.503507137298584, "step": 2120 }, { "epoch": 1.4146666666666667, "grad_norm": 8.4375, "learning_rate": 3.406114409936992e-06, "loss": 1.7001944780349731, "step": 2122 }, { "epoch": 1.416, "grad_norm": 3.484375, "learning_rate": 3.398807617310112e-06, "loss": 1.341043472290039, "step": 2124 }, { "epoch": 1.4173333333333333, "grad_norm": 12.75, "learning_rate": 3.391512174476638e-06, "loss": 1.7441976070404053, "step": 2126 }, { "epoch": 1.4186666666666667, "grad_norm": 2.09375, "learning_rate": 3.3842281154480294e-06, "loss": 1.0459182262420654, "step": 2128 }, { "epoch": 1.42, "grad_norm": 2.4375, "learning_rate": 3.376955474182671e-06, "loss": 1.1474944353103638, "step": 2130 }, { "epoch": 1.4213333333333333, "grad_norm": 1.8359375, "learning_rate": 3.3696942845857204e-06, "loss": 0.9987665414810181, "step": 2132 }, { "epoch": 1.4226666666666667, "grad_norm": 7.9375, "learning_rate": 3.3624445805089475e-06, "loss": 1.5011258125305176, "step": 2134 }, { "epoch": 1.424, "grad_norm": 6.71875, "learning_rate": 3.3552063957505733e-06, "loss": 1.4670500755310059, "step": 2136 }, { "epoch": 1.4253333333333333, "grad_norm": 3.8125, "learning_rate": 3.347979764055117e-06, "loss": 1.0144070386886597, "step": 2138 }, { "epoch": 1.4266666666666667, "grad_norm": 6.625, "learning_rate": 3.340764719113242e-06, "loss": 1.4356119632720947, "step": 2140 }, { "epoch": 1.428, "grad_norm": 5.96875, "learning_rate": 3.3335612945615876e-06, "loss": 1.3124582767486572, "step": 2142 }, { "epoch": 1.4293333333333333, "grad_norm": 4.375, "learning_rate": 3.3263695239826214e-06, "loss": 1.4105291366577148, "step": 2144 }, { "epoch": 1.4306666666666668, "grad_norm": 6.15625, "learning_rate": 3.319189440904481e-06, "loss": 1.1068024635314941, "step": 2146 }, { "epoch": 1.432, "grad_norm": 7.53125, "learning_rate": 3.3120210788008136e-06, "loss": 1.413973093032837, "step": 2148 }, { "epoch": 1.4333333333333333, "grad_norm": 7.78125, "learning_rate": 3.3048644710906256e-06, "loss": 1.8645330667495728, "step": 2150 }, { "epoch": 1.4346666666666668, "grad_norm": 4.25, "learning_rate": 3.297719651138125e-06, "loss": 1.4282081127166748, "step": 2152 }, { "epoch": 1.436, "grad_norm": 5.03125, "learning_rate": 3.2905866522525613e-06, "loss": 1.4378764629364014, "step": 2154 }, { "epoch": 1.4373333333333334, "grad_norm": 7.5625, "learning_rate": 3.2834655076880782e-06, "loss": 1.5733673572540283, "step": 2156 }, { "epoch": 1.4386666666666668, "grad_norm": 5.78125, "learning_rate": 3.2763562506435528e-06, "loss": 1.4891130924224854, "step": 2158 }, { "epoch": 1.44, "grad_norm": 5.78125, "learning_rate": 3.269258914262441e-06, "loss": 1.2145038843154907, "step": 2160 }, { "epoch": 1.4413333333333334, "grad_norm": 23.125, "learning_rate": 3.2621735316326266e-06, "loss": 1.4004946947097778, "step": 2162 }, { "epoch": 1.4426666666666668, "grad_norm": 1.6171875, "learning_rate": 3.2551001357862627e-06, "loss": 1.1053515672683716, "step": 2164 }, { "epoch": 1.444, "grad_norm": 4.78125, "learning_rate": 3.2480387596996223e-06, "loss": 1.8382079601287842, "step": 2166 }, { "epoch": 1.4453333333333334, "grad_norm": 4.96875, "learning_rate": 3.2409894362929406e-06, "loss": 1.4433636665344238, "step": 2168 }, { "epoch": 1.4466666666666668, "grad_norm": 0.9140625, "learning_rate": 3.2339521984302626e-06, "loss": 1.1521646976470947, "step": 2170 }, { "epoch": 1.448, "grad_norm": 5.96875, "learning_rate": 3.226927078919291e-06, "loss": 1.301585078239441, "step": 2172 }, { "epoch": 1.4493333333333334, "grad_norm": 4.96875, "learning_rate": 3.219914110511233e-06, "loss": 1.490642786026001, "step": 2174 }, { "epoch": 1.4506666666666668, "grad_norm": 5.75, "learning_rate": 3.2129133259006486e-06, "loss": 1.6394309997558594, "step": 2176 }, { "epoch": 1.452, "grad_norm": 3.421875, "learning_rate": 3.205924757725292e-06, "loss": 1.0423762798309326, "step": 2178 }, { "epoch": 1.4533333333333334, "grad_norm": 5.6875, "learning_rate": 3.1989484385659677e-06, "loss": 1.7373323440551758, "step": 2180 }, { "epoch": 1.4546666666666668, "grad_norm": 4.875, "learning_rate": 3.1919844009463754e-06, "loss": 1.458338737487793, "step": 2182 }, { "epoch": 1.456, "grad_norm": 8.75, "learning_rate": 3.1850326773329575e-06, "loss": 1.4843109846115112, "step": 2184 }, { "epoch": 1.4573333333333334, "grad_norm": 4.0625, "learning_rate": 3.178093300134747e-06, "loss": 1.337432861328125, "step": 2186 }, { "epoch": 1.4586666666666668, "grad_norm": 4.71875, "learning_rate": 3.171166301703219e-06, "loss": 1.4174573421478271, "step": 2188 }, { "epoch": 1.46, "grad_norm": 4.46875, "learning_rate": 3.164251714332139e-06, "loss": 1.3681509494781494, "step": 2190 }, { "epoch": 1.4613333333333334, "grad_norm": 13.625, "learning_rate": 3.157349570257411e-06, "loss": 1.7669622898101807, "step": 2192 }, { "epoch": 1.4626666666666668, "grad_norm": 4.1875, "learning_rate": 3.150459901656928e-06, "loss": 1.6402667760849, "step": 2194 }, { "epoch": 1.464, "grad_norm": 20.375, "learning_rate": 3.143582740650424e-06, "loss": 1.362139105796814, "step": 2196 }, { "epoch": 1.4653333333333334, "grad_norm": 6.4375, "learning_rate": 3.1367181192993196e-06, "loss": 0.37001797556877136, "step": 2198 }, { "epoch": 1.4666666666666668, "grad_norm": 7.21875, "learning_rate": 3.1298660696065776e-06, "loss": 1.3908202648162842, "step": 2200 }, { "epoch": 1.468, "grad_norm": 4.71875, "learning_rate": 3.1230266235165517e-06, "loss": 1.643039345741272, "step": 2202 }, { "epoch": 1.4693333333333334, "grad_norm": 3.34375, "learning_rate": 3.116199812914835e-06, "loss": 1.1279222965240479, "step": 2204 }, { "epoch": 1.4706666666666668, "grad_norm": 6.03125, "learning_rate": 3.1093856696281154e-06, "loss": 1.4094611406326294, "step": 2206 }, { "epoch": 1.472, "grad_norm": 13.0, "learning_rate": 3.102584225424028e-06, "loss": 1.4117114543914795, "step": 2208 }, { "epoch": 1.4733333333333334, "grad_norm": 9.3125, "learning_rate": 3.095795512010998e-06, "loss": 1.4297616481781006, "step": 2210 }, { "epoch": 1.4746666666666668, "grad_norm": 10.0625, "learning_rate": 3.089019561038108e-06, "loss": 1.983637809753418, "step": 2212 }, { "epoch": 1.476, "grad_norm": 2.1875, "learning_rate": 3.082256404094933e-06, "loss": 1.0336921215057373, "step": 2214 }, { "epoch": 1.4773333333333334, "grad_norm": 5.375, "learning_rate": 3.07550607271141e-06, "loss": 1.388633370399475, "step": 2216 }, { "epoch": 1.4786666666666668, "grad_norm": 4.6875, "learning_rate": 3.0687685983576787e-06, "loss": 1.4226921796798706, "step": 2218 }, { "epoch": 1.48, "grad_norm": 4.1875, "learning_rate": 3.0620440124439398e-06, "loss": 1.406280517578125, "step": 2220 }, { "epoch": 1.4813333333333334, "grad_norm": 5.40625, "learning_rate": 3.0553323463203085e-06, "loss": 1.629976511001587, "step": 2222 }, { "epoch": 1.4826666666666668, "grad_norm": 6.21875, "learning_rate": 3.0486336312766673e-06, "loss": 1.1256341934204102, "step": 2224 }, { "epoch": 1.484, "grad_norm": 15.0, "learning_rate": 3.04194789854252e-06, "loss": 1.6569780111312866, "step": 2226 }, { "epoch": 1.4853333333333334, "grad_norm": 6.15625, "learning_rate": 3.0352751792868484e-06, "loss": 1.3926656246185303, "step": 2228 }, { "epoch": 1.4866666666666668, "grad_norm": 7.9375, "learning_rate": 3.0286155046179622e-06, "loss": 1.872004508972168, "step": 2230 }, { "epoch": 1.488, "grad_norm": 4.15625, "learning_rate": 3.0219689055833624e-06, "loss": 1.436002492904663, "step": 2232 }, { "epoch": 1.4893333333333334, "grad_norm": 10.8125, "learning_rate": 3.0153354131695868e-06, "loss": 1.5085735321044922, "step": 2234 }, { "epoch": 1.4906666666666666, "grad_norm": 12.0625, "learning_rate": 3.00871505830207e-06, "loss": 1.8725166320800781, "step": 2236 }, { "epoch": 1.492, "grad_norm": 9.9375, "learning_rate": 3.0021078718450012e-06, "loss": 1.08853280544281, "step": 2238 }, { "epoch": 1.4933333333333334, "grad_norm": 1.890625, "learning_rate": 2.9955138846011765e-06, "loss": 0.9658834338188171, "step": 2240 }, { "epoch": 1.4946666666666666, "grad_norm": 4.59375, "learning_rate": 2.988933127311859e-06, "loss": 1.451707363128662, "step": 2242 }, { "epoch": 1.496, "grad_norm": 36.0, "learning_rate": 2.9823656306566327e-06, "loss": 1.749687671661377, "step": 2244 }, { "epoch": 1.4973333333333334, "grad_norm": 2.0, "learning_rate": 2.975811425253259e-06, "loss": 1.0534790754318237, "step": 2246 }, { "epoch": 1.4986666666666666, "grad_norm": 2.109375, "learning_rate": 2.9692705416575363e-06, "loss": 1.0871453285217285, "step": 2248 }, { "epoch": 1.5, "grad_norm": 3.90625, "learning_rate": 2.9627430103631573e-06, "loss": 1.4621355533599854, "step": 2250 }, { "epoch": 1.5013333333333332, "grad_norm": 10.6875, "learning_rate": 2.9562288618015656e-06, "loss": 1.805877447128296, "step": 2252 }, { "epoch": 1.5026666666666668, "grad_norm": 2.765625, "learning_rate": 2.949728126341813e-06, "loss": 1.0431222915649414, "step": 2254 }, { "epoch": 1.504, "grad_norm": 13.4375, "learning_rate": 2.9432408342904223e-06, "loss": 1.9408483505249023, "step": 2256 }, { "epoch": 1.5053333333333332, "grad_norm": 29.375, "learning_rate": 2.93676701589124e-06, "loss": 1.790807843208313, "step": 2258 }, { "epoch": 1.5066666666666668, "grad_norm": 2.078125, "learning_rate": 2.9303067013252985e-06, "loss": 1.0748181343078613, "step": 2260 }, { "epoch": 1.508, "grad_norm": 7.59375, "learning_rate": 2.9238599207106775e-06, "loss": 1.8455153703689575, "step": 2262 }, { "epoch": 1.5093333333333332, "grad_norm": 3.375, "learning_rate": 2.9174267041023564e-06, "loss": 1.113965630531311, "step": 2264 }, { "epoch": 1.5106666666666668, "grad_norm": 5.9375, "learning_rate": 2.911007081492087e-06, "loss": 1.4975740909576416, "step": 2266 }, { "epoch": 1.512, "grad_norm": 4.90625, "learning_rate": 2.9046010828082384e-06, "loss": 1.4789996147155762, "step": 2268 }, { "epoch": 1.5133333333333332, "grad_norm": 3.203125, "learning_rate": 2.898208737915667e-06, "loss": 1.4293715953826904, "step": 2270 }, { "epoch": 1.5146666666666668, "grad_norm": 1.1484375, "learning_rate": 2.891830076615576e-06, "loss": 0.9513505697250366, "step": 2272 }, { "epoch": 1.516, "grad_norm": 2.234375, "learning_rate": 2.885465128645375e-06, "loss": 1.0323138236999512, "step": 2274 }, { "epoch": 1.5173333333333332, "grad_norm": 7.3125, "learning_rate": 2.87911392367854e-06, "loss": 2.013789176940918, "step": 2276 }, { "epoch": 1.5186666666666668, "grad_norm": 24.0, "learning_rate": 2.8727764913244816e-06, "loss": 1.6063106060028076, "step": 2278 }, { "epoch": 1.52, "grad_norm": 6.40625, "learning_rate": 2.8664528611283966e-06, "loss": 1.9662723541259766, "step": 2280 }, { "epoch": 1.5213333333333332, "grad_norm": 3.125, "learning_rate": 2.86014306257114e-06, "loss": 1.2432258129119873, "step": 2282 }, { "epoch": 1.5226666666666666, "grad_norm": 4.96875, "learning_rate": 2.8538471250690813e-06, "loss": 0.9860575795173645, "step": 2284 }, { "epoch": 1.524, "grad_norm": 6.40625, "learning_rate": 2.8475650779739717e-06, "loss": 1.7175216674804688, "step": 2286 }, { "epoch": 1.5253333333333332, "grad_norm": 6.90625, "learning_rate": 2.841296950572802e-06, "loss": 1.449406385421753, "step": 2288 }, { "epoch": 1.5266666666666666, "grad_norm": 8.4375, "learning_rate": 2.8350427720876727e-06, "loss": 0.9427869319915771, "step": 2290 }, { "epoch": 1.528, "grad_norm": 1.4609375, "learning_rate": 2.828802571675652e-06, "loss": 1.0794901847839355, "step": 2292 }, { "epoch": 1.5293333333333332, "grad_norm": 6.3125, "learning_rate": 2.822576378428642e-06, "loss": 1.6682031154632568, "step": 2294 }, { "epoch": 1.5306666666666666, "grad_norm": 3.96875, "learning_rate": 2.816364221373245e-06, "loss": 1.405712366104126, "step": 2296 }, { "epoch": 1.532, "grad_norm": 1.65625, "learning_rate": 2.8101661294706247e-06, "loss": 1.0830612182617188, "step": 2298 }, { "epoch": 1.5333333333333332, "grad_norm": 3.34375, "learning_rate": 2.803982131616373e-06, "loss": 1.1465742588043213, "step": 2300 }, { "epoch": 1.5346666666666666, "grad_norm": 8.5625, "learning_rate": 2.7978122566403765e-06, "loss": 1.5894464254379272, "step": 2302 }, { "epoch": 1.536, "grad_norm": 1.875, "learning_rate": 2.7916565333066794e-06, "loss": 1.0847280025482178, "step": 2304 }, { "epoch": 1.5373333333333332, "grad_norm": 14.6875, "learning_rate": 2.7855149903133495e-06, "loss": 1.853139042854309, "step": 2306 }, { "epoch": 1.5386666666666666, "grad_norm": 1.1484375, "learning_rate": 2.7793876562923506e-06, "loss": 1.1526024341583252, "step": 2308 }, { "epoch": 1.54, "grad_norm": 3.921875, "learning_rate": 2.773274559809399e-06, "loss": 1.640642523765564, "step": 2310 }, { "epoch": 1.5413333333333332, "grad_norm": 13.4375, "learning_rate": 2.7671757293638374e-06, "loss": 1.776177167892456, "step": 2312 }, { "epoch": 1.5426666666666666, "grad_norm": 4.90625, "learning_rate": 2.7610911933885e-06, "loss": 1.8069844245910645, "step": 2314 }, { "epoch": 1.544, "grad_norm": 4.75, "learning_rate": 2.7550209802495793e-06, "loss": 1.4899930953979492, "step": 2316 }, { "epoch": 1.5453333333333332, "grad_norm": 9.625, "learning_rate": 2.748965118246495e-06, "loss": 1.6268222332000732, "step": 2318 }, { "epoch": 1.5466666666666666, "grad_norm": 7.8125, "learning_rate": 2.742923635611761e-06, "loss": 0.3517189025878906, "step": 2320 }, { "epoch": 1.548, "grad_norm": 6.09375, "learning_rate": 2.7368965605108572e-06, "loss": 1.4472923278808594, "step": 2322 }, { "epoch": 1.5493333333333332, "grad_norm": 10.625, "learning_rate": 2.7308839210420916e-06, "loss": 1.850784182548523, "step": 2324 }, { "epoch": 1.5506666666666666, "grad_norm": 8.4375, "learning_rate": 2.7248857452364753e-06, "loss": 1.9480905532836914, "step": 2326 }, { "epoch": 1.552, "grad_norm": 19.125, "learning_rate": 2.7189020610575877e-06, "loss": 1.6485257148742676, "step": 2328 }, { "epoch": 1.5533333333333332, "grad_norm": 7.375, "learning_rate": 2.7129328964014506e-06, "loss": 1.5316224098205566, "step": 2330 }, { "epoch": 1.5546666666666666, "grad_norm": 9.1875, "learning_rate": 2.706978279096394e-06, "loss": 1.7249939441680908, "step": 2332 }, { "epoch": 1.556, "grad_norm": 10.0625, "learning_rate": 2.7010382369029277e-06, "loss": 1.7890774011611938, "step": 2334 }, { "epoch": 1.5573333333333332, "grad_norm": 3.890625, "learning_rate": 2.6951127975136132e-06, "loss": 1.4425702095031738, "step": 2336 }, { "epoch": 1.5586666666666666, "grad_norm": 3.265625, "learning_rate": 2.6892019885529326e-06, "loss": 1.1990939378738403, "step": 2338 }, { "epoch": 1.56, "grad_norm": 13.125, "learning_rate": 2.6833058375771616e-06, "loss": 0.30556273460388184, "step": 2340 }, { "epoch": 1.5613333333333332, "grad_norm": 6.625, "learning_rate": 2.677424372074238e-06, "loss": 0.2589426338672638, "step": 2342 }, { "epoch": 1.5626666666666666, "grad_norm": 12.625, "learning_rate": 2.6715576194636397e-06, "loss": 0.6587238311767578, "step": 2344 }, { "epoch": 1.564, "grad_norm": 5.875, "learning_rate": 2.665705607096249e-06, "loss": 1.3843997716903687, "step": 2346 }, { "epoch": 1.5653333333333332, "grad_norm": 4.6875, "learning_rate": 2.6598683622542314e-06, "loss": 1.3836545944213867, "step": 2348 }, { "epoch": 1.5666666666666667, "grad_norm": 4.3125, "learning_rate": 2.6540459121509044e-06, "loss": 1.3984098434448242, "step": 2350 }, { "epoch": 1.568, "grad_norm": 6.5, "learning_rate": 2.648238283930613e-06, "loss": 1.9189105033874512, "step": 2352 }, { "epoch": 1.5693333333333332, "grad_norm": 1.1484375, "learning_rate": 2.6424455046686027e-06, "loss": 1.0379087924957275, "step": 2354 }, { "epoch": 1.5706666666666667, "grad_norm": 5.53125, "learning_rate": 2.6366676013708914e-06, "loss": 1.41304612159729, "step": 2356 }, { "epoch": 1.572, "grad_norm": 6.1875, "learning_rate": 2.630904600974148e-06, "loss": 1.3908233642578125, "step": 2358 }, { "epoch": 1.5733333333333333, "grad_norm": 3.953125, "learning_rate": 2.625156530345562e-06, "loss": 1.4623103141784668, "step": 2360 }, { "epoch": 1.5746666666666667, "grad_norm": 4.46875, "learning_rate": 2.619423416282718e-06, "loss": 1.4510695934295654, "step": 2362 }, { "epoch": 1.576, "grad_norm": 9.875, "learning_rate": 2.6137052855134774e-06, "loss": 1.482946515083313, "step": 2364 }, { "epoch": 1.5773333333333333, "grad_norm": 5.96875, "learning_rate": 2.6080021646958457e-06, "loss": 1.3805418014526367, "step": 2366 }, { "epoch": 1.5786666666666667, "grad_norm": 5.3125, "learning_rate": 2.6023140804178544e-06, "loss": 1.3469185829162598, "step": 2368 }, { "epoch": 1.58, "grad_norm": 14.25, "learning_rate": 2.5966410591974305e-06, "loss": 1.736164927482605, "step": 2370 }, { "epoch": 1.5813333333333333, "grad_norm": 3.453125, "learning_rate": 2.5909831274822817e-06, "loss": 1.4436497688293457, "step": 2372 }, { "epoch": 1.5826666666666667, "grad_norm": 6.25, "learning_rate": 2.5853403116497643e-06, "loss": 1.5656664371490479, "step": 2374 }, { "epoch": 1.584, "grad_norm": 2.328125, "learning_rate": 2.5797126380067665e-06, "loss": 0.9541326761245728, "step": 2376 }, { "epoch": 1.5853333333333333, "grad_norm": 4.0, "learning_rate": 2.574100132789583e-06, "loss": 1.3982048034667969, "step": 2378 }, { "epoch": 1.5866666666666667, "grad_norm": 16.625, "learning_rate": 2.568502822163792e-06, "loss": 1.7485718727111816, "step": 2380 }, { "epoch": 1.588, "grad_norm": 5.875, "learning_rate": 2.562920732224136e-06, "loss": 1.3504984378814697, "step": 2382 }, { "epoch": 1.5893333333333333, "grad_norm": 9.3125, "learning_rate": 2.5573538889943954e-06, "loss": 1.785373568534851, "step": 2384 }, { "epoch": 1.5906666666666667, "grad_norm": 8.5625, "learning_rate": 2.5518023184272743e-06, "loss": 1.9697847366333008, "step": 2386 }, { "epoch": 1.592, "grad_norm": 9.25, "learning_rate": 2.5462660464042727e-06, "loss": 1.0236709117889404, "step": 2388 }, { "epoch": 1.5933333333333333, "grad_norm": 4.15625, "learning_rate": 2.5407450987355685e-06, "loss": 1.4823676347732544, "step": 2390 }, { "epoch": 1.5946666666666667, "grad_norm": 6.28125, "learning_rate": 2.5352395011598994e-06, "loss": 1.4814116954803467, "step": 2392 }, { "epoch": 1.596, "grad_norm": 6.21875, "learning_rate": 2.529749279344439e-06, "loss": 1.400189757347107, "step": 2394 }, { "epoch": 1.5973333333333333, "grad_norm": 6.75, "learning_rate": 2.524274458884678e-06, "loss": 1.6907062530517578, "step": 2396 }, { "epoch": 1.5986666666666667, "grad_norm": 4.25, "learning_rate": 2.5188150653043074e-06, "loss": 1.136069655418396, "step": 2398 }, { "epoch": 1.6, "grad_norm": 5.28125, "learning_rate": 2.513371124055099e-06, "loss": 1.4196181297302246, "step": 2400 }, { "epoch": 1.6013333333333333, "grad_norm": 12.1875, "learning_rate": 2.507942660516783e-06, "loss": 2.027644634246826, "step": 2402 }, { "epoch": 1.6026666666666667, "grad_norm": 2.53125, "learning_rate": 2.502529699996934e-06, "loss": 1.0022658109664917, "step": 2404 }, { "epoch": 1.604, "grad_norm": 3.59375, "learning_rate": 2.4971322677308497e-06, "loss": 1.209780216217041, "step": 2406 }, { "epoch": 1.6053333333333333, "grad_norm": 7.25, "learning_rate": 2.4917503888814365e-06, "loss": 1.387068510055542, "step": 2408 }, { "epoch": 1.6066666666666667, "grad_norm": 8.5, "learning_rate": 2.486384088539089e-06, "loss": 1.4092319011688232, "step": 2410 }, { "epoch": 1.608, "grad_norm": 3.953125, "learning_rate": 2.481033391721577e-06, "loss": 1.4629402160644531, "step": 2412 }, { "epoch": 1.6093333333333333, "grad_norm": 3.015625, "learning_rate": 2.475698323373924e-06, "loss": 1.043999195098877, "step": 2414 }, { "epoch": 1.6106666666666667, "grad_norm": 4.09375, "learning_rate": 2.4703789083682944e-06, "loss": 1.3914482593536377, "step": 2416 }, { "epoch": 1.612, "grad_norm": 5.5625, "learning_rate": 2.4650751715038768e-06, "loss": 1.493814468383789, "step": 2418 }, { "epoch": 1.6133333333333333, "grad_norm": 10.75, "learning_rate": 2.459787137506767e-06, "loss": 1.7154039144515991, "step": 2420 }, { "epoch": 1.6146666666666667, "grad_norm": 6.90625, "learning_rate": 2.454514831029855e-06, "loss": 1.6474536657333374, "step": 2422 }, { "epoch": 1.616, "grad_norm": 6.84375, "learning_rate": 2.4492582766527078e-06, "loss": 1.450832724571228, "step": 2424 }, { "epoch": 1.6173333333333333, "grad_norm": 5.59375, "learning_rate": 2.4440174988814568e-06, "loss": 1.742751121520996, "step": 2426 }, { "epoch": 1.6186666666666667, "grad_norm": 7.6875, "learning_rate": 2.4387925221486827e-06, "loss": 1.7559263706207275, "step": 2428 }, { "epoch": 1.62, "grad_norm": 6.96875, "learning_rate": 2.4335833708133006e-06, "loss": 1.4377044439315796, "step": 2430 }, { "epoch": 1.6213333333333333, "grad_norm": 9.75, "learning_rate": 2.4283900691604473e-06, "loss": 1.8848496675491333, "step": 2432 }, { "epoch": 1.6226666666666667, "grad_norm": 2.296875, "learning_rate": 2.42321264140137e-06, "loss": 1.1043641567230225, "step": 2434 }, { "epoch": 1.624, "grad_norm": 6.90625, "learning_rate": 2.418051111673309e-06, "loss": 0.5369839668273926, "step": 2436 }, { "epoch": 1.6253333333333333, "grad_norm": 4.28125, "learning_rate": 2.41290550403939e-06, "loss": 1.3874391317367554, "step": 2438 }, { "epoch": 1.6266666666666667, "grad_norm": 8.875, "learning_rate": 2.4077758424885088e-06, "loss": 1.876328945159912, "step": 2440 }, { "epoch": 1.6280000000000001, "grad_norm": 4.9375, "learning_rate": 2.40266215093522e-06, "loss": 1.4870532751083374, "step": 2442 }, { "epoch": 1.6293333333333333, "grad_norm": 4.8125, "learning_rate": 2.3975644532196257e-06, "loss": 1.5786141157150269, "step": 2444 }, { "epoch": 1.6306666666666667, "grad_norm": 4.59375, "learning_rate": 2.3924827731072653e-06, "loss": 1.3795560598373413, "step": 2446 }, { "epoch": 1.6320000000000001, "grad_norm": 3.9375, "learning_rate": 2.387417134289003e-06, "loss": 1.4442157745361328, "step": 2448 }, { "epoch": 1.6333333333333333, "grad_norm": 4.15625, "learning_rate": 2.3823675603809204e-06, "loss": 1.1016851663589478, "step": 2450 }, { "epoch": 1.6346666666666667, "grad_norm": 1.3046875, "learning_rate": 2.3773340749242013e-06, "loss": 1.1123661994934082, "step": 2452 }, { "epoch": 1.6360000000000001, "grad_norm": 22.5, "learning_rate": 2.372316701385027e-06, "loss": 1.596160650253296, "step": 2454 }, { "epoch": 1.6373333333333333, "grad_norm": 1.4296875, "learning_rate": 2.3673154631544633e-06, "loss": 1.108832597732544, "step": 2456 }, { "epoch": 1.6386666666666667, "grad_norm": 7.375, "learning_rate": 2.362330383548354e-06, "loss": 1.0658042430877686, "step": 2458 }, { "epoch": 1.6400000000000001, "grad_norm": 1.59375, "learning_rate": 2.3573614858072114e-06, "loss": 1.0907118320465088, "step": 2460 }, { "epoch": 1.6413333333333333, "grad_norm": 6.9375, "learning_rate": 2.352408793096107e-06, "loss": 1.954852819442749, "step": 2462 }, { "epoch": 1.6426666666666667, "grad_norm": 5.9375, "learning_rate": 2.3474723285045635e-06, "loss": 1.7443487644195557, "step": 2464 }, { "epoch": 1.6440000000000001, "grad_norm": 23.5, "learning_rate": 2.3425521150464503e-06, "loss": 1.8608548641204834, "step": 2466 }, { "epoch": 1.6453333333333333, "grad_norm": 7.65625, "learning_rate": 2.337648175659872e-06, "loss": 1.4043128490447998, "step": 2468 }, { "epoch": 1.6466666666666665, "grad_norm": 4.6875, "learning_rate": 2.3327605332070617e-06, "loss": 1.343397855758667, "step": 2470 }, { "epoch": 1.6480000000000001, "grad_norm": 10.25, "learning_rate": 2.3278892104742807e-06, "loss": 0.842422366142273, "step": 2472 }, { "epoch": 1.6493333333333333, "grad_norm": 7.75, "learning_rate": 2.3230342301717024e-06, "loss": 1.8031508922576904, "step": 2474 }, { "epoch": 1.6506666666666665, "grad_norm": 18.375, "learning_rate": 2.3181956149333156e-06, "loss": 1.7317943572998047, "step": 2476 }, { "epoch": 1.6520000000000001, "grad_norm": 7.09375, "learning_rate": 2.3133733873168114e-06, "loss": 1.8046625852584839, "step": 2478 }, { "epoch": 1.6533333333333333, "grad_norm": 2.359375, "learning_rate": 2.308567569803484e-06, "loss": 1.0550050735473633, "step": 2480 }, { "epoch": 1.6546666666666665, "grad_norm": 4.9375, "learning_rate": 2.3037781847981235e-06, "loss": 1.4496147632598877, "step": 2482 }, { "epoch": 1.6560000000000001, "grad_norm": 3.0, "learning_rate": 2.2990052546289094e-06, "loss": 1.0837609767913818, "step": 2484 }, { "epoch": 1.6573333333333333, "grad_norm": 5.6875, "learning_rate": 2.2942488015473106e-06, "loss": 1.8502864837646484, "step": 2486 }, { "epoch": 1.6586666666666665, "grad_norm": 4.65625, "learning_rate": 2.2895088477279794e-06, "loss": 0.961652934551239, "step": 2488 }, { "epoch": 1.6600000000000001, "grad_norm": 4.3125, "learning_rate": 2.2847854152686457e-06, "loss": 1.491590976715088, "step": 2490 }, { "epoch": 1.6613333333333333, "grad_norm": 5.0, "learning_rate": 2.2800785261900206e-06, "loss": 1.4915618896484375, "step": 2492 }, { "epoch": 1.6626666666666665, "grad_norm": 9.3125, "learning_rate": 2.2753882024356875e-06, "loss": 1.7863433361053467, "step": 2494 }, { "epoch": 1.6640000000000001, "grad_norm": 2.109375, "learning_rate": 2.2707144658720013e-06, "loss": 1.0995452404022217, "step": 2496 }, { "epoch": 1.6653333333333333, "grad_norm": 8.8125, "learning_rate": 2.2660573382879893e-06, "loss": 1.6946117877960205, "step": 2498 }, { "epoch": 1.6666666666666665, "grad_norm": 5.3125, "learning_rate": 2.261416841395245e-06, "loss": 1.5551875829696655, "step": 2500 }, { "epoch": 1.6680000000000001, "grad_norm": 9.75, "learning_rate": 2.256792996827831e-06, "loss": 1.8907060623168945, "step": 2502 }, { "epoch": 1.6693333333333333, "grad_norm": 2.234375, "learning_rate": 2.2521858261421773e-06, "loss": 1.0732618570327759, "step": 2504 }, { "epoch": 1.6706666666666665, "grad_norm": 4.4375, "learning_rate": 2.2475953508169783e-06, "loss": 1.4265661239624023, "step": 2506 }, { "epoch": 1.6720000000000002, "grad_norm": 45.25, "learning_rate": 2.2430215922530946e-06, "loss": 1.4152803421020508, "step": 2508 }, { "epoch": 1.6733333333333333, "grad_norm": 14.1875, "learning_rate": 2.2384645717734543e-06, "loss": 1.880337119102478, "step": 2510 }, { "epoch": 1.6746666666666665, "grad_norm": 5.9375, "learning_rate": 2.2339243106229514e-06, "loss": 1.332701563835144, "step": 2512 }, { "epoch": 1.6760000000000002, "grad_norm": 7.84375, "learning_rate": 2.229400829968347e-06, "loss": 1.8711514472961426, "step": 2514 }, { "epoch": 1.6773333333333333, "grad_norm": 9.6875, "learning_rate": 2.2248941508981724e-06, "loss": 1.681450366973877, "step": 2516 }, { "epoch": 1.6786666666666665, "grad_norm": 7.3125, "learning_rate": 2.22040429442263e-06, "loss": 1.944288969039917, "step": 2518 }, { "epoch": 1.6800000000000002, "grad_norm": 1.90625, "learning_rate": 2.215931281473493e-06, "loss": 1.1536941528320312, "step": 2520 }, { "epoch": 1.6813333333333333, "grad_norm": 9.25, "learning_rate": 2.2114751329040123e-06, "loss": 1.468356728553772, "step": 2522 }, { "epoch": 1.6826666666666665, "grad_norm": 4.65625, "learning_rate": 2.2070358694888157e-06, "loss": 1.475768804550171, "step": 2524 }, { "epoch": 1.6840000000000002, "grad_norm": 2.09375, "learning_rate": 2.2026135119238117e-06, "loss": 1.1176834106445312, "step": 2526 }, { "epoch": 1.6853333333333333, "grad_norm": 4.09375, "learning_rate": 2.1982080808260935e-06, "loss": 1.2341618537902832, "step": 2528 }, { "epoch": 1.6866666666666665, "grad_norm": 7.96875, "learning_rate": 2.1938195967338448e-06, "loss": 1.0540871620178223, "step": 2530 }, { "epoch": 1.688, "grad_norm": 4.03125, "learning_rate": 2.189448080106239e-06, "loss": 1.4182288646697998, "step": 2532 }, { "epoch": 1.6893333333333334, "grad_norm": 5.40625, "learning_rate": 2.1850935513233502e-06, "loss": 1.5475046634674072, "step": 2534 }, { "epoch": 1.6906666666666665, "grad_norm": 6.0625, "learning_rate": 2.180756030686052e-06, "loss": 1.8920286893844604, "step": 2536 }, { "epoch": 1.692, "grad_norm": 3.84375, "learning_rate": 2.176435538415928e-06, "loss": 1.4708077907562256, "step": 2538 }, { "epoch": 1.6933333333333334, "grad_norm": 6.96875, "learning_rate": 2.172132094655173e-06, "loss": 1.6575706005096436, "step": 2540 }, { "epoch": 1.6946666666666665, "grad_norm": 9.5625, "learning_rate": 2.167845719466505e-06, "loss": 1.5513395071029663, "step": 2542 }, { "epoch": 1.696, "grad_norm": 4.40625, "learning_rate": 2.1635764328330645e-06, "loss": 1.4614930152893066, "step": 2544 }, { "epoch": 1.6973333333333334, "grad_norm": 7.40625, "learning_rate": 2.159324254658327e-06, "loss": 0.3184851109981537, "step": 2546 }, { "epoch": 1.6986666666666665, "grad_norm": 6.28125, "learning_rate": 2.155089204766007e-06, "loss": 1.6140989065170288, "step": 2548 }, { "epoch": 1.7, "grad_norm": 3.46875, "learning_rate": 2.150871302899967e-06, "loss": 1.3971844911575317, "step": 2550 }, { "epoch": 1.7013333333333334, "grad_norm": 4.65625, "learning_rate": 2.146670568724126e-06, "loss": 1.3750734329223633, "step": 2552 }, { "epoch": 1.7026666666666666, "grad_norm": 3.09375, "learning_rate": 2.1424870218223653e-06, "loss": 1.0484888553619385, "step": 2554 }, { "epoch": 1.704, "grad_norm": 4.40625, "learning_rate": 2.138320681698441e-06, "loss": 1.4106589555740356, "step": 2556 }, { "epoch": 1.7053333333333334, "grad_norm": 6.625, "learning_rate": 2.1341715677758882e-06, "loss": 1.9462778568267822, "step": 2558 }, { "epoch": 1.7066666666666666, "grad_norm": 4.09375, "learning_rate": 2.1300396993979366e-06, "loss": 1.4685382843017578, "step": 2560 }, { "epoch": 1.708, "grad_norm": 3.84375, "learning_rate": 2.1259250958274147e-06, "loss": 1.026566743850708, "step": 2562 }, { "epoch": 1.7093333333333334, "grad_norm": 1.765625, "learning_rate": 2.121827776246662e-06, "loss": 1.0092363357543945, "step": 2564 }, { "epoch": 1.7106666666666666, "grad_norm": 1.578125, "learning_rate": 2.1177477597574408e-06, "loss": 1.0036532878875732, "step": 2566 }, { "epoch": 1.712, "grad_norm": 9.1875, "learning_rate": 2.1136850653808456e-06, "loss": 1.8697004318237305, "step": 2568 }, { "epoch": 1.7133333333333334, "grad_norm": 3.5, "learning_rate": 2.1096397120572164e-06, "loss": 1.4623255729675293, "step": 2570 }, { "epoch": 1.7146666666666666, "grad_norm": 6.90625, "learning_rate": 2.1056117186460466e-06, "loss": 1.6307227611541748, "step": 2572 }, { "epoch": 1.716, "grad_norm": 12.4375, "learning_rate": 2.1016011039258983e-06, "loss": 1.7765603065490723, "step": 2574 }, { "epoch": 1.7173333333333334, "grad_norm": 8.4375, "learning_rate": 2.0976078865943152e-06, "loss": 1.6039392948150635, "step": 2576 }, { "epoch": 1.7186666666666666, "grad_norm": 4.28125, "learning_rate": 2.0936320852677323e-06, "loss": 1.4012162685394287, "step": 2578 }, { "epoch": 1.72, "grad_norm": 5.8125, "learning_rate": 2.0896737184813924e-06, "loss": 1.418196678161621, "step": 2580 }, { "epoch": 1.7213333333333334, "grad_norm": 6.78125, "learning_rate": 2.0857328046892567e-06, "loss": 1.4134851694107056, "step": 2582 }, { "epoch": 1.7226666666666666, "grad_norm": 7.0, "learning_rate": 2.081809362263922e-06, "loss": 2.0253653526306152, "step": 2584 }, { "epoch": 1.724, "grad_norm": 5.5625, "learning_rate": 2.077903409496533e-06, "loss": 1.431370496749878, "step": 2586 }, { "epoch": 1.7253333333333334, "grad_norm": 5.25, "learning_rate": 2.0740149645966954e-06, "loss": 1.4524600505828857, "step": 2588 }, { "epoch": 1.7266666666666666, "grad_norm": 6.625, "learning_rate": 2.0701440456923955e-06, "loss": 1.4008400440216064, "step": 2590 }, { "epoch": 1.728, "grad_norm": 19.25, "learning_rate": 2.066290670829911e-06, "loss": 0.27671539783477783, "step": 2592 }, { "epoch": 1.7293333333333334, "grad_norm": 2.96875, "learning_rate": 2.0624548579737323e-06, "loss": 1.124161720275879, "step": 2594 }, { "epoch": 1.7306666666666666, "grad_norm": 8.125, "learning_rate": 2.0586366250064716e-06, "loss": 1.4266724586486816, "step": 2596 }, { "epoch": 1.732, "grad_norm": 8.3125, "learning_rate": 2.0548359897287857e-06, "loss": 1.5034812688827515, "step": 2598 }, { "epoch": 1.7333333333333334, "grad_norm": 1.2109375, "learning_rate": 2.05105296985929e-06, "loss": 1.055992841720581, "step": 2600 }, { "epoch": 1.7346666666666666, "grad_norm": 4.0625, "learning_rate": 2.047287583034476e-06, "loss": 1.359705924987793, "step": 2602 }, { "epoch": 1.736, "grad_norm": 6.09375, "learning_rate": 2.043539846808632e-06, "loss": 1.8168176412582397, "step": 2604 }, { "epoch": 1.7373333333333334, "grad_norm": 2.0, "learning_rate": 2.039809778653757e-06, "loss": 1.1143035888671875, "step": 2606 }, { "epoch": 1.7386666666666666, "grad_norm": 4.46875, "learning_rate": 2.0360973959594802e-06, "loss": 1.5116562843322754, "step": 2608 }, { "epoch": 1.74, "grad_norm": 9.75, "learning_rate": 2.0324027160329842e-06, "loss": 1.4354583024978638, "step": 2610 }, { "epoch": 1.7413333333333334, "grad_norm": 3.390625, "learning_rate": 2.0287257560989186e-06, "loss": 1.0052144527435303, "step": 2612 }, { "epoch": 1.7426666666666666, "grad_norm": 7.1875, "learning_rate": 2.025066533299322e-06, "loss": 1.4171818494796753, "step": 2614 }, { "epoch": 1.744, "grad_norm": 6.0, "learning_rate": 2.021425064693544e-06, "loss": 1.5010087490081787, "step": 2616 }, { "epoch": 1.7453333333333334, "grad_norm": 9.4375, "learning_rate": 2.017801367258162e-06, "loss": 1.555128574371338, "step": 2618 }, { "epoch": 1.7466666666666666, "grad_norm": 1.5859375, "learning_rate": 2.0141954578869054e-06, "loss": 1.0460717678070068, "step": 2620 }, { "epoch": 1.748, "grad_norm": 1.6484375, "learning_rate": 2.010607353390575e-06, "loss": 1.1090086698532104, "step": 2622 }, { "epoch": 1.7493333333333334, "grad_norm": 5.90625, "learning_rate": 2.0070370704969644e-06, "loss": 1.4290834665298462, "step": 2624 }, { "epoch": 1.7506666666666666, "grad_norm": 2.828125, "learning_rate": 2.0034846258507836e-06, "loss": 1.1410293579101562, "step": 2626 }, { "epoch": 1.752, "grad_norm": 11.75, "learning_rate": 1.9999500360135783e-06, "loss": 1.4075884819030762, "step": 2628 }, { "epoch": 1.7533333333333334, "grad_norm": 6.78125, "learning_rate": 1.9964333174636587e-06, "loss": 1.1147377490997314, "step": 2630 }, { "epoch": 1.7546666666666666, "grad_norm": 4.90625, "learning_rate": 1.9929344865960147e-06, "loss": 1.8437426090240479, "step": 2632 }, { "epoch": 1.756, "grad_norm": 1.8046875, "learning_rate": 1.989453559722246e-06, "loss": 1.0943751335144043, "step": 2634 }, { "epoch": 1.7573333333333334, "grad_norm": 5.53125, "learning_rate": 1.9859905530704838e-06, "loss": 1.6125261783599854, "step": 2636 }, { "epoch": 1.7586666666666666, "grad_norm": 4.90625, "learning_rate": 1.9825454827853136e-06, "loss": 1.4623953104019165, "step": 2638 }, { "epoch": 1.76, "grad_norm": 8.3125, "learning_rate": 1.979118364927702e-06, "loss": 1.5197104215621948, "step": 2640 }, { "epoch": 1.7613333333333334, "grad_norm": 7.09375, "learning_rate": 1.975709215474921e-06, "loss": 1.495721697807312, "step": 2642 }, { "epoch": 1.7626666666666666, "grad_norm": 3.0625, "learning_rate": 1.9723180503204734e-06, "loss": 1.0730725526809692, "step": 2644 }, { "epoch": 1.764, "grad_norm": 11.1875, "learning_rate": 1.96894488527402e-06, "loss": 2.120232582092285, "step": 2646 }, { "epoch": 1.7653333333333334, "grad_norm": 13.0, "learning_rate": 1.965589736061303e-06, "loss": 1.813724160194397, "step": 2648 }, { "epoch": 1.7666666666666666, "grad_norm": 2.4375, "learning_rate": 1.962252618324077e-06, "loss": 1.1308650970458984, "step": 2650 }, { "epoch": 1.768, "grad_norm": 11.375, "learning_rate": 1.958933547620031e-06, "loss": 1.9237217903137207, "step": 2652 }, { "epoch": 1.7693333333333334, "grad_norm": 6.8125, "learning_rate": 1.9556325394227198e-06, "loss": 1.418813705444336, "step": 2654 }, { "epoch": 1.7706666666666666, "grad_norm": 6.875, "learning_rate": 1.952349609121491e-06, "loss": 1.772024154663086, "step": 2656 }, { "epoch": 1.772, "grad_norm": 5.96875, "learning_rate": 1.9490847720214116e-06, "loss": 1.4179997444152832, "step": 2658 }, { "epoch": 1.7733333333333334, "grad_norm": 4.875, "learning_rate": 1.9458380433431997e-06, "loss": 1.520759105682373, "step": 2660 }, { "epoch": 1.7746666666666666, "grad_norm": 4.4375, "learning_rate": 1.9426094382231487e-06, "loss": 1.6265156269073486, "step": 2662 }, { "epoch": 1.776, "grad_norm": 5.65625, "learning_rate": 1.939398971713062e-06, "loss": 1.6532254219055176, "step": 2664 }, { "epoch": 1.7773333333333334, "grad_norm": 7.09375, "learning_rate": 1.9362066587801804e-06, "loss": 1.8956434726715088, "step": 2666 }, { "epoch": 1.7786666666666666, "grad_norm": 15.1875, "learning_rate": 1.933032514307112e-06, "loss": 1.655465006828308, "step": 2668 }, { "epoch": 1.78, "grad_norm": 1.9140625, "learning_rate": 1.9298765530917636e-06, "loss": 1.092116117477417, "step": 2670 }, { "epoch": 1.7813333333333334, "grad_norm": 3.953125, "learning_rate": 1.9267387898472707e-06, "loss": 1.3901035785675049, "step": 2672 }, { "epoch": 1.7826666666666666, "grad_norm": 3.0, "learning_rate": 1.9236192392019294e-06, "loss": 1.251054286956787, "step": 2674 }, { "epoch": 1.784, "grad_norm": 14.75, "learning_rate": 1.92051791569913e-06, "loss": 1.4674335718154907, "step": 2676 }, { "epoch": 1.7853333333333334, "grad_norm": 5.75, "learning_rate": 1.917434833797287e-06, "loss": 1.3956738710403442, "step": 2678 }, { "epoch": 1.7866666666666666, "grad_norm": 1.9375, "learning_rate": 1.9143700078697703e-06, "loss": 1.003767967224121, "step": 2680 }, { "epoch": 1.788, "grad_norm": 5.125, "learning_rate": 1.9113234522048437e-06, "loss": 1.471883773803711, "step": 2682 }, { "epoch": 1.7893333333333334, "grad_norm": 5.03125, "learning_rate": 1.908295181005591e-06, "loss": 1.525916337966919, "step": 2684 }, { "epoch": 1.7906666666666666, "grad_norm": 6.53125, "learning_rate": 1.9052852083898576e-06, "loss": 1.9548535346984863, "step": 2686 }, { "epoch": 1.792, "grad_norm": 13.25, "learning_rate": 1.9022935483901771e-06, "loss": 1.755566120147705, "step": 2688 }, { "epoch": 1.7933333333333334, "grad_norm": 1.4375, "learning_rate": 1.8993202149537113e-06, "loss": 1.2035529613494873, "step": 2690 }, { "epoch": 1.7946666666666666, "grad_norm": 7.0, "learning_rate": 1.8963652219421826e-06, "loss": 1.5947092771530151, "step": 2692 }, { "epoch": 1.796, "grad_norm": 5.75, "learning_rate": 1.8934285831318106e-06, "loss": 1.755237340927124, "step": 2694 }, { "epoch": 1.7973333333333334, "grad_norm": 6.0, "learning_rate": 1.890510312213247e-06, "loss": 1.6429678201675415, "step": 2696 }, { "epoch": 1.7986666666666666, "grad_norm": 15.125, "learning_rate": 1.887610422791512e-06, "loss": 1.8014006614685059, "step": 2698 }, { "epoch": 1.8, "grad_norm": 1.4140625, "learning_rate": 1.8847289283859313e-06, "loss": 1.0201822519302368, "step": 2700 }, { "epoch": 1.8013333333333335, "grad_norm": 2.21875, "learning_rate": 1.8818658424300724e-06, "loss": 1.0370283126831055, "step": 2702 }, { "epoch": 1.8026666666666666, "grad_norm": 8.1875, "learning_rate": 1.879021178271683e-06, "loss": 1.467565655708313, "step": 2704 }, { "epoch": 1.804, "grad_norm": 8.8125, "learning_rate": 1.8761949491726278e-06, "loss": 1.7864141464233398, "step": 2706 }, { "epoch": 1.8053333333333335, "grad_norm": 6.15625, "learning_rate": 1.8733871683088267e-06, "loss": 1.3655095100402832, "step": 2708 }, { "epoch": 1.8066666666666666, "grad_norm": 5.90625, "learning_rate": 1.8705978487701939e-06, "loss": 1.3965015411376953, "step": 2710 }, { "epoch": 1.808, "grad_norm": 7.34375, "learning_rate": 1.8678270035605767e-06, "loss": 1.638869285583496, "step": 2712 }, { "epoch": 1.8093333333333335, "grad_norm": 5.28125, "learning_rate": 1.8650746455976948e-06, "loss": 1.3903155326843262, "step": 2714 }, { "epoch": 1.8106666666666666, "grad_norm": 13.125, "learning_rate": 1.86234078771308e-06, "loss": 1.4415559768676758, "step": 2716 }, { "epoch": 1.812, "grad_norm": 5.375, "learning_rate": 1.8596254426520167e-06, "loss": 1.4963748455047607, "step": 2718 }, { "epoch": 1.8133333333333335, "grad_norm": 7.21875, "learning_rate": 1.8569286230734817e-06, "loss": 1.4766721725463867, "step": 2720 }, { "epoch": 1.8146666666666667, "grad_norm": 11.9375, "learning_rate": 1.8542503415500864e-06, "loss": 1.7220858335494995, "step": 2722 }, { "epoch": 1.8159999999999998, "grad_norm": 5.5, "learning_rate": 1.8515906105680173e-06, "loss": 1.4829065799713135, "step": 2724 }, { "epoch": 1.8173333333333335, "grad_norm": 4.40625, "learning_rate": 1.848949442526977e-06, "loss": 1.452761173248291, "step": 2726 }, { "epoch": 1.8186666666666667, "grad_norm": 4.1875, "learning_rate": 1.8463268497401299e-06, "loss": 1.4810348749160767, "step": 2728 }, { "epoch": 1.8199999999999998, "grad_norm": 3.796875, "learning_rate": 1.8437228444340399e-06, "loss": 1.2779314517974854, "step": 2730 }, { "epoch": 1.8213333333333335, "grad_norm": 2.03125, "learning_rate": 1.841137438748617e-06, "loss": 1.136197805404663, "step": 2732 }, { "epoch": 1.8226666666666667, "grad_norm": 4.1875, "learning_rate": 1.8385706447370587e-06, "loss": 1.1024785041809082, "step": 2734 }, { "epoch": 1.8239999999999998, "grad_norm": 2.828125, "learning_rate": 1.8360224743657957e-06, "loss": 1.189272403717041, "step": 2736 }, { "epoch": 1.8253333333333335, "grad_norm": 15.75, "learning_rate": 1.8334929395144336e-06, "loss": 1.8067930936813354, "step": 2738 }, { "epoch": 1.8266666666666667, "grad_norm": 6.5, "learning_rate": 1.8309820519757004e-06, "loss": 1.9117852449417114, "step": 2740 }, { "epoch": 1.8279999999999998, "grad_norm": 1.890625, "learning_rate": 1.8284898234553886e-06, "loss": 1.073231816291809, "step": 2742 }, { "epoch": 1.8293333333333335, "grad_norm": 11.625, "learning_rate": 1.826016265572304e-06, "loss": 1.5809550285339355, "step": 2744 }, { "epoch": 1.8306666666666667, "grad_norm": 8.625, "learning_rate": 1.823561389858208e-06, "loss": 1.4855477809906006, "step": 2746 }, { "epoch": 1.8319999999999999, "grad_norm": 4.78125, "learning_rate": 1.8211252077577657e-06, "loss": 1.5261988639831543, "step": 2748 }, { "epoch": 1.8333333333333335, "grad_norm": 4.75, "learning_rate": 1.818707730628493e-06, "loss": 1.508739948272705, "step": 2750 }, { "epoch": 1.8346666666666667, "grad_norm": 11.5625, "learning_rate": 1.8163089697407027e-06, "loss": 1.8359191417694092, "step": 2752 }, { "epoch": 1.8359999999999999, "grad_norm": 7.875, "learning_rate": 1.8139289362774514e-06, "loss": 1.777050256729126, "step": 2754 }, { "epoch": 1.8373333333333335, "grad_norm": 6.1875, "learning_rate": 1.8115676413344897e-06, "loss": 1.4878871440887451, "step": 2756 }, { "epoch": 1.8386666666666667, "grad_norm": 5.34375, "learning_rate": 1.8092250959202067e-06, "loss": 1.4921441078186035, "step": 2758 }, { "epoch": 1.8399999999999999, "grad_norm": 12.9375, "learning_rate": 1.8069013109555843e-06, "loss": 1.9146616458892822, "step": 2760 }, { "epoch": 1.8413333333333335, "grad_norm": 6.1875, "learning_rate": 1.8045962972741393e-06, "loss": 1.3620163202285767, "step": 2762 }, { "epoch": 1.8426666666666667, "grad_norm": 12.875, "learning_rate": 1.802310065621879e-06, "loss": 1.3618303537368774, "step": 2764 }, { "epoch": 1.8439999999999999, "grad_norm": 5.15625, "learning_rate": 1.8000426266572471e-06, "loss": 1.4024913311004639, "step": 2766 }, { "epoch": 1.8453333333333335, "grad_norm": 1.421875, "learning_rate": 1.7977939909510772e-06, "loss": 1.050788164138794, "step": 2768 }, { "epoch": 1.8466666666666667, "grad_norm": 1.5859375, "learning_rate": 1.7955641689865402e-06, "loss": 1.0265395641326904, "step": 2770 }, { "epoch": 1.8479999999999999, "grad_norm": 6.875, "learning_rate": 1.7933531711590981e-06, "loss": 0.9936121702194214, "step": 2772 }, { "epoch": 1.8493333333333335, "grad_norm": 6.9375, "learning_rate": 1.7911610077764537e-06, "loss": 1.5282442569732666, "step": 2774 }, { "epoch": 1.8506666666666667, "grad_norm": 6.71875, "learning_rate": 1.7889876890585036e-06, "loss": 1.4587817192077637, "step": 2776 }, { "epoch": 1.8519999999999999, "grad_norm": 15.125, "learning_rate": 1.786833225137291e-06, "loss": 1.441443920135498, "step": 2778 }, { "epoch": 1.8533333333333335, "grad_norm": 4.90625, "learning_rate": 1.7846976260569574e-06, "loss": 1.4862936735153198, "step": 2780 }, { "epoch": 1.8546666666666667, "grad_norm": 17.875, "learning_rate": 1.7825809017736955e-06, "loss": 0.6228671073913574, "step": 2782 }, { "epoch": 1.8559999999999999, "grad_norm": 5.03125, "learning_rate": 1.7804830621557043e-06, "loss": 1.5867762565612793, "step": 2784 }, { "epoch": 1.8573333333333333, "grad_norm": 5.25, "learning_rate": 1.7784041169831413e-06, "loss": 1.0642695426940918, "step": 2786 }, { "epoch": 1.8586666666666667, "grad_norm": 5.90625, "learning_rate": 1.7763440759480788e-06, "loss": 1.5180978775024414, "step": 2788 }, { "epoch": 1.8599999999999999, "grad_norm": 1.296875, "learning_rate": 1.7743029486544568e-06, "loss": 1.0780036449432373, "step": 2790 }, { "epoch": 1.8613333333333333, "grad_norm": 5.59375, "learning_rate": 1.7722807446180408e-06, "loss": 1.7178488969802856, "step": 2792 }, { "epoch": 1.8626666666666667, "grad_norm": 8.875, "learning_rate": 1.7702774732663734e-06, "loss": 1.1812188625335693, "step": 2794 }, { "epoch": 1.8639999999999999, "grad_norm": 2.265625, "learning_rate": 1.7682931439387347e-06, "loss": 1.1251749992370605, "step": 2796 }, { "epoch": 1.8653333333333333, "grad_norm": 1.4609375, "learning_rate": 1.7663277658860964e-06, "loss": 1.242966651916504, "step": 2798 }, { "epoch": 1.8666666666666667, "grad_norm": 6.625, "learning_rate": 1.7643813482710784e-06, "loss": 1.0621240139007568, "step": 2800 }, { "epoch": 1.8679999999999999, "grad_norm": 3.40625, "learning_rate": 1.7624539001679075e-06, "loss": 1.1366503238677979, "step": 2802 }, { "epoch": 1.8693333333333333, "grad_norm": 6.21875, "learning_rate": 1.7605454305623735e-06, "loss": 1.9657596349716187, "step": 2804 }, { "epoch": 1.8706666666666667, "grad_norm": 4.40625, "learning_rate": 1.7586559483517896e-06, "loss": 1.3851277828216553, "step": 2806 }, { "epoch": 1.8719999999999999, "grad_norm": 5.28125, "learning_rate": 1.7567854623449479e-06, "loss": 1.4316308498382568, "step": 2808 }, { "epoch": 1.8733333333333333, "grad_norm": 6.65625, "learning_rate": 1.7549339812620814e-06, "loss": 1.9082809686660767, "step": 2810 }, { "epoch": 1.8746666666666667, "grad_norm": 3.03125, "learning_rate": 1.7531015137348206e-06, "loss": 1.1026511192321777, "step": 2812 }, { "epoch": 1.876, "grad_norm": 9.25, "learning_rate": 1.7512880683061554e-06, "loss": 1.4776630401611328, "step": 2814 }, { "epoch": 1.8773333333333333, "grad_norm": 6.90625, "learning_rate": 1.7494936534303938e-06, "loss": 1.7435698509216309, "step": 2816 }, { "epoch": 1.8786666666666667, "grad_norm": 8.5625, "learning_rate": 1.7477182774731233e-06, "loss": 1.4079492092132568, "step": 2818 }, { "epoch": 1.88, "grad_norm": 7.6875, "learning_rate": 1.7459619487111724e-06, "loss": 1.026501178741455, "step": 2820 }, { "epoch": 1.8813333333333333, "grad_norm": 3.796875, "learning_rate": 1.7442246753325703e-06, "loss": 1.0990175008773804, "step": 2822 }, { "epoch": 1.8826666666666667, "grad_norm": 6.15625, "learning_rate": 1.7425064654365107e-06, "loss": 1.5780365467071533, "step": 2824 }, { "epoch": 1.884, "grad_norm": 4.125, "learning_rate": 1.7408073270333114e-06, "loss": 1.1284211874008179, "step": 2826 }, { "epoch": 1.8853333333333333, "grad_norm": 13.5, "learning_rate": 1.7391272680443805e-06, "loss": 1.859563946723938, "step": 2828 }, { "epoch": 1.8866666666666667, "grad_norm": 4.46875, "learning_rate": 1.7374662963021771e-06, "loss": 1.4344596862792969, "step": 2830 }, { "epoch": 1.888, "grad_norm": 4.875, "learning_rate": 1.7358244195501737e-06, "loss": 1.4997034072875977, "step": 2832 }, { "epoch": 1.8893333333333333, "grad_norm": 1.6171875, "learning_rate": 1.7342016454428246e-06, "loss": 0.9284089803695679, "step": 2834 }, { "epoch": 1.8906666666666667, "grad_norm": 7.4375, "learning_rate": 1.7325979815455243e-06, "loss": 1.1980538368225098, "step": 2836 }, { "epoch": 1.892, "grad_norm": 4.875, "learning_rate": 1.7310134353345775e-06, "loss": 1.4303035736083984, "step": 2838 }, { "epoch": 1.8933333333333333, "grad_norm": 6.375, "learning_rate": 1.7294480141971615e-06, "loss": 1.6346737146377563, "step": 2840 }, { "epoch": 1.8946666666666667, "grad_norm": 11.0, "learning_rate": 1.7279017254312906e-06, "loss": 1.4243416786193848, "step": 2842 }, { "epoch": 1.896, "grad_norm": 2.1875, "learning_rate": 1.7263745762457857e-06, "loss": 1.0933666229248047, "step": 2844 }, { "epoch": 1.8973333333333333, "grad_norm": 5.75, "learning_rate": 1.7248665737602377e-06, "loss": 1.6563225984573364, "step": 2846 }, { "epoch": 1.8986666666666667, "grad_norm": 2.3125, "learning_rate": 1.7233777250049751e-06, "loss": 1.069027066230774, "step": 2848 }, { "epoch": 1.9, "grad_norm": 11.4375, "learning_rate": 1.7219080369210335e-06, "loss": 1.753813624382019, "step": 2850 }, { "epoch": 1.9013333333333333, "grad_norm": 2.84375, "learning_rate": 1.720457516360118e-06, "loss": 1.206129550933838, "step": 2852 }, { "epoch": 1.9026666666666667, "grad_norm": 3.640625, "learning_rate": 1.719026170084577e-06, "loss": 1.3521314859390259, "step": 2854 }, { "epoch": 1.904, "grad_norm": 6.125, "learning_rate": 1.7176140047673664e-06, "loss": 1.412433385848999, "step": 2856 }, { "epoch": 1.9053333333333333, "grad_norm": 9.5, "learning_rate": 1.7162210269920215e-06, "loss": 1.743882656097412, "step": 2858 }, { "epoch": 1.9066666666666667, "grad_norm": 1.8359375, "learning_rate": 1.7148472432526236e-06, "loss": 1.0447434186935425, "step": 2860 }, { "epoch": 1.908, "grad_norm": 4.3125, "learning_rate": 1.7134926599537734e-06, "loss": 1.4740633964538574, "step": 2862 }, { "epoch": 1.9093333333333333, "grad_norm": 3.09375, "learning_rate": 1.7121572834105563e-06, "loss": 1.0643571615219116, "step": 2864 }, { "epoch": 1.9106666666666667, "grad_norm": 2.828125, "learning_rate": 1.710841119848517e-06, "loss": 1.0655380487442017, "step": 2866 }, { "epoch": 1.912, "grad_norm": 2.53125, "learning_rate": 1.7095441754036283e-06, "loss": 1.1269874572753906, "step": 2868 }, { "epoch": 1.9133333333333333, "grad_norm": 4.34375, "learning_rate": 1.7082664561222649e-06, "loss": 1.4369423389434814, "step": 2870 }, { "epoch": 1.9146666666666667, "grad_norm": 10.8125, "learning_rate": 1.7070079679611703e-06, "loss": 1.721430778503418, "step": 2872 }, { "epoch": 1.916, "grad_norm": 6.625, "learning_rate": 1.7057687167874356e-06, "loss": 1.7939766645431519, "step": 2874 }, { "epoch": 1.9173333333333333, "grad_norm": 16.625, "learning_rate": 1.704548708378467e-06, "loss": 1.3905680179595947, "step": 2876 }, { "epoch": 1.9186666666666667, "grad_norm": 5.8125, "learning_rate": 1.7033479484219613e-06, "loss": 1.5273337364196777, "step": 2878 }, { "epoch": 1.92, "grad_norm": 7.03125, "learning_rate": 1.7021664425158774e-06, "loss": 1.7179479598999023, "step": 2880 }, { "epoch": 1.9213333333333333, "grad_norm": 6.34375, "learning_rate": 1.701004196168413e-06, "loss": 1.509115219116211, "step": 2882 }, { "epoch": 1.9226666666666667, "grad_norm": 7.0625, "learning_rate": 1.6998612147979776e-06, "loss": 1.782740592956543, "step": 2884 }, { "epoch": 1.924, "grad_norm": 1.5, "learning_rate": 1.6987375037331662e-06, "loss": 1.0091302394866943, "step": 2886 }, { "epoch": 1.9253333333333333, "grad_norm": 14.1875, "learning_rate": 1.6976330682127354e-06, "loss": 1.941452980041504, "step": 2888 }, { "epoch": 1.9266666666666667, "grad_norm": 9.125, "learning_rate": 1.69654791338558e-06, "loss": 1.7178850173950195, "step": 2890 }, { "epoch": 1.928, "grad_norm": 8.5625, "learning_rate": 1.6954820443107067e-06, "loss": 1.575331687927246, "step": 2892 }, { "epoch": 1.9293333333333333, "grad_norm": 13.25, "learning_rate": 1.6944354659572127e-06, "loss": 1.875302791595459, "step": 2894 }, { "epoch": 1.9306666666666668, "grad_norm": 5.65625, "learning_rate": 1.6934081832042604e-06, "loss": 1.1005830764770508, "step": 2896 }, { "epoch": 1.932, "grad_norm": 12.5, "learning_rate": 1.6924002008410565e-06, "loss": 1.8767313957214355, "step": 2898 }, { "epoch": 1.9333333333333333, "grad_norm": 5.5, "learning_rate": 1.69141152356683e-06, "loss": 1.5892574787139893, "step": 2900 }, { "epoch": 1.9346666666666668, "grad_norm": 14.5, "learning_rate": 1.6904421559908073e-06, "loss": 0.9386653304100037, "step": 2902 }, { "epoch": 1.936, "grad_norm": 5.3125, "learning_rate": 1.6894921026321951e-06, "loss": 1.519507646560669, "step": 2904 }, { "epoch": 1.9373333333333334, "grad_norm": 3.609375, "learning_rate": 1.6885613679201543e-06, "loss": 1.4453504085540771, "step": 2906 }, { "epoch": 1.9386666666666668, "grad_norm": 2.0625, "learning_rate": 1.6876499561937839e-06, "loss": 1.2696738243103027, "step": 2908 }, { "epoch": 1.94, "grad_norm": 17.25, "learning_rate": 1.686757871702098e-06, "loss": 2.0488576889038086, "step": 2910 }, { "epoch": 1.9413333333333334, "grad_norm": 6.15625, "learning_rate": 1.6858851186040078e-06, "loss": 1.388519287109375, "step": 2912 }, { "epoch": 1.9426666666666668, "grad_norm": 3.234375, "learning_rate": 1.6850317009683007e-06, "loss": 1.1983695030212402, "step": 2914 }, { "epoch": 1.944, "grad_norm": 9.125, "learning_rate": 1.6841976227736206e-06, "loss": 1.755957841873169, "step": 2916 }, { "epoch": 1.9453333333333334, "grad_norm": 1.1953125, "learning_rate": 1.683382887908453e-06, "loss": 1.0279343128204346, "step": 2918 }, { "epoch": 1.9466666666666668, "grad_norm": 1.6875, "learning_rate": 1.6825875001711025e-06, "loss": 1.1533664464950562, "step": 2920 }, { "epoch": 1.948, "grad_norm": 4.4375, "learning_rate": 1.6818114632696795e-06, "loss": 1.5219945907592773, "step": 2922 }, { "epoch": 1.9493333333333334, "grad_norm": 5.59375, "learning_rate": 1.6810547808220776e-06, "loss": 1.1045305728912354, "step": 2924 }, { "epoch": 1.9506666666666668, "grad_norm": 12.4375, "learning_rate": 1.6803174563559612e-06, "loss": 1.8807090520858765, "step": 2926 }, { "epoch": 1.952, "grad_norm": 3.625, "learning_rate": 1.679599493308748e-06, "loss": 1.3571417331695557, "step": 2928 }, { "epoch": 1.9533333333333334, "grad_norm": 6.03125, "learning_rate": 1.678900895027592e-06, "loss": 1.498100996017456, "step": 2930 }, { "epoch": 1.9546666666666668, "grad_norm": 5.71875, "learning_rate": 1.6782216647693678e-06, "loss": 1.7426185607910156, "step": 2932 }, { "epoch": 1.956, "grad_norm": 4.75, "learning_rate": 1.677561805700656e-06, "loss": 1.384394884109497, "step": 2934 }, { "epoch": 1.9573333333333334, "grad_norm": 2.0625, "learning_rate": 1.6769213208977307e-06, "loss": 1.2053213119506836, "step": 2936 }, { "epoch": 1.9586666666666668, "grad_norm": 11.5625, "learning_rate": 1.6763002133465392e-06, "loss": 1.4919240474700928, "step": 2938 }, { "epoch": 1.96, "grad_norm": 11.375, "learning_rate": 1.675698485942695e-06, "loss": 1.5332872867584229, "step": 2940 }, { "epoch": 1.9613333333333334, "grad_norm": 2.203125, "learning_rate": 1.6751161414914592e-06, "loss": 1.2368464469909668, "step": 2942 }, { "epoch": 1.9626666666666668, "grad_norm": 4.96875, "learning_rate": 1.6745531827077301e-06, "loss": 0.38677334785461426, "step": 2944 }, { "epoch": 1.964, "grad_norm": 3.03125, "learning_rate": 1.6740096122160293e-06, "loss": 1.246574878692627, "step": 2946 }, { "epoch": 1.9653333333333334, "grad_norm": 4.9375, "learning_rate": 1.6734854325504908e-06, "loss": 1.4643174409866333, "step": 2948 }, { "epoch": 1.9666666666666668, "grad_norm": 1.5703125, "learning_rate": 1.6729806461548465e-06, "loss": 1.108989953994751, "step": 2950 }, { "epoch": 1.968, "grad_norm": 1.953125, "learning_rate": 1.6724952553824183e-06, "loss": 1.2631993293762207, "step": 2952 }, { "epoch": 1.9693333333333334, "grad_norm": 2.28125, "learning_rate": 1.6720292624961052e-06, "loss": 1.0395303964614868, "step": 2954 }, { "epoch": 1.9706666666666668, "grad_norm": 1.40625, "learning_rate": 1.6715826696683727e-06, "loss": 1.2307453155517578, "step": 2956 }, { "epoch": 1.972, "grad_norm": 4.75, "learning_rate": 1.671155478981242e-06, "loss": 1.4833658933639526, "step": 2958 }, { "epoch": 1.9733333333333334, "grad_norm": 7.84375, "learning_rate": 1.6707476924262824e-06, "loss": 1.4962571859359741, "step": 2960 }, { "epoch": 1.9746666666666668, "grad_norm": 7.90625, "learning_rate": 1.6703593119046018e-06, "loss": 1.7367886304855347, "step": 2962 }, { "epoch": 1.976, "grad_norm": 9.9375, "learning_rate": 1.6699903392268343e-06, "loss": 1.7091962099075317, "step": 2964 }, { "epoch": 1.9773333333333334, "grad_norm": 7.46875, "learning_rate": 1.6696407761131365e-06, "loss": 1.367563009262085, "step": 2966 }, { "epoch": 1.9786666666666668, "grad_norm": 14.5, "learning_rate": 1.6693106241931765e-06, "loss": 1.9681771993637085, "step": 2968 }, { "epoch": 1.98, "grad_norm": 5.5625, "learning_rate": 1.6689998850061267e-06, "loss": 1.4136841297149658, "step": 2970 }, { "epoch": 1.9813333333333332, "grad_norm": 6.34375, "learning_rate": 1.6687085600006579e-06, "loss": 1.7523043155670166, "step": 2972 }, { "epoch": 1.9826666666666668, "grad_norm": 1.546875, "learning_rate": 1.6684366505349317e-06, "loss": 0.9437617063522339, "step": 2974 }, { "epoch": 1.984, "grad_norm": 8.0, "learning_rate": 1.668184157876594e-06, "loss": 1.914856195449829, "step": 2976 }, { "epoch": 1.9853333333333332, "grad_norm": 6.15625, "learning_rate": 1.6679510832027685e-06, "loss": 1.7545595169067383, "step": 2978 }, { "epoch": 1.9866666666666668, "grad_norm": 10.6875, "learning_rate": 1.667737427600053e-06, "loss": 1.6925063133239746, "step": 2980 }, { "epoch": 1.988, "grad_norm": 4.8125, "learning_rate": 1.6675431920645127e-06, "loss": 1.4586756229400635, "step": 2982 }, { "epoch": 1.9893333333333332, "grad_norm": 2.34375, "learning_rate": 1.6673683775016767e-06, "loss": 1.1231346130371094, "step": 2984 }, { "epoch": 1.9906666666666668, "grad_norm": 9.6875, "learning_rate": 1.6672129847265328e-06, "loss": 1.6970008611679077, "step": 2986 }, { "epoch": 1.992, "grad_norm": 7.65625, "learning_rate": 1.6670770144635247e-06, "loss": 1.7199077606201172, "step": 2988 }, { "epoch": 1.9933333333333332, "grad_norm": 5.46875, "learning_rate": 1.6669604673465476e-06, "loss": 1.5547149181365967, "step": 2990 }, { "epoch": 1.9946666666666668, "grad_norm": 4.78125, "learning_rate": 1.6668633439189452e-06, "loss": 1.4819481372833252, "step": 2992 }, { "epoch": 1.996, "grad_norm": 3.328125, "learning_rate": 1.6667856446335087e-06, "loss": 1.1569350957870483, "step": 2994 }, { "epoch": 1.9973333333333332, "grad_norm": 7.21875, "learning_rate": 1.6667273698524736e-06, "loss": 1.6310951709747314, "step": 2996 }, { "epoch": 1.9986666666666668, "grad_norm": 4.78125, "learning_rate": 1.6666885198475175e-06, "loss": 1.3490219116210938, "step": 2998 }, { "epoch": 2.0, "grad_norm": 1.796875, "learning_rate": 1.6666690947997594e-06, "loss": 1.0550994873046875, "step": 3000 }, { "epoch": 2.0, "step": 3000, "total_flos": 2.464576238203699e+18, "train_loss": 1.458037720322609, "train_runtime": 26917.7119, "train_samples_per_second": 0.892, "train_steps_per_second": 0.111 } ], "logging_steps": 2, "max_steps": 3000, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 9999999, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.464576238203699e+18, "train_batch_size": 1, "trial_name": null, "trial_params": null }