{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500, "global_step": 1500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 0.98046875, "learning_rate": 2.2222222222222224e-07, "loss": 1.2595083713531494, "step": 2 }, { "epoch": 0.005333333333333333, "grad_norm": 3.1875, "learning_rate": 6.666666666666667e-07, "loss": 2.2552671432495117, "step": 4 }, { "epoch": 0.008, "grad_norm": 2.875, "learning_rate": 1.111111111111111e-06, "loss": 2.0805225372314453, "step": 6 }, { "epoch": 0.010666666666666666, "grad_norm": 6.09375, "learning_rate": 1.5555555555555558e-06, "loss": 2.066380739212036, "step": 8 }, { "epoch": 0.013333333333333334, "grad_norm": 2.484375, "learning_rate": 2.0000000000000003e-06, "loss": 2.2139711380004883, "step": 10 }, { "epoch": 0.016, "grad_norm": 2.734375, "learning_rate": 2.4444444444444447e-06, "loss": 1.7304364442825317, "step": 12 }, { "epoch": 0.018666666666666668, "grad_norm": 3.640625, "learning_rate": 2.888888888888889e-06, "loss": 1.5166676044464111, "step": 14 }, { "epoch": 0.021333333333333333, "grad_norm": 2.609375, "learning_rate": 3.3333333333333333e-06, "loss": 1.9378066062927246, "step": 16 }, { "epoch": 0.024, "grad_norm": 4.34375, "learning_rate": 3.777777777777778e-06, "loss": 1.927426815032959, "step": 18 }, { "epoch": 0.02666666666666667, "grad_norm": 2.84375, "learning_rate": 4.222222222222223e-06, "loss": 1.6432883739471436, "step": 20 }, { "epoch": 0.029333333333333333, "grad_norm": 3.984375, "learning_rate": 4.666666666666667e-06, "loss": 2.158468723297119, "step": 22 }, { "epoch": 0.032, "grad_norm": 2.765625, "learning_rate": 5.1111111111111115e-06, "loss": 2.044734001159668, "step": 24 }, { "epoch": 0.034666666666666665, "grad_norm": 7.40625, "learning_rate": 5.555555555555557e-06, "loss": 1.8720643520355225, "step": 26 }, { "epoch": 0.037333333333333336, "grad_norm": 6.0625, "learning_rate": 6e-06, "loss": 2.249190092086792, "step": 28 }, { "epoch": 0.04, "grad_norm": 1.390625, "learning_rate": 6.444444444444445e-06, "loss": 1.7764644622802734, "step": 30 }, { "epoch": 0.042666666666666665, "grad_norm": 6.1875, "learning_rate": 6.88888888888889e-06, "loss": 2.191967487335205, "step": 32 }, { "epoch": 0.04533333333333334, "grad_norm": 0.97265625, "learning_rate": 7.333333333333333e-06, "loss": 1.0597491264343262, "step": 34 }, { "epoch": 0.048, "grad_norm": 10.25, "learning_rate": 7.77777777777778e-06, "loss": 1.834678053855896, "step": 36 }, { "epoch": 0.050666666666666665, "grad_norm": 7.53125, "learning_rate": 8.222222222222222e-06, "loss": 1.7320787906646729, "step": 38 }, { "epoch": 0.05333333333333334, "grad_norm": 1.578125, "learning_rate": 8.666666666666668e-06, "loss": 1.576636552810669, "step": 40 }, { "epoch": 0.056, "grad_norm": 2.71875, "learning_rate": 9.111111111111112e-06, "loss": 2.0934269428253174, "step": 42 }, { "epoch": 0.058666666666666666, "grad_norm": 3.390625, "learning_rate": 9.555555555555556e-06, "loss": 1.7907030582427979, "step": 44 }, { "epoch": 0.06133333333333333, "grad_norm": 1.4765625, "learning_rate": 1e-05, "loss": 1.1187187433242798, "step": 46 }, { "epoch": 0.064, "grad_norm": 3.234375, "learning_rate": 9.99996270393004e-06, "loss": 1.8578205108642578, "step": 48 }, { "epoch": 0.06666666666666667, "grad_norm": 2.28125, "learning_rate": 9.999850816415654e-06, "loss": 1.8232800960540771, "step": 50 }, { "epoch": 0.06933333333333333, "grad_norm": 2.84375, "learning_rate": 9.99966433954333e-06, "loss": 1.8032082319259644, "step": 52 }, { "epoch": 0.072, "grad_norm": 2.046875, "learning_rate": 9.999403276790487e-06, "loss": 1.8457987308502197, "step": 54 }, { "epoch": 0.07466666666666667, "grad_norm": 3.859375, "learning_rate": 9.999067633025438e-06, "loss": 2.1922450065612793, "step": 56 }, { "epoch": 0.07733333333333334, "grad_norm": 2.75, "learning_rate": 9.99865741450728e-06, "loss": 1.5150452852249146, "step": 58 }, { "epoch": 0.08, "grad_norm": 1.6484375, "learning_rate": 9.998172628885782e-06, "loss": 1.519820213317871, "step": 60 }, { "epoch": 0.08266666666666667, "grad_norm": 1.46875, "learning_rate": 9.997613285201243e-06, "loss": 1.612436294555664, "step": 62 }, { "epoch": 0.08533333333333333, "grad_norm": 0.99609375, "learning_rate": 9.996979393884319e-06, "loss": 1.2558457851409912, "step": 64 }, { "epoch": 0.088, "grad_norm": 3.140625, "learning_rate": 9.996270966755842e-06, "loss": 1.7106069326400757, "step": 66 }, { "epoch": 0.09066666666666667, "grad_norm": 1.8984375, "learning_rate": 9.995488017026587e-06, "loss": 1.986160397529602, "step": 68 }, { "epoch": 0.09333333333333334, "grad_norm": 1.3515625, "learning_rate": 9.994630559297027e-06, "loss": 1.8290278911590576, "step": 70 }, { "epoch": 0.096, "grad_norm": 1.4375, "learning_rate": 9.99369860955706e-06, "loss": 1.513393759727478, "step": 72 }, { "epoch": 0.09866666666666667, "grad_norm": 1.640625, "learning_rate": 9.992692185185722e-06, "loss": 1.9037158489227295, "step": 74 }, { "epoch": 0.10133333333333333, "grad_norm": 2.203125, "learning_rate": 9.991611304950848e-06, "loss": 1.8406035900115967, "step": 76 }, { "epoch": 0.104, "grad_norm": 1.78125, "learning_rate": 9.99045598900873e-06, "loss": 1.789304494857788, "step": 78 }, { "epoch": 0.10666666666666667, "grad_norm": 1.8515625, "learning_rate": 9.989226258903739e-06, "loss": 1.3863871097564697, "step": 80 }, { "epoch": 0.10933333333333334, "grad_norm": 2.203125, "learning_rate": 9.987922137567929e-06, "loss": 1.755820631980896, "step": 82 }, { "epoch": 0.112, "grad_norm": 2.328125, "learning_rate": 9.986543649320596e-06, "loss": 1.5121113061904907, "step": 84 }, { "epoch": 0.11466666666666667, "grad_norm": 1.8828125, "learning_rate": 9.985090819867841e-06, "loss": 1.7100260257720947, "step": 86 }, { "epoch": 0.11733333333333333, "grad_norm": 1.171875, "learning_rate": 9.983563676302075e-06, "loss": 1.194307804107666, "step": 88 }, { "epoch": 0.12, "grad_norm": 3.34375, "learning_rate": 9.981962247101526e-06, "loss": 1.9104779958724976, "step": 90 }, { "epoch": 0.12266666666666666, "grad_norm": 1.78125, "learning_rate": 9.980286562129702e-06, "loss": 1.6766607761383057, "step": 92 }, { "epoch": 0.12533333333333332, "grad_norm": 3.890625, "learning_rate": 9.978536652634835e-06, "loss": 1.6581366062164307, "step": 94 }, { "epoch": 0.128, "grad_norm": 1.5546875, "learning_rate": 9.976712551249298e-06, "loss": 1.6946468353271484, "step": 96 }, { "epoch": 0.13066666666666665, "grad_norm": 3.125, "learning_rate": 9.974814291988997e-06, "loss": 1.5705773830413818, "step": 98 }, { "epoch": 0.13333333333333333, "grad_norm": 3.0625, "learning_rate": 9.972841910252738e-06, "loss": 1.4162333011627197, "step": 100 }, { "epoch": 0.136, "grad_norm": 4.53125, "learning_rate": 9.970795442821567e-06, "loss": 1.9551106691360474, "step": 102 }, { "epoch": 0.13866666666666666, "grad_norm": 2.46875, "learning_rate": 9.968674927858073e-06, "loss": 1.6684436798095703, "step": 104 }, { "epoch": 0.14133333333333334, "grad_norm": 3.5, "learning_rate": 9.966480404905702e-06, "loss": 1.3331656455993652, "step": 106 }, { "epoch": 0.144, "grad_norm": 1.8125, "learning_rate": 9.964211914887988e-06, "loss": 1.6477642059326172, "step": 108 }, { "epoch": 0.14666666666666667, "grad_norm": 2.453125, "learning_rate": 9.961869500107816e-06, "loss": 1.8132398128509521, "step": 110 }, { "epoch": 0.14933333333333335, "grad_norm": 2.203125, "learning_rate": 9.959453204246616e-06, "loss": 1.7937920093536377, "step": 112 }, { "epoch": 0.152, "grad_norm": 16.375, "learning_rate": 9.956963072363561e-06, "loss": 1.753406286239624, "step": 114 }, { "epoch": 0.15466666666666667, "grad_norm": 3.1875, "learning_rate": 9.954399150894716e-06, "loss": 1.6943455934524536, "step": 116 }, { "epoch": 0.15733333333333333, "grad_norm": 2.453125, "learning_rate": 9.951761487652175e-06, "loss": 1.6563262939453125, "step": 118 }, { "epoch": 0.16, "grad_norm": 2.03125, "learning_rate": 9.949050131823183e-06, "loss": 1.7117996215820312, "step": 120 }, { "epoch": 0.16266666666666665, "grad_norm": 3.4375, "learning_rate": 9.946265133969188e-06, "loss": 1.7866847515106201, "step": 122 }, { "epoch": 0.16533333333333333, "grad_norm": 1.5703125, "learning_rate": 9.943406546024934e-06, "loss": 1.4918973445892334, "step": 124 }, { "epoch": 0.168, "grad_norm": 3.96875, "learning_rate": 9.940474421297467e-06, "loss": 1.6683275699615479, "step": 126 }, { "epoch": 0.17066666666666666, "grad_norm": 1.59375, "learning_rate": 9.93746881446515e-06, "loss": 1.4013874530792236, "step": 128 }, { "epoch": 0.17333333333333334, "grad_norm": 4.6875, "learning_rate": 9.93438978157665e-06, "loss": 1.6734812259674072, "step": 130 }, { "epoch": 0.176, "grad_norm": 2.53125, "learning_rate": 9.931237380049872e-06, "loss": 1.4506793022155762, "step": 132 }, { "epoch": 0.17866666666666667, "grad_norm": 2.015625, "learning_rate": 9.928011668670915e-06, "loss": 1.7543423175811768, "step": 134 }, { "epoch": 0.18133333333333335, "grad_norm": 1.390625, "learning_rate": 9.924712707592957e-06, "loss": 1.2520382404327393, "step": 136 }, { "epoch": 0.184, "grad_norm": 1.7265625, "learning_rate": 9.921340558335139e-06, "loss": 1.5790289640426636, "step": 138 }, { "epoch": 0.18666666666666668, "grad_norm": 1.2265625, "learning_rate": 9.917895283781418e-06, "loss": 1.5544064044952393, "step": 140 }, { "epoch": 0.18933333333333333, "grad_norm": 3.09375, "learning_rate": 9.914376948179397e-06, "loss": 1.3657848834991455, "step": 142 }, { "epoch": 0.192, "grad_norm": 2.59375, "learning_rate": 9.910785617139116e-06, "loss": 1.107475996017456, "step": 144 }, { "epoch": 0.19466666666666665, "grad_norm": 1.6640625, "learning_rate": 9.907121357631847e-06, "loss": 1.4638755321502686, "step": 146 }, { "epoch": 0.19733333333333333, "grad_norm": 2.140625, "learning_rate": 9.903384237988828e-06, "loss": 1.665480375289917, "step": 148 }, { "epoch": 0.2, "grad_norm": 2.546875, "learning_rate": 9.899574327899996e-06, "loss": 1.5474549531936646, "step": 150 }, { "epoch": 0.20266666666666666, "grad_norm": 4.375, "learning_rate": 9.895691698412688e-06, "loss": 1.7776587009429932, "step": 152 }, { "epoch": 0.20533333333333334, "grad_norm": 4.8125, "learning_rate": 9.891736421930314e-06, "loss": 1.64408540725708, "step": 154 }, { "epoch": 0.208, "grad_norm": 0.96875, "learning_rate": 9.887708572211007e-06, "loss": 1.3968820571899414, "step": 156 }, { "epoch": 0.21066666666666667, "grad_norm": 2.796875, "learning_rate": 9.883608224366254e-06, "loss": 1.3518630266189575, "step": 158 }, { "epoch": 0.21333333333333335, "grad_norm": 5.71875, "learning_rate": 9.879435454859483e-06, "loss": 1.3899292945861816, "step": 160 }, { "epoch": 0.216, "grad_norm": 2.671875, "learning_rate": 9.875190341504642e-06, "loss": 1.562904953956604, "step": 162 }, { "epoch": 0.21866666666666668, "grad_norm": 1.2265625, "learning_rate": 9.870872963464759e-06, "loss": 1.3672468662261963, "step": 164 }, { "epoch": 0.22133333333333333, "grad_norm": 1.0390625, "learning_rate": 9.866483401250447e-06, "loss": 1.2454572916030884, "step": 166 }, { "epoch": 0.224, "grad_norm": 0.91015625, "learning_rate": 9.862021736718416e-06, "loss": 1.2947109937667847, "step": 168 }, { "epoch": 0.22666666666666666, "grad_norm": 2.375, "learning_rate": 9.857488053069942e-06, "loss": 1.55963134765625, "step": 170 }, { "epoch": 0.22933333333333333, "grad_norm": 0.96875, "learning_rate": 9.85288243484932e-06, "loss": 1.4033395051956177, "step": 172 }, { "epoch": 0.232, "grad_norm": 3.671875, "learning_rate": 9.848204967942275e-06, "loss": 1.79010009765625, "step": 174 }, { "epoch": 0.23466666666666666, "grad_norm": 1.5859375, "learning_rate": 9.843455739574375e-06, "loss": 1.4119430780410767, "step": 176 }, { "epoch": 0.23733333333333334, "grad_norm": 3.078125, "learning_rate": 9.8386348383094e-06, "loss": 1.3605022430419922, "step": 178 }, { "epoch": 0.24, "grad_norm": 2.0625, "learning_rate": 9.83374235404768e-06, "loss": 1.8360528945922852, "step": 180 }, { "epoch": 0.24266666666666667, "grad_norm": 2.84375, "learning_rate": 9.828778378024434e-06, "loss": 1.5890597105026245, "step": 182 }, { "epoch": 0.24533333333333332, "grad_norm": 1.765625, "learning_rate": 9.823743002808065e-06, "loss": 1.5713626146316528, "step": 184 }, { "epoch": 0.248, "grad_norm": 0.82421875, "learning_rate": 9.818636322298421e-06, "loss": 1.3066761493682861, "step": 186 }, { "epoch": 0.25066666666666665, "grad_norm": 1.7578125, "learning_rate": 9.813458431725062e-06, "loss": 1.5583796501159668, "step": 188 }, { "epoch": 0.25333333333333335, "grad_norm": 1.5703125, "learning_rate": 9.808209427645471e-06, "loss": 1.403846025466919, "step": 190 }, { "epoch": 0.256, "grad_norm": 0.82421875, "learning_rate": 9.802889407943258e-06, "loss": 1.192924976348877, "step": 192 }, { "epoch": 0.25866666666666666, "grad_norm": 2.59375, "learning_rate": 9.79749847182634e-06, "loss": 1.5467796325683594, "step": 194 }, { "epoch": 0.2613333333333333, "grad_norm": 3.765625, "learning_rate": 9.792036719825082e-06, "loss": 1.735586404800415, "step": 196 }, { "epoch": 0.264, "grad_norm": 1.3671875, "learning_rate": 9.786504253790425e-06, "loss": 1.544168472290039, "step": 198 }, { "epoch": 0.26666666666666666, "grad_norm": 0.79296875, "learning_rate": 9.780901176891988e-06, "loss": 1.5578876733779907, "step": 200 }, { "epoch": 0.2693333333333333, "grad_norm": 1.609375, "learning_rate": 9.775227593616147e-06, "loss": 1.5140628814697266, "step": 202 }, { "epoch": 0.272, "grad_norm": 2.671875, "learning_rate": 9.76948360976408e-06, "loss": 1.8607451915740967, "step": 204 }, { "epoch": 0.27466666666666667, "grad_norm": 1.1484375, "learning_rate": 9.7636693324498e-06, "loss": 1.0696704387664795, "step": 206 }, { "epoch": 0.2773333333333333, "grad_norm": 1.5625, "learning_rate": 9.757784870098152e-06, "loss": 1.3851189613342285, "step": 208 }, { "epoch": 0.28, "grad_norm": 0.7734375, "learning_rate": 9.751830332442799e-06, "loss": 1.2549703121185303, "step": 210 }, { "epoch": 0.2826666666666667, "grad_norm": 0.5078125, "learning_rate": 9.745805830524164e-06, "loss": 1.3412734270095825, "step": 212 }, { "epoch": 0.2853333333333333, "grad_norm": 1.6953125, "learning_rate": 9.73971147668737e-06, "loss": 1.361825704574585, "step": 214 }, { "epoch": 0.288, "grad_norm": 6.53125, "learning_rate": 9.733547384580144e-06, "loss": 1.995964765548706, "step": 216 }, { "epoch": 0.2906666666666667, "grad_norm": 2.125, "learning_rate": 9.727313669150688e-06, "loss": 1.7472162246704102, "step": 218 }, { "epoch": 0.29333333333333333, "grad_norm": 6.84375, "learning_rate": 9.721010446645546e-06, "loss": 1.6682175397872925, "step": 220 }, { "epoch": 0.296, "grad_norm": 1.4609375, "learning_rate": 9.714637834607431e-06, "loss": 1.5809025764465332, "step": 222 }, { "epoch": 0.2986666666666667, "grad_norm": 3.328125, "learning_rate": 9.708195951873037e-06, "loss": 1.591489553451538, "step": 224 }, { "epoch": 0.30133333333333334, "grad_norm": 1.6171875, "learning_rate": 9.701684918570818e-06, "loss": 1.5637208223342896, "step": 226 }, { "epoch": 0.304, "grad_norm": 2.234375, "learning_rate": 9.69510485611875e-06, "loss": 1.5958696603775024, "step": 228 }, { "epoch": 0.30666666666666664, "grad_norm": 3.328125, "learning_rate": 9.688455887222068e-06, "loss": 1.8065468072891235, "step": 230 }, { "epoch": 0.30933333333333335, "grad_norm": 1.4609375, "learning_rate": 9.681738135870978e-06, "loss": 1.3718721866607666, "step": 232 }, { "epoch": 0.312, "grad_norm": 1.8046875, "learning_rate": 9.67495172733834e-06, "loss": 1.4610414505004883, "step": 234 }, { "epoch": 0.31466666666666665, "grad_norm": 5.75, "learning_rate": 9.668096788177338e-06, "loss": 1.5698318481445312, "step": 236 }, { "epoch": 0.31733333333333336, "grad_norm": 1.421875, "learning_rate": 9.66117344621912e-06, "loss": 1.8078744411468506, "step": 238 }, { "epoch": 0.32, "grad_norm": 1.625, "learning_rate": 9.654181830570404e-06, "loss": 1.4940440654754639, "step": 240 }, { "epoch": 0.32266666666666666, "grad_norm": 4.09375, "learning_rate": 9.647122071611089e-06, "loss": 1.7598289251327515, "step": 242 }, { "epoch": 0.3253333333333333, "grad_norm": 2.140625, "learning_rate": 9.639994300991804e-06, "loss": 1.4887741804122925, "step": 244 }, { "epoch": 0.328, "grad_norm": 1.8203125, "learning_rate": 9.632798651631464e-06, "loss": 1.5527875423431396, "step": 246 }, { "epoch": 0.33066666666666666, "grad_norm": 4.875, "learning_rate": 9.625535257714789e-06, "loss": 1.9298032522201538, "step": 248 }, { "epoch": 0.3333333333333333, "grad_norm": 3.75, "learning_rate": 9.618204254689808e-06, "loss": 1.4619755744934082, "step": 250 }, { "epoch": 0.336, "grad_norm": 0.7890625, "learning_rate": 9.610805779265319e-06, "loss": 1.3586680889129639, "step": 252 }, { "epoch": 0.33866666666666667, "grad_norm": 2.3125, "learning_rate": 9.603339969408349e-06, "loss": 1.5258197784423828, "step": 254 }, { "epoch": 0.3413333333333333, "grad_norm": 1.34375, "learning_rate": 9.595806964341581e-06, "loss": 1.3830153942108154, "step": 256 }, { "epoch": 0.344, "grad_norm": 1.9375, "learning_rate": 9.58820690454076e-06, "loss": 1.615321397781372, "step": 258 }, { "epoch": 0.3466666666666667, "grad_norm": 0.890625, "learning_rate": 9.580539931732067e-06, "loss": 1.5420563220977783, "step": 260 }, { "epoch": 0.34933333333333333, "grad_norm": 1.421875, "learning_rate": 9.572806188889478e-06, "loss": 1.5078868865966797, "step": 262 }, { "epoch": 0.352, "grad_norm": 3.078125, "learning_rate": 9.565005820232097e-06, "loss": 1.6129082441329956, "step": 264 }, { "epoch": 0.3546666666666667, "grad_norm": 4.8125, "learning_rate": 9.557138971221478e-06, "loss": 1.465453863143921, "step": 266 }, { "epoch": 0.35733333333333334, "grad_norm": 1.5078125, "learning_rate": 9.54920578855889e-06, "loss": 1.273129940032959, "step": 268 }, { "epoch": 0.36, "grad_norm": 2.5, "learning_rate": 9.541206420182605e-06, "loss": 1.8482128381729126, "step": 270 }, { "epoch": 0.3626666666666667, "grad_norm": 2.15625, "learning_rate": 9.533141015265122e-06, "loss": 1.3174548149108887, "step": 272 }, { "epoch": 0.36533333333333334, "grad_norm": 2.734375, "learning_rate": 9.525009724210397e-06, "loss": 1.5214124917984009, "step": 274 }, { "epoch": 0.368, "grad_norm": 2.109375, "learning_rate": 9.516812698651026e-06, "loss": 1.721625804901123, "step": 276 }, { "epoch": 0.37066666666666664, "grad_norm": 0.8984375, "learning_rate": 9.50855009144543e-06, "loss": 1.3500480651855469, "step": 278 }, { "epoch": 0.37333333333333335, "grad_norm": 3.59375, "learning_rate": 9.500222056675001e-06, "loss": 1.7781211137771606, "step": 280 }, { "epoch": 0.376, "grad_norm": 3.09375, "learning_rate": 9.491828749641217e-06, "loss": 1.351893663406372, "step": 282 }, { "epoch": 0.37866666666666665, "grad_norm": 2.703125, "learning_rate": 9.483370326862765e-06, "loss": 1.7566255331039429, "step": 284 }, { "epoch": 0.38133333333333336, "grad_norm": 1.265625, "learning_rate": 9.474846946072605e-06, "loss": 1.428544521331787, "step": 286 }, { "epoch": 0.384, "grad_norm": 1.8125, "learning_rate": 9.466258766215045e-06, "loss": 1.6000492572784424, "step": 288 }, { "epoch": 0.38666666666666666, "grad_norm": 1.8828125, "learning_rate": 9.457605947442758e-06, "loss": 1.8304314613342285, "step": 290 }, { "epoch": 0.3893333333333333, "grad_norm": 1.484375, "learning_rate": 9.448888651113817e-06, "loss": 1.2132039070129395, "step": 292 }, { "epoch": 0.392, "grad_norm": 3.171875, "learning_rate": 9.440107039788665e-06, "loss": 1.6729305982589722, "step": 294 }, { "epoch": 0.39466666666666667, "grad_norm": 2.234375, "learning_rate": 9.431261277227098e-06, "loss": 1.572163462638855, "step": 296 }, { "epoch": 0.3973333333333333, "grad_norm": 1.390625, "learning_rate": 9.422351528385204e-06, "loss": 1.5109126567840576, "step": 298 }, { "epoch": 0.4, "grad_norm": 1.4140625, "learning_rate": 9.413377959412297e-06, "loss": 1.142380952835083, "step": 300 }, { "epoch": 0.4026666666666667, "grad_norm": 2.5, "learning_rate": 9.404340737647799e-06, "loss": 1.323343276977539, "step": 302 }, { "epoch": 0.4053333333333333, "grad_norm": 4.90625, "learning_rate": 9.395240031618138e-06, "loss": 0.9861502647399902, "step": 304 }, { "epoch": 0.408, "grad_norm": 0.95703125, "learning_rate": 9.386076011033603e-06, "loss": 1.4224445819854736, "step": 306 }, { "epoch": 0.4106666666666667, "grad_norm": 2.5, "learning_rate": 9.376848846785164e-06, "loss": 1.5212492942810059, "step": 308 }, { "epoch": 0.41333333333333333, "grad_norm": 6.59375, "learning_rate": 9.367558710941309e-06, "loss": 1.745542287826538, "step": 310 }, { "epoch": 0.416, "grad_norm": 2.953125, "learning_rate": 9.358205776744812e-06, "loss": 1.5883705615997314, "step": 312 }, { "epoch": 0.4186666666666667, "grad_norm": 1.15625, "learning_rate": 9.348790218609517e-06, "loss": 1.4759235382080078, "step": 314 }, { "epoch": 0.42133333333333334, "grad_norm": 0.90234375, "learning_rate": 9.339312212117086e-06, "loss": 1.1085882186889648, "step": 316 }, { "epoch": 0.424, "grad_norm": 2.546875, "learning_rate": 9.329771934013711e-06, "loss": 1.5868794918060303, "step": 318 }, { "epoch": 0.4266666666666667, "grad_norm": 3.9375, "learning_rate": 9.320169562206832e-06, "loss": 1.2895218133926392, "step": 320 }, { "epoch": 0.42933333333333334, "grad_norm": 1.953125, "learning_rate": 9.310505275761817e-06, "loss": 1.4390501976013184, "step": 322 }, { "epoch": 0.432, "grad_norm": 1.7890625, "learning_rate": 9.300779254898616e-06, "loss": 1.322721242904663, "step": 324 }, { "epoch": 0.43466666666666665, "grad_norm": 1.8828125, "learning_rate": 9.290991680988406e-06, "loss": 1.7256560325622559, "step": 326 }, { "epoch": 0.43733333333333335, "grad_norm": 2.328125, "learning_rate": 9.281142736550206e-06, "loss": 1.5850830078125, "step": 328 }, { "epoch": 0.44, "grad_norm": 2.4375, "learning_rate": 9.271232605247482e-06, "loss": 1.449178695678711, "step": 330 }, { "epoch": 0.44266666666666665, "grad_norm": 0.83203125, "learning_rate": 9.261261471884707e-06, "loss": 1.3146241903305054, "step": 332 }, { "epoch": 0.44533333333333336, "grad_norm": 1.8203125, "learning_rate": 9.251229522403921e-06, "loss": 1.7084033489227295, "step": 334 }, { "epoch": 0.448, "grad_norm": 1.6953125, "learning_rate": 9.24113694388127e-06, "loss": 1.2717372179031372, "step": 336 }, { "epoch": 0.45066666666666666, "grad_norm": 1.7890625, "learning_rate": 9.230983924523515e-06, "loss": 1.6452568769454956, "step": 338 }, { "epoch": 0.4533333333333333, "grad_norm": 2.703125, "learning_rate": 9.220770653664513e-06, "loss": 1.426748275756836, "step": 340 }, { "epoch": 0.456, "grad_norm": 2.078125, "learning_rate": 9.210497321761697e-06, "loss": 1.5518929958343506, "step": 342 }, { "epoch": 0.45866666666666667, "grad_norm": 1.734375, "learning_rate": 9.200164120392522e-06, "loss": 1.4450750350952148, "step": 344 }, { "epoch": 0.4613333333333333, "grad_norm": 4.03125, "learning_rate": 9.189771242250883e-06, "loss": 1.6373507976531982, "step": 346 }, { "epoch": 0.464, "grad_norm": 1.109375, "learning_rate": 9.179318881143541e-06, "loss": 1.556694746017456, "step": 348 }, { "epoch": 0.4666666666666667, "grad_norm": 1.46875, "learning_rate": 9.168807231986488e-06, "loss": 1.0718153715133667, "step": 350 }, { "epoch": 0.4693333333333333, "grad_norm": 1.640625, "learning_rate": 9.158236490801327e-06, "loss": 1.4489765167236328, "step": 352 }, { "epoch": 0.472, "grad_norm": 1.921875, "learning_rate": 9.147606854711608e-06, "loss": 1.4814002513885498, "step": 354 }, { "epoch": 0.4746666666666667, "grad_norm": 4.4375, "learning_rate": 9.136918521939157e-06, "loss": 1.7797274589538574, "step": 356 }, { "epoch": 0.47733333333333333, "grad_norm": 4.90625, "learning_rate": 9.126171691800378e-06, "loss": 1.2684712409973145, "step": 358 }, { "epoch": 0.48, "grad_norm": 1.515625, "learning_rate": 9.115366564702535e-06, "loss": 1.4901347160339355, "step": 360 }, { "epoch": 0.4826666666666667, "grad_norm": 1.6640625, "learning_rate": 9.104503342140017e-06, "loss": 1.429030179977417, "step": 362 }, { "epoch": 0.48533333333333334, "grad_norm": 1.7265625, "learning_rate": 9.093582226690577e-06, "loss": 1.6099389791488647, "step": 364 }, { "epoch": 0.488, "grad_norm": 1.5234375, "learning_rate": 9.082603422011557e-06, "loss": 1.7256474494934082, "step": 366 }, { "epoch": 0.49066666666666664, "grad_norm": 2.625, "learning_rate": 9.071567132836094e-06, "loss": 1.7596641778945923, "step": 368 }, { "epoch": 0.49333333333333335, "grad_norm": 0.71875, "learning_rate": 9.060473564969292e-06, "loss": 1.0529954433441162, "step": 370 }, { "epoch": 0.496, "grad_norm": 3.6875, "learning_rate": 9.049322925284394e-06, "loss": 1.6757372617721558, "step": 372 }, { "epoch": 0.49866666666666665, "grad_norm": 0.89453125, "learning_rate": 9.038115421718917e-06, "loss": 1.0964611768722534, "step": 374 }, { "epoch": 0.5013333333333333, "grad_norm": 2.609375, "learning_rate": 9.026851263270782e-06, "loss": 1.6925992965698242, "step": 376 }, { "epoch": 0.504, "grad_norm": 2.625, "learning_rate": 9.015530659994409e-06, "loss": 1.5397207736968994, "step": 378 }, { "epoch": 0.5066666666666667, "grad_norm": 0.921875, "learning_rate": 9.0041538229968e-06, "loss": 1.4883861541748047, "step": 380 }, { "epoch": 0.5093333333333333, "grad_norm": 1.6015625, "learning_rate": 8.992720964433617e-06, "loss": 1.523974061012268, "step": 382 }, { "epoch": 0.512, "grad_norm": 1.5859375, "learning_rate": 8.9812322975052e-06, "loss": 1.560215711593628, "step": 384 }, { "epoch": 0.5146666666666667, "grad_norm": 0.455078125, "learning_rate": 8.969688036452616e-06, "loss": 1.2330844402313232, "step": 386 }, { "epoch": 0.5173333333333333, "grad_norm": 2.8125, "learning_rate": 8.958088396553643e-06, "loss": 1.5661859512329102, "step": 388 }, { "epoch": 0.52, "grad_norm": 3.859375, "learning_rate": 8.946433594118779e-06, "loss": 1.851172685623169, "step": 390 }, { "epoch": 0.5226666666666666, "grad_norm": 1.9375, "learning_rate": 8.934723846487183e-06, "loss": 1.1451064348220825, "step": 392 }, { "epoch": 0.5253333333333333, "grad_norm": 2.765625, "learning_rate": 8.922959372022637e-06, "loss": 1.6592644453048706, "step": 394 }, { "epoch": 0.528, "grad_norm": 1.0390625, "learning_rate": 8.911140390109478e-06, "loss": 1.0356855392456055, "step": 396 }, { "epoch": 0.5306666666666666, "grad_norm": 7.59375, "learning_rate": 8.899267121148491e-06, "loss": 1.5908303260803223, "step": 398 }, { "epoch": 0.5333333333333333, "grad_norm": 0.84765625, "learning_rate": 8.887339786552808e-06, "loss": 1.138909935951233, "step": 400 }, { "epoch": 0.536, "grad_norm": 0.83203125, "learning_rate": 8.875358608743787e-06, "loss": 1.3910235166549683, "step": 402 }, { "epoch": 0.5386666666666666, "grad_norm": 0.50390625, "learning_rate": 8.863323811146848e-06, "loss": 1.5502691268920898, "step": 404 }, { "epoch": 0.5413333333333333, "grad_norm": 3.5, "learning_rate": 8.851235618187318e-06, "loss": 1.7706248760223389, "step": 406 }, { "epoch": 0.544, "grad_norm": 2.015625, "learning_rate": 8.839094255286242e-06, "loss": 1.7063908576965332, "step": 408 }, { "epoch": 0.5466666666666666, "grad_norm": 36.5, "learning_rate": 8.82689994885618e-06, "loss": 1.1970150470733643, "step": 410 }, { "epoch": 0.5493333333333333, "grad_norm": 2.625, "learning_rate": 8.814652926296985e-06, "loss": 1.710649013519287, "step": 412 }, { "epoch": 0.552, "grad_norm": 33.75, "learning_rate": 8.802353415991564e-06, "loss": 1.8472647666931152, "step": 414 }, { "epoch": 0.5546666666666666, "grad_norm": 5.90625, "learning_rate": 8.790001647301613e-06, "loss": 1.6985820531845093, "step": 416 }, { "epoch": 0.5573333333333333, "grad_norm": 2.34375, "learning_rate": 8.777597850563346e-06, "loss": 1.67909836769104, "step": 418 }, { "epoch": 0.56, "grad_norm": 10.125, "learning_rate": 8.765142257083202e-06, "loss": 0.9023515582084656, "step": 420 }, { "epoch": 0.5626666666666666, "grad_norm": 66.0, "learning_rate": 8.752635099133518e-06, "loss": 0.6811611652374268, "step": 422 }, { "epoch": 0.5653333333333334, "grad_norm": 1.9609375, "learning_rate": 8.74007660994822e-06, "loss": 1.4500564336776733, "step": 424 }, { "epoch": 0.568, "grad_norm": 6.34375, "learning_rate": 8.727467023718448e-06, "loss": 1.718153953552246, "step": 426 }, { "epoch": 0.5706666666666667, "grad_norm": 3.328125, "learning_rate": 8.71480657558821e-06, "loss": 1.2739958763122559, "step": 428 }, { "epoch": 0.5733333333333334, "grad_norm": 1.7578125, "learning_rate": 8.702095501649987e-06, "loss": 1.4954882860183716, "step": 430 }, { "epoch": 0.576, "grad_norm": 1.8984375, "learning_rate": 8.689334038940325e-06, "loss": 1.5271363258361816, "step": 432 }, { "epoch": 0.5786666666666667, "grad_norm": 2.515625, "learning_rate": 8.676522425435434e-06, "loss": 1.4217036962509155, "step": 434 }, { "epoch": 0.5813333333333334, "grad_norm": 1.7890625, "learning_rate": 8.663660900046726e-06, "loss": 1.635168433189392, "step": 436 }, { "epoch": 0.584, "grad_norm": 1.046875, "learning_rate": 8.650749702616375e-06, "loss": 1.3006935119628906, "step": 438 }, { "epoch": 0.5866666666666667, "grad_norm": 3.40625, "learning_rate": 8.63778907391285e-06, "loss": 1.628927230834961, "step": 440 }, { "epoch": 0.5893333333333334, "grad_norm": 6.625, "learning_rate": 8.624779255626398e-06, "loss": 1.6061930656433105, "step": 442 }, { "epoch": 0.592, "grad_norm": 0.9453125, "learning_rate": 8.611720490364572e-06, "loss": 1.5421932935714722, "step": 444 }, { "epoch": 0.5946666666666667, "grad_norm": 1.9453125, "learning_rate": 8.598613021647685e-06, "loss": 1.54714035987854, "step": 446 }, { "epoch": 0.5973333333333334, "grad_norm": 2.40625, "learning_rate": 8.585457093904268e-06, "loss": 1.6005792617797852, "step": 448 }, { "epoch": 0.6, "grad_norm": 2.734375, "learning_rate": 8.572252952466523e-06, "loss": 1.3272870779037476, "step": 450 }, { "epoch": 0.6026666666666667, "grad_norm": 0.78125, "learning_rate": 8.55900084356574e-06, "loss": 1.5509049892425537, "step": 452 }, { "epoch": 0.6053333333333333, "grad_norm": 1.5859375, "learning_rate": 8.545701014327713e-06, "loss": 1.3459486961364746, "step": 454 }, { "epoch": 0.608, "grad_norm": 2.0625, "learning_rate": 8.53235371276812e-06, "loss": 1.4982644319534302, "step": 456 }, { "epoch": 0.6106666666666667, "grad_norm": 2.09375, "learning_rate": 8.51895918778791e-06, "loss": 1.2649288177490234, "step": 458 }, { "epoch": 0.6133333333333333, "grad_norm": 3.296875, "learning_rate": 8.505517689168649e-06, "loss": 1.6629306077957153, "step": 460 }, { "epoch": 0.616, "grad_norm": 1.4140625, "learning_rate": 8.492029467567878e-06, "loss": 1.6096601486206055, "step": 462 }, { "epoch": 0.6186666666666667, "grad_norm": 2.84375, "learning_rate": 8.47849477451442e-06, "loss": 1.7913764715194702, "step": 464 }, { "epoch": 0.6213333333333333, "grad_norm": 4.5, "learning_rate": 8.46491386240371e-06, "loss": 1.7223880290985107, "step": 466 }, { "epoch": 0.624, "grad_norm": 5.5625, "learning_rate": 8.451286984493069e-06, "loss": 0.9289131760597229, "step": 468 }, { "epoch": 0.6266666666666667, "grad_norm": 2.828125, "learning_rate": 8.437614394896994e-06, "loss": 1.6850260496139526, "step": 470 }, { "epoch": 0.6293333333333333, "grad_norm": 1.859375, "learning_rate": 8.423896348582415e-06, "loss": 1.5917671918869019, "step": 472 }, { "epoch": 0.632, "grad_norm": 2.0625, "learning_rate": 8.410133101363936e-06, "loss": 1.472569465637207, "step": 474 }, { "epoch": 0.6346666666666667, "grad_norm": 0.78125, "learning_rate": 8.396324909899077e-06, "loss": 1.132209062576294, "step": 476 }, { "epoch": 0.6373333333333333, "grad_norm": 0.85546875, "learning_rate": 8.382472031683472e-06, "loss": 1.4079012870788574, "step": 478 }, { "epoch": 0.64, "grad_norm": 0.7734375, "learning_rate": 8.368574725046083e-06, "loss": 1.146620750427246, "step": 480 }, { "epoch": 0.6426666666666667, "grad_norm": 3.28125, "learning_rate": 8.354633249144363e-06, "loss": 1.8932878971099854, "step": 482 }, { "epoch": 0.6453333333333333, "grad_norm": 3.34375, "learning_rate": 8.34064786395945e-06, "loss": 1.6827220916748047, "step": 484 }, { "epoch": 0.648, "grad_norm": 2.9375, "learning_rate": 8.32661883029129e-06, "loss": 1.174098014831543, "step": 486 }, { "epoch": 0.6506666666666666, "grad_norm": 3.15625, "learning_rate": 8.312546409753799e-06, "loss": 1.8260903358459473, "step": 488 }, { "epoch": 0.6533333333333333, "grad_norm": 0.9375, "learning_rate": 8.298430864769963e-06, "loss": 1.4699290990829468, "step": 490 }, { "epoch": 0.656, "grad_norm": 2.9375, "learning_rate": 8.284272458566961e-06, "loss": 1.3038263320922852, "step": 492 }, { "epoch": 0.6586666666666666, "grad_norm": 1.0234375, "learning_rate": 8.270071455171246e-06, "loss": 1.4363877773284912, "step": 494 }, { "epoch": 0.6613333333333333, "grad_norm": 1.859375, "learning_rate": 8.255828119403625e-06, "loss": 1.5408426523208618, "step": 496 }, { "epoch": 0.664, "grad_norm": 1.171875, "learning_rate": 8.241542716874326e-06, "loss": 1.480779767036438, "step": 498 }, { "epoch": 0.6666666666666666, "grad_norm": 2.03125, "learning_rate": 8.227215513978031e-06, "loss": 1.6761982440948486, "step": 500 }, { "epoch": 0.6693333333333333, "grad_norm": 0.8046875, "learning_rate": 8.212846777888924e-06, "loss": 1.5098438262939453, "step": 502 }, { "epoch": 0.672, "grad_norm": 2.34375, "learning_rate": 8.198436776555694e-06, "loss": 1.4694273471832275, "step": 504 }, { "epoch": 0.6746666666666666, "grad_norm": 3.078125, "learning_rate": 8.183985778696552e-06, "loss": 1.647132396697998, "step": 506 }, { "epoch": 0.6773333333333333, "grad_norm": 5.125, "learning_rate": 8.169494053794214e-06, "loss": 1.831689476966858, "step": 508 }, { "epoch": 0.68, "grad_norm": 2.40625, "learning_rate": 8.15496187209087e-06, "loss": 1.590653419494629, "step": 510 }, { "epoch": 0.6826666666666666, "grad_norm": 1.765625, "learning_rate": 8.140389504583153e-06, "loss": 1.5305280685424805, "step": 512 }, { "epoch": 0.6853333333333333, "grad_norm": 1.0703125, "learning_rate": 8.125777223017082e-06, "loss": 1.2035201787948608, "step": 514 }, { "epoch": 0.688, "grad_norm": 15.8125, "learning_rate": 8.111125299882995e-06, "loss": 1.301339864730835, "step": 516 }, { "epoch": 0.6906666666666667, "grad_norm": 2.703125, "learning_rate": 8.096434008410469e-06, "loss": 1.7590441703796387, "step": 518 }, { "epoch": 0.6933333333333334, "grad_norm": 4.78125, "learning_rate": 8.081703622563218e-06, "loss": 1.6054850816726685, "step": 520 }, { "epoch": 0.696, "grad_norm": 2.3125, "learning_rate": 8.066934417033995e-06, "loss": 1.5625101327896118, "step": 522 }, { "epoch": 0.6986666666666667, "grad_norm": 4.5, "learning_rate": 8.052126667239462e-06, "loss": 1.0695847272872925, "step": 524 }, { "epoch": 0.7013333333333334, "grad_norm": 1.78125, "learning_rate": 8.037280649315053e-06, "loss": 1.4248785972595215, "step": 526 }, { "epoch": 0.704, "grad_norm": 4.03125, "learning_rate": 8.022396640109829e-06, "loss": 1.2605631351470947, "step": 528 }, { "epoch": 0.7066666666666667, "grad_norm": 1.609375, "learning_rate": 8.007474917181317e-06, "loss": 1.7435317039489746, "step": 530 }, { "epoch": 0.7093333333333334, "grad_norm": 2.015625, "learning_rate": 7.992515758790327e-06, "loss": 1.0427531003952026, "step": 532 }, { "epoch": 0.712, "grad_norm": 2.609375, "learning_rate": 7.977519443895768e-06, "loss": 1.4642760753631592, "step": 534 }, { "epoch": 0.7146666666666667, "grad_norm": 3.46875, "learning_rate": 7.962486252149442e-06, "loss": 1.5872834920883179, "step": 536 }, { "epoch": 0.7173333333333334, "grad_norm": 6.6875, "learning_rate": 7.94741646389084e-06, "loss": 1.7316570281982422, "step": 538 }, { "epoch": 0.72, "grad_norm": 1.90625, "learning_rate": 7.932310360141895e-06, "loss": 1.4599530696868896, "step": 540 }, { "epoch": 0.7226666666666667, "grad_norm": 4.1875, "learning_rate": 7.917168222601761e-06, "loss": 1.7563599348068237, "step": 542 }, { "epoch": 0.7253333333333334, "grad_norm": 1.7109375, "learning_rate": 7.90199033364155e-06, "loss": 1.4897665977478027, "step": 544 }, { "epoch": 0.728, "grad_norm": 5.6875, "learning_rate": 7.886776976299065e-06, "loss": 0.9471417665481567, "step": 546 }, { "epoch": 0.7306666666666667, "grad_norm": 2.546875, "learning_rate": 7.871528434273525e-06, "loss": 1.3160903453826904, "step": 548 }, { "epoch": 0.7333333333333333, "grad_norm": 2.3125, "learning_rate": 7.856244991920274e-06, "loss": 1.3068546056747437, "step": 550 }, { "epoch": 0.736, "grad_norm": 2.84375, "learning_rate": 7.840926934245483e-06, "loss": 1.6266614198684692, "step": 552 }, { "epoch": 0.7386666666666667, "grad_norm": 1.84375, "learning_rate": 7.825574546900824e-06, "loss": 1.3499655723571777, "step": 554 }, { "epoch": 0.7413333333333333, "grad_norm": 0.52734375, "learning_rate": 7.810188116178157e-06, "loss": 1.2617985010147095, "step": 556 }, { "epoch": 0.744, "grad_norm": 1.9375, "learning_rate": 7.794767929004176e-06, "loss": 1.5113894939422607, "step": 558 }, { "epoch": 0.7466666666666667, "grad_norm": 0.7890625, "learning_rate": 7.779314272935073e-06, "loss": 1.329702377319336, "step": 560 }, { "epoch": 0.7493333333333333, "grad_norm": 2.15625, "learning_rate": 7.763827436151167e-06, "loss": 1.3006130456924438, "step": 562 }, { "epoch": 0.752, "grad_norm": 1.53125, "learning_rate": 7.748307707451534e-06, "loss": 1.3092937469482422, "step": 564 }, { "epoch": 0.7546666666666667, "grad_norm": 2.078125, "learning_rate": 7.732755376248613e-06, "loss": 1.5015747547149658, "step": 566 }, { "epoch": 0.7573333333333333, "grad_norm": 2.6875, "learning_rate": 7.717170732562823e-06, "loss": 1.3820148706436157, "step": 568 }, { "epoch": 0.76, "grad_norm": 1.46875, "learning_rate": 7.701554067017147e-06, "loss": 1.5349700450897217, "step": 570 }, { "epoch": 0.7626666666666667, "grad_norm": 1.1796875, "learning_rate": 7.685905670831706e-06, "loss": 1.3191131353378296, "step": 572 }, { "epoch": 0.7653333333333333, "grad_norm": 3.40625, "learning_rate": 7.670225835818341e-06, "loss": 2.0326576232910156, "step": 574 }, { "epoch": 0.768, "grad_norm": 3.75, "learning_rate": 7.654514854375167e-06, "loss": 1.5498676300048828, "step": 576 }, { "epoch": 0.7706666666666667, "grad_norm": 2.765625, "learning_rate": 7.63877301948111e-06, "loss": 1.6516549587249756, "step": 578 }, { "epoch": 0.7733333333333333, "grad_norm": 2.0625, "learning_rate": 7.623000624690463e-06, "loss": 1.5124046802520752, "step": 580 }, { "epoch": 0.776, "grad_norm": 2.5625, "learning_rate": 7.60719796412739e-06, "loss": 1.679999828338623, "step": 582 }, { "epoch": 0.7786666666666666, "grad_norm": 2.53125, "learning_rate": 7.591365332480462e-06, "loss": 1.8081717491149902, "step": 584 }, { "epoch": 0.7813333333333333, "grad_norm": 1.7421875, "learning_rate": 7.57550302499715e-06, "loss": 1.2693226337432861, "step": 586 }, { "epoch": 0.784, "grad_norm": 3.0625, "learning_rate": 7.559611337478313e-06, "loss": 1.3884985446929932, "step": 588 }, { "epoch": 0.7866666666666666, "grad_norm": 4.15625, "learning_rate": 7.5436905662727e-06, "loss": 1.2277591228485107, "step": 590 }, { "epoch": 0.7893333333333333, "grad_norm": 1.8203125, "learning_rate": 7.527741008271408e-06, "loss": 1.5427110195159912, "step": 592 }, { "epoch": 0.792, "grad_norm": 3.28125, "learning_rate": 7.511762960902352e-06, "loss": 1.880828619003296, "step": 594 }, { "epoch": 0.7946666666666666, "grad_norm": 3.75, "learning_rate": 7.495756722124718e-06, "loss": 1.4269912242889404, "step": 596 }, { "epoch": 0.7973333333333333, "grad_norm": 2.609375, "learning_rate": 7.4797225904234095e-06, "loss": 1.7284862995147705, "step": 598 }, { "epoch": 0.8, "grad_norm": 0.85546875, "learning_rate": 7.4636608648034714e-06, "loss": 1.4328413009643555, "step": 600 }, { "epoch": 0.8026666666666666, "grad_norm": 4.90625, "learning_rate": 7.4475718447845266e-06, "loss": 1.284785509109497, "step": 602 }, { "epoch": 0.8053333333333333, "grad_norm": 2.453125, "learning_rate": 7.431455830395183e-06, "loss": 1.6100547313690186, "step": 604 }, { "epoch": 0.808, "grad_norm": 6.5625, "learning_rate": 7.415313122167443e-06, "loss": 1.548893690109253, "step": 606 }, { "epoch": 0.8106666666666666, "grad_norm": 1.890625, "learning_rate": 7.399144021131091e-06, "loss": 1.4609580039978027, "step": 608 }, { "epoch": 0.8133333333333334, "grad_norm": 1.578125, "learning_rate": 7.382948828808092e-06, "loss": 1.5304521322250366, "step": 610 }, { "epoch": 0.816, "grad_norm": 2.046875, "learning_rate": 7.366727847206956e-06, "loss": 1.6468689441680908, "step": 612 }, { "epoch": 0.8186666666666667, "grad_norm": 3.078125, "learning_rate": 7.350481378817115e-06, "loss": 1.503597378730774, "step": 614 }, { "epoch": 0.8213333333333334, "grad_norm": 0.6015625, "learning_rate": 7.334209726603283e-06, "loss": 1.2350223064422607, "step": 616 }, { "epoch": 0.824, "grad_norm": 0.90234375, "learning_rate": 7.317913193999797e-06, "loss": 1.17708420753479, "step": 618 }, { "epoch": 0.8266666666666667, "grad_norm": 2.65625, "learning_rate": 7.3015920849049685e-06, "loss": 1.8863104581832886, "step": 620 }, { "epoch": 0.8293333333333334, "grad_norm": 1.4296875, "learning_rate": 7.2852467036754095e-06, "loss": 1.3515092134475708, "step": 622 }, { "epoch": 0.832, "grad_norm": 4.5625, "learning_rate": 7.268877355120363e-06, "loss": 1.5441099405288696, "step": 624 }, { "epoch": 0.8346666666666667, "grad_norm": 3.96875, "learning_rate": 7.25248434449601e-06, "loss": 1.7078487873077393, "step": 626 }, { "epoch": 0.8373333333333334, "grad_norm": 1.390625, "learning_rate": 7.23606797749979e-06, "loss": 1.6613589525222778, "step": 628 }, { "epoch": 0.84, "grad_norm": 3.25, "learning_rate": 7.2196285602646865e-06, "loss": 1.7381742000579834, "step": 630 }, { "epoch": 0.8426666666666667, "grad_norm": 2.4375, "learning_rate": 7.203166399353528e-06, "loss": 1.4011036157608032, "step": 632 }, { "epoch": 0.8453333333333334, "grad_norm": 1.8359375, "learning_rate": 7.186681801753268e-06, "loss": 1.2498083114624023, "step": 634 }, { "epoch": 0.848, "grad_norm": 0.78125, "learning_rate": 7.170175074869258e-06, "loss": 1.0311483144760132, "step": 636 }, { "epoch": 0.8506666666666667, "grad_norm": 1.640625, "learning_rate": 7.153646526519517e-06, "loss": 1.5316252708435059, "step": 638 }, { "epoch": 0.8533333333333334, "grad_norm": 1.734375, "learning_rate": 7.137096464928995e-06, "loss": 1.4987022876739502, "step": 640 }, { "epoch": 0.856, "grad_norm": 2.34375, "learning_rate": 7.120525198723818e-06, "loss": 1.1657915115356445, "step": 642 }, { "epoch": 0.8586666666666667, "grad_norm": 1.609375, "learning_rate": 7.10393303692554e-06, "loss": 1.3228687047958374, "step": 644 }, { "epoch": 0.8613333333333333, "grad_norm": 2.46875, "learning_rate": 7.0873202889453716e-06, "loss": 1.422530174255371, "step": 646 }, { "epoch": 0.864, "grad_norm": 0.7421875, "learning_rate": 7.0706872645784205e-06, "loss": 1.1939458847045898, "step": 648 }, { "epoch": 0.8666666666666667, "grad_norm": 0.9765625, "learning_rate": 7.054034273997907e-06, "loss": 1.1706509590148926, "step": 650 }, { "epoch": 0.8693333333333333, "grad_norm": 1.8515625, "learning_rate": 7.037361627749381e-06, "loss": 1.56918203830719, "step": 652 }, { "epoch": 0.872, "grad_norm": 2.265625, "learning_rate": 7.020669636744932e-06, "loss": 1.4497573375701904, "step": 654 }, { "epoch": 0.8746666666666667, "grad_norm": 1.1171875, "learning_rate": 7.003958612257395e-06, "loss": 1.5307812690734863, "step": 656 }, { "epoch": 0.8773333333333333, "grad_norm": 3.828125, "learning_rate": 6.987228865914537e-06, "loss": 1.6407835483551025, "step": 658 }, { "epoch": 0.88, "grad_norm": 1.6328125, "learning_rate": 6.970480709693255e-06, "loss": 1.247854232788086, "step": 660 }, { "epoch": 0.8826666666666667, "grad_norm": 1.9453125, "learning_rate": 6.953714455913749e-06, "loss": 1.3659682273864746, "step": 662 }, { "epoch": 0.8853333333333333, "grad_norm": 7.46875, "learning_rate": 6.936930417233707e-06, "loss": 1.5211827754974365, "step": 664 }, { "epoch": 0.888, "grad_norm": 1.796875, "learning_rate": 6.920128906642472e-06, "loss": 1.5100593566894531, "step": 666 }, { "epoch": 0.8906666666666667, "grad_norm": 5.28125, "learning_rate": 6.9033102374551974e-06, "loss": 1.101508378982544, "step": 668 }, { "epoch": 0.8933333333333333, "grad_norm": 2.859375, "learning_rate": 6.886474723307018e-06, "loss": 1.5664129257202148, "step": 670 }, { "epoch": 0.896, "grad_norm": 3.140625, "learning_rate": 6.869622678147188e-06, "loss": 1.2858555316925049, "step": 672 }, { "epoch": 0.8986666666666666, "grad_norm": 2.8125, "learning_rate": 6.852754416233236e-06, "loss": 1.3835557699203491, "step": 674 }, { "epoch": 0.9013333333333333, "grad_norm": 1.390625, "learning_rate": 6.835870252125102e-06, "loss": 1.5020421743392944, "step": 676 }, { "epoch": 0.904, "grad_norm": 1.46875, "learning_rate": 6.818970500679264e-06, "loss": 1.4220386743545532, "step": 678 }, { "epoch": 0.9066666666666666, "grad_norm": 1.0625, "learning_rate": 6.802055477042883e-06, "loss": 1.4172393083572388, "step": 680 }, { "epoch": 0.9093333333333333, "grad_norm": 3.859375, "learning_rate": 6.7851254966479105e-06, "loss": 1.3011717796325684, "step": 682 }, { "epoch": 0.912, "grad_norm": 1.296875, "learning_rate": 6.768180875205212e-06, "loss": 1.1196095943450928, "step": 684 }, { "epoch": 0.9146666666666666, "grad_norm": 5.0625, "learning_rate": 6.751221928698682e-06, "loss": 1.618861198425293, "step": 686 }, { "epoch": 0.9173333333333333, "grad_norm": 1.640625, "learning_rate": 6.734248973379345e-06, "loss": 1.6230967044830322, "step": 688 }, { "epoch": 0.92, "grad_norm": 4.0, "learning_rate": 6.71726232575947e-06, "loss": 1.6526458263397217, "step": 690 }, { "epoch": 0.9226666666666666, "grad_norm": 3.625, "learning_rate": 6.700262302606654e-06, "loss": 1.6751515865325928, "step": 692 }, { "epoch": 0.9253333333333333, "grad_norm": 3.265625, "learning_rate": 6.683249220937922e-06, "loss": 1.50675630569458, "step": 694 }, { "epoch": 0.928, "grad_norm": 4.6875, "learning_rate": 6.666223398013818e-06, "loss": 1.6779391765594482, "step": 696 }, { "epoch": 0.9306666666666666, "grad_norm": 1.40625, "learning_rate": 6.649185151332485e-06, "loss": 1.506239891052246, "step": 698 }, { "epoch": 0.9333333333333333, "grad_norm": 2.109375, "learning_rate": 6.632134798623737e-06, "loss": 1.7539687156677246, "step": 700 }, { "epoch": 0.936, "grad_norm": 2.03125, "learning_rate": 6.615072657843156e-06, "loss": 1.2564361095428467, "step": 702 }, { "epoch": 0.9386666666666666, "grad_norm": 1.15625, "learning_rate": 6.5979990471661335e-06, "loss": 1.3847129344940186, "step": 704 }, { "epoch": 0.9413333333333334, "grad_norm": 2.03125, "learning_rate": 6.580914284981962e-06, "loss": 1.7712434530258179, "step": 706 }, { "epoch": 0.944, "grad_norm": 4.15625, "learning_rate": 6.563818689887885e-06, "loss": 1.4932998418807983, "step": 708 }, { "epoch": 0.9466666666666667, "grad_norm": 0.62109375, "learning_rate": 6.546712580683152e-06, "loss": 1.107796311378479, "step": 710 }, { "epoch": 0.9493333333333334, "grad_norm": 1.28125, "learning_rate": 6.529596276363094e-06, "loss": 1.3415144681930542, "step": 712 }, { "epoch": 0.952, "grad_norm": 2.421875, "learning_rate": 6.512470096113147e-06, "loss": 1.6433172225952148, "step": 714 }, { "epoch": 0.9546666666666667, "grad_norm": 2.25, "learning_rate": 6.495334359302922e-06, "loss": 1.649156093597412, "step": 716 }, { "epoch": 0.9573333333333334, "grad_norm": 1.453125, "learning_rate": 6.4781893854802355e-06, "loss": 1.3250529766082764, "step": 718 }, { "epoch": 0.96, "grad_norm": 2.375, "learning_rate": 6.461035494365164e-06, "loss": 1.5366730690002441, "step": 720 }, { "epoch": 0.9626666666666667, "grad_norm": 4.375, "learning_rate": 6.4438730058440654e-06, "loss": 0.864828884601593, "step": 722 }, { "epoch": 0.9653333333333334, "grad_norm": 1.6796875, "learning_rate": 6.426702239963626e-06, "loss": 1.3839855194091797, "step": 724 }, { "epoch": 0.968, "grad_norm": 1.3125, "learning_rate": 6.409523516924892e-06, "loss": 1.2062398195266724, "step": 726 }, { "epoch": 0.9706666666666667, "grad_norm": 0.7578125, "learning_rate": 6.3923371570772864e-06, "loss": 1.1528677940368652, "step": 728 }, { "epoch": 0.9733333333333334, "grad_norm": 2.296875, "learning_rate": 6.375143480912653e-06, "loss": 1.5206118822097778, "step": 730 }, { "epoch": 0.976, "grad_norm": 5.25, "learning_rate": 6.357942809059265e-06, "loss": 1.7464332580566406, "step": 732 }, { "epoch": 0.9786666666666667, "grad_norm": 4.96875, "learning_rate": 6.340735462275851e-06, "loss": 1.7136986255645752, "step": 734 }, { "epoch": 0.9813333333333333, "grad_norm": 2.46875, "learning_rate": 6.323521761445618e-06, "loss": 1.6088483333587646, "step": 736 }, { "epoch": 0.984, "grad_norm": 2.21875, "learning_rate": 6.306302027570261e-06, "loss": 1.452860713005066, "step": 738 }, { "epoch": 0.9866666666666667, "grad_norm": 2.84375, "learning_rate": 6.289076581763977e-06, "loss": 1.740750789642334, "step": 740 }, { "epoch": 0.9893333333333333, "grad_norm": 0.765625, "learning_rate": 6.271845745247487e-06, "loss": 1.3204482793807983, "step": 742 }, { "epoch": 0.992, "grad_norm": 3.859375, "learning_rate": 6.254609839342029e-06, "loss": 1.7413170337677002, "step": 744 }, { "epoch": 0.9946666666666667, "grad_norm": 2.03125, "learning_rate": 6.237369185463381e-06, "loss": 1.5562351942062378, "step": 746 }, { "epoch": 0.9973333333333333, "grad_norm": 2.453125, "learning_rate": 6.22012410511586e-06, "loss": 1.4224789142608643, "step": 748 }, { "epoch": 1.0, "grad_norm": 1.421875, "learning_rate": 6.202874919886326e-06, "loss": 1.2299535274505615, "step": 750 }, { "epoch": 1.0026666666666666, "grad_norm": 2.609375, "learning_rate": 6.18562195143819e-06, "loss": 1.172806978225708, "step": 752 }, { "epoch": 1.0053333333333334, "grad_norm": 1.71875, "learning_rate": 6.168365521505408e-06, "loss": 1.764769196510315, "step": 754 }, { "epoch": 1.008, "grad_norm": 3.328125, "learning_rate": 6.151105951886493e-06, "loss": 1.5763128995895386, "step": 756 }, { "epoch": 1.0106666666666666, "grad_norm": 2.734375, "learning_rate": 6.133843564438502e-06, "loss": 1.594759464263916, "step": 758 }, { "epoch": 1.0133333333333334, "grad_norm": 2.296875, "learning_rate": 6.116578681071039e-06, "loss": 1.7260303497314453, "step": 760 }, { "epoch": 1.016, "grad_norm": 2.15625, "learning_rate": 6.099311623740254e-06, "loss": 1.4316805601119995, "step": 762 }, { "epoch": 1.0186666666666666, "grad_norm": 1.6953125, "learning_rate": 6.082042714442835e-06, "loss": 1.2587862014770508, "step": 764 }, { "epoch": 1.0213333333333334, "grad_norm": 1.5859375, "learning_rate": 6.064772275210007e-06, "loss": 1.513768196105957, "step": 766 }, { "epoch": 1.024, "grad_norm": 3.015625, "learning_rate": 6.047500628101526e-06, "loss": 1.3291665315628052, "step": 768 }, { "epoch": 1.0266666666666666, "grad_norm": 11.875, "learning_rate": 6.030228095199668e-06, "loss": 1.3844798803329468, "step": 770 }, { "epoch": 1.0293333333333334, "grad_norm": 2.0, "learning_rate": 6.012954998603235e-06, "loss": 1.7538549900054932, "step": 772 }, { "epoch": 1.032, "grad_norm": 2.34375, "learning_rate": 5.995681660421535e-06, "loss": 1.556398630142212, "step": 774 }, { "epoch": 1.0346666666666666, "grad_norm": 4.625, "learning_rate": 5.978408402768383e-06, "loss": 1.5508222579956055, "step": 776 }, { "epoch": 1.0373333333333334, "grad_norm": 4.46875, "learning_rate": 5.961135547756092e-06, "loss": 1.7790374755859375, "step": 778 }, { "epoch": 1.04, "grad_norm": 0.81640625, "learning_rate": 5.943863417489464e-06, "loss": 1.4949337244033813, "step": 780 }, { "epoch": 1.0426666666666666, "grad_norm": 2.734375, "learning_rate": 5.926592334059791e-06, "loss": 1.7578078508377075, "step": 782 }, { "epoch": 1.0453333333333332, "grad_norm": 0.7734375, "learning_rate": 5.909322619538841e-06, "loss": 0.9583984613418579, "step": 784 }, { "epoch": 1.048, "grad_norm": 6.34375, "learning_rate": 5.892054595972853e-06, "loss": 1.06181001663208, "step": 786 }, { "epoch": 1.0506666666666666, "grad_norm": 2.484375, "learning_rate": 5.874788585376536e-06, "loss": 1.4504938125610352, "step": 788 }, { "epoch": 1.0533333333333332, "grad_norm": 6.71875, "learning_rate": 5.857524909727058e-06, "loss": 1.3164362907409668, "step": 790 }, { "epoch": 1.056, "grad_norm": 1.390625, "learning_rate": 5.8402638909580475e-06, "loss": 1.6445064544677734, "step": 792 }, { "epoch": 1.0586666666666666, "grad_norm": 1.734375, "learning_rate": 5.823005850953587e-06, "loss": 1.434309720993042, "step": 794 }, { "epoch": 1.0613333333333332, "grad_norm": 1.59375, "learning_rate": 5.805751111542208e-06, "loss": 1.0262486934661865, "step": 796 }, { "epoch": 1.064, "grad_norm": 2.171875, "learning_rate": 5.788499994490896e-06, "loss": 1.5330429077148438, "step": 798 }, { "epoch": 1.0666666666666667, "grad_norm": 3.171875, "learning_rate": 5.7712528214990845e-06, "loss": 1.489874243736267, "step": 800 }, { "epoch": 1.0693333333333332, "grad_norm": 2.53125, "learning_rate": 5.754009914192662e-06, "loss": 1.4821736812591553, "step": 802 }, { "epoch": 1.072, "grad_norm": 1.5625, "learning_rate": 5.736771594117963e-06, "loss": 1.4925849437713623, "step": 804 }, { "epoch": 1.0746666666666667, "grad_norm": 4.90625, "learning_rate": 5.719538182735784e-06, "loss": 1.8200527429580688, "step": 806 }, { "epoch": 1.0773333333333333, "grad_norm": 1.921875, "learning_rate": 5.7023100014153856e-06, "loss": 1.3270630836486816, "step": 808 }, { "epoch": 1.08, "grad_norm": 1.9296875, "learning_rate": 5.685087371428493e-06, "loss": 1.3524571657180786, "step": 810 }, { "epoch": 1.0826666666666667, "grad_norm": 1.8828125, "learning_rate": 5.667870613943314e-06, "loss": 1.3875995874404907, "step": 812 }, { "epoch": 1.0853333333333333, "grad_norm": 0.8671875, "learning_rate": 5.650660050018545e-06, "loss": 1.157785177230835, "step": 814 }, { "epoch": 1.088, "grad_norm": 2.171875, "learning_rate": 5.633456000597382e-06, "loss": 1.5274962186813354, "step": 816 }, { "epoch": 1.0906666666666667, "grad_norm": 1.9453125, "learning_rate": 5.616258786501543e-06, "loss": 1.6105566024780273, "step": 818 }, { "epoch": 1.0933333333333333, "grad_norm": 1.296875, "learning_rate": 5.599068728425276e-06, "loss": 1.546241044998169, "step": 820 }, { "epoch": 1.096, "grad_norm": 1.15625, "learning_rate": 5.581886146929388e-06, "loss": 1.305572509765625, "step": 822 }, { "epoch": 1.0986666666666667, "grad_norm": 2.046875, "learning_rate": 5.564711362435255e-06, "loss": 0.9126944541931152, "step": 824 }, { "epoch": 1.1013333333333333, "grad_norm": 4.03125, "learning_rate": 5.547544695218864e-06, "loss": 1.5866506099700928, "step": 826 }, { "epoch": 1.104, "grad_norm": 1.59375, "learning_rate": 5.530386465404822e-06, "loss": 1.5233993530273438, "step": 828 }, { "epoch": 1.1066666666666667, "grad_norm": 1.890625, "learning_rate": 5.513236992960403e-06, "loss": 1.2203359603881836, "step": 830 }, { "epoch": 1.1093333333333333, "grad_norm": 2.0625, "learning_rate": 5.4960965976895645e-06, "loss": 1.489206314086914, "step": 832 }, { "epoch": 1.112, "grad_norm": 1.859375, "learning_rate": 5.4789655992269996e-06, "loss": 1.3313140869140625, "step": 834 }, { "epoch": 1.1146666666666667, "grad_norm": 1.8125, "learning_rate": 5.461844317032167e-06, "loss": 1.4914991855621338, "step": 836 }, { "epoch": 1.1173333333333333, "grad_norm": 1.625, "learning_rate": 5.4447330703833345e-06, "loss": 1.1239522695541382, "step": 838 }, { "epoch": 1.12, "grad_norm": 2.90625, "learning_rate": 5.427632178371629e-06, "loss": 1.7105292081832886, "step": 840 }, { "epoch": 1.1226666666666667, "grad_norm": 2.21875, "learning_rate": 5.410541959895083e-06, "loss": 1.4293630123138428, "step": 842 }, { "epoch": 1.1253333333333333, "grad_norm": 3.296875, "learning_rate": 5.3934627336526875e-06, "loss": 1.3599791526794434, "step": 844 }, { "epoch": 1.1280000000000001, "grad_norm": 1.609375, "learning_rate": 5.376394818138454e-06, "loss": 1.4635355472564697, "step": 846 }, { "epoch": 1.1306666666666667, "grad_norm": 1.9296875, "learning_rate": 5.359338531635465e-06, "loss": 1.4371678829193115, "step": 848 }, { "epoch": 1.1333333333333333, "grad_norm": 1.1640625, "learning_rate": 5.342294192209949e-06, "loss": 1.2858989238739014, "step": 850 }, { "epoch": 1.1360000000000001, "grad_norm": 2.96875, "learning_rate": 5.325262117705343e-06, "loss": 1.7143357992172241, "step": 852 }, { "epoch": 1.1386666666666667, "grad_norm": 3.171875, "learning_rate": 5.308242625736369e-06, "loss": 1.489912509918213, "step": 854 }, { "epoch": 1.1413333333333333, "grad_norm": 3.34375, "learning_rate": 5.291236033683109e-06, "loss": 1.1953822374343872, "step": 856 }, { "epoch": 1.144, "grad_norm": 1.2421875, "learning_rate": 5.274242658685086e-06, "loss": 1.5241276025772095, "step": 858 }, { "epoch": 1.1466666666666667, "grad_norm": 2.171875, "learning_rate": 5.2572628176353515e-06, "loss": 1.6142327785491943, "step": 860 }, { "epoch": 1.1493333333333333, "grad_norm": 1.8046875, "learning_rate": 5.240296827174573e-06, "loss": 1.5041123628616333, "step": 862 }, { "epoch": 1.152, "grad_norm": 3.140625, "learning_rate": 5.223345003685137e-06, "loss": 1.388901948928833, "step": 864 }, { "epoch": 1.1546666666666667, "grad_norm": 2.890625, "learning_rate": 5.206407663285241e-06, "loss": 1.522491693496704, "step": 866 }, { "epoch": 1.1573333333333333, "grad_norm": 2.109375, "learning_rate": 5.189485121823e-06, "loss": 1.3894884586334229, "step": 868 }, { "epoch": 1.16, "grad_norm": 1.0078125, "learning_rate": 5.172577694870559e-06, "loss": 1.57672119140625, "step": 870 }, { "epoch": 1.1626666666666667, "grad_norm": 2.421875, "learning_rate": 5.155685697718208e-06, "loss": 1.6170611381530762, "step": 872 }, { "epoch": 1.1653333333333333, "grad_norm": 1.8828125, "learning_rate": 5.138809445368501e-06, "loss": 1.3424224853515625, "step": 874 }, { "epoch": 1.168, "grad_norm": 3.875, "learning_rate": 5.121949252530382e-06, "loss": 1.4999639987945557, "step": 876 }, { "epoch": 1.1706666666666667, "grad_norm": 2.140625, "learning_rate": 5.1051054336133155e-06, "loss": 1.297871708869934, "step": 878 }, { "epoch": 1.1733333333333333, "grad_norm": 4.5, "learning_rate": 5.088278302721428e-06, "loss": 1.5392343997955322, "step": 880 }, { "epoch": 1.176, "grad_norm": 0.734375, "learning_rate": 5.071468173647642e-06, "loss": 1.3566569089889526, "step": 882 }, { "epoch": 1.1786666666666668, "grad_norm": 1.53125, "learning_rate": 5.054675359867835e-06, "loss": 1.593224287033081, "step": 884 }, { "epoch": 1.1813333333333333, "grad_norm": 1.3671875, "learning_rate": 5.0379001745349865e-06, "loss": 1.1906827688217163, "step": 886 }, { "epoch": 1.184, "grad_norm": 1.6015625, "learning_rate": 5.021142930473336e-06, "loss": 1.4332338571548462, "step": 888 }, { "epoch": 1.1866666666666668, "grad_norm": 0.68359375, "learning_rate": 5.004403940172561e-06, "loss": 1.3928399085998535, "step": 890 }, { "epoch": 1.1893333333333334, "grad_norm": 5.5625, "learning_rate": 4.987683515781936e-06, "loss": 1.270801067352295, "step": 892 }, { "epoch": 1.192, "grad_norm": 0.66796875, "learning_rate": 4.970981969104519e-06, "loss": 1.0467917919158936, "step": 894 }, { "epoch": 1.1946666666666665, "grad_norm": 2.84375, "learning_rate": 4.954299611591339e-06, "loss": 1.3591139316558838, "step": 896 }, { "epoch": 1.1973333333333334, "grad_norm": 2.671875, "learning_rate": 4.937636754335579e-06, "loss": 1.5114859342575073, "step": 898 }, { "epoch": 1.2, "grad_norm": 1.765625, "learning_rate": 4.920993708066788e-06, "loss": 1.3968205451965332, "step": 900 }, { "epoch": 1.2026666666666666, "grad_norm": 9.1875, "learning_rate": 4.9043707831450735e-06, "loss": 1.5956389904022217, "step": 902 }, { "epoch": 1.2053333333333334, "grad_norm": 4.65625, "learning_rate": 4.88776828955532e-06, "loss": 1.5300307273864746, "step": 904 }, { "epoch": 1.208, "grad_norm": 2.59375, "learning_rate": 4.87118653690141e-06, "loss": 1.3023169040679932, "step": 906 }, { "epoch": 1.2106666666666666, "grad_norm": 2.921875, "learning_rate": 4.854625834400446e-06, "loss": 1.2509310245513916, "step": 908 }, { "epoch": 1.2133333333333334, "grad_norm": 12.5, "learning_rate": 4.838086490876988e-06, "loss": 1.1443192958831787, "step": 910 }, { "epoch": 1.216, "grad_norm": 0.875, "learning_rate": 4.821568814757292e-06, "loss": 1.465092420578003, "step": 912 }, { "epoch": 1.2186666666666666, "grad_norm": 1.421875, "learning_rate": 4.805073114063561e-06, "loss": 1.2904925346374512, "step": 914 }, { "epoch": 1.2213333333333334, "grad_norm": 3.296875, "learning_rate": 4.788599696408198e-06, "loss": 1.1972200870513916, "step": 916 }, { "epoch": 1.224, "grad_norm": 0.6484375, "learning_rate": 4.772148868988071e-06, "loss": 1.2111375331878662, "step": 918 }, { "epoch": 1.2266666666666666, "grad_norm": 2.109375, "learning_rate": 4.755720938578787e-06, "loss": 1.49501633644104, "step": 920 }, { "epoch": 1.2293333333333334, "grad_norm": 0.83203125, "learning_rate": 4.739316211528967e-06, "loss": 1.3149592876434326, "step": 922 }, { "epoch": 1.232, "grad_norm": 2.71875, "learning_rate": 4.722934993754533e-06, "loss": 1.642383337020874, "step": 924 }, { "epoch": 1.2346666666666666, "grad_norm": 1.5703125, "learning_rate": 4.706577590733007e-06, "loss": 1.3257958889007568, "step": 926 }, { "epoch": 1.2373333333333334, "grad_norm": 2.0625, "learning_rate": 4.690244307497814e-06, "loss": 1.276841163635254, "step": 928 }, { "epoch": 1.24, "grad_norm": 1.859375, "learning_rate": 4.673935448632591e-06, "loss": 1.721373200416565, "step": 930 }, { "epoch": 1.2426666666666666, "grad_norm": 1.7578125, "learning_rate": 4.657651318265509e-06, "loss": 1.4675047397613525, "step": 932 }, { "epoch": 1.2453333333333334, "grad_norm": 0.796875, "learning_rate": 4.641392220063599e-06, "loss": 1.465226173400879, "step": 934 }, { "epoch": 1.248, "grad_norm": 0.77734375, "learning_rate": 4.6251584572270935e-06, "loss": 1.2223048210144043, "step": 936 }, { "epoch": 1.2506666666666666, "grad_norm": 1.5859375, "learning_rate": 4.608950332483773e-06, "loss": 1.4375481605529785, "step": 938 }, { "epoch": 1.2533333333333334, "grad_norm": 1.21875, "learning_rate": 4.5927681480833095e-06, "loss": 1.3203275203704834, "step": 940 }, { "epoch": 1.256, "grad_norm": 0.42578125, "learning_rate": 4.5766122057916485e-06, "loss": 1.1648380756378174, "step": 942 }, { "epoch": 1.2586666666666666, "grad_norm": 2.65625, "learning_rate": 4.560482806885362e-06, "loss": 1.4603443145751953, "step": 944 }, { "epoch": 1.2613333333333334, "grad_norm": 3.046875, "learning_rate": 4.54438025214605e-06, "loss": 1.5609309673309326, "step": 946 }, { "epoch": 1.264, "grad_norm": 2.140625, "learning_rate": 4.528304841854715e-06, "loss": 1.4321218729019165, "step": 948 }, { "epoch": 1.2666666666666666, "grad_norm": 0.88671875, "learning_rate": 4.512256875786168e-06, "loss": 1.4748444557189941, "step": 950 }, { "epoch": 1.2693333333333334, "grad_norm": 4.46875, "learning_rate": 4.496236653203444e-06, "loss": 1.429595947265625, "step": 952 }, { "epoch": 1.272, "grad_norm": 2.328125, "learning_rate": 4.480244472852213e-06, "loss": 1.7245969772338867, "step": 954 }, { "epoch": 1.2746666666666666, "grad_norm": 2.640625, "learning_rate": 4.464280632955216e-06, "loss": 0.8795217275619507, "step": 956 }, { "epoch": 1.2773333333333334, "grad_norm": 1.921875, "learning_rate": 4.448345431206694e-06, "loss": 1.307784080505371, "step": 958 }, { "epoch": 1.28, "grad_norm": 0.98828125, "learning_rate": 4.4324391647668506e-06, "loss": 1.1998255252838135, "step": 960 }, { "epoch": 1.2826666666666666, "grad_norm": 1.1015625, "learning_rate": 4.416562130256296e-06, "loss": 1.2785608768463135, "step": 962 }, { "epoch": 1.2853333333333334, "grad_norm": 1.2578125, "learning_rate": 4.400714623750524e-06, "loss": 1.2859876155853271, "step": 964 }, { "epoch": 1.288, "grad_norm": 3.703125, "learning_rate": 4.3848969407743944e-06, "loss": 1.8891761302947998, "step": 966 }, { "epoch": 1.2906666666666666, "grad_norm": 2.15625, "learning_rate": 4.369109376296609e-06, "loss": 1.6439094543457031, "step": 968 }, { "epoch": 1.2933333333333334, "grad_norm": 5.21875, "learning_rate": 4.353352224724225e-06, "loss": 1.514702558517456, "step": 970 }, { "epoch": 1.296, "grad_norm": 1.59375, "learning_rate": 4.3376257798971555e-06, "loss": 1.4659841060638428, "step": 972 }, { "epoch": 1.2986666666666666, "grad_norm": 3.4375, "learning_rate": 4.321930335082692e-06, "loss": 1.5239222049713135, "step": 974 }, { "epoch": 1.3013333333333335, "grad_norm": 2.109375, "learning_rate": 4.306266182970042e-06, "loss": 1.4437575340270996, "step": 976 }, { "epoch": 1.304, "grad_norm": 12.3125, "learning_rate": 4.290633615664856e-06, "loss": 1.486495018005371, "step": 978 }, { "epoch": 1.3066666666666666, "grad_norm": 3.328125, "learning_rate": 4.275032924683801e-06, "loss": 1.6699053049087524, "step": 980 }, { "epoch": 1.3093333333333335, "grad_norm": 1.4296875, "learning_rate": 4.259464400949107e-06, "loss": 1.30124831199646, "step": 982 }, { "epoch": 1.312, "grad_norm": 0.953125, "learning_rate": 4.243928334783149e-06, "loss": 1.3807833194732666, "step": 984 }, { "epoch": 1.3146666666666667, "grad_norm": 3.71875, "learning_rate": 4.228425015903033e-06, "loss": 1.4485820531845093, "step": 986 }, { "epoch": 1.3173333333333335, "grad_norm": 1.7421875, "learning_rate": 4.212954733415191e-06, "loss": 1.6855344772338867, "step": 988 }, { "epoch": 1.32, "grad_norm": 1.7421875, "learning_rate": 4.197517775809992e-06, "loss": 1.4031494855880737, "step": 990 }, { "epoch": 1.3226666666666667, "grad_norm": 2.265625, "learning_rate": 4.182114430956361e-06, "loss": 1.659409523010254, "step": 992 }, { "epoch": 1.3253333333333333, "grad_norm": 1.8671875, "learning_rate": 4.166744986096413e-06, "loss": 1.4284895658493042, "step": 994 }, { "epoch": 1.328, "grad_norm": 2.25, "learning_rate": 4.151409727840092e-06, "loss": 1.448912262916565, "step": 996 }, { "epoch": 1.3306666666666667, "grad_norm": 3.15625, "learning_rate": 4.136108942159832e-06, "loss": 1.7958948612213135, "step": 998 }, { "epoch": 1.3333333333333333, "grad_norm": 2.75, "learning_rate": 4.120842914385218e-06, "loss": 1.4040802717208862, "step": 1000 }, { "epoch": 1.336, "grad_norm": 0.83984375, "learning_rate": 4.10561192919767e-06, "loss": 1.301011323928833, "step": 1002 }, { "epoch": 1.3386666666666667, "grad_norm": 1.8984375, "learning_rate": 4.090416270625135e-06, "loss": 1.4286404848098755, "step": 1004 }, { "epoch": 1.3413333333333333, "grad_norm": 1.4296875, "learning_rate": 4.0752562220367794e-06, "loss": 1.3214401006698608, "step": 1006 }, { "epoch": 1.3439999999999999, "grad_norm": 1.59375, "learning_rate": 4.060132066137727e-06, "loss": 1.5171817541122437, "step": 1008 }, { "epoch": 1.3466666666666667, "grad_norm": 1.4296875, "learning_rate": 4.045044084963763e-06, "loss": 1.4768675565719604, "step": 1010 }, { "epoch": 1.3493333333333333, "grad_norm": 1.3828125, "learning_rate": 4.029992559876087e-06, "loss": 1.415074348449707, "step": 1012 }, { "epoch": 1.3519999999999999, "grad_norm": 1.796875, "learning_rate": 4.0149777715560674e-06, "loss": 1.5330753326416016, "step": 1014 }, { "epoch": 1.3546666666666667, "grad_norm": 8.3125, "learning_rate": 4.0000000000000015e-06, "loss": 1.3747649192810059, "step": 1016 }, { "epoch": 1.3573333333333333, "grad_norm": 3.390625, "learning_rate": 3.985059524513896e-06, "loss": 1.2210909128189087, "step": 1018 }, { "epoch": 1.3599999999999999, "grad_norm": 2.546875, "learning_rate": 3.970156623708261e-06, "loss": 1.791236400604248, "step": 1020 }, { "epoch": 1.3626666666666667, "grad_norm": 0.7890625, "learning_rate": 3.955291575492912e-06, "loss": 1.266838550567627, "step": 1022 }, { "epoch": 1.3653333333333333, "grad_norm": 2.171875, "learning_rate": 3.940464657071787e-06, "loss": 1.4428675174713135, "step": 1024 }, { "epoch": 1.3679999999999999, "grad_norm": 1.765625, "learning_rate": 3.925676144937782e-06, "loss": 1.6305105686187744, "step": 1026 }, { "epoch": 1.3706666666666667, "grad_norm": 2.578125, "learning_rate": 3.910926314867587e-06, "loss": 1.2980940341949463, "step": 1028 }, { "epoch": 1.3733333333333333, "grad_norm": 13.3125, "learning_rate": 3.896215441916549e-06, "loss": 1.6991345882415771, "step": 1030 }, { "epoch": 1.376, "grad_norm": 2.765625, "learning_rate": 3.881543800413542e-06, "loss": 1.3022918701171875, "step": 1032 }, { "epoch": 1.3786666666666667, "grad_norm": 4.34375, "learning_rate": 3.866911663955849e-06, "loss": 1.6827547550201416, "step": 1034 }, { "epoch": 1.3813333333333333, "grad_norm": 7.0625, "learning_rate": 3.852319305404066e-06, "loss": 1.3844313621520996, "step": 1036 }, { "epoch": 1.384, "grad_norm": 2.015625, "learning_rate": 3.837766996877e-06, "loss": 1.5110915899276733, "step": 1038 }, { "epoch": 1.3866666666666667, "grad_norm": 2.046875, "learning_rate": 3.823255009746614e-06, "loss": 1.7469675540924072, "step": 1040 }, { "epoch": 1.3893333333333333, "grad_norm": 0.92578125, "learning_rate": 3.8087836146329487e-06, "loss": 1.1735780239105225, "step": 1042 }, { "epoch": 1.392, "grad_norm": 2.65625, "learning_rate": 3.7943530813990885e-06, "loss": 1.5993540287017822, "step": 1044 }, { "epoch": 1.3946666666666667, "grad_norm": 2.78125, "learning_rate": 3.7799636791461215e-06, "loss": 1.493753433227539, "step": 1046 }, { "epoch": 1.3973333333333333, "grad_norm": 1.578125, "learning_rate": 3.765615676208123e-06, "loss": 1.4443812370300293, "step": 1048 }, { "epoch": 1.4, "grad_norm": 1.859375, "learning_rate": 3.7513093401471554e-06, "loss": 0.9010155200958252, "step": 1050 }, { "epoch": 1.4026666666666667, "grad_norm": 1.625, "learning_rate": 3.737044937748271e-06, "loss": 1.2743403911590576, "step": 1052 }, { "epoch": 1.4053333333333333, "grad_norm": 4.4375, "learning_rate": 3.7228227350145496e-06, "loss": 0.899776816368103, "step": 1054 }, { "epoch": 1.408, "grad_norm": 0.7421875, "learning_rate": 3.7086429971621212e-06, "loss": 1.3807284832000732, "step": 1056 }, { "epoch": 1.4106666666666667, "grad_norm": 2.140625, "learning_rate": 3.6945059886152357e-06, "loss": 1.4470179080963135, "step": 1058 }, { "epoch": 1.4133333333333333, "grad_norm": 1.859375, "learning_rate": 3.680411973001321e-06, "loss": 1.6697869300842285, "step": 1060 }, { "epoch": 1.416, "grad_norm": 1.5703125, "learning_rate": 3.6663612131460746e-06, "loss": 1.5406875610351562, "step": 1062 }, { "epoch": 1.4186666666666667, "grad_norm": 1.2578125, "learning_rate": 3.6523539710685584e-06, "loss": 1.4189198017120361, "step": 1064 }, { "epoch": 1.4213333333333333, "grad_norm": 1.1484375, "learning_rate": 3.6383905079763102e-06, "loss": 1.0879052877426147, "step": 1066 }, { "epoch": 1.424, "grad_norm": 2.125, "learning_rate": 3.6244710842604808e-06, "loss": 1.5092581510543823, "step": 1068 }, { "epoch": 1.4266666666666667, "grad_norm": 16.5, "learning_rate": 3.610595959490968e-06, "loss": 1.2460155487060547, "step": 1070 }, { "epoch": 1.4293333333333333, "grad_norm": 6.46875, "learning_rate": 3.5967653924115863e-06, "loss": 1.3782910108566284, "step": 1072 }, { "epoch": 1.432, "grad_norm": 4.5625, "learning_rate": 3.5829796409352337e-06, "loss": 1.2795217037200928, "step": 1074 }, { "epoch": 1.4346666666666668, "grad_norm": 1.765625, "learning_rate": 3.5692389621390834e-06, "loss": 1.661920189857483, "step": 1076 }, { "epoch": 1.4373333333333334, "grad_norm": 1.703125, "learning_rate": 3.5555436122597993e-06, "loss": 1.5289561748504639, "step": 1078 }, { "epoch": 1.44, "grad_norm": 2.765625, "learning_rate": 3.541893846688741e-06, "loss": 1.3745149374008179, "step": 1080 }, { "epoch": 1.4426666666666668, "grad_norm": 0.859375, "learning_rate": 3.528289919967216e-06, "loss": 1.2683101892471313, "step": 1082 }, { "epoch": 1.4453333333333334, "grad_norm": 1.65625, "learning_rate": 3.5147320857817257e-06, "loss": 1.6564890146255493, "step": 1084 }, { "epoch": 1.448, "grad_norm": 1.296875, "learning_rate": 3.5012205969592354e-06, "loss": 1.2393252849578857, "step": 1086 }, { "epoch": 1.4506666666666668, "grad_norm": 1.921875, "learning_rate": 3.4877557054624622e-06, "loss": 1.5807795524597168, "step": 1088 }, { "epoch": 1.4533333333333334, "grad_norm": 4.5625, "learning_rate": 3.474337662385172e-06, "loss": 1.3979017734527588, "step": 1090 }, { "epoch": 1.456, "grad_norm": 2.5625, "learning_rate": 3.4609667179475036e-06, "loss": 1.487921953201294, "step": 1092 }, { "epoch": 1.4586666666666668, "grad_norm": 1.5625, "learning_rate": 3.4476431214912963e-06, "loss": 1.3920189142227173, "step": 1094 }, { "epoch": 1.4613333333333334, "grad_norm": 3.203125, "learning_rate": 3.4343671214754414e-06, "loss": 1.5807299613952637, "step": 1096 }, { "epoch": 1.464, "grad_norm": 1.9296875, "learning_rate": 3.4211389654712514e-06, "loss": 1.5179126262664795, "step": 1098 }, { "epoch": 1.4666666666666668, "grad_norm": 1.8046875, "learning_rate": 3.4079589001578452e-06, "loss": 0.9419519901275635, "step": 1100 }, { "epoch": 1.4693333333333334, "grad_norm": 0.875, "learning_rate": 3.3948271713175396e-06, "loss": 1.4038584232330322, "step": 1102 }, { "epoch": 1.472, "grad_norm": 2.109375, "learning_rate": 3.3817440238312725e-06, "loss": 1.4261444807052612, "step": 1104 }, { "epoch": 1.4746666666666668, "grad_norm": 3.171875, "learning_rate": 3.3687097016740387e-06, "loss": 1.7290048599243164, "step": 1106 }, { "epoch": 1.4773333333333334, "grad_norm": 2.15625, "learning_rate": 3.355724447910331e-06, "loss": 1.2322664260864258, "step": 1108 }, { "epoch": 1.48, "grad_norm": 1.515625, "learning_rate": 3.3427885046896176e-06, "loss": 1.433166265487671, "step": 1110 }, { "epoch": 1.4826666666666668, "grad_norm": 0.9453125, "learning_rate": 3.3299021132418195e-06, "loss": 1.3946583271026611, "step": 1112 }, { "epoch": 1.4853333333333334, "grad_norm": 2.015625, "learning_rate": 3.3170655138728146e-06, "loss": 1.5457172393798828, "step": 1114 }, { "epoch": 1.488, "grad_norm": 2.8125, "learning_rate": 3.304278945959957e-06, "loss": 1.6738321781158447, "step": 1116 }, { "epoch": 1.4906666666666666, "grad_norm": 3.09375, "learning_rate": 3.291542647947614e-06, "loss": 1.714116096496582, "step": 1118 }, { "epoch": 1.4933333333333334, "grad_norm": 1.34375, "learning_rate": 3.2788568573427148e-06, "loss": 1.0393377542495728, "step": 1120 }, { "epoch": 1.496, "grad_norm": 2.9375, "learning_rate": 3.266221810710326e-06, "loss": 1.6164016723632812, "step": 1122 }, { "epoch": 1.4986666666666666, "grad_norm": 0.85546875, "learning_rate": 3.253637743669242e-06, "loss": 1.0834544897079468, "step": 1124 }, { "epoch": 1.5013333333333332, "grad_norm": 2.609375, "learning_rate": 3.241104890887583e-06, "loss": 1.6497541666030884, "step": 1126 }, { "epoch": 1.504, "grad_norm": 2.625, "learning_rate": 3.228623486078426e-06, "loss": 1.5047144889831543, "step": 1128 }, { "epoch": 1.5066666666666668, "grad_norm": 0.65625, "learning_rate": 3.2161937619954453e-06, "loss": 1.4504725933074951, "step": 1130 }, { "epoch": 1.5093333333333332, "grad_norm": 1.09375, "learning_rate": 3.2038159504285705e-06, "loss": 1.492081880569458, "step": 1132 }, { "epoch": 1.512, "grad_norm": 4.15625, "learning_rate": 3.1914902821996643e-06, "loss": 1.5089662075042725, "step": 1134 }, { "epoch": 1.5146666666666668, "grad_norm": 0.470703125, "learning_rate": 3.179216987158218e-06, "loss": 1.2040472030639648, "step": 1136 }, { "epoch": 1.5173333333333332, "grad_norm": 2.8125, "learning_rate": 3.1669962941770682e-06, "loss": 1.5398011207580566, "step": 1138 }, { "epoch": 1.52, "grad_norm": 4.0, "learning_rate": 3.1548284311481242e-06, "loss": 1.800908088684082, "step": 1140 }, { "epoch": 1.5226666666666666, "grad_norm": 0.99609375, "learning_rate": 3.142713624978122e-06, "loss": 1.1302399635314941, "step": 1142 }, { "epoch": 1.5253333333333332, "grad_norm": 1.5703125, "learning_rate": 3.1306521015843898e-06, "loss": 1.6033101081848145, "step": 1144 }, { "epoch": 1.528, "grad_norm": 0.6953125, "learning_rate": 3.1186440858906397e-06, "loss": 1.024148941040039, "step": 1146 }, { "epoch": 1.5306666666666666, "grad_norm": 2.015625, "learning_rate": 3.1066898018227676e-06, "loss": 1.5519815683364868, "step": 1148 }, { "epoch": 1.5333333333333332, "grad_norm": 0.796875, "learning_rate": 3.094789472304681e-06, "loss": 1.127099871635437, "step": 1150 }, { "epoch": 1.536, "grad_norm": 1.296875, "learning_rate": 3.0829433192541402e-06, "loss": 1.356688141822815, "step": 1152 }, { "epoch": 1.5386666666666666, "grad_norm": 0.9453125, "learning_rate": 3.0711515635786223e-06, "loss": 1.518554449081421, "step": 1154 }, { "epoch": 1.5413333333333332, "grad_norm": 4.5, "learning_rate": 3.0594144251711998e-06, "loss": 1.7277584075927734, "step": 1156 }, { "epoch": 1.544, "grad_norm": 2.015625, "learning_rate": 3.0477321229064395e-06, "loss": 1.6667563915252686, "step": 1158 }, { "epoch": 1.5466666666666666, "grad_norm": 6.1875, "learning_rate": 3.0361048746363218e-06, "loss": 1.0613267421722412, "step": 1160 }, { "epoch": 1.5493333333333332, "grad_norm": 4.28125, "learning_rate": 3.024532897186183e-06, "loss": 1.6659808158874512, "step": 1162 }, { "epoch": 1.552, "grad_norm": 3.46875, "learning_rate": 3.0130164063506604e-06, "loss": 1.814218521118164, "step": 1164 }, { "epoch": 1.5546666666666666, "grad_norm": 3.171875, "learning_rate": 3.0015556168896786e-06, "loss": 1.6521286964416504, "step": 1166 }, { "epoch": 1.5573333333333332, "grad_norm": 2.109375, "learning_rate": 2.990150742524439e-06, "loss": 1.63661789894104, "step": 1168 }, { "epoch": 1.56, "grad_norm": 5.875, "learning_rate": 2.9788019959334395e-06, "loss": 0.815743088722229, "step": 1170 }, { "epoch": 1.5626666666666666, "grad_norm": 9.75, "learning_rate": 2.967509588748504e-06, "loss": 0.5645891427993774, "step": 1172 }, { "epoch": 1.5653333333333332, "grad_norm": 2.140625, "learning_rate": 2.9562737315508353e-06, "loss": 1.4053256511688232, "step": 1174 }, { "epoch": 1.568, "grad_norm": 3.015625, "learning_rate": 2.9450946338670927e-06, "loss": 1.677865982055664, "step": 1176 }, { "epoch": 1.5706666666666667, "grad_norm": 1.9296875, "learning_rate": 2.933972504165479e-06, "loss": 1.245861530303955, "step": 1178 }, { "epoch": 1.5733333333333333, "grad_norm": 1.8671875, "learning_rate": 2.92290754985186e-06, "loss": 1.4501361846923828, "step": 1180 }, { "epoch": 1.576, "grad_norm": 1.5546875, "learning_rate": 2.9118999772658886e-06, "loss": 1.4831395149230957, "step": 1182 }, { "epoch": 1.5786666666666667, "grad_norm": 1.9140625, "learning_rate": 2.9009499916771654e-06, "loss": 1.384798526763916, "step": 1184 }, { "epoch": 1.5813333333333333, "grad_norm": 1.8203125, "learning_rate": 2.8900577972814036e-06, "loss": 1.6007227897644043, "step": 1186 }, { "epoch": 1.584, "grad_norm": 1.3984375, "learning_rate": 2.8792235971966254e-06, "loss": 1.2757967710494995, "step": 1188 }, { "epoch": 1.5866666666666667, "grad_norm": 2.921875, "learning_rate": 2.8684475934593723e-06, "loss": 1.583537220954895, "step": 1190 }, { "epoch": 1.5893333333333333, "grad_norm": 4.15625, "learning_rate": 2.857729987020942e-06, "loss": 1.5765447616577148, "step": 1192 }, { "epoch": 1.592, "grad_norm": 0.890625, "learning_rate": 2.8470709777436304e-06, "loss": 1.5107605457305908, "step": 1194 }, { "epoch": 1.5946666666666667, "grad_norm": 1.53125, "learning_rate": 2.836470764397018e-06, "loss": 1.505168080329895, "step": 1196 }, { "epoch": 1.5973333333333333, "grad_norm": 2.84375, "learning_rate": 2.8259295446542533e-06, "loss": 1.5656110048294067, "step": 1198 }, { "epoch": 1.6, "grad_norm": 1.5546875, "learning_rate": 2.81544751508837e-06, "loss": 1.2904706001281738, "step": 1200 }, { "epoch": 1.6026666666666667, "grad_norm": 1.390625, "learning_rate": 2.8050248711686234e-06, "loss": 1.525524616241455, "step": 1202 }, { "epoch": 1.6053333333333333, "grad_norm": 1.2890625, "learning_rate": 2.794661807256841e-06, "loss": 1.3116002082824707, "step": 1204 }, { "epoch": 1.608, "grad_norm": 1.6328125, "learning_rate": 2.7843585166038e-06, "loss": 1.451981782913208, "step": 1206 }, { "epoch": 1.6106666666666667, "grad_norm": 5.78125, "learning_rate": 2.7741151913456275e-06, "loss": 1.2367119789123535, "step": 1208 }, { "epoch": 1.6133333333333333, "grad_norm": 3.609375, "learning_rate": 2.763932022500211e-06, "loss": 1.6221845149993896, "step": 1210 }, { "epoch": 1.616, "grad_norm": 1.4609375, "learning_rate": 2.7538091999636374e-06, "loss": 1.570770263671875, "step": 1212 }, { "epoch": 1.6186666666666667, "grad_norm": 2.546875, "learning_rate": 2.7437469125066553e-06, "loss": 1.758622169494629, "step": 1214 }, { "epoch": 1.6213333333333333, "grad_norm": 3.5625, "learning_rate": 2.7337453477711558e-06, "loss": 1.680159091949463, "step": 1216 }, { "epoch": 1.624, "grad_norm": 3.796875, "learning_rate": 2.7238046922666665e-06, "loss": 0.8679245710372925, "step": 1218 }, { "epoch": 1.6266666666666667, "grad_norm": 3.140625, "learning_rate": 2.713925131366879e-06, "loss": 1.647581696510315, "step": 1220 }, { "epoch": 1.6293333333333333, "grad_norm": 1.6171875, "learning_rate": 2.70410684930619e-06, "loss": 1.5539906024932861, "step": 1222 }, { "epoch": 1.6320000000000001, "grad_norm": 1.625, "learning_rate": 2.6943500291762683e-06, "loss": 1.4344866275787354, "step": 1224 }, { "epoch": 1.6346666666666667, "grad_norm": 1.3046875, "learning_rate": 2.6846548529226353e-06, "loss": 1.1207237243652344, "step": 1226 }, { "epoch": 1.6373333333333333, "grad_norm": 0.9375, "learning_rate": 2.675021501341278e-06, "loss": 1.3701207637786865, "step": 1228 }, { "epoch": 1.6400000000000001, "grad_norm": 0.9609375, "learning_rate": 2.6654501540752732e-06, "loss": 1.1080701351165771, "step": 1230 }, { "epoch": 1.6426666666666667, "grad_norm": 3.03125, "learning_rate": 2.655940989611439e-06, "loss": 1.859466552734375, "step": 1232 }, { "epoch": 1.6453333333333333, "grad_norm": 3.09375, "learning_rate": 2.646494185277008e-06, "loss": 1.6503245830535889, "step": 1234 }, { "epoch": 1.6480000000000001, "grad_norm": 4.375, "learning_rate": 2.6371099172363167e-06, "loss": 1.1200395822525024, "step": 1236 }, { "epoch": 1.6506666666666665, "grad_norm": 3.515625, "learning_rate": 2.6277883604875253e-06, "loss": 1.7879531383514404, "step": 1238 }, { "epoch": 1.6533333333333333, "grad_norm": 1.3671875, "learning_rate": 2.6185296888593498e-06, "loss": 1.4412014484405518, "step": 1240 }, { "epoch": 1.6560000000000001, "grad_norm": 3.078125, "learning_rate": 2.6093340750078217e-06, "loss": 1.2828483581542969, "step": 1242 }, { "epoch": 1.6586666666666665, "grad_norm": 0.83984375, "learning_rate": 2.6002016904130705e-06, "loss": 1.4173190593719482, "step": 1244 }, { "epoch": 1.6613333333333333, "grad_norm": 1.984375, "learning_rate": 2.5911327053761233e-06, "loss": 1.508829116821289, "step": 1246 }, { "epoch": 1.6640000000000001, "grad_norm": 1.2421875, "learning_rate": 2.5821272890157303e-06, "loss": 1.460728645324707, "step": 1248 }, { "epoch": 1.6666666666666665, "grad_norm": 2.21875, "learning_rate": 2.5731856092652115e-06, "loss": 1.6388607025146484, "step": 1250 }, { "epoch": 1.6693333333333333, "grad_norm": 0.96875, "learning_rate": 2.564307832869321e-06, "loss": 1.4898426532745361, "step": 1252 }, { "epoch": 1.6720000000000002, "grad_norm": 2.171875, "learning_rate": 2.555494125381147e-06, "loss": 1.4409737586975098, "step": 1254 }, { "epoch": 1.6746666666666665, "grad_norm": 7.40625, "learning_rate": 2.546744651159014e-06, "loss": 1.618120551109314, "step": 1256 }, { "epoch": 1.6773333333333333, "grad_norm": 4.09375, "learning_rate": 2.538059573363422e-06, "loss": 1.7980014085769653, "step": 1258 }, { "epoch": 1.6800000000000002, "grad_norm": 6.65625, "learning_rate": 2.5294390539540064e-06, "loss": 1.5673316717147827, "step": 1260 }, { "epoch": 1.6826666666666665, "grad_norm": 1.59375, "learning_rate": 2.520883253686516e-06, "loss": 1.4909672737121582, "step": 1262 }, { "epoch": 1.6853333333333333, "grad_norm": 2.640625, "learning_rate": 2.512392332109812e-06, "loss": 1.1935209035873413, "step": 1264 }, { "epoch": 1.688, "grad_norm": 1.421875, "learning_rate": 2.503966447562897e-06, "loss": 1.2633693218231201, "step": 1266 }, { "epoch": 1.6906666666666665, "grad_norm": 2.90625, "learning_rate": 2.495605757171961e-06, "loss": 1.7334074974060059, "step": 1268 }, { "epoch": 1.6933333333333334, "grad_norm": 11.5625, "learning_rate": 2.4873104168474514e-06, "loss": 1.5755627155303955, "step": 1270 }, { "epoch": 1.696, "grad_norm": 1.7109375, "learning_rate": 2.4790805812811644e-06, "loss": 1.522544503211975, "step": 1272 }, { "epoch": 1.6986666666666665, "grad_norm": 3.140625, "learning_rate": 2.4709164039433607e-06, "loss": 1.0176241397857666, "step": 1274 }, { "epoch": 1.7013333333333334, "grad_norm": 1.625, "learning_rate": 2.462818037079906e-06, "loss": 1.4031583070755005, "step": 1276 }, { "epoch": 1.704, "grad_norm": 3.578125, "learning_rate": 2.454785631709429e-06, "loss": 1.2446343898773193, "step": 1278 }, { "epoch": 1.7066666666666666, "grad_norm": 3.25, "learning_rate": 2.4468193376205048e-06, "loss": 1.7184709310531616, "step": 1280 }, { "epoch": 1.7093333333333334, "grad_norm": 1.59375, "learning_rate": 2.4389193033688637e-06, "loss": 1.0342082977294922, "step": 1282 }, { "epoch": 1.712, "grad_norm": 2.34375, "learning_rate": 2.4310856762746234e-06, "loss": 1.4483562707901, "step": 1284 }, { "epoch": 1.7146666666666666, "grad_norm": 4.65625, "learning_rate": 2.4233186024195342e-06, "loss": 1.5622930526733398, "step": 1286 }, { "epoch": 1.7173333333333334, "grad_norm": 2.859375, "learning_rate": 2.4156182266442618e-06, "loss": 1.7089333534240723, "step": 1288 }, { "epoch": 1.72, "grad_norm": 2.46875, "learning_rate": 2.4079846925456828e-06, "loss": 1.4274256229400635, "step": 1290 }, { "epoch": 1.7226666666666666, "grad_norm": 3.171875, "learning_rate": 2.4004181424742075e-06, "loss": 1.7315499782562256, "step": 1292 }, { "epoch": 1.7253333333333334, "grad_norm": 1.9765625, "learning_rate": 2.392918717531127e-06, "loss": 1.4575717449188232, "step": 1294 }, { "epoch": 1.728, "grad_norm": 6.0, "learning_rate": 2.3854865575659795e-06, "loss": 0.8987555503845215, "step": 1296 }, { "epoch": 1.7306666666666666, "grad_norm": 3.953125, "learning_rate": 2.3781218011739437e-06, "loss": 1.2937586307525635, "step": 1298 }, { "epoch": 1.7333333333333334, "grad_norm": 0.55078125, "learning_rate": 2.3708245856932553e-06, "loss": 1.2878880500793457, "step": 1300 }, { "epoch": 1.736, "grad_norm": 3.609375, "learning_rate": 2.3635950472026438e-06, "loss": 1.6018328666687012, "step": 1302 }, { "epoch": 1.7386666666666666, "grad_norm": 2.28125, "learning_rate": 2.356433320518795e-06, "loss": 1.3302011489868164, "step": 1304 }, { "epoch": 1.7413333333333334, "grad_norm": 0.96484375, "learning_rate": 2.34933953919384e-06, "loss": 1.2421668767929077, "step": 1306 }, { "epoch": 1.744, "grad_norm": 2.1875, "learning_rate": 2.342313835512859e-06, "loss": 1.4823825359344482, "step": 1308 }, { "epoch": 1.7466666666666666, "grad_norm": 0.7734375, "learning_rate": 2.3353563404914224e-06, "loss": 1.3156999349594116, "step": 1310 }, { "epoch": 1.7493333333333334, "grad_norm": 1.6796875, "learning_rate": 2.3284671838731392e-06, "loss": 1.283308982849121, "step": 1312 }, { "epoch": 1.752, "grad_norm": 1.4609375, "learning_rate": 2.3216464941272436e-06, "loss": 1.2851642370224, "step": 1314 }, { "epoch": 1.7546666666666666, "grad_norm": 3.53125, "learning_rate": 2.3148943984461965e-06, "loss": 1.488879680633545, "step": 1316 }, { "epoch": 1.7573333333333334, "grad_norm": 2.6875, "learning_rate": 2.308211022743314e-06, "loss": 1.3692083358764648, "step": 1318 }, { "epoch": 1.76, "grad_norm": 1.7109375, "learning_rate": 2.3015964916504203e-06, "loss": 1.5098447799682617, "step": 1320 }, { "epoch": 1.7626666666666666, "grad_norm": 1.0703125, "learning_rate": 2.2950509285155226e-06, "loss": 1.3004857301712036, "step": 1322 }, { "epoch": 1.7653333333333334, "grad_norm": 6.78125, "learning_rate": 2.2885744554005112e-06, "loss": 1.9929239749908447, "step": 1324 }, { "epoch": 1.768, "grad_norm": 3.1875, "learning_rate": 2.282167193078883e-06, "loss": 1.5367597341537476, "step": 1326 }, { "epoch": 1.7706666666666666, "grad_norm": 2.875, "learning_rate": 2.2758292610334896e-06, "loss": 1.6207027435302734, "step": 1328 }, { "epoch": 1.7733333333333334, "grad_norm": 2.421875, "learning_rate": 2.269560777454311e-06, "loss": 1.4889240264892578, "step": 1330 }, { "epoch": 1.776, "grad_norm": 3.265625, "learning_rate": 2.263361859236247e-06, "loss": 1.6567891836166382, "step": 1332 }, { "epoch": 1.7786666666666666, "grad_norm": 2.75, "learning_rate": 2.2572326219769418e-06, "loss": 1.7911484241485596, "step": 1334 }, { "epoch": 1.7813333333333334, "grad_norm": 2.484375, "learning_rate": 2.251173179974626e-06, "loss": 1.2560003995895386, "step": 1336 }, { "epoch": 1.784, "grad_norm": 2.78125, "learning_rate": 2.245183646225986e-06, "loss": 1.373849630355835, "step": 1338 }, { "epoch": 1.7866666666666666, "grad_norm": 1.34375, "learning_rate": 2.2392641324240567e-06, "loss": 1.2120951414108276, "step": 1340 }, { "epoch": 1.7893333333333334, "grad_norm": 1.78125, "learning_rate": 2.233414748956138e-06, "loss": 1.516349196434021, "step": 1342 }, { "epoch": 1.792, "grad_norm": 3.25, "learning_rate": 2.227635604901739e-06, "loss": 1.8674198389053345, "step": 1344 }, { "epoch": 1.7946666666666666, "grad_norm": 2.71875, "learning_rate": 2.221926808030539e-06, "loss": 1.4104797840118408, "step": 1346 }, { "epoch": 1.7973333333333334, "grad_norm": 5.125, "learning_rate": 2.2162884648003817e-06, "loss": 1.7129011154174805, "step": 1348 }, { "epoch": 1.8, "grad_norm": 1.0546875, "learning_rate": 2.2107206803552896e-06, "loss": 1.4221611022949219, "step": 1350 }, { "epoch": 1.8026666666666666, "grad_norm": 2.40625, "learning_rate": 2.2052235585235017e-06, "loss": 1.2692551612854004, "step": 1352 }, { "epoch": 1.8053333333333335, "grad_norm": 4.0, "learning_rate": 2.199797201815537e-06, "loss": 1.592599630355835, "step": 1354 }, { "epoch": 1.808, "grad_norm": 3.3125, "learning_rate": 2.194441711422286e-06, "loss": 1.5269999504089355, "step": 1356 }, { "epoch": 1.8106666666666666, "grad_norm": 1.9375, "learning_rate": 2.189157187213121e-06, "loss": 1.4359304904937744, "step": 1358 }, { "epoch": 1.8133333333333335, "grad_norm": 1.6484375, "learning_rate": 2.183943727734035e-06, "loss": 1.5060385465621948, "step": 1360 }, { "epoch": 1.8159999999999998, "grad_norm": 1.796875, "learning_rate": 2.1788014302058016e-06, "loss": 1.6254030466079712, "step": 1362 }, { "epoch": 1.8186666666666667, "grad_norm": 2.796875, "learning_rate": 2.1737303905221653e-06, "loss": 1.483654260635376, "step": 1364 }, { "epoch": 1.8213333333333335, "grad_norm": 1.3828125, "learning_rate": 2.1687307032480517e-06, "loss": 1.2225428819656372, "step": 1366 }, { "epoch": 1.8239999999999998, "grad_norm": 0.98046875, "learning_rate": 2.163802461617804e-06, "loss": 1.1596672534942627, "step": 1368 }, { "epoch": 1.8266666666666667, "grad_norm": 4.3125, "learning_rate": 2.1589457575334445e-06, "loss": 1.873258352279663, "step": 1370 }, { "epoch": 1.8293333333333335, "grad_norm": 1.8671875, "learning_rate": 2.15416068156296e-06, "loss": 1.3378783464431763, "step": 1372 }, { "epoch": 1.8319999999999999, "grad_norm": 10.6875, "learning_rate": 2.1494473229386155e-06, "loss": 1.5235542058944702, "step": 1374 }, { "epoch": 1.8346666666666667, "grad_norm": 3.203125, "learning_rate": 2.1448057695552884e-06, "loss": 1.6886104345321655, "step": 1376 }, { "epoch": 1.8373333333333335, "grad_norm": 1.625, "learning_rate": 2.1402361079688266e-06, "loss": 1.6445670127868652, "step": 1378 }, { "epoch": 1.8399999999999999, "grad_norm": 3.46875, "learning_rate": 2.1357384233944403e-06, "loss": 1.7186939716339111, "step": 1380 }, { "epoch": 1.8426666666666667, "grad_norm": 1.7265625, "learning_rate": 2.1313127997051085e-06, "loss": 1.3848296403884888, "step": 1382 }, { "epoch": 1.8453333333333335, "grad_norm": 0.7265625, "learning_rate": 2.126959319430017e-06, "loss": 1.238898754119873, "step": 1384 }, { "epoch": 1.8479999999999999, "grad_norm": 1.0546875, "learning_rate": 2.1226780637530175e-06, "loss": 1.025477409362793, "step": 1386 }, { "epoch": 1.8506666666666667, "grad_norm": 1.90625, "learning_rate": 2.118469112511116e-06, "loss": 1.5098035335540771, "step": 1388 }, { "epoch": 1.8533333333333335, "grad_norm": 1.7109375, "learning_rate": 2.1143325441929826e-06, "loss": 1.4797961711883545, "step": 1390 }, { "epoch": 1.8559999999999999, "grad_norm": 1.84375, "learning_rate": 2.1102684359374883e-06, "loss": 1.1345655918121338, "step": 1392 }, { "epoch": 1.8586666666666667, "grad_norm": 8.0, "learning_rate": 2.1062768635322654e-06, "loss": 1.3087197542190552, "step": 1394 }, { "epoch": 1.8613333333333333, "grad_norm": 3.15625, "learning_rate": 2.102357901412296e-06, "loss": 1.4113759994506836, "step": 1396 }, { "epoch": 1.8639999999999999, "grad_norm": 1.1484375, "learning_rate": 2.0985116226585227e-06, "loss": 1.1754930019378662, "step": 1398 }, { "epoch": 1.8666666666666667, "grad_norm": 1.40625, "learning_rate": 2.094738098996486e-06, "loss": 1.1655365228652954, "step": 1400 }, { "epoch": 1.8693333333333333, "grad_norm": 1.9765625, "learning_rate": 2.091037400794988e-06, "loss": 1.5583083629608154, "step": 1402 }, { "epoch": 1.8719999999999999, "grad_norm": 1.71875, "learning_rate": 2.0874095970647774e-06, "loss": 1.4320223331451416, "step": 1404 }, { "epoch": 1.8746666666666667, "grad_norm": 2.703125, "learning_rate": 2.083854755457265e-06, "loss": 1.5203807353973389, "step": 1406 }, { "epoch": 1.8773333333333333, "grad_norm": 2.40625, "learning_rate": 2.080372942263263e-06, "loss": 1.6280516386032104, "step": 1408 }, { "epoch": 1.88, "grad_norm": 0.65625, "learning_rate": 2.0769642224117434e-06, "loss": 1.237607717514038, "step": 1410 }, { "epoch": 1.8826666666666667, "grad_norm": 2.328125, "learning_rate": 2.0736286594686348e-06, "loss": 1.3556280136108398, "step": 1412 }, { "epoch": 1.8853333333333333, "grad_norm": 7.84375, "learning_rate": 2.070366315635631e-06, "loss": 1.5116500854492188, "step": 1414 }, { "epoch": 1.888, "grad_norm": 2.546875, "learning_rate": 2.067177251749034e-06, "loss": 1.4903755187988281, "step": 1416 }, { "epoch": 1.8906666666666667, "grad_norm": 2.828125, "learning_rate": 2.064061527278618e-06, "loss": 1.089402675628662, "step": 1418 }, { "epoch": 1.8933333333333333, "grad_norm": 2.53125, "learning_rate": 2.061019200326523e-06, "loss": 1.5527162551879883, "step": 1420 }, { "epoch": 1.896, "grad_norm": 0.8671875, "learning_rate": 2.0580503276261684e-06, "loss": 1.2740471363067627, "step": 1422 }, { "epoch": 1.8986666666666667, "grad_norm": 0.9921875, "learning_rate": 2.055154964541196e-06, "loss": 1.3766753673553467, "step": 1424 }, { "epoch": 1.9013333333333333, "grad_norm": 1.796875, "learning_rate": 2.052333165064437e-06, "loss": 1.490415334701538, "step": 1426 }, { "epoch": 1.904, "grad_norm": 3.140625, "learning_rate": 2.0495849818169085e-06, "loss": 1.4044418334960938, "step": 1428 }, { "epoch": 1.9066666666666667, "grad_norm": 1.90625, "learning_rate": 2.046910466046826e-06, "loss": 1.4101660251617432, "step": 1430 }, { "epoch": 1.9093333333333333, "grad_norm": 0.6875, "learning_rate": 2.0443096676286544e-06, "loss": 1.2903923988342285, "step": 1432 }, { "epoch": 1.912, "grad_norm": 0.9765625, "learning_rate": 2.0417826350621725e-06, "loss": 1.1135454177856445, "step": 1434 }, { "epoch": 1.9146666666666667, "grad_norm": 2.6875, "learning_rate": 2.0393294154715735e-06, "loss": 1.6045788526535034, "step": 1436 }, { "epoch": 1.9173333333333333, "grad_norm": 1.7734375, "learning_rate": 2.036950054604581e-06, "loss": 1.6095572710037231, "step": 1438 }, { "epoch": 1.92, "grad_norm": 2.703125, "learning_rate": 2.0346445968315995e-06, "loss": 1.6368613243103027, "step": 1440 }, { "epoch": 1.9226666666666667, "grad_norm": 2.890625, "learning_rate": 2.0324130851448873e-06, "loss": 1.6613959074020386, "step": 1442 }, { "epoch": 1.9253333333333333, "grad_norm": 3.296875, "learning_rate": 2.0302555611577513e-06, "loss": 1.4924044609069824, "step": 1444 }, { "epoch": 1.928, "grad_norm": 3.84375, "learning_rate": 2.0281720651037744e-06, "loss": 1.6668325662612915, "step": 1446 }, { "epoch": 1.9306666666666668, "grad_norm": 1.4453125, "learning_rate": 2.0261626358360646e-06, "loss": 1.499243974685669, "step": 1448 }, { "epoch": 1.9333333333333333, "grad_norm": 3.765625, "learning_rate": 2.0242273108265286e-06, "loss": 1.7402076721191406, "step": 1450 }, { "epoch": 1.936, "grad_norm": 1.6171875, "learning_rate": 2.0223661261651757e-06, "loss": 1.247557282447815, "step": 1452 }, { "epoch": 1.9386666666666668, "grad_norm": 4.65625, "learning_rate": 2.0205791165594414e-06, "loss": 1.3740856647491455, "step": 1454 }, { "epoch": 1.9413333333333334, "grad_norm": 1.6796875, "learning_rate": 2.0188663153335444e-06, "loss": 1.7518730163574219, "step": 1456 }, { "epoch": 1.944, "grad_norm": 3.546875, "learning_rate": 2.0172277544278605e-06, "loss": 1.4883068799972534, "step": 1458 }, { "epoch": 1.9466666666666668, "grad_norm": 0.796875, "learning_rate": 2.015663464398332e-06, "loss": 1.103118658065796, "step": 1460 }, { "epoch": 1.9493333333333334, "grad_norm": 0.94921875, "learning_rate": 2.0141734744158943e-06, "loss": 1.3295493125915527, "step": 1462 }, { "epoch": 1.952, "grad_norm": 1.7734375, "learning_rate": 2.012757812265932e-06, "loss": 1.6309541463851929, "step": 1464 }, { "epoch": 1.9546666666666668, "grad_norm": 1.8125, "learning_rate": 2.0114165043477617e-06, "loss": 1.6357351541519165, "step": 1466 }, { "epoch": 1.9573333333333334, "grad_norm": 1.7890625, "learning_rate": 2.0101495756741416e-06, "loss": 1.314288854598999, "step": 1468 }, { "epoch": 1.96, "grad_norm": 3.34375, "learning_rate": 2.008957049870802e-06, "loss": 1.5219292640686035, "step": 1470 }, { "epoch": 1.9626666666666668, "grad_norm": 3.703125, "learning_rate": 2.007838949176005e-06, "loss": 0.8457517027854919, "step": 1472 }, { "epoch": 1.9653333333333334, "grad_norm": 2.015625, "learning_rate": 2.0067952944401315e-06, "loss": 1.3741309642791748, "step": 1474 }, { "epoch": 1.968, "grad_norm": 1.1484375, "learning_rate": 2.0058261051252923e-06, "loss": 1.200619101524353, "step": 1476 }, { "epoch": 1.9706666666666668, "grad_norm": 2.609375, "learning_rate": 2.004931399304963e-06, "loss": 1.1482222080230713, "step": 1478 }, { "epoch": 1.9733333333333334, "grad_norm": 2.078125, "learning_rate": 2.004111193663649e-06, "loss": 1.5073654651641846, "step": 1480 }, { "epoch": 1.976, "grad_norm": 6.375, "learning_rate": 2.0033655034965744e-06, "loss": 1.7367411851882935, "step": 1482 }, { "epoch": 1.9786666666666668, "grad_norm": 5.28125, "learning_rate": 2.0026943427093947e-06, "loss": 1.697805643081665, "step": 1484 }, { "epoch": 1.9813333333333332, "grad_norm": 2.015625, "learning_rate": 2.0020977238179405e-06, "loss": 1.5964152812957764, "step": 1486 }, { "epoch": 1.984, "grad_norm": 3.375, "learning_rate": 2.0015756579479816e-06, "loss": 1.444211721420288, "step": 1488 }, { "epoch": 1.9866666666666668, "grad_norm": 3.53125, "learning_rate": 2.0011281548350195e-06, "loss": 1.729475498199463, "step": 1490 }, { "epoch": 1.9893333333333332, "grad_norm": 1.6796875, "learning_rate": 2.0007552228241097e-06, "loss": 1.3104641437530518, "step": 1492 }, { "epoch": 1.992, "grad_norm": 11.25, "learning_rate": 2.0004568688697e-06, "loss": 1.729232668876648, "step": 1494 }, { "epoch": 1.9946666666666668, "grad_norm": 1.7421875, "learning_rate": 2.000233098535506e-06, "loss": 1.5417425632476807, "step": 1496 }, { "epoch": 1.9973333333333332, "grad_norm": 3.265625, "learning_rate": 2.0000839159944047e-06, "loss": 1.4094383716583252, "step": 1498 }, { "epoch": 2.0, "grad_norm": 1.125, "learning_rate": 2.0000093240283577e-06, "loss": 1.219792366027832, "step": 1500 }, { "epoch": 2.0, "step": 1500, "total_flos": 2.46457623578778e+18, "train_loss": 1.4824828810691832, "train_runtime": 24817.6369, "train_samples_per_second": 0.967, "train_steps_per_second": 0.06 } ], "logging_steps": 2, "max_steps": 1500, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 9999999, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.46457623578778e+18, "train_batch_size": 1, "trial_name": null, "trial_params": null }