diff --git "a/checkpoint-1500/trainer_state.json" "b/checkpoint-1500/trainer_state.json" new file mode 100644--- /dev/null +++ "b/checkpoint-1500/trainer_state.json" @@ -0,0 +1,5284 @@ +{ + "best_global_step": null, + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 2.0, + "eval_steps": 500, + "global_step": 1500, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0026666666666666666, + "grad_norm": 0.490234375, + "learning_rate": 2.2222222222222224e-10, + "loss": 1.2595083713531494, + "step": 2 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 2.171875, + "learning_rate": 6.666666666666666e-10, + "loss": 2.254322052001953, + "step": 4 + }, + { + "epoch": 0.008, + "grad_norm": 1.15625, + "learning_rate": 1.111111111111111e-09, + "loss": 2.0818605422973633, + "step": 6 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 2.96875, + "learning_rate": 1.5555555555555557e-09, + "loss": 2.0666677951812744, + "step": 8 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 1.8828125, + "learning_rate": 2e-09, + "loss": 2.215301752090454, + "step": 10 + }, + { + "epoch": 0.016, + "grad_norm": 1.3203125, + "learning_rate": 2.4444444444444446e-09, + "loss": 1.7321486473083496, + "step": 12 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 1.2890625, + "learning_rate": 2.8888888888888886e-09, + "loss": 1.5189157724380493, + "step": 14 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 1.6875, + "learning_rate": 3.3333333333333334e-09, + "loss": 1.943246841430664, + "step": 16 + }, + { + "epoch": 0.024, + "grad_norm": 1.59375, + "learning_rate": 3.7777777777777774e-09, + "loss": 1.938248634338379, + "step": 18 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 1.3046875, + "learning_rate": 4.222222222222222e-09, + "loss": 1.649553894996643, + "step": 20 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 2.265625, + "learning_rate": 4.666666666666667e-09, + "loss": 2.1752431392669678, + "step": 22 + }, + { + "epoch": 0.032, + "grad_norm": 1.65625, + "learning_rate": 5.111111111111111e-09, + "loss": 2.063638687133789, + "step": 24 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 3.4375, + "learning_rate": 5.555555555555556e-09, + "loss": 1.8939242362976074, + "step": 26 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 6.53125, + "learning_rate": 6e-09, + "loss": 2.2926182746887207, + "step": 28 + }, + { + "epoch": 0.04, + "grad_norm": 4.125, + "learning_rate": 6.444444444444445e-09, + "loss": 1.8031842708587646, + "step": 30 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 3.15625, + "learning_rate": 6.888888888888889e-09, + "loss": 2.2539103031158447, + "step": 32 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 0.70703125, + "learning_rate": 7.333333333333333e-09, + "loss": 1.0695515871047974, + "step": 34 + }, + { + "epoch": 0.048, + "grad_norm": 18.75, + "learning_rate": 7.777777777777778e-09, + "loss": 1.8812987804412842, + "step": 36 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 3.53125, + "learning_rate": 8.222222222222223e-09, + "loss": 1.8043668270111084, + "step": 38 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 0.66796875, + "learning_rate": 8.666666666666667e-09, + "loss": 1.612642765045166, + "step": 40 + }, + { + "epoch": 0.056, + "grad_norm": 1.0234375, + "learning_rate": 9.11111111111111e-09, + "loss": 2.1815497875213623, + "step": 42 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 1.5703125, + "learning_rate": 9.555555555555556e-09, + "loss": 1.857093095779419, + "step": 44 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 0.498046875, + "learning_rate": 1e-08, + "loss": 1.1420334577560425, + "step": 46 + }, + { + "epoch": 0.064, + "grad_norm": 3.65625, + "learning_rate": 9.99996270393004e-09, + "loss": 1.965954303741455, + "step": 48 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 1.265625, + "learning_rate": 9.999850816415655e-09, + "loss": 1.9006365537643433, + "step": 50 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 1.78125, + "learning_rate": 9.999664339543329e-09, + "loss": 1.8942360877990723, + "step": 52 + }, + { + "epoch": 0.072, + "grad_norm": 1.9296875, + "learning_rate": 9.999403276790487e-09, + "loss": 1.9433822631835938, + "step": 54 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 3.53125, + "learning_rate": 9.999067633025438e-09, + "loss": 2.3937931060791016, + "step": 56 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 3.15625, + "learning_rate": 9.998657414507281e-09, + "loss": 1.592966914176941, + "step": 58 + }, + { + "epoch": 0.08, + "grad_norm": 1.0625, + "learning_rate": 9.998172628885782e-09, + "loss": 1.5880094766616821, + "step": 60 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 0.78515625, + "learning_rate": 9.997613285201241e-09, + "loss": 1.7058852910995483, + "step": 62 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 0.62109375, + "learning_rate": 9.99697939388432e-09, + "loss": 1.3053644895553589, + "step": 64 + }, + { + "epoch": 0.088, + "grad_norm": 2.421875, + "learning_rate": 9.996270966755842e-09, + "loss": 1.8258638381958008, + "step": 66 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 3.9375, + "learning_rate": 9.995488017026588e-09, + "loss": 2.1787168979644775, + "step": 68 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 0.78125, + "learning_rate": 9.994630559297027e-09, + "loss": 2.0142626762390137, + "step": 70 + }, + { + "epoch": 0.096, + "grad_norm": 2.015625, + "learning_rate": 9.993698609557061e-09, + "loss": 1.6130048036575317, + "step": 72 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 11.125, + "learning_rate": 9.992692185185721e-09, + "loss": 2.1224076747894287, + "step": 74 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 2.578125, + "learning_rate": 9.991611304950848e-09, + "loss": 2.001530885696411, + "step": 76 + }, + { + "epoch": 0.104, + "grad_norm": 2.5625, + "learning_rate": 9.990455989008729e-09, + "loss": 1.9305431842803955, + "step": 78 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 2.40625, + "learning_rate": 9.989226258903739e-09, + "loss": 1.482154130935669, + "step": 80 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 1.359375, + "learning_rate": 9.98792213756793e-09, + "loss": 1.9148833751678467, + "step": 82 + }, + { + "epoch": 0.112, + "grad_norm": 1.2734375, + "learning_rate": 9.986543649320597e-09, + "loss": 1.644956111907959, + "step": 84 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 1.234375, + "learning_rate": 9.985090819867842e-09, + "loss": 1.8461428880691528, + "step": 86 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 0.9140625, + "learning_rate": 9.983563676302075e-09, + "loss": 1.2635107040405273, + "step": 88 + }, + { + "epoch": 0.12, + "grad_norm": 1.8671875, + "learning_rate": 9.981962247101526e-09, + "loss": 2.090571403503418, + "step": 90 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 1.1484375, + "learning_rate": 9.9802865621297e-09, + "loss": 1.867357850074768, + "step": 92 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 2.796875, + "learning_rate": 9.978536652634835e-09, + "loss": 1.8565815687179565, + "step": 94 + }, + { + "epoch": 0.128, + "grad_norm": 1.09375, + "learning_rate": 9.976712551249298e-09, + "loss": 1.8973251581192017, + "step": 96 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 3.375, + "learning_rate": 9.974814291988998e-09, + "loss": 1.7234950065612793, + "step": 98 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 0.47265625, + "learning_rate": 9.972841910252739e-09, + "loss": 1.5334116220474243, + "step": 100 + }, + { + "epoch": 0.136, + "grad_norm": 3.0625, + "learning_rate": 9.970795442821565e-09, + "loss": 2.200824022293091, + "step": 102 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 1.4296875, + "learning_rate": 9.968674927858075e-09, + "loss": 1.8540502786636353, + "step": 104 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 1.53125, + "learning_rate": 9.966480404905703e-09, + "loss": 1.495987892150879, + "step": 106 + }, + { + "epoch": 0.144, + "grad_norm": 0.7890625, + "learning_rate": 9.96421191488799e-09, + "loss": 1.7976027727127075, + "step": 108 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 1.3515625, + "learning_rate": 9.961869500107816e-09, + "loss": 2.0642828941345215, + "step": 110 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 1.4453125, + "learning_rate": 9.959453204246615e-09, + "loss": 2.1139161586761475, + "step": 112 + }, + { + "epoch": 0.152, + "grad_norm": 3.125, + "learning_rate": 9.95696307236356e-09, + "loss": 2.036608934402466, + "step": 114 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 3.734375, + "learning_rate": 9.954399150894715e-09, + "loss": 1.9267082214355469, + "step": 116 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 1.296875, + "learning_rate": 9.951761487652176e-09, + "loss": 1.9401640892028809, + "step": 118 + }, + { + "epoch": 0.16, + "grad_norm": 0.796875, + "learning_rate": 9.949050131823183e-09, + "loss": 1.9283727407455444, + "step": 120 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 3.046875, + "learning_rate": 9.946265133969188e-09, + "loss": 2.027492046356201, + "step": 122 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 1.328125, + "learning_rate": 9.943406546024934e-09, + "loss": 1.684476375579834, + "step": 124 + }, + { + "epoch": 0.168, + "grad_norm": 1.4296875, + "learning_rate": 9.940474421297468e-09, + "loss": 1.9159518480300903, + "step": 126 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 1.6484375, + "learning_rate": 9.937468814465151e-09, + "loss": 1.5436517000198364, + "step": 128 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 3.015625, + "learning_rate": 9.93438978157665e-09, + "loss": 1.9120794534683228, + "step": 130 + }, + { + "epoch": 0.176, + "grad_norm": 0.734375, + "learning_rate": 9.931237380049872e-09, + "loss": 1.6056358814239502, + "step": 132 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 1.296875, + "learning_rate": 9.928011668670915e-09, + "loss": 2.033667802810669, + "step": 134 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 0.828125, + "learning_rate": 9.924712707592958e-09, + "loss": 1.3502496480941772, + "step": 136 + }, + { + "epoch": 0.184, + "grad_norm": 1.0546875, + "learning_rate": 9.921340558335139e-09, + "loss": 1.8049728870391846, + "step": 138 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 0.78515625, + "learning_rate": 9.917895283781418e-09, + "loss": 1.8152284622192383, + "step": 140 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 2.0, + "learning_rate": 9.914376948179396e-09, + "loss": 1.5504010915756226, + "step": 142 + }, + { + "epoch": 0.192, + "grad_norm": 0.87109375, + "learning_rate": 9.910785617139116e-09, + "loss": 1.1976662874221802, + "step": 144 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 1.515625, + "learning_rate": 9.907121357631847e-09, + "loss": 1.6446733474731445, + "step": 146 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 2.5, + "learning_rate": 9.903384237988828e-09, + "loss": 1.9527918100357056, + "step": 148 + }, + { + "epoch": 0.2, + "grad_norm": 3.28125, + "learning_rate": 9.899574327899996e-09, + "loss": 1.8011940717697144, + "step": 150 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 1.6484375, + "learning_rate": 9.895691698412687e-09, + "loss": 2.1337244510650635, + "step": 152 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 3.5625, + "learning_rate": 9.891736421930312e-09, + "loss": 1.8929048776626587, + "step": 154 + }, + { + "epoch": 0.208, + "grad_norm": 4.71875, + "learning_rate": 9.887708572211007e-09, + "loss": 1.5765407085418701, + "step": 156 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 1.7265625, + "learning_rate": 9.883608224366255e-09, + "loss": 1.562822937965393, + "step": 158 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 3.140625, + "learning_rate": 9.879435454859482e-09, + "loss": 1.705054759979248, + "step": 160 + }, + { + "epoch": 0.216, + "grad_norm": 1.09375, + "learning_rate": 9.875190341504643e-09, + "loss": 1.7824983596801758, + "step": 162 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 0.8359375, + "learning_rate": 9.87087296346476e-09, + "loss": 1.5236130952835083, + "step": 164 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 117.5, + "learning_rate": 9.866483401250446e-09, + "loss": 1.3529446125030518, + "step": 166 + }, + { + "epoch": 0.224, + "grad_norm": 1.3359375, + "learning_rate": 9.862021736718416e-09, + "loss": 1.4553319215774536, + "step": 168 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 2.578125, + "learning_rate": 9.857488053069943e-09, + "loss": 1.7366198301315308, + "step": 170 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 0.7734375, + "learning_rate": 9.852882434849319e-09, + "loss": 1.6083072423934937, + "step": 172 + }, + { + "epoch": 0.232, + "grad_norm": 2.453125, + "learning_rate": 9.848204967942274e-09, + "loss": 2.1024110317230225, + "step": 174 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 8.875, + "learning_rate": 9.843455739574376e-09, + "loss": 1.597267985343933, + "step": 176 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 1.578125, + "learning_rate": 9.8386348383094e-09, + "loss": 1.5651479959487915, + "step": 178 + }, + { + "epoch": 0.24, + "grad_norm": 1.1796875, + "learning_rate": 9.83374235404768e-09, + "loss": 2.1147844791412354, + "step": 180 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 2.765625, + "learning_rate": 9.828778378024434e-09, + "loss": 1.8838609457015991, + "step": 182 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 1.1796875, + "learning_rate": 9.823743002808065e-09, + "loss": 1.8358352184295654, + "step": 184 + }, + { + "epoch": 0.248, + "grad_norm": 0.796875, + "learning_rate": 9.818636322298422e-09, + "loss": 1.5012720823287964, + "step": 186 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 1.3828125, + "learning_rate": 9.813458431725062e-09, + "loss": 1.8420766592025757, + "step": 188 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 0.70703125, + "learning_rate": 9.808209427645471e-09, + "loss": 1.6086699962615967, + "step": 190 + }, + { + "epoch": 0.256, + "grad_norm": 0.30078125, + "learning_rate": 9.802889407943258e-09, + "loss": 1.2589647769927979, + "step": 192 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 2.734375, + "learning_rate": 9.797498471826341e-09, + "loss": 1.8030763864517212, + "step": 194 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 4.125, + "learning_rate": 9.792036719825082e-09, + "loss": 2.2080459594726562, + "step": 196 + }, + { + "epoch": 0.264, + "grad_norm": 1.3671875, + "learning_rate": 9.786504253790425e-09, + "loss": 1.8391257524490356, + "step": 198 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 0.7421875, + "learning_rate": 9.780901176891988e-09, + "loss": 1.7964688539505005, + "step": 200 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 0.640625, + "learning_rate": 9.775227593616147e-09, + "loss": 1.7362236976623535, + "step": 202 + }, + { + "epoch": 0.272, + "grad_norm": 1.9140625, + "learning_rate": 9.769483609764078e-09, + "loss": 2.23327898979187, + "step": 204 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 2.859375, + "learning_rate": 9.7636693324498e-09, + "loss": 1.3478480577468872, + "step": 206 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 1.9296875, + "learning_rate": 9.757784870098152e-09, + "loss": 1.5920817852020264, + "step": 208 + }, + { + "epoch": 0.28, + "grad_norm": 0.88671875, + "learning_rate": 9.751830332442799e-09, + "loss": 1.379252552986145, + "step": 210 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 0.34375, + "learning_rate": 9.745805830524163e-09, + "loss": 1.5116907358169556, + "step": 212 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 0.97265625, + "learning_rate": 9.739711476687372e-09, + "loss": 1.5704491138458252, + "step": 214 + }, + { + "epoch": 0.288, + "grad_norm": 2.828125, + "learning_rate": 9.733547384580143e-09, + "loss": 2.390659809112549, + "step": 216 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 2.4375, + "learning_rate": 9.727313669150689e-09, + "loss": 2.0983409881591797, + "step": 218 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 5.59375, + "learning_rate": 9.721010446645547e-09, + "loss": 2.1177964210510254, + "step": 220 + }, + { + "epoch": 0.296, + "grad_norm": 1.234375, + "learning_rate": 9.714637834607432e-09, + "loss": 1.8987712860107422, + "step": 222 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 2.953125, + "learning_rate": 9.708195951873038e-09, + "loss": 1.8362311124801636, + "step": 224 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 1.1171875, + "learning_rate": 9.701684918570817e-09, + "loss": 1.8839874267578125, + "step": 226 + }, + { + "epoch": 0.304, + "grad_norm": 1.53125, + "learning_rate": 9.69510485611875e-09, + "loss": 1.9399235248565674, + "step": 228 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 3.28125, + "learning_rate": 9.688455887222068e-09, + "loss": 2.257453441619873, + "step": 230 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 1.265625, + "learning_rate": 9.681738135870976e-09, + "loss": 1.65444016456604, + "step": 232 + }, + { + "epoch": 0.312, + "grad_norm": 1.1953125, + "learning_rate": 9.67495172733834e-09, + "loss": 1.760861873626709, + "step": 234 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 2.859375, + "learning_rate": 9.668096788177338e-09, + "loss": 1.9220219850540161, + "step": 236 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 1.828125, + "learning_rate": 9.661173446219117e-09, + "loss": 2.1943254470825195, + "step": 238 + }, + { + "epoch": 0.32, + "grad_norm": 1.8828125, + "learning_rate": 9.654181830570403e-09, + "loss": 1.7908879518508911, + "step": 240 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 2.546875, + "learning_rate": 9.64712207161109e-09, + "loss": 2.1228885650634766, + "step": 242 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 1.59375, + "learning_rate": 9.639994300991803e-09, + "loss": 1.710900902748108, + "step": 244 + }, + { + "epoch": 0.328, + "grad_norm": 1.484375, + "learning_rate": 9.632798651631462e-09, + "loss": 1.9161486625671387, + "step": 246 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 4.4375, + "learning_rate": 9.62553525771479e-09, + "loss": 2.479976177215576, + "step": 248 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 3.421875, + "learning_rate": 9.618204254689808e-09, + "loss": 1.7277326583862305, + "step": 250 + }, + { + "epoch": 0.336, + "grad_norm": 0.97265625, + "learning_rate": 9.610805779265318e-09, + "loss": 1.5690929889678955, + "step": 252 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 1.0703125, + "learning_rate": 9.603339969408349e-09, + "loss": 1.866922378540039, + "step": 254 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 1.03125, + "learning_rate": 9.595806964341582e-09, + "loss": 1.631873607635498, + "step": 256 + }, + { + "epoch": 0.344, + "grad_norm": 1.3203125, + "learning_rate": 9.588206904540761e-09, + "loss": 1.9523061513900757, + "step": 258 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 0.9609375, + "learning_rate": 9.580539931732067e-09, + "loss": 1.8373591899871826, + "step": 260 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 1.125, + "learning_rate": 9.572806188889477e-09, + "loss": 1.8406822681427002, + "step": 262 + }, + { + "epoch": 0.352, + "grad_norm": 2.328125, + "learning_rate": 9.565005820232098e-09, + "loss": 1.9318327903747559, + "step": 264 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 3.90625, + "learning_rate": 9.557138971221477e-09, + "loss": 1.8626163005828857, + "step": 266 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 1.109375, + "learning_rate": 9.54920578855889e-09, + "loss": 1.4687360525131226, + "step": 268 + }, + { + "epoch": 0.36, + "grad_norm": 2.484375, + "learning_rate": 9.541206420182604e-09, + "loss": 2.2242650985717773, + "step": 270 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 2.0, + "learning_rate": 9.53314101526512e-09, + "loss": 1.53940749168396, + "step": 272 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 1.46875, + "learning_rate": 9.525009724210396e-09, + "loss": 1.8694663047790527, + "step": 274 + }, + { + "epoch": 0.368, + "grad_norm": 1.625, + "learning_rate": 9.516812698651026e-09, + "loss": 2.1856276988983154, + "step": 276 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 0.703125, + "learning_rate": 9.508550091445432e-09, + "loss": 1.5906873941421509, + "step": 278 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 8.5, + "learning_rate": 9.500222056675001e-09, + "loss": 2.2088544368743896, + "step": 280 + }, + { + "epoch": 0.376, + "grad_norm": 1.6875, + "learning_rate": 9.491828749641216e-09, + "loss": 1.5992395877838135, + "step": 282 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 2.21875, + "learning_rate": 9.483370326862763e-09, + "loss": 2.1439037322998047, + "step": 284 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 0.63671875, + "learning_rate": 9.474846946072606e-09, + "loss": 1.7207406759262085, + "step": 286 + }, + { + "epoch": 0.384, + "grad_norm": 2.265625, + "learning_rate": 9.466258766215044e-09, + "loss": 1.9956793785095215, + "step": 288 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 1.421875, + "learning_rate": 9.457605947442758e-09, + "loss": 2.2684690952301025, + "step": 290 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 2.65625, + "learning_rate": 9.448888651113816e-09, + "loss": 1.3895556926727295, + "step": 292 + }, + { + "epoch": 0.392, + "grad_norm": 2.640625, + "learning_rate": 9.440107039788666e-09, + "loss": 2.0698764324188232, + "step": 294 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 1.328125, + "learning_rate": 9.431261277227098e-09, + "loss": 1.955104947090149, + "step": 296 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 1.640625, + "learning_rate": 9.422351528385205e-09, + "loss": 1.835784673690796, + "step": 298 + }, + { + "epoch": 0.4, + "grad_norm": 1.953125, + "learning_rate": 9.413377959412296e-09, + "loss": 2.0264222621917725, + "step": 300 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 0.6484375, + "learning_rate": 9.4043407376478e-09, + "loss": 1.5555002689361572, + "step": 302 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 3.71875, + "learning_rate": 9.395240031618138e-09, + "loss": 1.3853716850280762, + "step": 304 + }, + { + "epoch": 0.408, + "grad_norm": 0.76953125, + "learning_rate": 9.386076011033602e-09, + "loss": 1.6690952777862549, + "step": 306 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 1.921875, + "learning_rate": 9.376848846785165e-09, + "loss": 1.9208674430847168, + "step": 308 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 1.6953125, + "learning_rate": 9.367558710941308e-09, + "loss": 2.2145168781280518, + "step": 310 + }, + { + "epoch": 0.416, + "grad_norm": 1.1875, + "learning_rate": 9.358205776744811e-09, + "loss": 1.8965669870376587, + "step": 312 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 0.8203125, + "learning_rate": 9.348790218609518e-09, + "loss": 1.8256372213363647, + "step": 314 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 1.0, + "learning_rate": 9.339312212117086e-09, + "loss": 1.2350609302520752, + "step": 316 + }, + { + "epoch": 0.424, + "grad_norm": 1.0390625, + "learning_rate": 9.329771934013711e-09, + "loss": 2.0859057903289795, + "step": 318 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 1.5078125, + "learning_rate": 9.320169562206832e-09, + "loss": 1.5518385171890259, + "step": 320 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 1.609375, + "learning_rate": 9.310505275761816e-09, + "loss": 1.75638747215271, + "step": 322 + }, + { + "epoch": 0.432, + "grad_norm": 3.25, + "learning_rate": 9.300779254898615e-09, + "loss": 1.5558668375015259, + "step": 324 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 1.53125, + "learning_rate": 9.290991680988406e-09, + "loss": 2.1750802993774414, + "step": 326 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 3.015625, + "learning_rate": 9.281142736550208e-09, + "loss": 1.9557688236236572, + "step": 328 + }, + { + "epoch": 0.44, + "grad_norm": 2.21875, + "learning_rate": 9.271232605247482e-09, + "loss": 1.9172539710998535, + "step": 330 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 0.56640625, + "learning_rate": 9.261261471884705e-09, + "loss": 1.5871493816375732, + "step": 332 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 1.34375, + "learning_rate": 9.25122952240392e-09, + "loss": 2.0637218952178955, + "step": 334 + }, + { + "epoch": 0.448, + "grad_norm": 1.03125, + "learning_rate": 9.24113694388127e-09, + "loss": 1.4587217569351196, + "step": 336 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 2.4375, + "learning_rate": 9.230983924523515e-09, + "loss": 2.0624840259552, + "step": 338 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 3.75, + "learning_rate": 9.220770653664514e-09, + "loss": 1.6480258703231812, + "step": 340 + }, + { + "epoch": 0.456, + "grad_norm": 1.7890625, + "learning_rate": 9.210497321761697e-09, + "loss": 1.9427772760391235, + "step": 342 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 1.5546875, + "learning_rate": 9.200164120392522e-09, + "loss": 1.742879033088684, + "step": 344 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 3.3125, + "learning_rate": 9.189771242250883e-09, + "loss": 2.0775532722473145, + "step": 346 + }, + { + "epoch": 0.464, + "grad_norm": 0.93359375, + "learning_rate": 9.179318881143541e-09, + "loss": 1.8282727003097534, + "step": 348 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 1.3671875, + "learning_rate": 9.16880723198649e-09, + "loss": 2.1511027812957764, + "step": 350 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 0.79296875, + "learning_rate": 9.158236490801326e-09, + "loss": 1.7829698324203491, + "step": 352 + }, + { + "epoch": 0.472, + "grad_norm": 1.3671875, + "learning_rate": 9.147606854711607e-09, + "loss": 1.8236515522003174, + "step": 354 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 3.03125, + "learning_rate": 9.136918521939157e-09, + "loss": 2.168234348297119, + "step": 356 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 2.15625, + "learning_rate": 9.126171691800377e-09, + "loss": 1.5303879976272583, + "step": 358 + }, + { + "epoch": 0.48, + "grad_norm": 1.078125, + "learning_rate": 9.115366564702536e-09, + "loss": 1.8662500381469727, + "step": 360 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 0.8203125, + "learning_rate": 9.104503342140016e-09, + "loss": 1.6868031024932861, + "step": 362 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 1.15625, + "learning_rate": 9.093582226690575e-09, + "loss": 2.1364731788635254, + "step": 364 + }, + { + "epoch": 0.488, + "grad_norm": 1.0625, + "learning_rate": 9.082603422011558e-09, + "loss": 2.116598606109619, + "step": 366 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 2.859375, + "learning_rate": 9.071567132836094e-09, + "loss": 2.1631178855895996, + "step": 368 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 0.53515625, + "learning_rate": 9.060473564969292e-09, + "loss": 1.1389707326889038, + "step": 370 + }, + { + "epoch": 0.496, + "grad_norm": 4.71875, + "learning_rate": 9.049322925284393e-09, + "loss": 2.216712236404419, + "step": 372 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 0.48828125, + "learning_rate": 9.038115421718917e-09, + "loss": 1.183546543121338, + "step": 374 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 3.828125, + "learning_rate": 9.026851263270781e-09, + "loss": 2.1025009155273438, + "step": 376 + }, + { + "epoch": 0.504, + "grad_norm": 3.640625, + "learning_rate": 9.01553065999441e-09, + "loss": 1.8292186260223389, + "step": 378 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 0.9375, + "learning_rate": 9.0041538229968e-09, + "loss": 1.8186060190200806, + "step": 380 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 0.671875, + "learning_rate": 8.992720964433616e-09, + "loss": 1.8420987129211426, + "step": 382 + }, + { + "epoch": 0.512, + "grad_norm": 1.3359375, + "learning_rate": 8.9812322975052e-09, + "loss": 1.9770514965057373, + "step": 384 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 0.51953125, + "learning_rate": 8.969688036452614e-09, + "loss": 1.456003189086914, + "step": 386 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 3.203125, + "learning_rate": 8.958088396553643e-09, + "loss": 1.8052408695220947, + "step": 388 + }, + { + "epoch": 0.52, + "grad_norm": 4.15625, + "learning_rate": 8.94643359411878e-09, + "loss": 2.3906490802764893, + "step": 390 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 3.21875, + "learning_rate": 8.934723846487183e-09, + "loss": 1.2797434329986572, + "step": 392 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 1.15625, + "learning_rate": 8.92295937202264e-09, + "loss": 2.1595494747161865, + "step": 394 + }, + { + "epoch": 0.528, + "grad_norm": 1.2421875, + "learning_rate": 8.911140390109477e-09, + "loss": 1.1325749158859253, + "step": 396 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 1.640625, + "learning_rate": 8.89926712114849e-09, + "loss": 1.961485505104065, + "step": 398 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 0.4140625, + "learning_rate": 8.887339786552809e-09, + "loss": 1.2354146242141724, + "step": 400 + }, + { + "epoch": 0.536, + "grad_norm": 0.73046875, + "learning_rate": 8.875358608743787e-09, + "loss": 1.7809007167816162, + "step": 402 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 0.318359375, + "learning_rate": 8.863323811146848e-09, + "loss": 1.8801896572113037, + "step": 404 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 3.84375, + "learning_rate": 8.85123561818732e-09, + "loss": 2.1713829040527344, + "step": 406 + }, + { + "epoch": 0.544, + "grad_norm": 1.1015625, + "learning_rate": 8.839094255286242e-09, + "loss": 2.0953874588012695, + "step": 408 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 9.6875, + "learning_rate": 8.82689994885618e-09, + "loss": 2.531420946121216, + "step": 410 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 2.796875, + "learning_rate": 8.814652926296985e-09, + "loss": 2.118060350418091, + "step": 412 + }, + { + "epoch": 0.552, + "grad_norm": 4.25, + "learning_rate": 8.802353415991564e-09, + "loss": 2.222390651702881, + "step": 414 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 3.546875, + "learning_rate": 8.790001647301614e-09, + "loss": 2.2158262729644775, + "step": 416 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 1.4609375, + "learning_rate": 8.777597850563346e-09, + "loss": 2.1216447353363037, + "step": 418 + }, + { + "epoch": 0.56, + "grad_norm": 7.8125, + "learning_rate": 8.765142257083201e-09, + "loss": 2.056581497192383, + "step": 420 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 7.25, + "learning_rate": 8.752635099133517e-09, + "loss": 2.4557063579559326, + "step": 422 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 1.3125, + "learning_rate": 8.74007660994822e-09, + "loss": 1.796868920326233, + "step": 424 + }, + { + "epoch": 0.568, + "grad_norm": 5.125, + "learning_rate": 8.727467023718447e-09, + "loss": 2.186305284500122, + "step": 426 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 1.5390625, + "learning_rate": 8.71480657558821e-09, + "loss": 1.520075798034668, + "step": 428 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 1.140625, + "learning_rate": 8.702095501649987e-09, + "loss": 1.8692680597305298, + "step": 430 + }, + { + "epoch": 0.576, + "grad_norm": 1.3515625, + "learning_rate": 8.689334038940326e-09, + "loss": 1.8842674493789673, + "step": 432 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 1.203125, + "learning_rate": 8.676522425435434e-09, + "loss": 1.733497142791748, + "step": 434 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 1.0546875, + "learning_rate": 8.663660900046726e-09, + "loss": 2.0521445274353027, + "step": 436 + }, + { + "epoch": 0.584, + "grad_norm": 0.51171875, + "learning_rate": 8.650749702616376e-09, + "loss": 1.588924765586853, + "step": 438 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 4.40625, + "learning_rate": 8.63778907391285e-09, + "loss": 2.115933418273926, + "step": 440 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 2.625, + "learning_rate": 8.624779255626398e-09, + "loss": 1.9880613088607788, + "step": 442 + }, + { + "epoch": 0.592, + "grad_norm": 0.51953125, + "learning_rate": 8.611720490364572e-09, + "loss": 1.9729561805725098, + "step": 444 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 1.8046875, + "learning_rate": 8.598613021647686e-09, + "loss": 1.9545570611953735, + "step": 446 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 2.671875, + "learning_rate": 8.585457093904267e-09, + "loss": 1.9611587524414062, + "step": 448 + }, + { + "epoch": 0.6, + "grad_norm": 1.7578125, + "learning_rate": 8.572252952466525e-09, + "loss": 1.6292351484298706, + "step": 450 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 1.4296875, + "learning_rate": 8.559000843565741e-09, + "loss": 1.851718783378601, + "step": 452 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 1.0859375, + "learning_rate": 8.545701014327714e-09, + "loss": 1.6086595058441162, + "step": 454 + }, + { + "epoch": 0.608, + "grad_norm": 1.1875, + "learning_rate": 8.53235371276812e-09, + "loss": 1.924254059791565, + "step": 456 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 1.4765625, + "learning_rate": 8.51895918778791e-09, + "loss": 1.550837755203247, + "step": 458 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 3.921875, + "learning_rate": 8.50551768916865e-09, + "loss": 2.1360349655151367, + "step": 460 + }, + { + "epoch": 0.616, + "grad_norm": 1.390625, + "learning_rate": 8.492029467567876e-09, + "loss": 2.076364755630493, + "step": 462 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 2.34375, + "learning_rate": 8.47849477451442e-09, + "loss": 2.168081760406494, + "step": 464 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 4.625, + "learning_rate": 8.464913862403709e-09, + "loss": 2.3155016899108887, + "step": 466 + }, + { + "epoch": 0.624, + "grad_norm": 3.453125, + "learning_rate": 8.45128698449307e-09, + "loss": 1.689584732055664, + "step": 468 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 2.828125, + "learning_rate": 8.437614394896992e-09, + "loss": 2.1485788822174072, + "step": 470 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 1.1484375, + "learning_rate": 8.423896348582413e-09, + "loss": 1.965561032295227, + "step": 472 + }, + { + "epoch": 0.632, + "grad_norm": 1.21875, + "learning_rate": 8.410133101363936e-09, + "loss": 1.8822404146194458, + "step": 474 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 1.3359375, + "learning_rate": 8.396324909899078e-09, + "loss": 1.2456005811691284, + "step": 476 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 0.515625, + "learning_rate": 8.382472031683473e-09, + "loss": 1.8118257522583008, + "step": 478 + }, + { + "epoch": 0.64, + "grad_norm": 0.796875, + "learning_rate": 8.368574725046083e-09, + "loss": 1.519937515258789, + "step": 480 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 3.046875, + "learning_rate": 8.354633249144363e-09, + "loss": 2.313350200653076, + "step": 482 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 2.84375, + "learning_rate": 8.34064786395945e-09, + "loss": 2.1796224117279053, + "step": 484 + }, + { + "epoch": 0.648, + "grad_norm": 3.421875, + "learning_rate": 8.326618830291291e-09, + "loss": 1.742749571800232, + "step": 486 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 3.90625, + "learning_rate": 8.312546409753799e-09, + "loss": 2.4159903526306152, + "step": 488 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 0.66796875, + "learning_rate": 8.298430864769963e-09, + "loss": 1.8529486656188965, + "step": 490 + }, + { + "epoch": 0.656, + "grad_norm": 0.69140625, + "learning_rate": 8.284272458566962e-09, + "loss": 1.536817193031311, + "step": 492 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 2.703125, + "learning_rate": 8.270071455171246e-09, + "loss": 1.7020436525344849, + "step": 494 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 1.3203125, + "learning_rate": 8.255828119403625e-09, + "loss": 1.9206829071044922, + "step": 496 + }, + { + "epoch": 0.664, + "grad_norm": 0.66796875, + "learning_rate": 8.241542716874326e-09, + "loss": 1.806079626083374, + "step": 498 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 2.28125, + "learning_rate": 8.227215513978033e-09, + "loss": 2.1431052684783936, + "step": 500 + }, + { + "epoch": 0.6693333333333333, + "grad_norm": 0.87890625, + "learning_rate": 8.212846777888923e-09, + "loss": 1.7982629537582397, + "step": 502 + }, + { + "epoch": 0.672, + "grad_norm": 1.3203125, + "learning_rate": 8.198436776555693e-09, + "loss": 1.84161376953125, + "step": 504 + }, + { + "epoch": 0.6746666666666666, + "grad_norm": 1.828125, + "learning_rate": 8.183985778696552e-09, + "loss": 2.070572853088379, + "step": 506 + }, + { + "epoch": 0.6773333333333333, + "grad_norm": 3.8125, + "learning_rate": 8.169494053794216e-09, + "loss": 2.464686632156372, + "step": 508 + }, + { + "epoch": 0.68, + "grad_norm": 0.90625, + "learning_rate": 8.154961872090869e-09, + "loss": 2.0011956691741943, + "step": 510 + }, + { + "epoch": 0.6826666666666666, + "grad_norm": 1.140625, + "learning_rate": 8.140389504583155e-09, + "loss": 2.0743443965911865, + "step": 512 + }, + { + "epoch": 0.6853333333333333, + "grad_norm": 0.83203125, + "learning_rate": 8.125777223017081e-09, + "loss": 1.3423761129379272, + "step": 514 + }, + { + "epoch": 0.688, + "grad_norm": 1.2890625, + "learning_rate": 8.111125299882996e-09, + "loss": 1.8745712041854858, + "step": 516 + }, + { + "epoch": 0.6906666666666667, + "grad_norm": 2.21875, + "learning_rate": 8.09643400841047e-09, + "loss": 2.217435598373413, + "step": 518 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 2.984375, + "learning_rate": 8.08170362256322e-09, + "loss": 2.10202693939209, + "step": 520 + }, + { + "epoch": 0.696, + "grad_norm": 1.6953125, + "learning_rate": 8.066934417033996e-09, + "loss": 2.06799054145813, + "step": 522 + }, + { + "epoch": 0.6986666666666667, + "grad_norm": 2.078125, + "learning_rate": 8.052126667239461e-09, + "loss": 2.34751033782959, + "step": 524 + }, + { + "epoch": 0.7013333333333334, + "grad_norm": 1.3203125, + "learning_rate": 8.037280649315053e-09, + "loss": 1.6904773712158203, + "step": 526 + }, + { + "epoch": 0.704, + "grad_norm": 1.234375, + "learning_rate": 8.02239664010983e-09, + "loss": 1.4798574447631836, + "step": 528 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 1.2109375, + "learning_rate": 8.007474917181317e-09, + "loss": 2.177708625793457, + "step": 530 + }, + { + "epoch": 0.7093333333333334, + "grad_norm": 0.828125, + "learning_rate": 7.992515758790327e-09, + "loss": 1.1634416580200195, + "step": 532 + }, + { + "epoch": 0.712, + "grad_norm": 4.4375, + "learning_rate": 7.97751944389577e-09, + "loss": 1.7857718467712402, + "step": 534 + }, + { + "epoch": 0.7146666666666667, + "grad_norm": 3.546875, + "learning_rate": 7.962486252149443e-09, + "loss": 2.064812660217285, + "step": 536 + }, + { + "epoch": 0.7173333333333334, + "grad_norm": 3.46875, + "learning_rate": 7.94741646389084e-09, + "loss": 2.2140581607818604, + "step": 538 + }, + { + "epoch": 0.72, + "grad_norm": 1.3984375, + "learning_rate": 7.932310360141894e-09, + "loss": 1.8639158010482788, + "step": 540 + }, + { + "epoch": 0.7226666666666667, + "grad_norm": 3.421875, + "learning_rate": 7.917168222601762e-09, + "loss": 2.16269588470459, + "step": 542 + }, + { + "epoch": 0.7253333333333334, + "grad_norm": 1.234375, + "learning_rate": 7.901990333641552e-09, + "loss": 1.9181190729141235, + "step": 544 + }, + { + "epoch": 0.728, + "grad_norm": 8.3125, + "learning_rate": 7.886776976299067e-09, + "loss": 2.4765758514404297, + "step": 546 + }, + { + "epoch": 0.7306666666666667, + "grad_norm": 1.375, + "learning_rate": 7.871528434273525e-09, + "loss": 1.6353861093521118, + "step": 548 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 0.625, + "learning_rate": 7.856244991920273e-09, + "loss": 1.4980851411819458, + "step": 550 + }, + { + "epoch": 0.736, + "grad_norm": 3.09375, + "learning_rate": 7.840926934245483e-09, + "loss": 2.10715913772583, + "step": 552 + }, + { + "epoch": 0.7386666666666667, + "grad_norm": 10.5625, + "learning_rate": 7.825574546900825e-09, + "loss": 1.6303857564926147, + "step": 554 + }, + { + "epoch": 0.7413333333333333, + "grad_norm": 0.84375, + "learning_rate": 7.810188116178156e-09, + "loss": 1.569793462753296, + "step": 556 + }, + { + "epoch": 0.744, + "grad_norm": 1.9609375, + "learning_rate": 7.794767929004177e-09, + "loss": 1.9174935817718506, + "step": 558 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 0.6015625, + "learning_rate": 7.779314272935075e-09, + "loss": 1.666991114616394, + "step": 560 + }, + { + "epoch": 0.7493333333333333, + "grad_norm": 1.15625, + "learning_rate": 7.763827436151168e-09, + "loss": 1.5379843711853027, + "step": 562 + }, + { + "epoch": 0.752, + "grad_norm": 1.3359375, + "learning_rate": 7.748307707451534e-09, + "loss": 1.5926412343978882, + "step": 564 + }, + { + "epoch": 0.7546666666666667, + "grad_norm": 3.0, + "learning_rate": 7.732755376248612e-09, + "loss": 1.795777678489685, + "step": 566 + }, + { + "epoch": 0.7573333333333333, + "grad_norm": 2.21875, + "learning_rate": 7.717170732562824e-09, + "loss": 1.6544891595840454, + "step": 568 + }, + { + "epoch": 0.76, + "grad_norm": 1.765625, + "learning_rate": 7.701554067017148e-09, + "loss": 1.9484953880310059, + "step": 570 + }, + { + "epoch": 0.7626666666666667, + "grad_norm": 1.953125, + "learning_rate": 7.685905670831706e-09, + "loss": 1.5885378122329712, + "step": 572 + }, + { + "epoch": 0.7653333333333333, + "grad_norm": 3.109375, + "learning_rate": 7.670225835818341e-09, + "loss": 2.5776526927948, + "step": 574 + }, + { + "epoch": 0.768, + "grad_norm": 2.90625, + "learning_rate": 7.654514854375168e-09, + "loss": 1.871799111366272, + "step": 576 + }, + { + "epoch": 0.7706666666666667, + "grad_norm": 3.5, + "learning_rate": 7.638773019481111e-09, + "loss": 2.245335340499878, + "step": 578 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 1.2109375, + "learning_rate": 7.623000624690465e-09, + "loss": 1.886152744293213, + "step": 580 + }, + { + "epoch": 0.776, + "grad_norm": 3.125, + "learning_rate": 7.60719796412739e-09, + "loss": 2.1426033973693848, + "step": 582 + }, + { + "epoch": 0.7786666666666666, + "grad_norm": 3.5, + "learning_rate": 7.591365332480462e-09, + "loss": 2.3694965839385986, + "step": 584 + }, + { + "epoch": 0.7813333333333333, + "grad_norm": 1.2109375, + "learning_rate": 7.57550302499715e-09, + "loss": 1.4806681871414185, + "step": 586 + }, + { + "epoch": 0.784, + "grad_norm": 1.6640625, + "learning_rate": 7.559611337478314e-09, + "loss": 1.6711722612380981, + "step": 588 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 0.8515625, + "learning_rate": 7.5436905662727e-09, + "loss": 1.5092402696609497, + "step": 590 + }, + { + "epoch": 0.7893333333333333, + "grad_norm": 1.1171875, + "learning_rate": 7.527741008271407e-09, + "loss": 1.9149348735809326, + "step": 592 + }, + { + "epoch": 0.792, + "grad_norm": 3.0, + "learning_rate": 7.511762960902352e-09, + "loss": 2.392629861831665, + "step": 594 + }, + { + "epoch": 0.7946666666666666, + "grad_norm": 2.1875, + "learning_rate": 7.495756722124717e-09, + "loss": 1.7167079448699951, + "step": 596 + }, + { + "epoch": 0.7973333333333333, + "grad_norm": 2.203125, + "learning_rate": 7.47972259042341e-09, + "loss": 2.0972259044647217, + "step": 598 + }, + { + "epoch": 0.8, + "grad_norm": 0.52734375, + "learning_rate": 7.463660864803473e-09, + "loss": 1.6890588998794556, + "step": 600 + }, + { + "epoch": 0.8026666666666666, + "grad_norm": 3.9375, + "learning_rate": 7.447571844784526e-09, + "loss": 1.7197068929672241, + "step": 602 + }, + { + "epoch": 0.8053333333333333, + "grad_norm": 2.6875, + "learning_rate": 7.4314558303951844e-09, + "loss": 2.090541124343872, + "step": 604 + }, + { + "epoch": 0.808, + "grad_norm": 3.421875, + "learning_rate": 7.415313122167444e-09, + "loss": 2.0254881381988525, + "step": 606 + }, + { + "epoch": 0.8106666666666666, + "grad_norm": 2.0625, + "learning_rate": 7.3991440211310924e-09, + "loss": 1.8637149333953857, + "step": 608 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 1.0703125, + "learning_rate": 7.382948828808092e-09, + "loss": 1.9170711040496826, + "step": 610 + }, + { + "epoch": 0.816, + "grad_norm": 1.2109375, + "learning_rate": 7.366727847206955e-09, + "loss": 2.073218584060669, + "step": 612 + }, + { + "epoch": 0.8186666666666667, + "grad_norm": 1.1796875, + "learning_rate": 7.3504813788171156e-09, + "loss": 1.873306393623352, + "step": 614 + }, + { + "epoch": 0.8213333333333334, + "grad_norm": 1.0703125, + "learning_rate": 7.334209726603283e-09, + "loss": 1.4583569765090942, + "step": 616 + }, + { + "epoch": 0.824, + "grad_norm": 0.78125, + "learning_rate": 7.317913193999797e-09, + "loss": 1.3342905044555664, + "step": 618 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 3.46875, + "learning_rate": 7.301592084904969e-09, + "loss": 2.3791027069091797, + "step": 620 + }, + { + "epoch": 0.8293333333333334, + "grad_norm": 1.4921875, + "learning_rate": 7.2852467036754096e-09, + "loss": 1.5852872133255005, + "step": 622 + }, + { + "epoch": 0.832, + "grad_norm": 1.7421875, + "learning_rate": 7.268877355120362e-09, + "loss": 1.9645684957504272, + "step": 624 + }, + { + "epoch": 0.8346666666666667, + "grad_norm": 3.1875, + "learning_rate": 7.252484344496011e-09, + "loss": 2.1768226623535156, + "step": 626 + }, + { + "epoch": 0.8373333333333334, + "grad_norm": 1.25, + "learning_rate": 7.2360679774997894e-09, + "loss": 2.0677809715270996, + "step": 628 + }, + { + "epoch": 0.84, + "grad_norm": 2.53125, + "learning_rate": 7.219628560264686e-09, + "loss": 2.1904172897338867, + "step": 630 + }, + { + "epoch": 0.8426666666666667, + "grad_norm": 1.2265625, + "learning_rate": 7.203166399353529e-09, + "loss": 1.7315815687179565, + "step": 632 + }, + { + "epoch": 0.8453333333333334, + "grad_norm": 1.6171875, + "learning_rate": 7.186681801753268e-09, + "loss": 1.4813761711120605, + "step": 634 + }, + { + "epoch": 0.848, + "grad_norm": 0.5859375, + "learning_rate": 7.170175074869258e-09, + "loss": 1.1416938304901123, + "step": 636 + }, + { + "epoch": 0.8506666666666667, + "grad_norm": 1.3203125, + "learning_rate": 7.153646526519517e-09, + "loss": 1.9375399351119995, + "step": 638 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 2.53125, + "learning_rate": 7.137096464928996e-09, + "loss": 1.9194899797439575, + "step": 640 + }, + { + "epoch": 0.856, + "grad_norm": 2.40625, + "learning_rate": 7.120525198723817e-09, + "loss": 1.8916599750518799, + "step": 642 + }, + { + "epoch": 0.8586666666666667, + "grad_norm": 2.0625, + "learning_rate": 7.103933036925541e-09, + "loss": 1.5970803499221802, + "step": 644 + }, + { + "epoch": 0.8613333333333333, + "grad_norm": 3.3125, + "learning_rate": 7.087320288945372e-09, + "loss": 1.7807791233062744, + "step": 646 + }, + { + "epoch": 0.864, + "grad_norm": 0.64453125, + "learning_rate": 7.070687264578422e-09, + "loss": 1.6021547317504883, + "step": 648 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 0.55078125, + "learning_rate": 7.054034273997907e-09, + "loss": 1.2717254161834717, + "step": 650 + }, + { + "epoch": 0.8693333333333333, + "grad_norm": 2.609375, + "learning_rate": 7.0373616277493816e-09, + "loss": 1.8490750789642334, + "step": 652 + }, + { + "epoch": 0.872, + "grad_norm": 1.4921875, + "learning_rate": 7.020669636744932e-09, + "loss": 1.9058908224105835, + "step": 654 + }, + { + "epoch": 0.8746666666666667, + "grad_norm": 1.03125, + "learning_rate": 7.003958612257395e-09, + "loss": 1.7792197465896606, + "step": 656 + }, + { + "epoch": 0.8773333333333333, + "grad_norm": 3.1875, + "learning_rate": 6.9872288659145366e-09, + "loss": 2.097074270248413, + "step": 658 + }, + { + "epoch": 0.88, + "grad_norm": 0.87890625, + "learning_rate": 6.970480709693255e-09, + "loss": 1.7028578519821167, + "step": 660 + }, + { + "epoch": 0.8826666666666667, + "grad_norm": 1.453125, + "learning_rate": 6.953714455913749e-09, + "loss": 1.6274348497390747, + "step": 662 + }, + { + "epoch": 0.8853333333333333, + "grad_norm": 3.03125, + "learning_rate": 6.936930417233706e-09, + "loss": 1.8403894901275635, + "step": 664 + }, + { + "epoch": 0.888, + "grad_norm": 1.453125, + "learning_rate": 6.920128906642471e-09, + "loss": 1.9490541219711304, + "step": 666 + }, + { + "epoch": 0.8906666666666667, + "grad_norm": 3.96875, + "learning_rate": 6.903310237455198e-09, + "loss": 1.5206190347671509, + "step": 668 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 1.9609375, + "learning_rate": 6.886474723307018e-09, + "loss": 1.9652315378189087, + "step": 670 + }, + { + "epoch": 0.896, + "grad_norm": 0.98828125, + "learning_rate": 6.869622678147187e-09, + "loss": 1.5592111349105835, + "step": 672 + }, + { + "epoch": 0.8986666666666666, + "grad_norm": 0.98046875, + "learning_rate": 6.8527544162332356e-09, + "loss": 1.6212581396102905, + "step": 674 + }, + { + "epoch": 0.9013333333333333, + "grad_norm": 0.83984375, + "learning_rate": 6.835870252125101e-09, + "loss": 1.8532904386520386, + "step": 676 + }, + { + "epoch": 0.904, + "grad_norm": 1.0546875, + "learning_rate": 6.8189705006792644e-09, + "loss": 1.8559094667434692, + "step": 678 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 0.78125, + "learning_rate": 6.802055477042883e-09, + "loss": 1.7229020595550537, + "step": 680 + }, + { + "epoch": 0.9093333333333333, + "grad_norm": 0.578125, + "learning_rate": 6.7851254966479105e-09, + "loss": 1.5707266330718994, + "step": 682 + }, + { + "epoch": 0.912, + "grad_norm": 0.89453125, + "learning_rate": 6.768180875205212e-09, + "loss": 1.2699148654937744, + "step": 684 + }, + { + "epoch": 0.9146666666666666, + "grad_norm": 3.90625, + "learning_rate": 6.751221928698681e-09, + "loss": 2.1601505279541016, + "step": 686 + }, + { + "epoch": 0.9173333333333333, + "grad_norm": 1.4375, + "learning_rate": 6.734248973379344e-09, + "loss": 2.0476503372192383, + "step": 688 + }, + { + "epoch": 0.92, + "grad_norm": 4.125, + "learning_rate": 6.7172623257594704e-09, + "loss": 2.1878411769866943, + "step": 690 + }, + { + "epoch": 0.9226666666666666, + "grad_norm": 3.21875, + "learning_rate": 6.700262302606653e-09, + "loss": 2.174124002456665, + "step": 692 + }, + { + "epoch": 0.9253333333333333, + "grad_norm": 2.875, + "learning_rate": 6.683249220937922e-09, + "loss": 1.9074881076812744, + "step": 694 + }, + { + "epoch": 0.928, + "grad_norm": 4.125, + "learning_rate": 6.666223398013818e-09, + "loss": 2.2817506790161133, + "step": 696 + }, + { + "epoch": 0.9306666666666666, + "grad_norm": 0.7265625, + "learning_rate": 6.6491851513324845e-09, + "loss": 1.7976012229919434, + "step": 698 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 1.8203125, + "learning_rate": 6.632134798623737e-09, + "loss": 2.2520010471343994, + "step": 700 + }, + { + "epoch": 0.936, + "grad_norm": 2.125, + "learning_rate": 6.615072657843155e-09, + "loss": 1.5152980089187622, + "step": 702 + }, + { + "epoch": 0.9386666666666666, + "grad_norm": 0.6953125, + "learning_rate": 6.597999047166133e-09, + "loss": 1.6834348440170288, + "step": 704 + }, + { + "epoch": 0.9413333333333334, + "grad_norm": 0.83203125, + "learning_rate": 6.580914284981962e-09, + "loss": 2.277674436569214, + "step": 706 + }, + { + "epoch": 0.944, + "grad_norm": 3.34375, + "learning_rate": 6.5638186898878835e-09, + "loss": 1.7734097242355347, + "step": 708 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 0.45703125, + "learning_rate": 6.5467125806831515e-09, + "loss": 1.2191669940948486, + "step": 710 + }, + { + "epoch": 0.9493333333333334, + "grad_norm": 0.9609375, + "learning_rate": 6.529596276363093e-09, + "loss": 1.642634391784668, + "step": 712 + }, + { + "epoch": 0.952, + "grad_norm": 0.97265625, + "learning_rate": 6.512470096113147e-09, + "loss": 2.0380730628967285, + "step": 714 + }, + { + "epoch": 0.9546666666666667, + "grad_norm": 4.125, + "learning_rate": 6.495334359302923e-09, + "loss": 2.0816550254821777, + "step": 716 + }, + { + "epoch": 0.9573333333333334, + "grad_norm": 0.8125, + "learning_rate": 6.478189385480235e-09, + "loss": 1.6059696674346924, + "step": 718 + }, + { + "epoch": 0.96, + "grad_norm": 1.9140625, + "learning_rate": 6.461035494365164e-09, + "loss": 2.008833169937134, + "step": 720 + }, + { + "epoch": 0.9626666666666667, + "grad_norm": 4.28125, + "learning_rate": 6.4438730058440655e-09, + "loss": 1.7914685010910034, + "step": 722 + }, + { + "epoch": 0.9653333333333334, + "grad_norm": 1.2734375, + "learning_rate": 6.426702239963626e-09, + "loss": 1.6844180822372437, + "step": 724 + }, + { + "epoch": 0.968, + "grad_norm": 0.7890625, + "learning_rate": 6.409523516924891e-09, + "loss": 1.34504234790802, + "step": 726 + }, + { + "epoch": 0.9706666666666667, + "grad_norm": 2.171875, + "learning_rate": 6.3923371570772856e-09, + "loss": 1.2960880994796753, + "step": 728 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 1.40625, + "learning_rate": 6.375143480912653e-09, + "loss": 1.924207091331482, + "step": 730 + }, + { + "epoch": 0.976, + "grad_norm": 3.234375, + "learning_rate": 6.357942809059264e-09, + "loss": 2.2275171279907227, + "step": 732 + }, + { + "epoch": 0.9786666666666667, + "grad_norm": 3.015625, + "learning_rate": 6.34073546227585e-09, + "loss": 2.1791670322418213, + "step": 734 + }, + { + "epoch": 0.9813333333333333, + "grad_norm": 1.796875, + "learning_rate": 6.323521761445618e-09, + "loss": 2.0370171070098877, + "step": 736 + }, + { + "epoch": 0.984, + "grad_norm": 36.25, + "learning_rate": 6.30630202757026e-09, + "loss": 1.7614537477493286, + "step": 738 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 3.578125, + "learning_rate": 6.2890765817639776e-09, + "loss": 2.175895929336548, + "step": 740 + }, + { + "epoch": 0.9893333333333333, + "grad_norm": 0.8203125, + "learning_rate": 6.271845745247486e-09, + "loss": 1.630334734916687, + "step": 742 + }, + { + "epoch": 0.992, + "grad_norm": 2.90625, + "learning_rate": 6.254609839342029e-09, + "loss": 2.394951343536377, + "step": 744 + }, + { + "epoch": 0.9946666666666667, + "grad_norm": 1.34375, + "learning_rate": 6.237369185463382e-09, + "loss": 1.9988031387329102, + "step": 746 + }, + { + "epoch": 0.9973333333333333, + "grad_norm": 3.984375, + "learning_rate": 6.22012410511586e-09, + "loss": 1.836710810661316, + "step": 748 + }, + { + "epoch": 1.0, + "grad_norm": 0.40234375, + "learning_rate": 6.202874919886325e-09, + "loss": 1.4645345211029053, + "step": 750 + }, + { + "epoch": 1.0026666666666666, + "grad_norm": 0.5234375, + "learning_rate": 6.185621951438189e-09, + "loss": 1.259044885635376, + "step": 752 + }, + { + "epoch": 1.0053333333333334, + "grad_norm": 2.171875, + "learning_rate": 6.168365521505408e-09, + "loss": 2.2467596530914307, + "step": 754 + }, + { + "epoch": 1.008, + "grad_norm": 1.5390625, + "learning_rate": 6.151105951886493e-09, + "loss": 2.064286231994629, + "step": 756 + }, + { + "epoch": 1.0106666666666666, + "grad_norm": 2.578125, + "learning_rate": 6.1338435644385016e-09, + "loss": 2.050123453140259, + "step": 758 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 1.8359375, + "learning_rate": 6.116578681071039e-09, + "loss": 2.2007393836975098, + "step": 760 + }, + { + "epoch": 1.016, + "grad_norm": 7.25, + "learning_rate": 6.099311623740254e-09, + "loss": 1.7279249429702759, + "step": 762 + }, + { + "epoch": 1.0186666666666666, + "grad_norm": 1.1875, + "learning_rate": 6.082042714442835e-09, + "loss": 1.5156075954437256, + "step": 764 + }, + { + "epoch": 1.0213333333333334, + "grad_norm": 1.125, + "learning_rate": 6.064772275210007e-09, + "loss": 1.937456488609314, + "step": 766 + }, + { + "epoch": 1.024, + "grad_norm": 1.3046875, + "learning_rate": 6.047500628101525e-09, + "loss": 1.9286739826202393, + "step": 768 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 1.9921875, + "learning_rate": 6.030228095199668e-09, + "loss": 1.6469793319702148, + "step": 770 + }, + { + "epoch": 1.0293333333333334, + "grad_norm": 2.3125, + "learning_rate": 6.012954998603235e-09, + "loss": 2.1531600952148438, + "step": 772 + }, + { + "epoch": 1.032, + "grad_norm": 1.5078125, + "learning_rate": 5.995681660421535e-09, + "loss": 2.0553598403930664, + "step": 774 + }, + { + "epoch": 1.0346666666666666, + "grad_norm": 2.375, + "learning_rate": 5.9784084027683826e-09, + "loss": 1.883590817451477, + "step": 776 + }, + { + "epoch": 1.0373333333333334, + "grad_norm": 3.21875, + "learning_rate": 5.961135547756091e-09, + "loss": 2.2724263668060303, + "step": 778 + }, + { + "epoch": 1.04, + "grad_norm": 0.416015625, + "learning_rate": 5.943863417489463e-09, + "loss": 1.7957870960235596, + "step": 780 + }, + { + "epoch": 1.0426666666666666, + "grad_norm": 2.53125, + "learning_rate": 5.92659233405979e-09, + "loss": 2.234978675842285, + "step": 782 + }, + { + "epoch": 1.0453333333333332, + "grad_norm": 0.828125, + "learning_rate": 5.90932261953884e-09, + "loss": 1.0685269832611084, + "step": 784 + }, + { + "epoch": 1.048, + "grad_norm": 6.1875, + "learning_rate": 5.892054595972853e-09, + "loss": 1.870047688484192, + "step": 786 + }, + { + "epoch": 1.0506666666666666, + "grad_norm": 3.34375, + "learning_rate": 5.874788585376536e-09, + "loss": 1.7908886671066284, + "step": 788 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 0.87890625, + "learning_rate": 5.857524909727058e-09, + "loss": 1.6072524785995483, + "step": 790 + }, + { + "epoch": 1.056, + "grad_norm": 1.1875, + "learning_rate": 5.8402638909580485e-09, + "loss": 2.162522792816162, + "step": 792 + }, + { + "epoch": 1.0586666666666666, + "grad_norm": 1.09375, + "learning_rate": 5.823005850953587e-09, + "loss": 1.8510265350341797, + "step": 794 + }, + { + "epoch": 1.0613333333333332, + "grad_norm": 0.6328125, + "learning_rate": 5.805751111542208e-09, + "loss": 1.1394752264022827, + "step": 796 + }, + { + "epoch": 1.064, + "grad_norm": 3.015625, + "learning_rate": 5.788499994490895e-09, + "loss": 1.9549927711486816, + "step": 798 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 1.25, + "learning_rate": 5.7712528214990846e-09, + "loss": 1.8942488431930542, + "step": 800 + }, + { + "epoch": 1.0693333333333332, + "grad_norm": 1.84375, + "learning_rate": 5.754009914192662e-09, + "loss": 1.8868470191955566, + "step": 802 + }, + { + "epoch": 1.072, + "grad_norm": 3.359375, + "learning_rate": 5.736771594117962e-09, + "loss": 1.9352576732635498, + "step": 804 + }, + { + "epoch": 1.0746666666666667, + "grad_norm": 5.125, + "learning_rate": 5.719538182735784e-09, + "loss": 2.3706133365631104, + "step": 806 + }, + { + "epoch": 1.0773333333333333, + "grad_norm": 1.390625, + "learning_rate": 5.702310001415385e-09, + "loss": 1.5871129035949707, + "step": 808 + }, + { + "epoch": 1.08, + "grad_norm": 1.0546875, + "learning_rate": 5.6850873714284925e-09, + "loss": 1.5843605995178223, + "step": 810 + }, + { + "epoch": 1.0826666666666667, + "grad_norm": 2.34375, + "learning_rate": 5.667870613943314e-09, + "loss": 1.7010804414749146, + "step": 812 + }, + { + "epoch": 1.0853333333333333, + "grad_norm": 1.640625, + "learning_rate": 5.650660050018544e-09, + "loss": 1.3027026653289795, + "step": 814 + }, + { + "epoch": 1.088, + "grad_norm": 2.25, + "learning_rate": 5.633456000597381e-09, + "loss": 1.8133392333984375, + "step": 816 + }, + { + "epoch": 1.0906666666666667, + "grad_norm": 1.1953125, + "learning_rate": 5.6162587865015426e-09, + "loss": 2.1602330207824707, + "step": 818 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 0.78125, + "learning_rate": 5.5990687284252765e-09, + "loss": 1.998731017112732, + "step": 820 + }, + { + "epoch": 1.096, + "grad_norm": 0.53515625, + "learning_rate": 5.5818861469293865e-09, + "loss": 1.606613039970398, + "step": 822 + }, + { + "epoch": 1.0986666666666667, + "grad_norm": 1.2265625, + "learning_rate": 5.5647113624352555e-09, + "loss": 2.124746561050415, + "step": 824 + }, + { + "epoch": 1.1013333333333333, + "grad_norm": 3.71875, + "learning_rate": 5.547544695218864e-09, + "loss": 1.9910880327224731, + "step": 826 + }, + { + "epoch": 1.104, + "grad_norm": 1.0234375, + "learning_rate": 5.530386465404822e-09, + "loss": 1.9260934591293335, + "step": 828 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 1.3671875, + "learning_rate": 5.513236992960402e-09, + "loss": 1.4777076244354248, + "step": 830 + }, + { + "epoch": 1.1093333333333333, + "grad_norm": 1.3515625, + "learning_rate": 5.496096597689564e-09, + "loss": 1.910886287689209, + "step": 832 + }, + { + "epoch": 1.112, + "grad_norm": 1.5546875, + "learning_rate": 5.478965599226999e-09, + "loss": 1.6413007974624634, + "step": 834 + }, + { + "epoch": 1.1146666666666667, + "grad_norm": 1.7734375, + "learning_rate": 5.461844317032166e-09, + "loss": 1.842114806175232, + "step": 836 + }, + { + "epoch": 1.1173333333333333, + "grad_norm": 0.91796875, + "learning_rate": 5.4447330703833344e-09, + "loss": 1.261273980140686, + "step": 838 + }, + { + "epoch": 1.12, + "grad_norm": 2.234375, + "learning_rate": 5.427632178371628e-09, + "loss": 2.075026512145996, + "step": 840 + }, + { + "epoch": 1.1226666666666667, + "grad_norm": 1.25, + "learning_rate": 5.410541959895082e-09, + "loss": 1.8633524179458618, + "step": 842 + }, + { + "epoch": 1.1253333333333333, + "grad_norm": 2.5625, + "learning_rate": 5.393462733652688e-09, + "loss": 1.8478502035140991, + "step": 844 + }, + { + "epoch": 1.1280000000000001, + "grad_norm": 1.046875, + "learning_rate": 5.376394818138455e-09, + "loss": 1.8932420015335083, + "step": 846 + }, + { + "epoch": 1.1306666666666667, + "grad_norm": 3.40625, + "learning_rate": 5.359338531635465e-09, + "loss": 1.7140039205551147, + "step": 848 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 0.412109375, + "learning_rate": 5.342294192209949e-09, + "loss": 1.5283839702606201, + "step": 850 + }, + { + "epoch": 1.1360000000000001, + "grad_norm": 2.96875, + "learning_rate": 5.3252621177053425e-09, + "loss": 2.1872851848602295, + "step": 852 + }, + { + "epoch": 1.1386666666666667, + "grad_norm": 1.2890625, + "learning_rate": 5.3082426257363705e-09, + "loss": 1.8428471088409424, + "step": 854 + }, + { + "epoch": 1.1413333333333333, + "grad_norm": 1.6015625, + "learning_rate": 5.291236033683109e-09, + "loss": 1.4907652139663696, + "step": 856 + }, + { + "epoch": 1.144, + "grad_norm": 0.9375, + "learning_rate": 5.2742426586850864e-09, + "loss": 1.7861065864562988, + "step": 858 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 1.2890625, + "learning_rate": 5.257262817635351e-09, + "loss": 2.0522258281707764, + "step": 860 + }, + { + "epoch": 1.1493333333333333, + "grad_norm": 1.484375, + "learning_rate": 5.2402968271745735e-09, + "loss": 2.1046245098114014, + "step": 862 + }, + { + "epoch": 1.152, + "grad_norm": 3.234375, + "learning_rate": 5.223345003685138e-09, + "loss": 2.0264651775360107, + "step": 864 + }, + { + "epoch": 1.1546666666666667, + "grad_norm": 1.953125, + "learning_rate": 5.206407663285241e-09, + "loss": 1.915894627571106, + "step": 866 + }, + { + "epoch": 1.1573333333333333, + "grad_norm": 1.8203125, + "learning_rate": 5.189485121823001e-09, + "loss": 1.9370074272155762, + "step": 868 + }, + { + "epoch": 1.16, + "grad_norm": 1.125, + "learning_rate": 5.172577694870559e-09, + "loss": 1.9133473634719849, + "step": 870 + }, + { + "epoch": 1.1626666666666667, + "grad_norm": 3.328125, + "learning_rate": 5.155685697718209e-09, + "loss": 2.016202449798584, + "step": 872 + }, + { + "epoch": 1.1653333333333333, + "grad_norm": 0.98828125, + "learning_rate": 5.138809445368501e-09, + "loss": 1.680112600326538, + "step": 874 + }, + { + "epoch": 1.168, + "grad_norm": 1.3046875, + "learning_rate": 5.1219492525303826e-09, + "loss": 1.9129942655563354, + "step": 876 + }, + { + "epoch": 1.1706666666666667, + "grad_norm": 0.9140625, + "learning_rate": 5.105105433613315e-09, + "loss": 1.5393624305725098, + "step": 878 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 6.71875, + "learning_rate": 5.0882783027214275e-09, + "loss": 1.899593710899353, + "step": 880 + }, + { + "epoch": 1.176, + "grad_norm": 0.62109375, + "learning_rate": 5.071468173647642e-09, + "loss": 1.596930742263794, + "step": 882 + }, + { + "epoch": 1.1786666666666668, + "grad_norm": 1.4765625, + "learning_rate": 5.054675359867835e-09, + "loss": 2.020768880844116, + "step": 884 + }, + { + "epoch": 1.1813333333333333, + "grad_norm": 1.203125, + "learning_rate": 5.0379001745349866e-09, + "loss": 1.3474191427230835, + "step": 886 + }, + { + "epoch": 1.184, + "grad_norm": 1.0390625, + "learning_rate": 5.021142930473337e-09, + "loss": 1.803186297416687, + "step": 888 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 1.234375, + "learning_rate": 5.00440394017256e-09, + "loss": 1.8065211772918701, + "step": 890 + }, + { + "epoch": 1.1893333333333334, + "grad_norm": 1.6328125, + "learning_rate": 4.987683515781936e-09, + "loss": 1.5458588600158691, + "step": 892 + }, + { + "epoch": 1.192, + "grad_norm": 0.8203125, + "learning_rate": 4.970981969104519e-09, + "loss": 1.1960078477859497, + "step": 894 + }, + { + "epoch": 1.1946666666666665, + "grad_norm": 1.375, + "learning_rate": 4.954299611591339e-09, + "loss": 1.6406760215759277, + "step": 896 + }, + { + "epoch": 1.1973333333333334, + "grad_norm": 2.453125, + "learning_rate": 4.93763675433558e-09, + "loss": 1.948028802871704, + "step": 898 + }, + { + "epoch": 1.2, + "grad_norm": 1.484375, + "learning_rate": 4.920993708066788e-09, + "loss": 1.7970317602157593, + "step": 900 + }, + { + "epoch": 1.2026666666666666, + "grad_norm": 2.890625, + "learning_rate": 4.904370783145074e-09, + "loss": 2.1257944107055664, + "step": 902 + }, + { + "epoch": 1.2053333333333334, + "grad_norm": 4.53125, + "learning_rate": 4.8877682895553205e-09, + "loss": 1.880362629890442, + "step": 904 + }, + { + "epoch": 1.208, + "grad_norm": 0.61328125, + "learning_rate": 4.87118653690141e-09, + "loss": 1.5706111192703247, + "step": 906 + }, + { + "epoch": 1.2106666666666666, + "grad_norm": 1.390625, + "learning_rate": 4.854625834400446e-09, + "loss": 1.5587897300720215, + "step": 908 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 2.890625, + "learning_rate": 4.838086490876987e-09, + "loss": 1.6950901746749878, + "step": 910 + }, + { + "epoch": 1.216, + "grad_norm": 6.5625, + "learning_rate": 4.821568814757292e-09, + "loss": 1.772045612335205, + "step": 912 + }, + { + "epoch": 1.2186666666666666, + "grad_norm": 0.7421875, + "learning_rate": 4.805073114063561e-09, + "loss": 1.523197889328003, + "step": 914 + }, + { + "epoch": 1.2213333333333334, + "grad_norm": 0.7890625, + "learning_rate": 4.788599696408198e-09, + "loss": 1.3500950336456299, + "step": 916 + }, + { + "epoch": 1.224, + "grad_norm": 0.90625, + "learning_rate": 4.7721488689880715e-09, + "loss": 1.4523169994354248, + "step": 918 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 2.515625, + "learning_rate": 4.755720938578787e-09, + "loss": 1.7262288331985474, + "step": 920 + }, + { + "epoch": 1.2293333333333334, + "grad_norm": 0.8671875, + "learning_rate": 4.7393162115289664e-09, + "loss": 1.6037812232971191, + "step": 922 + }, + { + "epoch": 1.232, + "grad_norm": 2.640625, + "learning_rate": 4.722934993754533e-09, + "loss": 2.0987040996551514, + "step": 924 + }, + { + "epoch": 1.2346666666666666, + "grad_norm": 1.1328125, + "learning_rate": 4.706577590733007e-09, + "loss": 1.5940345525741577, + "step": 926 + }, + { + "epoch": 1.2373333333333334, + "grad_norm": 1.390625, + "learning_rate": 4.690244307497814e-09, + "loss": 1.5601483583450317, + "step": 928 + }, + { + "epoch": 1.24, + "grad_norm": 1.078125, + "learning_rate": 4.673935448632591e-09, + "loss": 2.1076908111572266, + "step": 930 + }, + { + "epoch": 1.2426666666666666, + "grad_norm": 1.0703125, + "learning_rate": 4.6576513182655086e-09, + "loss": 1.881157398223877, + "step": 932 + }, + { + "epoch": 1.2453333333333334, + "grad_norm": 1.21875, + "learning_rate": 4.641392220063598e-09, + "loss": 1.8262559175491333, + "step": 934 + }, + { + "epoch": 1.248, + "grad_norm": 0.8203125, + "learning_rate": 4.625158457227094e-09, + "loss": 1.496355652809143, + "step": 936 + }, + { + "epoch": 1.2506666666666666, + "grad_norm": 1.5078125, + "learning_rate": 4.608950332483772e-09, + "loss": 1.8386247158050537, + "step": 938 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 0.62890625, + "learning_rate": 4.59276814808331e-09, + "loss": 1.6028660535812378, + "step": 940 + }, + { + "epoch": 1.256, + "grad_norm": 0.52734375, + "learning_rate": 4.576612205791648e-09, + "loss": 1.2583792209625244, + "step": 942 + }, + { + "epoch": 1.2586666666666666, + "grad_norm": 2.9375, + "learning_rate": 4.560482806885363e-09, + "loss": 1.7977988719940186, + "step": 944 + }, + { + "epoch": 1.2613333333333334, + "grad_norm": 4.59375, + "learning_rate": 4.54438025214605e-09, + "loss": 2.193932056427002, + "step": 946 + }, + { + "epoch": 1.264, + "grad_norm": 1.3125, + "learning_rate": 4.528304841854715e-09, + "loss": 1.8389561176300049, + "step": 948 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 0.58203125, + "learning_rate": 4.512256875786168e-09, + "loss": 1.7931069135665894, + "step": 950 + }, + { + "epoch": 1.2693333333333334, + "grad_norm": 0.77734375, + "learning_rate": 4.496236653203444e-09, + "loss": 1.7321507930755615, + "step": 952 + }, + { + "epoch": 1.272, + "grad_norm": 1.8125, + "learning_rate": 4.480244472852213e-09, + "loss": 2.222858428955078, + "step": 954 + }, + { + "epoch": 1.2746666666666666, + "grad_norm": 0.9609375, + "learning_rate": 4.464280632955215e-09, + "loss": 1.3424203395843506, + "step": 956 + }, + { + "epoch": 1.2773333333333334, + "grad_norm": 1.3828125, + "learning_rate": 4.448345431206694e-09, + "loss": 1.5889484882354736, + "step": 958 + }, + { + "epoch": 1.28, + "grad_norm": 1.421875, + "learning_rate": 4.43243916476685e-09, + "loss": 1.3793516159057617, + "step": 960 + }, + { + "epoch": 1.2826666666666666, + "grad_norm": 0.41015625, + "learning_rate": 4.416562130256296e-09, + "loss": 1.5104498863220215, + "step": 962 + }, + { + "epoch": 1.2853333333333334, + "grad_norm": 0.86328125, + "learning_rate": 4.400714623750524e-09, + "loss": 1.5663784742355347, + "step": 964 + }, + { + "epoch": 1.288, + "grad_norm": 2.6875, + "learning_rate": 4.3848969407743945e-09, + "loss": 2.37646484375, + "step": 966 + }, + { + "epoch": 1.2906666666666666, + "grad_norm": 3.078125, + "learning_rate": 4.36910937629661e-09, + "loss": 2.089693307876587, + "step": 968 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 12.25, + "learning_rate": 4.353352224724225e-09, + "loss": 2.1083428859710693, + "step": 970 + }, + { + "epoch": 1.296, + "grad_norm": 1.15625, + "learning_rate": 4.337625779897155e-09, + "loss": 1.8934953212738037, + "step": 972 + }, + { + "epoch": 1.2986666666666666, + "grad_norm": 2.75, + "learning_rate": 4.3219303350826926e-09, + "loss": 1.8317111730575562, + "step": 974 + }, + { + "epoch": 1.3013333333333335, + "grad_norm": 1.234375, + "learning_rate": 4.3062661829700414e-09, + "loss": 1.8767393827438354, + "step": 976 + }, + { + "epoch": 1.304, + "grad_norm": 1.5703125, + "learning_rate": 4.290633615664857e-09, + "loss": 1.9324172735214233, + "step": 978 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 4.25, + "learning_rate": 4.2750329246838015e-09, + "loss": 2.246973752975464, + "step": 980 + }, + { + "epoch": 1.3093333333333335, + "grad_norm": 0.59765625, + "learning_rate": 4.259464400949107e-09, + "loss": 1.64799165725708, + "step": 982 + }, + { + "epoch": 1.312, + "grad_norm": 2.0625, + "learning_rate": 4.243928334783148e-09, + "loss": 1.7538410425186157, + "step": 984 + }, + { + "epoch": 1.3146666666666667, + "grad_norm": 2.90625, + "learning_rate": 4.2284250159030325e-09, + "loss": 1.9145493507385254, + "step": 986 + }, + { + "epoch": 1.3173333333333335, + "grad_norm": 1.140625, + "learning_rate": 4.212954733415191e-09, + "loss": 2.1837127208709717, + "step": 988 + }, + { + "epoch": 1.32, + "grad_norm": 2.21875, + "learning_rate": 4.197517775809992e-09, + "loss": 1.7847557067871094, + "step": 990 + }, + { + "epoch": 1.3226666666666667, + "grad_norm": 2.671875, + "learning_rate": 4.182114430956362e-09, + "loss": 2.1116790771484375, + "step": 992 + }, + { + "epoch": 1.3253333333333333, + "grad_norm": 1.359375, + "learning_rate": 4.166744986096413e-09, + "loss": 1.7069684267044067, + "step": 994 + }, + { + "epoch": 1.328, + "grad_norm": 1.4609375, + "learning_rate": 4.151409727840092e-09, + "loss": 1.912143588066101, + "step": 996 + }, + { + "epoch": 1.3306666666666667, + "grad_norm": 4.125, + "learning_rate": 4.136108942159832e-09, + "loss": 2.4729881286621094, + "step": 998 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 3.734375, + "learning_rate": 4.120842914385218e-09, + "loss": 1.7187219858169556, + "step": 1000 + }, + { + "epoch": 1.336, + "grad_norm": 0.515625, + "learning_rate": 4.105611929197671e-09, + "loss": 1.569278359413147, + "step": 1002 + }, + { + "epoch": 1.3386666666666667, + "grad_norm": 1.3203125, + "learning_rate": 4.090416270625135e-09, + "loss": 1.8596712350845337, + "step": 1004 + }, + { + "epoch": 1.3413333333333333, + "grad_norm": 0.61328125, + "learning_rate": 4.0752562220367804e-09, + "loss": 1.6299768686294556, + "step": 1006 + }, + { + "epoch": 1.3439999999999999, + "grad_norm": 1.1953125, + "learning_rate": 4.0601320661377275e-09, + "loss": 1.9480643272399902, + "step": 1008 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 1.015625, + "learning_rate": 4.045044084963762e-09, + "loss": 1.8339238166809082, + "step": 1010 + }, + { + "epoch": 1.3493333333333333, + "grad_norm": 0.89453125, + "learning_rate": 4.029992559876088e-09, + "loss": 1.838714361190796, + "step": 1012 + }, + { + "epoch": 1.3519999999999999, + "grad_norm": 2.078125, + "learning_rate": 4.014977771556067e-09, + "loss": 1.9255378246307373, + "step": 1014 + }, + { + "epoch": 1.3546666666666667, + "grad_norm": 3.59375, + "learning_rate": 4.000000000000001e-09, + "loss": 1.8615750074386597, + "step": 1016 + }, + { + "epoch": 1.3573333333333333, + "grad_norm": 1.2109375, + "learning_rate": 3.985059524513895e-09, + "loss": 1.465595006942749, + "step": 1018 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 3.125, + "learning_rate": 3.970156623708261e-09, + "loss": 2.2073721885681152, + "step": 1020 + }, + { + "epoch": 1.3626666666666667, + "grad_norm": 0.59765625, + "learning_rate": 3.955291575492912e-09, + "loss": 1.5387027263641357, + "step": 1022 + }, + { + "epoch": 1.3653333333333333, + "grad_norm": 1.5234375, + "learning_rate": 3.940464657071786e-09, + "loss": 1.861857295036316, + "step": 1024 + }, + { + "epoch": 1.3679999999999999, + "grad_norm": 2.203125, + "learning_rate": 3.925676144937782e-09, + "loss": 2.1772828102111816, + "step": 1026 + }, + { + "epoch": 1.3706666666666667, + "grad_norm": 0.921875, + "learning_rate": 3.910926314867587e-09, + "loss": 1.5904673337936401, + "step": 1028 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 3.890625, + "learning_rate": 3.8962154419165485e-09, + "loss": 2.2001538276672363, + "step": 1030 + }, + { + "epoch": 1.376, + "grad_norm": 1.390625, + "learning_rate": 3.881543800413542e-09, + "loss": 1.5958366394042969, + "step": 1032 + }, + { + "epoch": 1.3786666666666667, + "grad_norm": 2.28125, + "learning_rate": 3.86691166395585e-09, + "loss": 2.1380932331085205, + "step": 1034 + }, + { + "epoch": 1.3813333333333333, + "grad_norm": 0.451171875, + "learning_rate": 3.852319305404065e-09, + "loss": 1.7112258672714233, + "step": 1036 + }, + { + "epoch": 1.384, + "grad_norm": 1.21875, + "learning_rate": 3.837766996877e-09, + "loss": 1.9973968267440796, + "step": 1038 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 1.578125, + "learning_rate": 3.823255009746614e-09, + "loss": 2.2577526569366455, + "step": 1040 + }, + { + "epoch": 1.3893333333333333, + "grad_norm": 0.890625, + "learning_rate": 3.808783614632949e-09, + "loss": 1.3888800144195557, + "step": 1042 + }, + { + "epoch": 1.392, + "grad_norm": 2.234375, + "learning_rate": 3.794353081399089e-09, + "loss": 2.0604593753814697, + "step": 1044 + }, + { + "epoch": 1.3946666666666667, + "grad_norm": 1.234375, + "learning_rate": 3.779963679146121e-09, + "loss": 1.9488394260406494, + "step": 1046 + }, + { + "epoch": 1.3973333333333333, + "grad_norm": 1.2578125, + "learning_rate": 3.765615676208124e-09, + "loss": 1.8341143131256104, + "step": 1048 + }, + { + "epoch": 1.4, + "grad_norm": 1.0859375, + "learning_rate": 3.751309340147156e-09, + "loss": 2.020453929901123, + "step": 1050 + }, + { + "epoch": 1.4026666666666667, + "grad_norm": 0.796875, + "learning_rate": 3.7370449377482715e-09, + "loss": 1.5498268604278564, + "step": 1052 + }, + { + "epoch": 1.4053333333333333, + "grad_norm": 6.84375, + "learning_rate": 3.7228227350145493e-09, + "loss": 1.3826239109039307, + "step": 1054 + }, + { + "epoch": 1.408, + "grad_norm": 0.7734375, + "learning_rate": 3.7086429971621214e-09, + "loss": 1.6661386489868164, + "step": 1056 + }, + { + "epoch": 1.4106666666666667, + "grad_norm": 1.125, + "learning_rate": 3.6945059886152356e-09, + "loss": 1.9143027067184448, + "step": 1058 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 1.21875, + "learning_rate": 3.6804119730013215e-09, + "loss": 2.2068653106689453, + "step": 1060 + }, + { + "epoch": 1.416, + "grad_norm": 9.25, + "learning_rate": 3.666361213146075e-09, + "loss": 1.890751838684082, + "step": 1062 + }, + { + "epoch": 1.4186666666666667, + "grad_norm": 0.6640625, + "learning_rate": 3.6523539710685583e-09, + "loss": 1.8205938339233398, + "step": 1064 + }, + { + "epoch": 1.4213333333333333, + "grad_norm": 0.8046875, + "learning_rate": 3.6383905079763108e-09, + "loss": 1.2335028648376465, + "step": 1066 + }, + { + "epoch": 1.424, + "grad_norm": 0.99609375, + "learning_rate": 3.6244710842604813e-09, + "loss": 2.0793159008026123, + "step": 1068 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 1.734375, + "learning_rate": 3.6105959594909676e-09, + "loss": 1.5506471395492554, + "step": 1070 + }, + { + "epoch": 1.4293333333333333, + "grad_norm": 1.0078125, + "learning_rate": 3.596765392411586e-09, + "loss": 1.755253553390503, + "step": 1072 + }, + { + "epoch": 1.432, + "grad_norm": 1.2890625, + "learning_rate": 3.582979640935233e-09, + "loss": 1.554221510887146, + "step": 1074 + }, + { + "epoch": 1.4346666666666668, + "grad_norm": 1.3359375, + "learning_rate": 3.5692389621390836e-09, + "loss": 2.169426679611206, + "step": 1076 + }, + { + "epoch": 1.4373333333333334, + "grad_norm": 2.796875, + "learning_rate": 3.5555436122597996e-09, + "loss": 1.9468799829483032, + "step": 1078 + }, + { + "epoch": 1.44, + "grad_norm": 10.125, + "learning_rate": 3.5418938466887415e-09, + "loss": 1.915063738822937, + "step": 1080 + }, + { + "epoch": 1.4426666666666668, + "grad_norm": 0.51171875, + "learning_rate": 3.5282899199672164e-09, + "loss": 1.5836447477340698, + "step": 1082 + }, + { + "epoch": 1.4453333333333334, + "grad_norm": 1.1875, + "learning_rate": 3.5147320857817262e-09, + "loss": 2.057462453842163, + "step": 1084 + }, + { + "epoch": 1.448, + "grad_norm": 1.078125, + "learning_rate": 3.501220596959236e-09, + "loss": 1.4570143222808838, + "step": 1086 + }, + { + "epoch": 1.4506666666666668, + "grad_norm": 2.4375, + "learning_rate": 3.487755705462462e-09, + "loss": 2.0535616874694824, + "step": 1088 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 2.359375, + "learning_rate": 3.4743376623851725e-09, + "loss": 1.644309163093567, + "step": 1090 + }, + { + "epoch": 1.456, + "grad_norm": 12.4375, + "learning_rate": 3.4609667179475037e-09, + "loss": 1.939032793045044, + "step": 1092 + }, + { + "epoch": 1.4586666666666668, + "grad_norm": 5.21875, + "learning_rate": 3.4476431214912964e-09, + "loss": 1.7405142784118652, + "step": 1094 + }, + { + "epoch": 1.4613333333333334, + "grad_norm": 2.734375, + "learning_rate": 3.4343671214754412e-09, + "loss": 2.0724618434906006, + "step": 1096 + }, + { + "epoch": 1.464, + "grad_norm": 2.0625, + "learning_rate": 3.4211389654712517e-09, + "loss": 1.8232965469360352, + "step": 1098 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 1.0546875, + "learning_rate": 3.4079589001578446e-09, + "loss": 2.136154890060425, + "step": 1100 + }, + { + "epoch": 1.4693333333333334, + "grad_norm": 0.69921875, + "learning_rate": 3.3948271713175394e-09, + "loss": 1.7769290208816528, + "step": 1102 + }, + { + "epoch": 1.472, + "grad_norm": 1.3984375, + "learning_rate": 3.381744023831273e-09, + "loss": 1.8233089447021484, + "step": 1104 + }, + { + "epoch": 1.4746666666666668, + "grad_norm": 2.375, + "learning_rate": 3.3687097016740386e-09, + "loss": 2.1642887592315674, + "step": 1106 + }, + { + "epoch": 1.4773333333333334, + "grad_norm": 1.2890625, + "learning_rate": 3.355724447910331e-09, + "loss": 1.5282243490219116, + "step": 1108 + }, + { + "epoch": 1.48, + "grad_norm": 1.140625, + "learning_rate": 3.342788504689618e-09, + "loss": 1.8636339902877808, + "step": 1110 + }, + { + "epoch": 1.4826666666666668, + "grad_norm": 0.75, + "learning_rate": 3.3299021132418196e-09, + "loss": 1.6796783208847046, + "step": 1112 + }, + { + "epoch": 1.4853333333333334, + "grad_norm": 1.1953125, + "learning_rate": 3.3170655138728146e-09, + "loss": 2.1287944316864014, + "step": 1114 + }, + { + "epoch": 1.488, + "grad_norm": 1.3671875, + "learning_rate": 3.3042789459599566e-09, + "loss": 2.1079940795898438, + "step": 1116 + }, + { + "epoch": 1.4906666666666666, + "grad_norm": 3.265625, + "learning_rate": 3.291542647947614e-09, + "loss": 2.15340256690979, + "step": 1118 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 0.66015625, + "learning_rate": 3.2788568573427146e-09, + "loss": 1.1380071640014648, + "step": 1120 + }, + { + "epoch": 1.496, + "grad_norm": 4.03125, + "learning_rate": 3.2662218107103264e-09, + "loss": 2.2066473960876465, + "step": 1122 + }, + { + "epoch": 1.4986666666666666, + "grad_norm": 0.46484375, + "learning_rate": 3.2536377436692423e-09, + "loss": 1.1828243732452393, + "step": 1124 + }, + { + "epoch": 1.5013333333333332, + "grad_norm": 3.546875, + "learning_rate": 3.241104890887583e-09, + "loss": 2.094403028488159, + "step": 1126 + }, + { + "epoch": 1.504, + "grad_norm": 3.015625, + "learning_rate": 3.2286234860784265e-09, + "loss": 1.8210811614990234, + "step": 1128 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 0.546875, + "learning_rate": 3.2161937619954455e-09, + "loss": 1.8125649690628052, + "step": 1130 + }, + { + "epoch": 1.5093333333333332, + "grad_norm": 0.921875, + "learning_rate": 3.2038159504285707e-09, + "loss": 1.8376426696777344, + "step": 1132 + }, + { + "epoch": 1.512, + "grad_norm": 1.2734375, + "learning_rate": 3.191490282199664e-09, + "loss": 1.9754841327667236, + "step": 1134 + }, + { + "epoch": 1.5146666666666668, + "grad_norm": 0.5703125, + "learning_rate": 3.179216987158218e-09, + "loss": 1.4537146091461182, + "step": 1136 + }, + { + "epoch": 1.5173333333333332, + "grad_norm": 3.046875, + "learning_rate": 3.166996294177068e-09, + "loss": 1.799623727798462, + "step": 1138 + }, + { + "epoch": 1.52, + "grad_norm": 3.828125, + "learning_rate": 3.1548284311481244e-09, + "loss": 2.3792202472686768, + "step": 1140 + }, + { + "epoch": 1.5226666666666666, + "grad_norm": 0.62890625, + "learning_rate": 3.1427136249781224e-09, + "loss": 1.2780814170837402, + "step": 1142 + }, + { + "epoch": 1.5253333333333332, + "grad_norm": 1.0546875, + "learning_rate": 3.1306521015843904e-09, + "loss": 2.1566176414489746, + "step": 1144 + }, + { + "epoch": 1.528, + "grad_norm": 0.80859375, + "learning_rate": 3.11864408589064e-09, + "loss": 1.1312358379364014, + "step": 1146 + }, + { + "epoch": 1.5306666666666666, + "grad_norm": 1.1640625, + "learning_rate": 3.106689801822768e-09, + "loss": 1.954304814338684, + "step": 1148 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 0.87109375, + "learning_rate": 3.094789472304681e-09, + "loss": 1.234276533126831, + "step": 1150 + }, + { + "epoch": 1.536, + "grad_norm": 0.625, + "learning_rate": 3.08294331925414e-09, + "loss": 1.7781298160552979, + "step": 1152 + }, + { + "epoch": 1.5386666666666666, + "grad_norm": 0.67578125, + "learning_rate": 3.0711515635786224e-09, + "loss": 1.8762702941894531, + "step": 1154 + }, + { + "epoch": 1.5413333333333332, + "grad_norm": 2.453125, + "learning_rate": 3.0594144251711996e-09, + "loss": 2.161132574081421, + "step": 1156 + }, + { + "epoch": 1.544, + "grad_norm": 1.15625, + "learning_rate": 3.047732122906439e-09, + "loss": 2.0912721157073975, + "step": 1158 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 6.6875, + "learning_rate": 3.0361048746363224e-09, + "loss": 2.5332658290863037, + "step": 1160 + }, + { + "epoch": 1.5493333333333332, + "grad_norm": 3.890625, + "learning_rate": 3.024532897186183e-09, + "loss": 2.111358404159546, + "step": 1162 + }, + { + "epoch": 1.552, + "grad_norm": 3.15625, + "learning_rate": 3.0130164063506606e-09, + "loss": 2.2159292697906494, + "step": 1164 + }, + { + "epoch": 1.5546666666666666, + "grad_norm": 3.46875, + "learning_rate": 3.0015556168896785e-09, + "loss": 2.2090470790863037, + "step": 1166 + }, + { + "epoch": 1.5573333333333332, + "grad_norm": 1.140625, + "learning_rate": 2.990150742524439e-09, + "loss": 2.118368148803711, + "step": 1168 + }, + { + "epoch": 1.56, + "grad_norm": 8.5, + "learning_rate": 2.9788019959334402e-09, + "loss": 2.0572381019592285, + "step": 1170 + }, + { + "epoch": 1.5626666666666666, + "grad_norm": 4.59375, + "learning_rate": 2.967509588748504e-09, + "loss": 2.4544730186462402, + "step": 1172 + }, + { + "epoch": 1.5653333333333332, + "grad_norm": 1.2578125, + "learning_rate": 2.956273731550836e-09, + "loss": 1.7947977781295776, + "step": 1174 + }, + { + "epoch": 1.568, + "grad_norm": 3.328125, + "learning_rate": 2.9450946338670925e-09, + "loss": 2.1816515922546387, + "step": 1176 + }, + { + "epoch": 1.5706666666666667, + "grad_norm": 1.421875, + "learning_rate": 2.9339725041654792e-09, + "loss": 1.5207916498184204, + "step": 1178 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 1.453125, + "learning_rate": 2.9229075498518596e-09, + "loss": 1.8684794902801514, + "step": 1180 + }, + { + "epoch": 1.576, + "grad_norm": 1.2578125, + "learning_rate": 2.9118999772658887e-09, + "loss": 1.882980227470398, + "step": 1182 + }, + { + "epoch": 1.5786666666666667, + "grad_norm": 1.0234375, + "learning_rate": 2.9009499916771655e-09, + "loss": 1.7312045097351074, + "step": 1184 + }, + { + "epoch": 1.5813333333333333, + "grad_norm": 1.2890625, + "learning_rate": 2.890057797281404e-09, + "loss": 2.04587984085083, + "step": 1186 + }, + { + "epoch": 1.584, + "grad_norm": 0.49609375, + "learning_rate": 2.8792235971966256e-09, + "loss": 1.5842205286026, + "step": 1188 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 4.96875, + "learning_rate": 2.868447593459373e-09, + "loss": 2.111997365951538, + "step": 1190 + }, + { + "epoch": 1.5893333333333333, + "grad_norm": 2.46875, + "learning_rate": 2.8577299870209417e-09, + "loss": 1.9834377765655518, + "step": 1192 + }, + { + "epoch": 1.592, + "grad_norm": 0.97265625, + "learning_rate": 2.847070977743631e-09, + "loss": 1.9653667211532593, + "step": 1194 + }, + { + "epoch": 1.5946666666666667, + "grad_norm": 1.234375, + "learning_rate": 2.8364707643970182e-09, + "loss": 1.9497570991516113, + "step": 1196 + }, + { + "epoch": 1.5973333333333333, + "grad_norm": 2.15625, + "learning_rate": 2.8259295446542533e-09, + "loss": 1.9541677236557007, + "step": 1198 + }, + { + "epoch": 1.6, + "grad_norm": 2.859375, + "learning_rate": 2.8154475150883702e-09, + "loss": 1.6280796527862549, + "step": 1200 + }, + { + "epoch": 1.6026666666666667, + "grad_norm": 0.82421875, + "learning_rate": 2.8050248711686233e-09, + "loss": 1.8475522994995117, + "step": 1202 + }, + { + "epoch": 1.6053333333333333, + "grad_norm": 0.9296875, + "learning_rate": 2.7946618072568407e-09, + "loss": 1.6077812910079956, + "step": 1204 + }, + { + "epoch": 1.608, + "grad_norm": 1.4453125, + "learning_rate": 2.7843585166038e-09, + "loss": 1.924946904182434, + "step": 1206 + }, + { + "epoch": 1.6106666666666667, + "grad_norm": 1.515625, + "learning_rate": 2.7741151913456283e-09, + "loss": 1.5497167110443115, + "step": 1208 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 9.3125, + "learning_rate": 2.7639320225002108e-09, + "loss": 2.1292612552642822, + "step": 1210 + }, + { + "epoch": 1.616, + "grad_norm": 1.2890625, + "learning_rate": 2.7538091999636373e-09, + "loss": 2.072988510131836, + "step": 1212 + }, + { + "epoch": 1.6186666666666667, + "grad_norm": 2.15625, + "learning_rate": 2.7437469125066557e-09, + "loss": 2.1661105155944824, + "step": 1214 + }, + { + "epoch": 1.6213333333333333, + "grad_norm": 4.65625, + "learning_rate": 2.7337453477711562e-09, + "loss": 2.3083508014678955, + "step": 1216 + }, + { + "epoch": 1.624, + "grad_norm": 4.09375, + "learning_rate": 2.7238046922666672e-09, + "loss": 1.6864315271377563, + "step": 1218 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 3.0, + "learning_rate": 2.7139251313668787e-09, + "loss": 2.1456027030944824, + "step": 1220 + }, + { + "epoch": 1.6293333333333333, + "grad_norm": 1.9765625, + "learning_rate": 2.7041068493061906e-09, + "loss": 1.9634565114974976, + "step": 1222 + }, + { + "epoch": 1.6320000000000001, + "grad_norm": 1.328125, + "learning_rate": 2.6943500291762686e-09, + "loss": 1.8810245990753174, + "step": 1224 + }, + { + "epoch": 1.6346666666666667, + "grad_norm": 0.60546875, + "learning_rate": 2.6846548529226356e-09, + "loss": 1.2452850341796875, + "step": 1226 + }, + { + "epoch": 1.6373333333333333, + "grad_norm": 0.58203125, + "learning_rate": 2.675021501341278e-09, + "loss": 1.812221646308899, + "step": 1228 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 0.87109375, + "learning_rate": 2.665450154075273e-09, + "loss": 1.5201737880706787, + "step": 1230 + }, + { + "epoch": 1.6426666666666667, + "grad_norm": 4.5, + "learning_rate": 2.6559409896114397e-09, + "loss": 2.3033218383789062, + "step": 1232 + }, + { + "epoch": 1.6453333333333333, + "grad_norm": 2.8125, + "learning_rate": 2.6464941852770087e-09, + "loss": 2.171069860458374, + "step": 1234 + }, + { + "epoch": 1.6480000000000001, + "grad_norm": 52.0, + "learning_rate": 2.637109917236317e-09, + "loss": 1.7426239252090454, + "step": 1236 + }, + { + "epoch": 1.6506666666666665, + "grad_norm": 3.015625, + "learning_rate": 2.6277883604875256e-09, + "loss": 2.4066109657287598, + "step": 1238 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 1.0390625, + "learning_rate": 2.6185296888593503e-09, + "loss": 1.845947027206421, + "step": 1240 + }, + { + "epoch": 1.6560000000000001, + "grad_norm": 0.60546875, + "learning_rate": 2.609334075007822e-09, + "loss": 1.5353820323944092, + "step": 1242 + }, + { + "epoch": 1.6586666666666665, + "grad_norm": 0.65234375, + "learning_rate": 2.600201690413071e-09, + "loss": 1.6985620260238647, + "step": 1244 + }, + { + "epoch": 1.6613333333333333, + "grad_norm": 1.6796875, + "learning_rate": 2.5911327053761234e-09, + "loss": 1.9166572093963623, + "step": 1246 + }, + { + "epoch": 1.6640000000000001, + "grad_norm": 0.703125, + "learning_rate": 2.5821272890157305e-09, + "loss": 1.800106167793274, + "step": 1248 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 1.2890625, + "learning_rate": 2.5731856092652117e-09, + "loss": 2.13812255859375, + "step": 1250 + }, + { + "epoch": 1.6693333333333333, + "grad_norm": 0.765625, + "learning_rate": 2.5643078328693215e-09, + "loss": 1.7946287393569946, + "step": 1252 + }, + { + "epoch": 1.6720000000000002, + "grad_norm": 1.4453125, + "learning_rate": 2.5554941253811474e-09, + "loss": 1.8380168676376343, + "step": 1254 + }, + { + "epoch": 1.6746666666666665, + "grad_norm": 1.265625, + "learning_rate": 2.546744651159014e-09, + "loss": 2.0702295303344727, + "step": 1256 + }, + { + "epoch": 1.6773333333333333, + "grad_norm": 3.6875, + "learning_rate": 2.538059573363423e-09, + "loss": 2.456021547317505, + "step": 1258 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 0.91796875, + "learning_rate": 2.529439053954007e-09, + "loss": 1.9975608587265015, + "step": 1260 + }, + { + "epoch": 1.6826666666666665, + "grad_norm": 1.3359375, + "learning_rate": 2.520883253686516e-09, + "loss": 2.070209264755249, + "step": 1262 + }, + { + "epoch": 1.6853333333333333, + "grad_norm": 0.65625, + "learning_rate": 2.512392332109812e-09, + "loss": 1.3402646780014038, + "step": 1264 + }, + { + "epoch": 1.688, + "grad_norm": 2.09375, + "learning_rate": 2.5039664475628977e-09, + "loss": 1.8698097467422485, + "step": 1266 + }, + { + "epoch": 1.6906666666666665, + "grad_norm": 2.40625, + "learning_rate": 2.4956057571719613e-09, + "loss": 2.21203351020813, + "step": 1268 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 3.921875, + "learning_rate": 2.4873104168474517e-09, + "loss": 2.100764751434326, + "step": 1270 + }, + { + "epoch": 1.696, + "grad_norm": 1.4375, + "learning_rate": 2.4790805812811644e-09, + "loss": 2.067443370819092, + "step": 1272 + }, + { + "epoch": 1.6986666666666665, + "grad_norm": 1.6640625, + "learning_rate": 2.470916403943361e-09, + "loss": 2.3430261611938477, + "step": 1274 + }, + { + "epoch": 1.7013333333333334, + "grad_norm": 5.3125, + "learning_rate": 2.4628180370799064e-09, + "loss": 1.6885303258895874, + "step": 1276 + }, + { + "epoch": 1.704, + "grad_norm": 1.0234375, + "learning_rate": 2.4547856317094284e-09, + "loss": 1.4781967401504517, + "step": 1278 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 1.0078125, + "learning_rate": 2.446819337620505e-09, + "loss": 2.173083543777466, + "step": 1280 + }, + { + "epoch": 1.7093333333333334, + "grad_norm": 0.875, + "learning_rate": 2.4389193033688637e-09, + "loss": 1.1628178358078003, + "step": 1282 + }, + { + "epoch": 1.712, + "grad_norm": 2.90625, + "learning_rate": 2.4310856762746237e-09, + "loss": 1.7809157371520996, + "step": 1284 + }, + { + "epoch": 1.7146666666666666, + "grad_norm": 8.5625, + "learning_rate": 2.4233186024195345e-09, + "loss": 2.0602993965148926, + "step": 1286 + }, + { + "epoch": 1.7173333333333334, + "grad_norm": 4.40625, + "learning_rate": 2.415618226644262e-09, + "loss": 2.208303689956665, + "step": 1288 + }, + { + "epoch": 1.72, + "grad_norm": 1.765625, + "learning_rate": 2.407984692545683e-09, + "loss": 1.8603630065917969, + "step": 1290 + }, + { + "epoch": 1.7226666666666666, + "grad_norm": 2.828125, + "learning_rate": 2.4004181424742075e-09, + "loss": 2.1588354110717773, + "step": 1292 + }, + { + "epoch": 1.7253333333333334, + "grad_norm": 1.203125, + "learning_rate": 2.392918717531127e-09, + "loss": 1.9170048236846924, + "step": 1294 + }, + { + "epoch": 1.728, + "grad_norm": 11.3125, + "learning_rate": 2.3854865575659795e-09, + "loss": 2.4841866493225098, + "step": 1296 + }, + { + "epoch": 1.7306666666666666, + "grad_norm": 1.375, + "learning_rate": 2.3781218011739436e-09, + "loss": 1.6329795122146606, + "step": 1298 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 0.33984375, + "learning_rate": 2.3708245856932555e-09, + "loss": 1.4959043264389038, + "step": 1300 + }, + { + "epoch": 1.736, + "grad_norm": 2.921875, + "learning_rate": 2.363595047202644e-09, + "loss": 2.1001901626586914, + "step": 1302 + }, + { + "epoch": 1.7386666666666666, + "grad_norm": 1.1171875, + "learning_rate": 2.356433320518795e-09, + "loss": 1.6259511709213257, + "step": 1304 + }, + { + "epoch": 1.7413333333333334, + "grad_norm": 0.8359375, + "learning_rate": 2.34933953919384e-09, + "loss": 1.5684748888015747, + "step": 1306 + }, + { + "epoch": 1.744, + "grad_norm": 2.171875, + "learning_rate": 2.3423138355128588e-09, + "loss": 1.9166902303695679, + "step": 1308 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 0.65625, + "learning_rate": 2.3353563404914225e-09, + "loss": 1.6639024019241333, + "step": 1310 + }, + { + "epoch": 1.7493333333333334, + "grad_norm": 0.98046875, + "learning_rate": 2.3284671838731394e-09, + "loss": 1.5359309911727905, + "step": 1312 + }, + { + "epoch": 1.752, + "grad_norm": 1.0234375, + "learning_rate": 2.3216464941272437e-09, + "loss": 1.5925889015197754, + "step": 1314 + }, + { + "epoch": 1.7546666666666666, + "grad_norm": 2.78125, + "learning_rate": 2.3148943984461964e-09, + "loss": 1.7936471700668335, + "step": 1316 + }, + { + "epoch": 1.7573333333333334, + "grad_norm": 8.625, + "learning_rate": 2.308211022743314e-09, + "loss": 1.6536723375320435, + "step": 1318 + }, + { + "epoch": 1.76, + "grad_norm": 1.421875, + "learning_rate": 2.301596491650421e-09, + "loss": 1.9484955072402954, + "step": 1320 + }, + { + "epoch": 1.7626666666666666, + "grad_norm": 0.66015625, + "learning_rate": 2.2950509285155227e-09, + "loss": 1.586497187614441, + "step": 1322 + }, + { + "epoch": 1.7653333333333334, + "grad_norm": 3.15625, + "learning_rate": 2.2885744554005115e-09, + "loss": 2.573892593383789, + "step": 1324 + }, + { + "epoch": 1.768, + "grad_norm": 3.90625, + "learning_rate": 2.282167193078883e-09, + "loss": 1.8689093589782715, + "step": 1326 + }, + { + "epoch": 1.7706666666666666, + "grad_norm": 3.65625, + "learning_rate": 2.27582926103349e-09, + "loss": 2.242807388305664, + "step": 1328 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 1.359375, + "learning_rate": 2.269560777454311e-09, + "loss": 1.885353922843933, + "step": 1330 + }, + { + "epoch": 1.776, + "grad_norm": 4.09375, + "learning_rate": 2.263361859236247e-09, + "loss": 2.140164375305176, + "step": 1332 + }, + { + "epoch": 1.7786666666666666, + "grad_norm": 3.515625, + "learning_rate": 2.257232621976942e-09, + "loss": 2.360833168029785, + "step": 1334 + }, + { + "epoch": 1.7813333333333334, + "grad_norm": 0.94140625, + "learning_rate": 2.251173179974626e-09, + "loss": 1.4787445068359375, + "step": 1336 + }, + { + "epoch": 1.784, + "grad_norm": 1.28125, + "learning_rate": 2.245183646225986e-09, + "loss": 1.6667358875274658, + "step": 1338 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 0.78125, + "learning_rate": 2.239264132424057e-09, + "loss": 1.5062923431396484, + "step": 1340 + }, + { + "epoch": 1.7893333333333334, + "grad_norm": 1.3828125, + "learning_rate": 2.2334147489561385e-09, + "loss": 1.9134619235992432, + "step": 1342 + }, + { + "epoch": 1.792, + "grad_norm": 3.265625, + "learning_rate": 2.227635604901739e-09, + "loss": 2.386061429977417, + "step": 1344 + }, + { + "epoch": 1.7946666666666666, + "grad_norm": 3.8125, + "learning_rate": 2.221926808030539e-09, + "loss": 1.713474988937378, + "step": 1346 + }, + { + "epoch": 1.7973333333333334, + "grad_norm": 6.90625, + "learning_rate": 2.216288464800382e-09, + "loss": 2.0952322483062744, + "step": 1348 + }, + { + "epoch": 1.8, + "grad_norm": 0.8046875, + "learning_rate": 2.21072068035529e-09, + "loss": 1.6858350038528442, + "step": 1350 + }, + { + "epoch": 1.8026666666666666, + "grad_norm": 3.28125, + "learning_rate": 2.2052235585235013e-09, + "loss": 1.7180297374725342, + "step": 1352 + }, + { + "epoch": 1.8053333333333335, + "grad_norm": 1.40625, + "learning_rate": 2.1997972018155367e-09, + "loss": 2.088247537612915, + "step": 1354 + }, + { + "epoch": 1.808, + "grad_norm": 4.03125, + "learning_rate": 2.194441711422286e-09, + "loss": 2.0213112831115723, + "step": 1356 + }, + { + "epoch": 1.8106666666666666, + "grad_norm": 1.6328125, + "learning_rate": 2.1891571872131214e-09, + "loss": 1.8595952987670898, + "step": 1358 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 1.0703125, + "learning_rate": 2.183943727734035e-09, + "loss": 1.9161452054977417, + "step": 1360 + }, + { + "epoch": 1.8159999999999998, + "grad_norm": 1.328125, + "learning_rate": 2.1788014302058016e-09, + "loss": 2.0716159343719482, + "step": 1362 + }, + { + "epoch": 1.8186666666666667, + "grad_norm": 1.421875, + "learning_rate": 2.173730390522165e-09, + "loss": 1.8699593544006348, + "step": 1364 + }, + { + "epoch": 1.8213333333333335, + "grad_norm": 0.640625, + "learning_rate": 2.1687307032480517e-09, + "loss": 1.4571788311004639, + "step": 1366 + }, + { + "epoch": 1.8239999999999998, + "grad_norm": 0.7265625, + "learning_rate": 2.163802461617804e-09, + "loss": 1.3341227769851685, + "step": 1368 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 3.453125, + "learning_rate": 2.1589457575334446e-09, + "loss": 2.376683235168457, + "step": 1370 + }, + { + "epoch": 1.8293333333333335, + "grad_norm": 1.3046875, + "learning_rate": 2.1541606815629607e-09, + "loss": 1.5830719470977783, + "step": 1372 + }, + { + "epoch": 1.8319999999999999, + "grad_norm": 1.4765625, + "learning_rate": 2.1494473229386157e-09, + "loss": 1.9643088579177856, + "step": 1374 + }, + { + "epoch": 1.8346666666666667, + "grad_norm": 2.984375, + "learning_rate": 2.1448057695552884e-09, + "loss": 2.1722934246063232, + "step": 1376 + }, + { + "epoch": 1.8373333333333335, + "grad_norm": 1.28125, + "learning_rate": 2.140236107968827e-09, + "loss": 2.062533140182495, + "step": 1378 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 3.046875, + "learning_rate": 2.1357384233944406e-09, + "loss": 2.185145378112793, + "step": 1380 + }, + { + "epoch": 1.8426666666666667, + "grad_norm": 1.8671875, + "learning_rate": 2.1313127997051087e-09, + "loss": 1.728112816810608, + "step": 1382 + }, + { + "epoch": 1.8453333333333335, + "grad_norm": 0.75, + "learning_rate": 2.1269593194300173e-09, + "loss": 1.4799309968948364, + "step": 1384 + }, + { + "epoch": 1.8479999999999999, + "grad_norm": 0.86328125, + "learning_rate": 2.1226780637530177e-09, + "loss": 1.1412889957427979, + "step": 1386 + }, + { + "epoch": 1.8506666666666667, + "grad_norm": 1.09375, + "learning_rate": 2.1184691125111164e-09, + "loss": 1.9346895217895508, + "step": 1388 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 1.5390625, + "learning_rate": 2.114332544192983e-09, + "loss": 1.9198468923568726, + "step": 1390 + }, + { + "epoch": 1.8559999999999999, + "grad_norm": 2.5625, + "learning_rate": 2.1102684359374886e-09, + "loss": 1.8833012580871582, + "step": 1392 + }, + { + "epoch": 1.8586666666666667, + "grad_norm": 1.375, + "learning_rate": 2.106276863532266e-09, + "loss": 1.5958240032196045, + "step": 1394 + }, + { + "epoch": 1.8613333333333333, + "grad_norm": 4.0, + "learning_rate": 2.1023579014122962e-09, + "loss": 1.778863787651062, + "step": 1396 + }, + { + "epoch": 1.8639999999999999, + "grad_norm": 0.703125, + "learning_rate": 2.098511622658523e-09, + "loss": 1.5995181798934937, + "step": 1398 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 0.84765625, + "learning_rate": 2.0947380989964864e-09, + "loss": 1.2716095447540283, + "step": 1400 + }, + { + "epoch": 1.8693333333333333, + "grad_norm": 2.9375, + "learning_rate": 2.0910374007949882e-09, + "loss": 1.8460922241210938, + "step": 1402 + }, + { + "epoch": 1.8719999999999999, + "grad_norm": 1.2890625, + "learning_rate": 2.0874095970647775e-09, + "loss": 1.9044862985610962, + "step": 1404 + }, + { + "epoch": 1.8746666666666667, + "grad_norm": 0.75390625, + "learning_rate": 2.0838547554572652e-09, + "loss": 1.7778054475784302, + "step": 1406 + }, + { + "epoch": 1.8773333333333333, + "grad_norm": 3.796875, + "learning_rate": 2.0803729422632627e-09, + "loss": 2.0947136878967285, + "step": 1408 + }, + { + "epoch": 1.88, + "grad_norm": 0.78515625, + "learning_rate": 2.0769642224117435e-09, + "loss": 1.7014892101287842, + "step": 1410 + }, + { + "epoch": 1.8826666666666667, + "grad_norm": 1.5859375, + "learning_rate": 2.0736286594686347e-09, + "loss": 1.6266264915466309, + "step": 1412 + }, + { + "epoch": 1.8853333333333333, + "grad_norm": 2.90625, + "learning_rate": 2.070366315635631e-09, + "loss": 1.8329254388809204, + "step": 1414 + }, + { + "epoch": 1.888, + "grad_norm": 1.2421875, + "learning_rate": 2.067177251749034e-09, + "loss": 1.946657419204712, + "step": 1416 + }, + { + "epoch": 1.8906666666666667, + "grad_norm": 3.28125, + "learning_rate": 2.0640615272786184e-09, + "loss": 1.5195972919464111, + "step": 1418 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 2.265625, + "learning_rate": 2.0610192003265235e-09, + "loss": 1.9642360210418701, + "step": 1420 + }, + { + "epoch": 1.896, + "grad_norm": 2.15625, + "learning_rate": 2.0580503276261686e-09, + "loss": 1.5578608512878418, + "step": 1422 + }, + { + "epoch": 1.8986666666666667, + "grad_norm": 0.7109375, + "learning_rate": 2.055154964541196e-09, + "loss": 1.6206289529800415, + "step": 1424 + }, + { + "epoch": 1.9013333333333333, + "grad_norm": 1.0, + "learning_rate": 2.0523331650644374e-09, + "loss": 1.849732518196106, + "step": 1426 + }, + { + "epoch": 1.904, + "grad_norm": 1.9296875, + "learning_rate": 2.049584981816909e-09, + "loss": 1.8542307615280151, + "step": 1428 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 0.5546875, + "learning_rate": 2.0469104660468262e-09, + "loss": 1.7200909852981567, + "step": 1430 + }, + { + "epoch": 1.9093333333333333, + "grad_norm": 0.6171875, + "learning_rate": 2.0443096676286543e-09, + "loss": 1.5688989162445068, + "step": 1432 + }, + { + "epoch": 1.912, + "grad_norm": 0.78125, + "learning_rate": 2.0417826350621728e-09, + "loss": 1.2694445848464966, + "step": 1434 + }, + { + "epoch": 1.9146666666666667, + "grad_norm": 3.375, + "learning_rate": 2.0393294154715734e-09, + "loss": 2.1561031341552734, + "step": 1436 + }, + { + "epoch": 1.9173333333333333, + "grad_norm": 1.328125, + "learning_rate": 2.0369500546045812e-09, + "loss": 2.044318199157715, + "step": 1438 + }, + { + "epoch": 1.92, + "grad_norm": 4.0625, + "learning_rate": 2.0346445968315998e-09, + "loss": 2.1859350204467773, + "step": 1440 + }, + { + "epoch": 1.9226666666666667, + "grad_norm": 3.09375, + "learning_rate": 2.0324130851448873e-09, + "loss": 2.1700329780578613, + "step": 1442 + }, + { + "epoch": 1.9253333333333333, + "grad_norm": 4.53125, + "learning_rate": 2.0302555611577514e-09, + "loss": 1.9053682088851929, + "step": 1444 + }, + { + "epoch": 1.928, + "grad_norm": 3.171875, + "learning_rate": 2.028172065103775e-09, + "loss": 2.2752044200897217, + "step": 1446 + }, + { + "epoch": 1.9306666666666668, + "grad_norm": 0.76171875, + "learning_rate": 2.0261626358360648e-09, + "loss": 1.795888900756836, + "step": 1448 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 2.0625, + "learning_rate": 2.0242273108265288e-09, + "loss": 2.250343084335327, + "step": 1450 + }, + { + "epoch": 1.936, + "grad_norm": 1.578125, + "learning_rate": 2.0223661261651756e-09, + "loss": 1.5136520862579346, + "step": 1452 + }, + { + "epoch": 1.9386666666666668, + "grad_norm": 0.734375, + "learning_rate": 2.0205791165594414e-09, + "loss": 1.6827259063720703, + "step": 1454 + }, + { + "epoch": 1.9413333333333334, + "grad_norm": 1.0234375, + "learning_rate": 2.0188663153335444e-09, + "loss": 2.275217294692993, + "step": 1456 + }, + { + "epoch": 1.944, + "grad_norm": 3.28125, + "learning_rate": 2.0172277544278608e-09, + "loss": 1.769717812538147, + "step": 1458 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 0.55078125, + "learning_rate": 2.0156634643983325e-09, + "loss": 1.218135118484497, + "step": 1460 + }, + { + "epoch": 1.9493333333333334, + "grad_norm": 0.890625, + "learning_rate": 2.0141734744158944e-09, + "loss": 1.6439656019210815, + "step": 1462 + }, + { + "epoch": 1.952, + "grad_norm": 1.1796875, + "learning_rate": 2.0127578122659318e-09, + "loss": 2.0347836017608643, + "step": 1464 + }, + { + "epoch": 1.9546666666666668, + "grad_norm": 3.234375, + "learning_rate": 2.0114165043477616e-09, + "loss": 2.0779073238372803, + "step": 1466 + }, + { + "epoch": 1.9573333333333334, + "grad_norm": 0.74609375, + "learning_rate": 2.010149575674142e-09, + "loss": 1.604543685913086, + "step": 1468 + }, + { + "epoch": 1.96, + "grad_norm": 1.7265625, + "learning_rate": 2.008957049870802e-09, + "loss": 2.00571608543396, + "step": 1470 + }, + { + "epoch": 1.9626666666666668, + "grad_norm": 6.1875, + "learning_rate": 2.0078389491760053e-09, + "loss": 1.7918572425842285, + "step": 1472 + }, + { + "epoch": 1.9653333333333334, + "grad_norm": 1.5546875, + "learning_rate": 2.006795294440132e-09, + "loss": 1.6840412616729736, + "step": 1474 + }, + { + "epoch": 1.968, + "grad_norm": 0.6640625, + "learning_rate": 2.0058261051252924e-09, + "loss": 1.3448158502578735, + "step": 1476 + }, + { + "epoch": 1.9706666666666668, + "grad_norm": 2.375, + "learning_rate": 2.004931399304963e-09, + "loss": 1.295865774154663, + "step": 1478 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 1.3515625, + "learning_rate": 2.0041111936636493e-09, + "loss": 1.9201714992523193, + "step": 1480 + }, + { + "epoch": 1.976, + "grad_norm": 3.453125, + "learning_rate": 2.0033655034965744e-09, + "loss": 2.2232666015625, + "step": 1482 + }, + { + "epoch": 1.9786666666666668, + "grad_norm": 3.015625, + "learning_rate": 2.0026943427093947e-09, + "loss": 2.1795105934143066, + "step": 1484 + }, + { + "epoch": 1.9813333333333332, + "grad_norm": 1.890625, + "learning_rate": 2.0020977238179403e-09, + "loss": 2.0359418392181396, + "step": 1486 + }, + { + "epoch": 1.984, + "grad_norm": 3.0625, + "learning_rate": 2.0015756579479818e-09, + "loss": 1.7598989009857178, + "step": 1488 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 4.4375, + "learning_rate": 2.0011281548350195e-09, + "loss": 2.175452470779419, + "step": 1490 + }, + { + "epoch": 1.9893333333333332, + "grad_norm": 0.5390625, + "learning_rate": 2.00075522282411e-09, + "loss": 1.6275960206985474, + "step": 1492 + }, + { + "epoch": 1.992, + "grad_norm": 3.15625, + "learning_rate": 2.0004568688697e-09, + "loss": 2.3912622928619385, + "step": 1494 + }, + { + "epoch": 1.9946666666666668, + "grad_norm": 3.203125, + "learning_rate": 2.0002330985355065e-09, + "loss": 1.9995014667510986, + "step": 1496 + }, + { + "epoch": 1.9973333333333332, + "grad_norm": 2.84375, + "learning_rate": 2.0000839159944053e-09, + "loss": 1.8321871757507324, + "step": 1498 + }, + { + "epoch": 2.0, + "grad_norm": 0.4453125, + "learning_rate": 2.0000093240283575e-09, + "loss": 1.464523196220398, + "step": 1500 + } + ], + "logging_steps": 2, + "max_steps": 1500, + "num_input_tokens_seen": 0, + "num_train_epochs": 2, + "save_steps": 9999999, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 2.4645762376668283e+18, + "train_batch_size": 1, + "trial_name": null, + "trial_params": null +}