| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 2.0, |
| "eval_steps": 500, |
| "global_step": 1500, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 0.490234375, |
| "learning_rate": 2.2222222222222224e-10, |
| "loss": 1.2595083713531494, |
| "step": 2 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 2.171875, |
| "learning_rate": 6.666666666666666e-10, |
| "loss": 2.254322052001953, |
| "step": 4 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 1.15625, |
| "learning_rate": 1.111111111111111e-09, |
| "loss": 2.0818605422973633, |
| "step": 6 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 2.96875, |
| "learning_rate": 1.5555555555555557e-09, |
| "loss": 2.0666677951812744, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 1.8828125, |
| "learning_rate": 2e-09, |
| "loss": 2.215301752090454, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 1.3203125, |
| "learning_rate": 2.4444444444444446e-09, |
| "loss": 1.7321486473083496, |
| "step": 12 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 1.2890625, |
| "learning_rate": 2.8888888888888886e-09, |
| "loss": 1.5189157724380493, |
| "step": 14 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 1.6875, |
| "learning_rate": 3.3333333333333334e-09, |
| "loss": 1.943246841430664, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 1.59375, |
| "learning_rate": 3.7777777777777774e-09, |
| "loss": 1.938248634338379, |
| "step": 18 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 1.3046875, |
| "learning_rate": 4.222222222222222e-09, |
| "loss": 1.649553894996643, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 2.265625, |
| "learning_rate": 4.666666666666667e-09, |
| "loss": 2.1752431392669678, |
| "step": 22 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 1.65625, |
| "learning_rate": 5.111111111111111e-09, |
| "loss": 2.063638687133789, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 3.4375, |
| "learning_rate": 5.555555555555556e-09, |
| "loss": 1.8939242362976074, |
| "step": 26 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 6.53125, |
| "learning_rate": 6e-09, |
| "loss": 2.2926182746887207, |
| "step": 28 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 4.125, |
| "learning_rate": 6.444444444444445e-09, |
| "loss": 1.8031842708587646, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 3.15625, |
| "learning_rate": 6.888888888888889e-09, |
| "loss": 2.2539103031158447, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 0.70703125, |
| "learning_rate": 7.333333333333333e-09, |
| "loss": 1.0695515871047974, |
| "step": 34 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 18.75, |
| "learning_rate": 7.777777777777778e-09, |
| "loss": 1.8812987804412842, |
| "step": 36 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 3.53125, |
| "learning_rate": 8.222222222222223e-09, |
| "loss": 1.8043668270111084, |
| "step": 38 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 0.66796875, |
| "learning_rate": 8.666666666666667e-09, |
| "loss": 1.612642765045166, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 1.0234375, |
| "learning_rate": 9.11111111111111e-09, |
| "loss": 2.1815497875213623, |
| "step": 42 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 1.5703125, |
| "learning_rate": 9.555555555555556e-09, |
| "loss": 1.857093095779419, |
| "step": 44 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 0.498046875, |
| "learning_rate": 1e-08, |
| "loss": 1.1420334577560425, |
| "step": 46 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 3.65625, |
| "learning_rate": 9.99996270393004e-09, |
| "loss": 1.965954303741455, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 1.265625, |
| "learning_rate": 9.999850816415655e-09, |
| "loss": 1.9006365537643433, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 1.78125, |
| "learning_rate": 9.999664339543329e-09, |
| "loss": 1.8942360877990723, |
| "step": 52 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 1.9296875, |
| "learning_rate": 9.999403276790487e-09, |
| "loss": 1.9433822631835938, |
| "step": 54 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 3.53125, |
| "learning_rate": 9.999067633025438e-09, |
| "loss": 2.3937931060791016, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 3.15625, |
| "learning_rate": 9.998657414507281e-09, |
| "loss": 1.592966914176941, |
| "step": 58 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 1.0625, |
| "learning_rate": 9.998172628885782e-09, |
| "loss": 1.5880094766616821, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 0.78515625, |
| "learning_rate": 9.997613285201241e-09, |
| "loss": 1.7058852910995483, |
| "step": 62 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 0.62109375, |
| "learning_rate": 9.99697939388432e-09, |
| "loss": 1.3053644895553589, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 2.421875, |
| "learning_rate": 9.996270966755842e-09, |
| "loss": 1.8258638381958008, |
| "step": 66 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 3.9375, |
| "learning_rate": 9.995488017026588e-09, |
| "loss": 2.1787168979644775, |
| "step": 68 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 0.78125, |
| "learning_rate": 9.994630559297027e-09, |
| "loss": 2.0142626762390137, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 2.015625, |
| "learning_rate": 9.993698609557061e-09, |
| "loss": 1.6130048036575317, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 11.125, |
| "learning_rate": 9.992692185185721e-09, |
| "loss": 2.1224076747894287, |
| "step": 74 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 2.578125, |
| "learning_rate": 9.991611304950848e-09, |
| "loss": 2.001530885696411, |
| "step": 76 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 2.5625, |
| "learning_rate": 9.990455989008729e-09, |
| "loss": 1.9305431842803955, |
| "step": 78 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 2.40625, |
| "learning_rate": 9.989226258903739e-09, |
| "loss": 1.482154130935669, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 1.359375, |
| "learning_rate": 9.98792213756793e-09, |
| "loss": 1.9148833751678467, |
| "step": 82 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 1.2734375, |
| "learning_rate": 9.986543649320597e-09, |
| "loss": 1.644956111907959, |
| "step": 84 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 1.234375, |
| "learning_rate": 9.985090819867842e-09, |
| "loss": 1.8461428880691528, |
| "step": 86 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 0.9140625, |
| "learning_rate": 9.983563676302075e-09, |
| "loss": 1.2635107040405273, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 1.8671875, |
| "learning_rate": 9.981962247101526e-09, |
| "loss": 2.090571403503418, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 1.1484375, |
| "learning_rate": 9.9802865621297e-09, |
| "loss": 1.867357850074768, |
| "step": 92 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 2.796875, |
| "learning_rate": 9.978536652634835e-09, |
| "loss": 1.8565815687179565, |
| "step": 94 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 1.09375, |
| "learning_rate": 9.976712551249298e-09, |
| "loss": 1.8973251581192017, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 3.375, |
| "learning_rate": 9.974814291988998e-09, |
| "loss": 1.7234950065612793, |
| "step": 98 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.47265625, |
| "learning_rate": 9.972841910252739e-09, |
| "loss": 1.5334116220474243, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 3.0625, |
| "learning_rate": 9.970795442821565e-09, |
| "loss": 2.200824022293091, |
| "step": 102 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 1.4296875, |
| "learning_rate": 9.968674927858075e-09, |
| "loss": 1.8540502786636353, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 1.53125, |
| "learning_rate": 9.966480404905703e-09, |
| "loss": 1.495987892150879, |
| "step": 106 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 0.7890625, |
| "learning_rate": 9.96421191488799e-09, |
| "loss": 1.7976027727127075, |
| "step": 108 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 1.3515625, |
| "learning_rate": 9.961869500107816e-09, |
| "loss": 2.0642828941345215, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 1.4453125, |
| "learning_rate": 9.959453204246615e-09, |
| "loss": 2.1139161586761475, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 3.125, |
| "learning_rate": 9.95696307236356e-09, |
| "loss": 2.036608934402466, |
| "step": 114 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 3.734375, |
| "learning_rate": 9.954399150894715e-09, |
| "loss": 1.9267082214355469, |
| "step": 116 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 1.296875, |
| "learning_rate": 9.951761487652176e-09, |
| "loss": 1.9401640892028809, |
| "step": 118 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 0.796875, |
| "learning_rate": 9.949050131823183e-09, |
| "loss": 1.9283727407455444, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 3.046875, |
| "learning_rate": 9.946265133969188e-09, |
| "loss": 2.027492046356201, |
| "step": 122 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 1.328125, |
| "learning_rate": 9.943406546024934e-09, |
| "loss": 1.684476375579834, |
| "step": 124 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 1.4296875, |
| "learning_rate": 9.940474421297468e-09, |
| "loss": 1.9159518480300903, |
| "step": 126 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 1.6484375, |
| "learning_rate": 9.937468814465151e-09, |
| "loss": 1.5436517000198364, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 3.015625, |
| "learning_rate": 9.93438978157665e-09, |
| "loss": 1.9120794534683228, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 0.734375, |
| "learning_rate": 9.931237380049872e-09, |
| "loss": 1.6056358814239502, |
| "step": 132 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 1.296875, |
| "learning_rate": 9.928011668670915e-09, |
| "loss": 2.033667802810669, |
| "step": 134 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 0.828125, |
| "learning_rate": 9.924712707592958e-09, |
| "loss": 1.3502496480941772, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 1.0546875, |
| "learning_rate": 9.921340558335139e-09, |
| "loss": 1.8049728870391846, |
| "step": 138 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 0.78515625, |
| "learning_rate": 9.917895283781418e-09, |
| "loss": 1.8152284622192383, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 2.0, |
| "learning_rate": 9.914376948179396e-09, |
| "loss": 1.5504010915756226, |
| "step": 142 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 0.87109375, |
| "learning_rate": 9.910785617139116e-09, |
| "loss": 1.1976662874221802, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 1.515625, |
| "learning_rate": 9.907121357631847e-09, |
| "loss": 1.6446733474731445, |
| "step": 146 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 2.5, |
| "learning_rate": 9.903384237988828e-09, |
| "loss": 1.9527918100357056, |
| "step": 148 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 3.28125, |
| "learning_rate": 9.899574327899996e-09, |
| "loss": 1.8011940717697144, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 1.6484375, |
| "learning_rate": 9.895691698412687e-09, |
| "loss": 2.1337244510650635, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.20533333333333334, |
| "grad_norm": 3.5625, |
| "learning_rate": 9.891736421930312e-09, |
| "loss": 1.8929048776626587, |
| "step": 154 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 4.71875, |
| "learning_rate": 9.887708572211007e-09, |
| "loss": 1.5765407085418701, |
| "step": 156 |
| }, |
| { |
| "epoch": 0.21066666666666667, |
| "grad_norm": 1.7265625, |
| "learning_rate": 9.883608224366255e-09, |
| "loss": 1.562822937965393, |
| "step": 158 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 3.140625, |
| "learning_rate": 9.879435454859482e-09, |
| "loss": 1.705054759979248, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.216, |
| "grad_norm": 1.09375, |
| "learning_rate": 9.875190341504643e-09, |
| "loss": 1.7824983596801758, |
| "step": 162 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 0.8359375, |
| "learning_rate": 9.87087296346476e-09, |
| "loss": 1.5236130952835083, |
| "step": 164 |
| }, |
| { |
| "epoch": 0.22133333333333333, |
| "grad_norm": 117.5, |
| "learning_rate": 9.866483401250446e-09, |
| "loss": 1.3529446125030518, |
| "step": 166 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 1.3359375, |
| "learning_rate": 9.862021736718416e-09, |
| "loss": 1.4553319215774536, |
| "step": 168 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 2.578125, |
| "learning_rate": 9.857488053069943e-09, |
| "loss": 1.7366198301315308, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 0.7734375, |
| "learning_rate": 9.852882434849319e-09, |
| "loss": 1.6083072423934937, |
| "step": 172 |
| }, |
| { |
| "epoch": 0.232, |
| "grad_norm": 2.453125, |
| "learning_rate": 9.848204967942274e-09, |
| "loss": 2.1024110317230225, |
| "step": 174 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 8.875, |
| "learning_rate": 9.843455739574376e-09, |
| "loss": 1.597267985343933, |
| "step": 176 |
| }, |
| { |
| "epoch": 0.23733333333333334, |
| "grad_norm": 1.578125, |
| "learning_rate": 9.8386348383094e-09, |
| "loss": 1.5651479959487915, |
| "step": 178 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 1.1796875, |
| "learning_rate": 9.83374235404768e-09, |
| "loss": 2.1147844791412354, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.24266666666666667, |
| "grad_norm": 2.765625, |
| "learning_rate": 9.828778378024434e-09, |
| "loss": 1.8838609457015991, |
| "step": 182 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 1.1796875, |
| "learning_rate": 9.823743002808065e-09, |
| "loss": 1.8358352184295654, |
| "step": 184 |
| }, |
| { |
| "epoch": 0.248, |
| "grad_norm": 0.796875, |
| "learning_rate": 9.818636322298422e-09, |
| "loss": 1.5012720823287964, |
| "step": 186 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 1.3828125, |
| "learning_rate": 9.813458431725062e-09, |
| "loss": 1.8420766592025757, |
| "step": 188 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 0.70703125, |
| "learning_rate": 9.808209427645471e-09, |
| "loss": 1.6086699962615967, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 0.30078125, |
| "learning_rate": 9.802889407943258e-09, |
| "loss": 1.2589647769927979, |
| "step": 192 |
| }, |
| { |
| "epoch": 0.25866666666666666, |
| "grad_norm": 2.734375, |
| "learning_rate": 9.797498471826341e-09, |
| "loss": 1.8030763864517212, |
| "step": 194 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 4.125, |
| "learning_rate": 9.792036719825082e-09, |
| "loss": 2.2080459594726562, |
| "step": 196 |
| }, |
| { |
| "epoch": 0.264, |
| "grad_norm": 1.3671875, |
| "learning_rate": 9.786504253790425e-09, |
| "loss": 1.8391257524490356, |
| "step": 198 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.7421875, |
| "learning_rate": 9.780901176891988e-09, |
| "loss": 1.7964688539505005, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.2693333333333333, |
| "grad_norm": 0.640625, |
| "learning_rate": 9.775227593616147e-09, |
| "loss": 1.7362236976623535, |
| "step": 202 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 1.9140625, |
| "learning_rate": 9.769483609764078e-09, |
| "loss": 2.23327898979187, |
| "step": 204 |
| }, |
| { |
| "epoch": 0.27466666666666667, |
| "grad_norm": 2.859375, |
| "learning_rate": 9.7636693324498e-09, |
| "loss": 1.3478480577468872, |
| "step": 206 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 1.9296875, |
| "learning_rate": 9.757784870098152e-09, |
| "loss": 1.5920817852020264, |
| "step": 208 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 0.88671875, |
| "learning_rate": 9.751830332442799e-09, |
| "loss": 1.379252552986145, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 0.34375, |
| "learning_rate": 9.745805830524163e-09, |
| "loss": 1.5116907358169556, |
| "step": 212 |
| }, |
| { |
| "epoch": 0.2853333333333333, |
| "grad_norm": 0.97265625, |
| "learning_rate": 9.739711476687372e-09, |
| "loss": 1.5704491138458252, |
| "step": 214 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 2.828125, |
| "learning_rate": 9.733547384580143e-09, |
| "loss": 2.390659809112549, |
| "step": 216 |
| }, |
| { |
| "epoch": 0.2906666666666667, |
| "grad_norm": 2.4375, |
| "learning_rate": 9.727313669150689e-09, |
| "loss": 2.0983409881591797, |
| "step": 218 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 5.59375, |
| "learning_rate": 9.721010446645547e-09, |
| "loss": 2.1177964210510254, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.296, |
| "grad_norm": 1.234375, |
| "learning_rate": 9.714637834607432e-09, |
| "loss": 1.8987712860107422, |
| "step": 222 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 2.953125, |
| "learning_rate": 9.708195951873038e-09, |
| "loss": 1.8362311124801636, |
| "step": 224 |
| }, |
| { |
| "epoch": 0.30133333333333334, |
| "grad_norm": 1.1171875, |
| "learning_rate": 9.701684918570817e-09, |
| "loss": 1.8839874267578125, |
| "step": 226 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 1.53125, |
| "learning_rate": 9.69510485611875e-09, |
| "loss": 1.9399235248565674, |
| "step": 228 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 3.28125, |
| "learning_rate": 9.688455887222068e-09, |
| "loss": 2.257453441619873, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 1.265625, |
| "learning_rate": 9.681738135870976e-09, |
| "loss": 1.65444016456604, |
| "step": 232 |
| }, |
| { |
| "epoch": 0.312, |
| "grad_norm": 1.1953125, |
| "learning_rate": 9.67495172733834e-09, |
| "loss": 1.760861873626709, |
| "step": 234 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 2.859375, |
| "learning_rate": 9.668096788177338e-09, |
| "loss": 1.9220219850540161, |
| "step": 236 |
| }, |
| { |
| "epoch": 0.31733333333333336, |
| "grad_norm": 1.828125, |
| "learning_rate": 9.661173446219117e-09, |
| "loss": 2.1943254470825195, |
| "step": 238 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 1.8828125, |
| "learning_rate": 9.654181830570403e-09, |
| "loss": 1.7908879518508911, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.32266666666666666, |
| "grad_norm": 2.546875, |
| "learning_rate": 9.64712207161109e-09, |
| "loss": 2.1228885650634766, |
| "step": 242 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 1.59375, |
| "learning_rate": 9.639994300991803e-09, |
| "loss": 1.710900902748108, |
| "step": 244 |
| }, |
| { |
| "epoch": 0.328, |
| "grad_norm": 1.484375, |
| "learning_rate": 9.632798651631462e-09, |
| "loss": 1.9161486625671387, |
| "step": 246 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 4.4375, |
| "learning_rate": 9.62553525771479e-09, |
| "loss": 2.479976177215576, |
| "step": 248 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 3.421875, |
| "learning_rate": 9.618204254689808e-09, |
| "loss": 1.7277326583862305, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 0.97265625, |
| "learning_rate": 9.610805779265318e-09, |
| "loss": 1.5690929889678955, |
| "step": 252 |
| }, |
| { |
| "epoch": 0.33866666666666667, |
| "grad_norm": 1.0703125, |
| "learning_rate": 9.603339969408349e-09, |
| "loss": 1.866922378540039, |
| "step": 254 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 1.03125, |
| "learning_rate": 9.595806964341582e-09, |
| "loss": 1.631873607635498, |
| "step": 256 |
| }, |
| { |
| "epoch": 0.344, |
| "grad_norm": 1.3203125, |
| "learning_rate": 9.588206904540761e-09, |
| "loss": 1.9523061513900757, |
| "step": 258 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 0.9609375, |
| "learning_rate": 9.580539931732067e-09, |
| "loss": 1.8373591899871826, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.34933333333333333, |
| "grad_norm": 1.125, |
| "learning_rate": 9.572806188889477e-09, |
| "loss": 1.8406822681427002, |
| "step": 262 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 2.328125, |
| "learning_rate": 9.565005820232098e-09, |
| "loss": 1.9318327903747559, |
| "step": 264 |
| }, |
| { |
| "epoch": 0.3546666666666667, |
| "grad_norm": 3.90625, |
| "learning_rate": 9.557138971221477e-09, |
| "loss": 1.8626163005828857, |
| "step": 266 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 1.109375, |
| "learning_rate": 9.54920578855889e-09, |
| "loss": 1.4687360525131226, |
| "step": 268 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 2.484375, |
| "learning_rate": 9.541206420182604e-09, |
| "loss": 2.2242650985717773, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 2.0, |
| "learning_rate": 9.53314101526512e-09, |
| "loss": 1.53940749168396, |
| "step": 272 |
| }, |
| { |
| "epoch": 0.36533333333333334, |
| "grad_norm": 1.46875, |
| "learning_rate": 9.525009724210396e-09, |
| "loss": 1.8694663047790527, |
| "step": 274 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 1.625, |
| "learning_rate": 9.516812698651026e-09, |
| "loss": 2.1856276988983154, |
| "step": 276 |
| }, |
| { |
| "epoch": 0.37066666666666664, |
| "grad_norm": 0.703125, |
| "learning_rate": 9.508550091445432e-09, |
| "loss": 1.5906873941421509, |
| "step": 278 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 8.5, |
| "learning_rate": 9.500222056675001e-09, |
| "loss": 2.2088544368743896, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.376, |
| "grad_norm": 1.6875, |
| "learning_rate": 9.491828749641216e-09, |
| "loss": 1.5992395877838135, |
| "step": 282 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 2.21875, |
| "learning_rate": 9.483370326862763e-09, |
| "loss": 2.1439037322998047, |
| "step": 284 |
| }, |
| { |
| "epoch": 0.38133333333333336, |
| "grad_norm": 0.63671875, |
| "learning_rate": 9.474846946072606e-09, |
| "loss": 1.7207406759262085, |
| "step": 286 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 2.265625, |
| "learning_rate": 9.466258766215044e-09, |
| "loss": 1.9956793785095215, |
| "step": 288 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 1.421875, |
| "learning_rate": 9.457605947442758e-09, |
| "loss": 2.2684690952301025, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 2.65625, |
| "learning_rate": 9.448888651113816e-09, |
| "loss": 1.3895556926727295, |
| "step": 292 |
| }, |
| { |
| "epoch": 0.392, |
| "grad_norm": 2.640625, |
| "learning_rate": 9.440107039788666e-09, |
| "loss": 2.0698764324188232, |
| "step": 294 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 1.328125, |
| "learning_rate": 9.431261277227098e-09, |
| "loss": 1.955104947090149, |
| "step": 296 |
| }, |
| { |
| "epoch": 0.3973333333333333, |
| "grad_norm": 1.640625, |
| "learning_rate": 9.422351528385205e-09, |
| "loss": 1.835784673690796, |
| "step": 298 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 1.953125, |
| "learning_rate": 9.413377959412296e-09, |
| "loss": 2.0264222621917725, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.4026666666666667, |
| "grad_norm": 0.6484375, |
| "learning_rate": 9.4043407376478e-09, |
| "loss": 1.5555002689361572, |
| "step": 302 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 3.71875, |
| "learning_rate": 9.395240031618138e-09, |
| "loss": 1.3853716850280762, |
| "step": 304 |
| }, |
| { |
| "epoch": 0.408, |
| "grad_norm": 0.76953125, |
| "learning_rate": 9.386076011033602e-09, |
| "loss": 1.6690952777862549, |
| "step": 306 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 1.921875, |
| "learning_rate": 9.376848846785165e-09, |
| "loss": 1.9208674430847168, |
| "step": 308 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 1.6953125, |
| "learning_rate": 9.367558710941308e-09, |
| "loss": 2.2145168781280518, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 1.1875, |
| "learning_rate": 9.358205776744811e-09, |
| "loss": 1.8965669870376587, |
| "step": 312 |
| }, |
| { |
| "epoch": 0.4186666666666667, |
| "grad_norm": 0.8203125, |
| "learning_rate": 9.348790218609518e-09, |
| "loss": 1.8256372213363647, |
| "step": 314 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 1.0, |
| "learning_rate": 9.339312212117086e-09, |
| "loss": 1.2350609302520752, |
| "step": 316 |
| }, |
| { |
| "epoch": 0.424, |
| "grad_norm": 1.0390625, |
| "learning_rate": 9.329771934013711e-09, |
| "loss": 2.0859057903289795, |
| "step": 318 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 1.5078125, |
| "learning_rate": 9.320169562206832e-09, |
| "loss": 1.5518385171890259, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.42933333333333334, |
| "grad_norm": 1.609375, |
| "learning_rate": 9.310505275761816e-09, |
| "loss": 1.75638747215271, |
| "step": 322 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 3.25, |
| "learning_rate": 9.300779254898615e-09, |
| "loss": 1.5558668375015259, |
| "step": 324 |
| }, |
| { |
| "epoch": 0.43466666666666665, |
| "grad_norm": 1.53125, |
| "learning_rate": 9.290991680988406e-09, |
| "loss": 2.1750802993774414, |
| "step": 326 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 3.015625, |
| "learning_rate": 9.281142736550208e-09, |
| "loss": 1.9557688236236572, |
| "step": 328 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 2.21875, |
| "learning_rate": 9.271232605247482e-09, |
| "loss": 1.9172539710998535, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 0.56640625, |
| "learning_rate": 9.261261471884705e-09, |
| "loss": 1.5871493816375732, |
| "step": 332 |
| }, |
| { |
| "epoch": 0.44533333333333336, |
| "grad_norm": 1.34375, |
| "learning_rate": 9.25122952240392e-09, |
| "loss": 2.0637218952178955, |
| "step": 334 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 1.03125, |
| "learning_rate": 9.24113694388127e-09, |
| "loss": 1.4587217569351196, |
| "step": 336 |
| }, |
| { |
| "epoch": 0.45066666666666666, |
| "grad_norm": 2.4375, |
| "learning_rate": 9.230983924523515e-09, |
| "loss": 2.0624840259552, |
| "step": 338 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 3.75, |
| "learning_rate": 9.220770653664514e-09, |
| "loss": 1.6480258703231812, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.456, |
| "grad_norm": 1.7890625, |
| "learning_rate": 9.210497321761697e-09, |
| "loss": 1.9427772760391235, |
| "step": 342 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 1.5546875, |
| "learning_rate": 9.200164120392522e-09, |
| "loss": 1.742879033088684, |
| "step": 344 |
| }, |
| { |
| "epoch": 0.4613333333333333, |
| "grad_norm": 3.3125, |
| "learning_rate": 9.189771242250883e-09, |
| "loss": 2.0775532722473145, |
| "step": 346 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 0.93359375, |
| "learning_rate": 9.179318881143541e-09, |
| "loss": 1.8282727003097534, |
| "step": 348 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 1.3671875, |
| "learning_rate": 9.16880723198649e-09, |
| "loss": 2.1511027812957764, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 0.79296875, |
| "learning_rate": 9.158236490801326e-09, |
| "loss": 1.7829698324203491, |
| "step": 352 |
| }, |
| { |
| "epoch": 0.472, |
| "grad_norm": 1.3671875, |
| "learning_rate": 9.147606854711607e-09, |
| "loss": 1.8236515522003174, |
| "step": 354 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 3.03125, |
| "learning_rate": 9.136918521939157e-09, |
| "loss": 2.168234348297119, |
| "step": 356 |
| }, |
| { |
| "epoch": 0.47733333333333333, |
| "grad_norm": 2.15625, |
| "learning_rate": 9.126171691800377e-09, |
| "loss": 1.5303879976272583, |
| "step": 358 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 1.078125, |
| "learning_rate": 9.115366564702536e-09, |
| "loss": 1.8662500381469727, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.4826666666666667, |
| "grad_norm": 0.8203125, |
| "learning_rate": 9.104503342140016e-09, |
| "loss": 1.6868031024932861, |
| "step": 362 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 1.15625, |
| "learning_rate": 9.093582226690575e-09, |
| "loss": 2.1364731788635254, |
| "step": 364 |
| }, |
| { |
| "epoch": 0.488, |
| "grad_norm": 1.0625, |
| "learning_rate": 9.082603422011558e-09, |
| "loss": 2.116598606109619, |
| "step": 366 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 2.859375, |
| "learning_rate": 9.071567132836094e-09, |
| "loss": 2.1631178855895996, |
| "step": 368 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 0.53515625, |
| "learning_rate": 9.060473564969292e-09, |
| "loss": 1.1389707326889038, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 4.71875, |
| "learning_rate": 9.049322925284393e-09, |
| "loss": 2.216712236404419, |
| "step": 372 |
| }, |
| { |
| "epoch": 0.49866666666666665, |
| "grad_norm": 0.48828125, |
| "learning_rate": 9.038115421718917e-09, |
| "loss": 1.183546543121338, |
| "step": 374 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 3.828125, |
| "learning_rate": 9.026851263270781e-09, |
| "loss": 2.1025009155273438, |
| "step": 376 |
| }, |
| { |
| "epoch": 0.504, |
| "grad_norm": 3.640625, |
| "learning_rate": 9.01553065999441e-09, |
| "loss": 1.8292186260223389, |
| "step": 378 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 0.9375, |
| "learning_rate": 9.0041538229968e-09, |
| "loss": 1.8186060190200806, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.5093333333333333, |
| "grad_norm": 0.671875, |
| "learning_rate": 8.992720964433616e-09, |
| "loss": 1.8420987129211426, |
| "step": 382 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 1.3359375, |
| "learning_rate": 8.9812322975052e-09, |
| "loss": 1.9770514965057373, |
| "step": 384 |
| }, |
| { |
| "epoch": 0.5146666666666667, |
| "grad_norm": 0.51953125, |
| "learning_rate": 8.969688036452614e-09, |
| "loss": 1.456003189086914, |
| "step": 386 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 3.203125, |
| "learning_rate": 8.958088396553643e-09, |
| "loss": 1.8052408695220947, |
| "step": 388 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 4.15625, |
| "learning_rate": 8.94643359411878e-09, |
| "loss": 2.3906490802764893, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 3.21875, |
| "learning_rate": 8.934723846487183e-09, |
| "loss": 1.2797434329986572, |
| "step": 392 |
| }, |
| { |
| "epoch": 0.5253333333333333, |
| "grad_norm": 1.15625, |
| "learning_rate": 8.92295937202264e-09, |
| "loss": 2.1595494747161865, |
| "step": 394 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 1.2421875, |
| "learning_rate": 8.911140390109477e-09, |
| "loss": 1.1325749158859253, |
| "step": 396 |
| }, |
| { |
| "epoch": 0.5306666666666666, |
| "grad_norm": 1.640625, |
| "learning_rate": 8.89926712114849e-09, |
| "loss": 1.961485505104065, |
| "step": 398 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.4140625, |
| "learning_rate": 8.887339786552809e-09, |
| "loss": 1.2354146242141724, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.536, |
| "grad_norm": 0.73046875, |
| "learning_rate": 8.875358608743787e-09, |
| "loss": 1.7809007167816162, |
| "step": 402 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 0.318359375, |
| "learning_rate": 8.863323811146848e-09, |
| "loss": 1.8801896572113037, |
| "step": 404 |
| }, |
| { |
| "epoch": 0.5413333333333333, |
| "grad_norm": 3.84375, |
| "learning_rate": 8.85123561818732e-09, |
| "loss": 2.1713829040527344, |
| "step": 406 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 1.1015625, |
| "learning_rate": 8.839094255286242e-09, |
| "loss": 2.0953874588012695, |
| "step": 408 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 9.6875, |
| "learning_rate": 8.82689994885618e-09, |
| "loss": 2.531420946121216, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 2.796875, |
| "learning_rate": 8.814652926296985e-09, |
| "loss": 2.118060350418091, |
| "step": 412 |
| }, |
| { |
| "epoch": 0.552, |
| "grad_norm": 4.25, |
| "learning_rate": 8.802353415991564e-09, |
| "loss": 2.222390651702881, |
| "step": 414 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 3.546875, |
| "learning_rate": 8.790001647301614e-09, |
| "loss": 2.2158262729644775, |
| "step": 416 |
| }, |
| { |
| "epoch": 0.5573333333333333, |
| "grad_norm": 1.4609375, |
| "learning_rate": 8.777597850563346e-09, |
| "loss": 2.1216447353363037, |
| "step": 418 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 7.8125, |
| "learning_rate": 8.765142257083201e-09, |
| "loss": 2.056581497192383, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.5626666666666666, |
| "grad_norm": 7.25, |
| "learning_rate": 8.752635099133517e-09, |
| "loss": 2.4557063579559326, |
| "step": 422 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 1.3125, |
| "learning_rate": 8.74007660994822e-09, |
| "loss": 1.796868920326233, |
| "step": 424 |
| }, |
| { |
| "epoch": 0.568, |
| "grad_norm": 5.125, |
| "learning_rate": 8.727467023718447e-09, |
| "loss": 2.186305284500122, |
| "step": 426 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 1.5390625, |
| "learning_rate": 8.71480657558821e-09, |
| "loss": 1.520075798034668, |
| "step": 428 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 1.140625, |
| "learning_rate": 8.702095501649987e-09, |
| "loss": 1.8692680597305298, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 1.3515625, |
| "learning_rate": 8.689334038940326e-09, |
| "loss": 1.8842674493789673, |
| "step": 432 |
| }, |
| { |
| "epoch": 0.5786666666666667, |
| "grad_norm": 1.203125, |
| "learning_rate": 8.676522425435434e-09, |
| "loss": 1.733497142791748, |
| "step": 434 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 1.0546875, |
| "learning_rate": 8.663660900046726e-09, |
| "loss": 2.0521445274353027, |
| "step": 436 |
| }, |
| { |
| "epoch": 0.584, |
| "grad_norm": 0.51171875, |
| "learning_rate": 8.650749702616376e-09, |
| "loss": 1.588924765586853, |
| "step": 438 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 4.40625, |
| "learning_rate": 8.63778907391285e-09, |
| "loss": 2.115933418273926, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.5893333333333334, |
| "grad_norm": 2.625, |
| "learning_rate": 8.624779255626398e-09, |
| "loss": 1.9880613088607788, |
| "step": 442 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 0.51953125, |
| "learning_rate": 8.611720490364572e-09, |
| "loss": 1.9729561805725098, |
| "step": 444 |
| }, |
| { |
| "epoch": 0.5946666666666667, |
| "grad_norm": 1.8046875, |
| "learning_rate": 8.598613021647686e-09, |
| "loss": 1.9545570611953735, |
| "step": 446 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 2.671875, |
| "learning_rate": 8.585457093904267e-09, |
| "loss": 1.9611587524414062, |
| "step": 448 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 1.7578125, |
| "learning_rate": 8.572252952466525e-09, |
| "loss": 1.6292351484298706, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 1.4296875, |
| "learning_rate": 8.559000843565741e-09, |
| "loss": 1.851718783378601, |
| "step": 452 |
| }, |
| { |
| "epoch": 0.6053333333333333, |
| "grad_norm": 1.0859375, |
| "learning_rate": 8.545701014327714e-09, |
| "loss": 1.6086595058441162, |
| "step": 454 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 1.1875, |
| "learning_rate": 8.53235371276812e-09, |
| "loss": 1.924254059791565, |
| "step": 456 |
| }, |
| { |
| "epoch": 0.6106666666666667, |
| "grad_norm": 1.4765625, |
| "learning_rate": 8.51895918778791e-09, |
| "loss": 1.550837755203247, |
| "step": 458 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 3.921875, |
| "learning_rate": 8.50551768916865e-09, |
| "loss": 2.1360349655151367, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.616, |
| "grad_norm": 1.390625, |
| "learning_rate": 8.492029467567876e-09, |
| "loss": 2.076364755630493, |
| "step": 462 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 2.34375, |
| "learning_rate": 8.47849477451442e-09, |
| "loss": 2.168081760406494, |
| "step": 464 |
| }, |
| { |
| "epoch": 0.6213333333333333, |
| "grad_norm": 4.625, |
| "learning_rate": 8.464913862403709e-09, |
| "loss": 2.3155016899108887, |
| "step": 466 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 3.453125, |
| "learning_rate": 8.45128698449307e-09, |
| "loss": 1.689584732055664, |
| "step": 468 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 2.828125, |
| "learning_rate": 8.437614394896992e-09, |
| "loss": 2.1485788822174072, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 1.1484375, |
| "learning_rate": 8.423896348582413e-09, |
| "loss": 1.965561032295227, |
| "step": 472 |
| }, |
| { |
| "epoch": 0.632, |
| "grad_norm": 1.21875, |
| "learning_rate": 8.410133101363936e-09, |
| "loss": 1.8822404146194458, |
| "step": 474 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 1.3359375, |
| "learning_rate": 8.396324909899078e-09, |
| "loss": 1.2456005811691284, |
| "step": 476 |
| }, |
| { |
| "epoch": 0.6373333333333333, |
| "grad_norm": 0.515625, |
| "learning_rate": 8.382472031683473e-09, |
| "loss": 1.8118257522583008, |
| "step": 478 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 0.796875, |
| "learning_rate": 8.368574725046083e-09, |
| "loss": 1.519937515258789, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.6426666666666667, |
| "grad_norm": 3.046875, |
| "learning_rate": 8.354633249144363e-09, |
| "loss": 2.313350200653076, |
| "step": 482 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 2.84375, |
| "learning_rate": 8.34064786395945e-09, |
| "loss": 2.1796224117279053, |
| "step": 484 |
| }, |
| { |
| "epoch": 0.648, |
| "grad_norm": 3.421875, |
| "learning_rate": 8.326618830291291e-09, |
| "loss": 1.742749571800232, |
| "step": 486 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 3.90625, |
| "learning_rate": 8.312546409753799e-09, |
| "loss": 2.4159903526306152, |
| "step": 488 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 0.66796875, |
| "learning_rate": 8.298430864769963e-09, |
| "loss": 1.8529486656188965, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 0.69140625, |
| "learning_rate": 8.284272458566962e-09, |
| "loss": 1.536817193031311, |
| "step": 492 |
| }, |
| { |
| "epoch": 0.6586666666666666, |
| "grad_norm": 2.703125, |
| "learning_rate": 8.270071455171246e-09, |
| "loss": 1.7020436525344849, |
| "step": 494 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 1.3203125, |
| "learning_rate": 8.255828119403625e-09, |
| "loss": 1.9206829071044922, |
| "step": 496 |
| }, |
| { |
| "epoch": 0.664, |
| "grad_norm": 0.66796875, |
| "learning_rate": 8.241542716874326e-09, |
| "loss": 1.806079626083374, |
| "step": 498 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 2.28125, |
| "learning_rate": 8.227215513978033e-09, |
| "loss": 2.1431052684783936, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.6693333333333333, |
| "grad_norm": 0.87890625, |
| "learning_rate": 8.212846777888923e-09, |
| "loss": 1.7982629537582397, |
| "step": 502 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 1.3203125, |
| "learning_rate": 8.198436776555693e-09, |
| "loss": 1.84161376953125, |
| "step": 504 |
| }, |
| { |
| "epoch": 0.6746666666666666, |
| "grad_norm": 1.828125, |
| "learning_rate": 8.183985778696552e-09, |
| "loss": 2.070572853088379, |
| "step": 506 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 3.8125, |
| "learning_rate": 8.169494053794216e-09, |
| "loss": 2.464686632156372, |
| "step": 508 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 0.90625, |
| "learning_rate": 8.154961872090869e-09, |
| "loss": 2.0011956691741943, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 1.140625, |
| "learning_rate": 8.140389504583155e-09, |
| "loss": 2.0743443965911865, |
| "step": 512 |
| }, |
| { |
| "epoch": 0.6853333333333333, |
| "grad_norm": 0.83203125, |
| "learning_rate": 8.125777223017081e-09, |
| "loss": 1.3423761129379272, |
| "step": 514 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 1.2890625, |
| "learning_rate": 8.111125299882996e-09, |
| "loss": 1.8745712041854858, |
| "step": 516 |
| }, |
| { |
| "epoch": 0.6906666666666667, |
| "grad_norm": 2.21875, |
| "learning_rate": 8.09643400841047e-09, |
| "loss": 2.217435598373413, |
| "step": 518 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 2.984375, |
| "learning_rate": 8.08170362256322e-09, |
| "loss": 2.10202693939209, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.696, |
| "grad_norm": 1.6953125, |
| "learning_rate": 8.066934417033996e-09, |
| "loss": 2.06799054145813, |
| "step": 522 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 2.078125, |
| "learning_rate": 8.052126667239461e-09, |
| "loss": 2.34751033782959, |
| "step": 524 |
| }, |
| { |
| "epoch": 0.7013333333333334, |
| "grad_norm": 1.3203125, |
| "learning_rate": 8.037280649315053e-09, |
| "loss": 1.6904773712158203, |
| "step": 526 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 1.234375, |
| "learning_rate": 8.02239664010983e-09, |
| "loss": 1.4798574447631836, |
| "step": 528 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 1.2109375, |
| "learning_rate": 8.007474917181317e-09, |
| "loss": 2.177708625793457, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 0.828125, |
| "learning_rate": 7.992515758790327e-09, |
| "loss": 1.1634416580200195, |
| "step": 532 |
| }, |
| { |
| "epoch": 0.712, |
| "grad_norm": 4.4375, |
| "learning_rate": 7.97751944389577e-09, |
| "loss": 1.7857718467712402, |
| "step": 534 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 3.546875, |
| "learning_rate": 7.962486252149443e-09, |
| "loss": 2.064812660217285, |
| "step": 536 |
| }, |
| { |
| "epoch": 0.7173333333333334, |
| "grad_norm": 3.46875, |
| "learning_rate": 7.94741646389084e-09, |
| "loss": 2.2140581607818604, |
| "step": 538 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 1.3984375, |
| "learning_rate": 7.932310360141894e-09, |
| "loss": 1.8639158010482788, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.7226666666666667, |
| "grad_norm": 3.421875, |
| "learning_rate": 7.917168222601762e-09, |
| "loss": 2.16269588470459, |
| "step": 542 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 1.234375, |
| "learning_rate": 7.901990333641552e-09, |
| "loss": 1.9181190729141235, |
| "step": 544 |
| }, |
| { |
| "epoch": 0.728, |
| "grad_norm": 8.3125, |
| "learning_rate": 7.886776976299067e-09, |
| "loss": 2.4765758514404297, |
| "step": 546 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 1.375, |
| "learning_rate": 7.871528434273525e-09, |
| "loss": 1.6353861093521118, |
| "step": 548 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 0.625, |
| "learning_rate": 7.856244991920273e-09, |
| "loss": 1.4980851411819458, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 3.09375, |
| "learning_rate": 7.840926934245483e-09, |
| "loss": 2.10715913772583, |
| "step": 552 |
| }, |
| { |
| "epoch": 0.7386666666666667, |
| "grad_norm": 10.5625, |
| "learning_rate": 7.825574546900825e-09, |
| "loss": 1.6303857564926147, |
| "step": 554 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 0.84375, |
| "learning_rate": 7.810188116178156e-09, |
| "loss": 1.569793462753296, |
| "step": 556 |
| }, |
| { |
| "epoch": 0.744, |
| "grad_norm": 1.9609375, |
| "learning_rate": 7.794767929004177e-09, |
| "loss": 1.9174935817718506, |
| "step": 558 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 0.6015625, |
| "learning_rate": 7.779314272935075e-09, |
| "loss": 1.666991114616394, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.7493333333333333, |
| "grad_norm": 1.15625, |
| "learning_rate": 7.763827436151168e-09, |
| "loss": 1.5379843711853027, |
| "step": 562 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 1.3359375, |
| "learning_rate": 7.748307707451534e-09, |
| "loss": 1.5926412343978882, |
| "step": 564 |
| }, |
| { |
| "epoch": 0.7546666666666667, |
| "grad_norm": 3.0, |
| "learning_rate": 7.732755376248612e-09, |
| "loss": 1.795777678489685, |
| "step": 566 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 2.21875, |
| "learning_rate": 7.717170732562824e-09, |
| "loss": 1.6544891595840454, |
| "step": 568 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 1.765625, |
| "learning_rate": 7.701554067017148e-09, |
| "loss": 1.9484953880310059, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 1.953125, |
| "learning_rate": 7.685905670831706e-09, |
| "loss": 1.5885378122329712, |
| "step": 572 |
| }, |
| { |
| "epoch": 0.7653333333333333, |
| "grad_norm": 3.109375, |
| "learning_rate": 7.670225835818341e-09, |
| "loss": 2.5776526927948, |
| "step": 574 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 2.90625, |
| "learning_rate": 7.654514854375168e-09, |
| "loss": 1.871799111366272, |
| "step": 576 |
| }, |
| { |
| "epoch": 0.7706666666666667, |
| "grad_norm": 3.5, |
| "learning_rate": 7.638773019481111e-09, |
| "loss": 2.245335340499878, |
| "step": 578 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 1.2109375, |
| "learning_rate": 7.623000624690465e-09, |
| "loss": 1.886152744293213, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.776, |
| "grad_norm": 3.125, |
| "learning_rate": 7.60719796412739e-09, |
| "loss": 2.1426033973693848, |
| "step": 582 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 3.5, |
| "learning_rate": 7.591365332480462e-09, |
| "loss": 2.3694965839385986, |
| "step": 584 |
| }, |
| { |
| "epoch": 0.7813333333333333, |
| "grad_norm": 1.2109375, |
| "learning_rate": 7.57550302499715e-09, |
| "loss": 1.4806681871414185, |
| "step": 586 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 1.6640625, |
| "learning_rate": 7.559611337478314e-09, |
| "loss": 1.6711722612380981, |
| "step": 588 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 0.8515625, |
| "learning_rate": 7.5436905662727e-09, |
| "loss": 1.5092402696609497, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 1.1171875, |
| "learning_rate": 7.527741008271407e-09, |
| "loss": 1.9149348735809326, |
| "step": 592 |
| }, |
| { |
| "epoch": 0.792, |
| "grad_norm": 3.0, |
| "learning_rate": 7.511762960902352e-09, |
| "loss": 2.392629861831665, |
| "step": 594 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 2.1875, |
| "learning_rate": 7.495756722124717e-09, |
| "loss": 1.7167079448699951, |
| "step": 596 |
| }, |
| { |
| "epoch": 0.7973333333333333, |
| "grad_norm": 2.203125, |
| "learning_rate": 7.47972259042341e-09, |
| "loss": 2.0972259044647217, |
| "step": 598 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.52734375, |
| "learning_rate": 7.463660864803473e-09, |
| "loss": 1.6890588998794556, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.8026666666666666, |
| "grad_norm": 3.9375, |
| "learning_rate": 7.447571844784526e-09, |
| "loss": 1.7197068929672241, |
| "step": 602 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 2.6875, |
| "learning_rate": 7.4314558303951844e-09, |
| "loss": 2.090541124343872, |
| "step": 604 |
| }, |
| { |
| "epoch": 0.808, |
| "grad_norm": 3.421875, |
| "learning_rate": 7.415313122167444e-09, |
| "loss": 2.0254881381988525, |
| "step": 606 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 2.0625, |
| "learning_rate": 7.3991440211310924e-09, |
| "loss": 1.8637149333953857, |
| "step": 608 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 1.0703125, |
| "learning_rate": 7.382948828808092e-09, |
| "loss": 1.9170711040496826, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 1.2109375, |
| "learning_rate": 7.366727847206955e-09, |
| "loss": 2.073218584060669, |
| "step": 612 |
| }, |
| { |
| "epoch": 0.8186666666666667, |
| "grad_norm": 1.1796875, |
| "learning_rate": 7.3504813788171156e-09, |
| "loss": 1.873306393623352, |
| "step": 614 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 1.0703125, |
| "learning_rate": 7.334209726603283e-09, |
| "loss": 1.4583569765090942, |
| "step": 616 |
| }, |
| { |
| "epoch": 0.824, |
| "grad_norm": 0.78125, |
| "learning_rate": 7.317913193999797e-09, |
| "loss": 1.3342905044555664, |
| "step": 618 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 3.46875, |
| "learning_rate": 7.301592084904969e-09, |
| "loss": 2.3791027069091797, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.8293333333333334, |
| "grad_norm": 1.4921875, |
| "learning_rate": 7.2852467036754096e-09, |
| "loss": 1.5852872133255005, |
| "step": 622 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 1.7421875, |
| "learning_rate": 7.268877355120362e-09, |
| "loss": 1.9645684957504272, |
| "step": 624 |
| }, |
| { |
| "epoch": 0.8346666666666667, |
| "grad_norm": 3.1875, |
| "learning_rate": 7.252484344496011e-09, |
| "loss": 2.1768226623535156, |
| "step": 626 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 1.25, |
| "learning_rate": 7.2360679774997894e-09, |
| "loss": 2.0677809715270996, |
| "step": 628 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 2.53125, |
| "learning_rate": 7.219628560264686e-09, |
| "loss": 2.1904172897338867, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 1.2265625, |
| "learning_rate": 7.203166399353529e-09, |
| "loss": 1.7315815687179565, |
| "step": 632 |
| }, |
| { |
| "epoch": 0.8453333333333334, |
| "grad_norm": 1.6171875, |
| "learning_rate": 7.186681801753268e-09, |
| "loss": 1.4813761711120605, |
| "step": 634 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 0.5859375, |
| "learning_rate": 7.170175074869258e-09, |
| "loss": 1.1416938304901123, |
| "step": 636 |
| }, |
| { |
| "epoch": 0.8506666666666667, |
| "grad_norm": 1.3203125, |
| "learning_rate": 7.153646526519517e-09, |
| "loss": 1.9375399351119995, |
| "step": 638 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 2.53125, |
| "learning_rate": 7.137096464928996e-09, |
| "loss": 1.9194899797439575, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.856, |
| "grad_norm": 2.40625, |
| "learning_rate": 7.120525198723817e-09, |
| "loss": 1.8916599750518799, |
| "step": 642 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 2.0625, |
| "learning_rate": 7.103933036925541e-09, |
| "loss": 1.5970803499221802, |
| "step": 644 |
| }, |
| { |
| "epoch": 0.8613333333333333, |
| "grad_norm": 3.3125, |
| "learning_rate": 7.087320288945372e-09, |
| "loss": 1.7807791233062744, |
| "step": 646 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 0.64453125, |
| "learning_rate": 7.070687264578422e-09, |
| "loss": 1.6021547317504883, |
| "step": 648 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 0.55078125, |
| "learning_rate": 7.054034273997907e-09, |
| "loss": 1.2717254161834717, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 2.609375, |
| "learning_rate": 7.0373616277493816e-09, |
| "loss": 1.8490750789642334, |
| "step": 652 |
| }, |
| { |
| "epoch": 0.872, |
| "grad_norm": 1.4921875, |
| "learning_rate": 7.020669636744932e-09, |
| "loss": 1.9058908224105835, |
| "step": 654 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 1.03125, |
| "learning_rate": 7.003958612257395e-09, |
| "loss": 1.7792197465896606, |
| "step": 656 |
| }, |
| { |
| "epoch": 0.8773333333333333, |
| "grad_norm": 3.1875, |
| "learning_rate": 6.9872288659145366e-09, |
| "loss": 2.097074270248413, |
| "step": 658 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 0.87890625, |
| "learning_rate": 6.970480709693255e-09, |
| "loss": 1.7028578519821167, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.8826666666666667, |
| "grad_norm": 1.453125, |
| "learning_rate": 6.953714455913749e-09, |
| "loss": 1.6274348497390747, |
| "step": 662 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 3.03125, |
| "learning_rate": 6.936930417233706e-09, |
| "loss": 1.8403894901275635, |
| "step": 664 |
| }, |
| { |
| "epoch": 0.888, |
| "grad_norm": 1.453125, |
| "learning_rate": 6.920128906642471e-09, |
| "loss": 1.9490541219711304, |
| "step": 666 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 3.96875, |
| "learning_rate": 6.903310237455198e-09, |
| "loss": 1.5206190347671509, |
| "step": 668 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 1.9609375, |
| "learning_rate": 6.886474723307018e-09, |
| "loss": 1.9652315378189087, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 0.98828125, |
| "learning_rate": 6.869622678147187e-09, |
| "loss": 1.5592111349105835, |
| "step": 672 |
| }, |
| { |
| "epoch": 0.8986666666666666, |
| "grad_norm": 0.98046875, |
| "learning_rate": 6.8527544162332356e-09, |
| "loss": 1.6212581396102905, |
| "step": 674 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 0.83984375, |
| "learning_rate": 6.835870252125101e-09, |
| "loss": 1.8532904386520386, |
| "step": 676 |
| }, |
| { |
| "epoch": 0.904, |
| "grad_norm": 1.0546875, |
| "learning_rate": 6.8189705006792644e-09, |
| "loss": 1.8559094667434692, |
| "step": 678 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 0.78125, |
| "learning_rate": 6.802055477042883e-09, |
| "loss": 1.7229020595550537, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.9093333333333333, |
| "grad_norm": 0.578125, |
| "learning_rate": 6.7851254966479105e-09, |
| "loss": 1.5707266330718994, |
| "step": 682 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 0.89453125, |
| "learning_rate": 6.768180875205212e-09, |
| "loss": 1.2699148654937744, |
| "step": 684 |
| }, |
| { |
| "epoch": 0.9146666666666666, |
| "grad_norm": 3.90625, |
| "learning_rate": 6.751221928698681e-09, |
| "loss": 2.1601505279541016, |
| "step": 686 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 1.4375, |
| "learning_rate": 6.734248973379344e-09, |
| "loss": 2.0476503372192383, |
| "step": 688 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 4.125, |
| "learning_rate": 6.7172623257594704e-09, |
| "loss": 2.1878411769866943, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 3.21875, |
| "learning_rate": 6.700262302606653e-09, |
| "loss": 2.174124002456665, |
| "step": 692 |
| }, |
| { |
| "epoch": 0.9253333333333333, |
| "grad_norm": 2.875, |
| "learning_rate": 6.683249220937922e-09, |
| "loss": 1.9074881076812744, |
| "step": 694 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 4.125, |
| "learning_rate": 6.666223398013818e-09, |
| "loss": 2.2817506790161133, |
| "step": 696 |
| }, |
| { |
| "epoch": 0.9306666666666666, |
| "grad_norm": 0.7265625, |
| "learning_rate": 6.6491851513324845e-09, |
| "loss": 1.7976012229919434, |
| "step": 698 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 1.8203125, |
| "learning_rate": 6.632134798623737e-09, |
| "loss": 2.2520010471343994, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.936, |
| "grad_norm": 2.125, |
| "learning_rate": 6.615072657843155e-09, |
| "loss": 1.5152980089187622, |
| "step": 702 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 0.6953125, |
| "learning_rate": 6.597999047166133e-09, |
| "loss": 1.6834348440170288, |
| "step": 704 |
| }, |
| { |
| "epoch": 0.9413333333333334, |
| "grad_norm": 0.83203125, |
| "learning_rate": 6.580914284981962e-09, |
| "loss": 2.277674436569214, |
| "step": 706 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 3.34375, |
| "learning_rate": 6.5638186898878835e-09, |
| "loss": 1.7734097242355347, |
| "step": 708 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 0.45703125, |
| "learning_rate": 6.5467125806831515e-09, |
| "loss": 1.2191669940948486, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 0.9609375, |
| "learning_rate": 6.529596276363093e-09, |
| "loss": 1.642634391784668, |
| "step": 712 |
| }, |
| { |
| "epoch": 0.952, |
| "grad_norm": 0.97265625, |
| "learning_rate": 6.512470096113147e-09, |
| "loss": 2.0380730628967285, |
| "step": 714 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 4.125, |
| "learning_rate": 6.495334359302923e-09, |
| "loss": 2.0816550254821777, |
| "step": 716 |
| }, |
| { |
| "epoch": 0.9573333333333334, |
| "grad_norm": 0.8125, |
| "learning_rate": 6.478189385480235e-09, |
| "loss": 1.6059696674346924, |
| "step": 718 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 1.9140625, |
| "learning_rate": 6.461035494365164e-09, |
| "loss": 2.008833169937134, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.9626666666666667, |
| "grad_norm": 4.28125, |
| "learning_rate": 6.4438730058440655e-09, |
| "loss": 1.7914685010910034, |
| "step": 722 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 1.2734375, |
| "learning_rate": 6.426702239963626e-09, |
| "loss": 1.6844180822372437, |
| "step": 724 |
| }, |
| { |
| "epoch": 0.968, |
| "grad_norm": 0.7890625, |
| "learning_rate": 6.409523516924891e-09, |
| "loss": 1.34504234790802, |
| "step": 726 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 2.171875, |
| "learning_rate": 6.3923371570772856e-09, |
| "loss": 1.2960880994796753, |
| "step": 728 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 1.40625, |
| "learning_rate": 6.375143480912653e-09, |
| "loss": 1.924207091331482, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 3.234375, |
| "learning_rate": 6.357942809059264e-09, |
| "loss": 2.2275171279907227, |
| "step": 732 |
| }, |
| { |
| "epoch": 0.9786666666666667, |
| "grad_norm": 3.015625, |
| "learning_rate": 6.34073546227585e-09, |
| "loss": 2.1791670322418213, |
| "step": 734 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 1.796875, |
| "learning_rate": 6.323521761445618e-09, |
| "loss": 2.0370171070098877, |
| "step": 736 |
| }, |
| { |
| "epoch": 0.984, |
| "grad_norm": 36.25, |
| "learning_rate": 6.30630202757026e-09, |
| "loss": 1.7614537477493286, |
| "step": 738 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 3.578125, |
| "learning_rate": 6.2890765817639776e-09, |
| "loss": 2.175895929336548, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.9893333333333333, |
| "grad_norm": 0.8203125, |
| "learning_rate": 6.271845745247486e-09, |
| "loss": 1.630334734916687, |
| "step": 742 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 2.90625, |
| "learning_rate": 6.254609839342029e-09, |
| "loss": 2.394951343536377, |
| "step": 744 |
| }, |
| { |
| "epoch": 0.9946666666666667, |
| "grad_norm": 1.34375, |
| "learning_rate": 6.237369185463382e-09, |
| "loss": 1.9988031387329102, |
| "step": 746 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 3.984375, |
| "learning_rate": 6.22012410511586e-09, |
| "loss": 1.836710810661316, |
| "step": 748 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 0.40234375, |
| "learning_rate": 6.202874919886325e-09, |
| "loss": 1.4645345211029053, |
| "step": 750 |
| }, |
| { |
| "epoch": 1.0026666666666666, |
| "grad_norm": 0.5234375, |
| "learning_rate": 6.185621951438189e-09, |
| "loss": 1.259044885635376, |
| "step": 752 |
| }, |
| { |
| "epoch": 1.0053333333333334, |
| "grad_norm": 2.171875, |
| "learning_rate": 6.168365521505408e-09, |
| "loss": 2.2467596530914307, |
| "step": 754 |
| }, |
| { |
| "epoch": 1.008, |
| "grad_norm": 1.5390625, |
| "learning_rate": 6.151105951886493e-09, |
| "loss": 2.064286231994629, |
| "step": 756 |
| }, |
| { |
| "epoch": 1.0106666666666666, |
| "grad_norm": 2.578125, |
| "learning_rate": 6.1338435644385016e-09, |
| "loss": 2.050123453140259, |
| "step": 758 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 1.8359375, |
| "learning_rate": 6.116578681071039e-09, |
| "loss": 2.2007393836975098, |
| "step": 760 |
| }, |
| { |
| "epoch": 1.016, |
| "grad_norm": 7.25, |
| "learning_rate": 6.099311623740254e-09, |
| "loss": 1.7279249429702759, |
| "step": 762 |
| }, |
| { |
| "epoch": 1.0186666666666666, |
| "grad_norm": 1.1875, |
| "learning_rate": 6.082042714442835e-09, |
| "loss": 1.5156075954437256, |
| "step": 764 |
| }, |
| { |
| "epoch": 1.0213333333333334, |
| "grad_norm": 1.125, |
| "learning_rate": 6.064772275210007e-09, |
| "loss": 1.937456488609314, |
| "step": 766 |
| }, |
| { |
| "epoch": 1.024, |
| "grad_norm": 1.3046875, |
| "learning_rate": 6.047500628101525e-09, |
| "loss": 1.9286739826202393, |
| "step": 768 |
| }, |
| { |
| "epoch": 1.0266666666666666, |
| "grad_norm": 1.9921875, |
| "learning_rate": 6.030228095199668e-09, |
| "loss": 1.6469793319702148, |
| "step": 770 |
| }, |
| { |
| "epoch": 1.0293333333333334, |
| "grad_norm": 2.3125, |
| "learning_rate": 6.012954998603235e-09, |
| "loss": 2.1531600952148438, |
| "step": 772 |
| }, |
| { |
| "epoch": 1.032, |
| "grad_norm": 1.5078125, |
| "learning_rate": 5.995681660421535e-09, |
| "loss": 2.0553598403930664, |
| "step": 774 |
| }, |
| { |
| "epoch": 1.0346666666666666, |
| "grad_norm": 2.375, |
| "learning_rate": 5.9784084027683826e-09, |
| "loss": 1.883590817451477, |
| "step": 776 |
| }, |
| { |
| "epoch": 1.0373333333333334, |
| "grad_norm": 3.21875, |
| "learning_rate": 5.961135547756091e-09, |
| "loss": 2.2724263668060303, |
| "step": 778 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 0.416015625, |
| "learning_rate": 5.943863417489463e-09, |
| "loss": 1.7957870960235596, |
| "step": 780 |
| }, |
| { |
| "epoch": 1.0426666666666666, |
| "grad_norm": 2.53125, |
| "learning_rate": 5.92659233405979e-09, |
| "loss": 2.234978675842285, |
| "step": 782 |
| }, |
| { |
| "epoch": 1.0453333333333332, |
| "grad_norm": 0.828125, |
| "learning_rate": 5.90932261953884e-09, |
| "loss": 1.0685269832611084, |
| "step": 784 |
| }, |
| { |
| "epoch": 1.048, |
| "grad_norm": 6.1875, |
| "learning_rate": 5.892054595972853e-09, |
| "loss": 1.870047688484192, |
| "step": 786 |
| }, |
| { |
| "epoch": 1.0506666666666666, |
| "grad_norm": 3.34375, |
| "learning_rate": 5.874788585376536e-09, |
| "loss": 1.7908886671066284, |
| "step": 788 |
| }, |
| { |
| "epoch": 1.0533333333333332, |
| "grad_norm": 0.87890625, |
| "learning_rate": 5.857524909727058e-09, |
| "loss": 1.6072524785995483, |
| "step": 790 |
| }, |
| { |
| "epoch": 1.056, |
| "grad_norm": 1.1875, |
| "learning_rate": 5.8402638909580485e-09, |
| "loss": 2.162522792816162, |
| "step": 792 |
| }, |
| { |
| "epoch": 1.0586666666666666, |
| "grad_norm": 1.09375, |
| "learning_rate": 5.823005850953587e-09, |
| "loss": 1.8510265350341797, |
| "step": 794 |
| }, |
| { |
| "epoch": 1.0613333333333332, |
| "grad_norm": 0.6328125, |
| "learning_rate": 5.805751111542208e-09, |
| "loss": 1.1394752264022827, |
| "step": 796 |
| }, |
| { |
| "epoch": 1.064, |
| "grad_norm": 3.015625, |
| "learning_rate": 5.788499994490895e-09, |
| "loss": 1.9549927711486816, |
| "step": 798 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 1.25, |
| "learning_rate": 5.7712528214990846e-09, |
| "loss": 1.8942488431930542, |
| "step": 800 |
| }, |
| { |
| "epoch": 1.0693333333333332, |
| "grad_norm": 1.84375, |
| "learning_rate": 5.754009914192662e-09, |
| "loss": 1.8868470191955566, |
| "step": 802 |
| }, |
| { |
| "epoch": 1.072, |
| "grad_norm": 3.359375, |
| "learning_rate": 5.736771594117962e-09, |
| "loss": 1.9352576732635498, |
| "step": 804 |
| }, |
| { |
| "epoch": 1.0746666666666667, |
| "grad_norm": 5.125, |
| "learning_rate": 5.719538182735784e-09, |
| "loss": 2.3706133365631104, |
| "step": 806 |
| }, |
| { |
| "epoch": 1.0773333333333333, |
| "grad_norm": 1.390625, |
| "learning_rate": 5.702310001415385e-09, |
| "loss": 1.5871129035949707, |
| "step": 808 |
| }, |
| { |
| "epoch": 1.08, |
| "grad_norm": 1.0546875, |
| "learning_rate": 5.6850873714284925e-09, |
| "loss": 1.5843605995178223, |
| "step": 810 |
| }, |
| { |
| "epoch": 1.0826666666666667, |
| "grad_norm": 2.34375, |
| "learning_rate": 5.667870613943314e-09, |
| "loss": 1.7010804414749146, |
| "step": 812 |
| }, |
| { |
| "epoch": 1.0853333333333333, |
| "grad_norm": 1.640625, |
| "learning_rate": 5.650660050018544e-09, |
| "loss": 1.3027026653289795, |
| "step": 814 |
| }, |
| { |
| "epoch": 1.088, |
| "grad_norm": 2.25, |
| "learning_rate": 5.633456000597381e-09, |
| "loss": 1.8133392333984375, |
| "step": 816 |
| }, |
| { |
| "epoch": 1.0906666666666667, |
| "grad_norm": 1.1953125, |
| "learning_rate": 5.6162587865015426e-09, |
| "loss": 2.1602330207824707, |
| "step": 818 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 0.78125, |
| "learning_rate": 5.5990687284252765e-09, |
| "loss": 1.998731017112732, |
| "step": 820 |
| }, |
| { |
| "epoch": 1.096, |
| "grad_norm": 0.53515625, |
| "learning_rate": 5.5818861469293865e-09, |
| "loss": 1.606613039970398, |
| "step": 822 |
| }, |
| { |
| "epoch": 1.0986666666666667, |
| "grad_norm": 1.2265625, |
| "learning_rate": 5.5647113624352555e-09, |
| "loss": 2.124746561050415, |
| "step": 824 |
| }, |
| { |
| "epoch": 1.1013333333333333, |
| "grad_norm": 3.71875, |
| "learning_rate": 5.547544695218864e-09, |
| "loss": 1.9910880327224731, |
| "step": 826 |
| }, |
| { |
| "epoch": 1.104, |
| "grad_norm": 1.0234375, |
| "learning_rate": 5.530386465404822e-09, |
| "loss": 1.9260934591293335, |
| "step": 828 |
| }, |
| { |
| "epoch": 1.1066666666666667, |
| "grad_norm": 1.3671875, |
| "learning_rate": 5.513236992960402e-09, |
| "loss": 1.4777076244354248, |
| "step": 830 |
| }, |
| { |
| "epoch": 1.1093333333333333, |
| "grad_norm": 1.3515625, |
| "learning_rate": 5.496096597689564e-09, |
| "loss": 1.910886287689209, |
| "step": 832 |
| }, |
| { |
| "epoch": 1.112, |
| "grad_norm": 1.5546875, |
| "learning_rate": 5.478965599226999e-09, |
| "loss": 1.6413007974624634, |
| "step": 834 |
| }, |
| { |
| "epoch": 1.1146666666666667, |
| "grad_norm": 1.7734375, |
| "learning_rate": 5.461844317032166e-09, |
| "loss": 1.842114806175232, |
| "step": 836 |
| }, |
| { |
| "epoch": 1.1173333333333333, |
| "grad_norm": 0.91796875, |
| "learning_rate": 5.4447330703833344e-09, |
| "loss": 1.261273980140686, |
| "step": 838 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 2.234375, |
| "learning_rate": 5.427632178371628e-09, |
| "loss": 2.075026512145996, |
| "step": 840 |
| }, |
| { |
| "epoch": 1.1226666666666667, |
| "grad_norm": 1.25, |
| "learning_rate": 5.410541959895082e-09, |
| "loss": 1.8633524179458618, |
| "step": 842 |
| }, |
| { |
| "epoch": 1.1253333333333333, |
| "grad_norm": 2.5625, |
| "learning_rate": 5.393462733652688e-09, |
| "loss": 1.8478502035140991, |
| "step": 844 |
| }, |
| { |
| "epoch": 1.1280000000000001, |
| "grad_norm": 1.046875, |
| "learning_rate": 5.376394818138455e-09, |
| "loss": 1.8932420015335083, |
| "step": 846 |
| }, |
| { |
| "epoch": 1.1306666666666667, |
| "grad_norm": 3.40625, |
| "learning_rate": 5.359338531635465e-09, |
| "loss": 1.7140039205551147, |
| "step": 848 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 0.412109375, |
| "learning_rate": 5.342294192209949e-09, |
| "loss": 1.5283839702606201, |
| "step": 850 |
| }, |
| { |
| "epoch": 1.1360000000000001, |
| "grad_norm": 2.96875, |
| "learning_rate": 5.3252621177053425e-09, |
| "loss": 2.1872851848602295, |
| "step": 852 |
| }, |
| { |
| "epoch": 1.1386666666666667, |
| "grad_norm": 1.2890625, |
| "learning_rate": 5.3082426257363705e-09, |
| "loss": 1.8428471088409424, |
| "step": 854 |
| }, |
| { |
| "epoch": 1.1413333333333333, |
| "grad_norm": 1.6015625, |
| "learning_rate": 5.291236033683109e-09, |
| "loss": 1.4907652139663696, |
| "step": 856 |
| }, |
| { |
| "epoch": 1.144, |
| "grad_norm": 0.9375, |
| "learning_rate": 5.2742426586850864e-09, |
| "loss": 1.7861065864562988, |
| "step": 858 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 1.2890625, |
| "learning_rate": 5.257262817635351e-09, |
| "loss": 2.0522258281707764, |
| "step": 860 |
| }, |
| { |
| "epoch": 1.1493333333333333, |
| "grad_norm": 1.484375, |
| "learning_rate": 5.2402968271745735e-09, |
| "loss": 2.1046245098114014, |
| "step": 862 |
| }, |
| { |
| "epoch": 1.152, |
| "grad_norm": 3.234375, |
| "learning_rate": 5.223345003685138e-09, |
| "loss": 2.0264651775360107, |
| "step": 864 |
| }, |
| { |
| "epoch": 1.1546666666666667, |
| "grad_norm": 1.953125, |
| "learning_rate": 5.206407663285241e-09, |
| "loss": 1.915894627571106, |
| "step": 866 |
| }, |
| { |
| "epoch": 1.1573333333333333, |
| "grad_norm": 1.8203125, |
| "learning_rate": 5.189485121823001e-09, |
| "loss": 1.9370074272155762, |
| "step": 868 |
| }, |
| { |
| "epoch": 1.16, |
| "grad_norm": 1.125, |
| "learning_rate": 5.172577694870559e-09, |
| "loss": 1.9133473634719849, |
| "step": 870 |
| }, |
| { |
| "epoch": 1.1626666666666667, |
| "grad_norm": 3.328125, |
| "learning_rate": 5.155685697718209e-09, |
| "loss": 2.016202449798584, |
| "step": 872 |
| }, |
| { |
| "epoch": 1.1653333333333333, |
| "grad_norm": 0.98828125, |
| "learning_rate": 5.138809445368501e-09, |
| "loss": 1.680112600326538, |
| "step": 874 |
| }, |
| { |
| "epoch": 1.168, |
| "grad_norm": 1.3046875, |
| "learning_rate": 5.1219492525303826e-09, |
| "loss": 1.9129942655563354, |
| "step": 876 |
| }, |
| { |
| "epoch": 1.1706666666666667, |
| "grad_norm": 0.9140625, |
| "learning_rate": 5.105105433613315e-09, |
| "loss": 1.5393624305725098, |
| "step": 878 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 6.71875, |
| "learning_rate": 5.0882783027214275e-09, |
| "loss": 1.899593710899353, |
| "step": 880 |
| }, |
| { |
| "epoch": 1.176, |
| "grad_norm": 0.62109375, |
| "learning_rate": 5.071468173647642e-09, |
| "loss": 1.596930742263794, |
| "step": 882 |
| }, |
| { |
| "epoch": 1.1786666666666668, |
| "grad_norm": 1.4765625, |
| "learning_rate": 5.054675359867835e-09, |
| "loss": 2.020768880844116, |
| "step": 884 |
| }, |
| { |
| "epoch": 1.1813333333333333, |
| "grad_norm": 1.203125, |
| "learning_rate": 5.0379001745349866e-09, |
| "loss": 1.3474191427230835, |
| "step": 886 |
| }, |
| { |
| "epoch": 1.184, |
| "grad_norm": 1.0390625, |
| "learning_rate": 5.021142930473337e-09, |
| "loss": 1.803186297416687, |
| "step": 888 |
| }, |
| { |
| "epoch": 1.1866666666666668, |
| "grad_norm": 1.234375, |
| "learning_rate": 5.00440394017256e-09, |
| "loss": 1.8065211772918701, |
| "step": 890 |
| }, |
| { |
| "epoch": 1.1893333333333334, |
| "grad_norm": 1.6328125, |
| "learning_rate": 4.987683515781936e-09, |
| "loss": 1.5458588600158691, |
| "step": 892 |
| }, |
| { |
| "epoch": 1.192, |
| "grad_norm": 0.8203125, |
| "learning_rate": 4.970981969104519e-09, |
| "loss": 1.1960078477859497, |
| "step": 894 |
| }, |
| { |
| "epoch": 1.1946666666666665, |
| "grad_norm": 1.375, |
| "learning_rate": 4.954299611591339e-09, |
| "loss": 1.6406760215759277, |
| "step": 896 |
| }, |
| { |
| "epoch": 1.1973333333333334, |
| "grad_norm": 2.453125, |
| "learning_rate": 4.93763675433558e-09, |
| "loss": 1.948028802871704, |
| "step": 898 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 1.484375, |
| "learning_rate": 4.920993708066788e-09, |
| "loss": 1.7970317602157593, |
| "step": 900 |
| }, |
| { |
| "epoch": 1.2026666666666666, |
| "grad_norm": 2.890625, |
| "learning_rate": 4.904370783145074e-09, |
| "loss": 2.1257944107055664, |
| "step": 902 |
| }, |
| { |
| "epoch": 1.2053333333333334, |
| "grad_norm": 4.53125, |
| "learning_rate": 4.8877682895553205e-09, |
| "loss": 1.880362629890442, |
| "step": 904 |
| }, |
| { |
| "epoch": 1.208, |
| "grad_norm": 0.61328125, |
| "learning_rate": 4.87118653690141e-09, |
| "loss": 1.5706111192703247, |
| "step": 906 |
| }, |
| { |
| "epoch": 1.2106666666666666, |
| "grad_norm": 1.390625, |
| "learning_rate": 4.854625834400446e-09, |
| "loss": 1.5587897300720215, |
| "step": 908 |
| }, |
| { |
| "epoch": 1.2133333333333334, |
| "grad_norm": 2.890625, |
| "learning_rate": 4.838086490876987e-09, |
| "loss": 1.6950901746749878, |
| "step": 910 |
| }, |
| { |
| "epoch": 1.216, |
| "grad_norm": 6.5625, |
| "learning_rate": 4.821568814757292e-09, |
| "loss": 1.772045612335205, |
| "step": 912 |
| }, |
| { |
| "epoch": 1.2186666666666666, |
| "grad_norm": 0.7421875, |
| "learning_rate": 4.805073114063561e-09, |
| "loss": 1.523197889328003, |
| "step": 914 |
| }, |
| { |
| "epoch": 1.2213333333333334, |
| "grad_norm": 0.7890625, |
| "learning_rate": 4.788599696408198e-09, |
| "loss": 1.3500950336456299, |
| "step": 916 |
| }, |
| { |
| "epoch": 1.224, |
| "grad_norm": 0.90625, |
| "learning_rate": 4.7721488689880715e-09, |
| "loss": 1.4523169994354248, |
| "step": 918 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 2.515625, |
| "learning_rate": 4.755720938578787e-09, |
| "loss": 1.7262288331985474, |
| "step": 920 |
| }, |
| { |
| "epoch": 1.2293333333333334, |
| "grad_norm": 0.8671875, |
| "learning_rate": 4.7393162115289664e-09, |
| "loss": 1.6037812232971191, |
| "step": 922 |
| }, |
| { |
| "epoch": 1.232, |
| "grad_norm": 2.640625, |
| "learning_rate": 4.722934993754533e-09, |
| "loss": 2.0987040996551514, |
| "step": 924 |
| }, |
| { |
| "epoch": 1.2346666666666666, |
| "grad_norm": 1.1328125, |
| "learning_rate": 4.706577590733007e-09, |
| "loss": 1.5940345525741577, |
| "step": 926 |
| }, |
| { |
| "epoch": 1.2373333333333334, |
| "grad_norm": 1.390625, |
| "learning_rate": 4.690244307497814e-09, |
| "loss": 1.5601483583450317, |
| "step": 928 |
| }, |
| { |
| "epoch": 1.24, |
| "grad_norm": 1.078125, |
| "learning_rate": 4.673935448632591e-09, |
| "loss": 2.1076908111572266, |
| "step": 930 |
| }, |
| { |
| "epoch": 1.2426666666666666, |
| "grad_norm": 1.0703125, |
| "learning_rate": 4.6576513182655086e-09, |
| "loss": 1.881157398223877, |
| "step": 932 |
| }, |
| { |
| "epoch": 1.2453333333333334, |
| "grad_norm": 1.21875, |
| "learning_rate": 4.641392220063598e-09, |
| "loss": 1.8262559175491333, |
| "step": 934 |
| }, |
| { |
| "epoch": 1.248, |
| "grad_norm": 0.8203125, |
| "learning_rate": 4.625158457227094e-09, |
| "loss": 1.496355652809143, |
| "step": 936 |
| }, |
| { |
| "epoch": 1.2506666666666666, |
| "grad_norm": 1.5078125, |
| "learning_rate": 4.608950332483772e-09, |
| "loss": 1.8386247158050537, |
| "step": 938 |
| }, |
| { |
| "epoch": 1.2533333333333334, |
| "grad_norm": 0.62890625, |
| "learning_rate": 4.59276814808331e-09, |
| "loss": 1.6028660535812378, |
| "step": 940 |
| }, |
| { |
| "epoch": 1.256, |
| "grad_norm": 0.52734375, |
| "learning_rate": 4.576612205791648e-09, |
| "loss": 1.2583792209625244, |
| "step": 942 |
| }, |
| { |
| "epoch": 1.2586666666666666, |
| "grad_norm": 2.9375, |
| "learning_rate": 4.560482806885363e-09, |
| "loss": 1.7977988719940186, |
| "step": 944 |
| }, |
| { |
| "epoch": 1.2613333333333334, |
| "grad_norm": 4.59375, |
| "learning_rate": 4.54438025214605e-09, |
| "loss": 2.193932056427002, |
| "step": 946 |
| }, |
| { |
| "epoch": 1.264, |
| "grad_norm": 1.3125, |
| "learning_rate": 4.528304841854715e-09, |
| "loss": 1.8389561176300049, |
| "step": 948 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 0.58203125, |
| "learning_rate": 4.512256875786168e-09, |
| "loss": 1.7931069135665894, |
| "step": 950 |
| }, |
| { |
| "epoch": 1.2693333333333334, |
| "grad_norm": 0.77734375, |
| "learning_rate": 4.496236653203444e-09, |
| "loss": 1.7321507930755615, |
| "step": 952 |
| }, |
| { |
| "epoch": 1.272, |
| "grad_norm": 1.8125, |
| "learning_rate": 4.480244472852213e-09, |
| "loss": 2.222858428955078, |
| "step": 954 |
| }, |
| { |
| "epoch": 1.2746666666666666, |
| "grad_norm": 0.9609375, |
| "learning_rate": 4.464280632955215e-09, |
| "loss": 1.3424203395843506, |
| "step": 956 |
| }, |
| { |
| "epoch": 1.2773333333333334, |
| "grad_norm": 1.3828125, |
| "learning_rate": 4.448345431206694e-09, |
| "loss": 1.5889484882354736, |
| "step": 958 |
| }, |
| { |
| "epoch": 1.28, |
| "grad_norm": 1.421875, |
| "learning_rate": 4.43243916476685e-09, |
| "loss": 1.3793516159057617, |
| "step": 960 |
| }, |
| { |
| "epoch": 1.2826666666666666, |
| "grad_norm": 0.41015625, |
| "learning_rate": 4.416562130256296e-09, |
| "loss": 1.5104498863220215, |
| "step": 962 |
| }, |
| { |
| "epoch": 1.2853333333333334, |
| "grad_norm": 0.86328125, |
| "learning_rate": 4.400714623750524e-09, |
| "loss": 1.5663784742355347, |
| "step": 964 |
| }, |
| { |
| "epoch": 1.288, |
| "grad_norm": 2.6875, |
| "learning_rate": 4.3848969407743945e-09, |
| "loss": 2.37646484375, |
| "step": 966 |
| }, |
| { |
| "epoch": 1.2906666666666666, |
| "grad_norm": 3.078125, |
| "learning_rate": 4.36910937629661e-09, |
| "loss": 2.089693307876587, |
| "step": 968 |
| }, |
| { |
| "epoch": 1.2933333333333334, |
| "grad_norm": 12.25, |
| "learning_rate": 4.353352224724225e-09, |
| "loss": 2.1083428859710693, |
| "step": 970 |
| }, |
| { |
| "epoch": 1.296, |
| "grad_norm": 1.15625, |
| "learning_rate": 4.337625779897155e-09, |
| "loss": 1.8934953212738037, |
| "step": 972 |
| }, |
| { |
| "epoch": 1.2986666666666666, |
| "grad_norm": 2.75, |
| "learning_rate": 4.3219303350826926e-09, |
| "loss": 1.8317111730575562, |
| "step": 974 |
| }, |
| { |
| "epoch": 1.3013333333333335, |
| "grad_norm": 1.234375, |
| "learning_rate": 4.3062661829700414e-09, |
| "loss": 1.8767393827438354, |
| "step": 976 |
| }, |
| { |
| "epoch": 1.304, |
| "grad_norm": 1.5703125, |
| "learning_rate": 4.290633615664857e-09, |
| "loss": 1.9324172735214233, |
| "step": 978 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 4.25, |
| "learning_rate": 4.2750329246838015e-09, |
| "loss": 2.246973752975464, |
| "step": 980 |
| }, |
| { |
| "epoch": 1.3093333333333335, |
| "grad_norm": 0.59765625, |
| "learning_rate": 4.259464400949107e-09, |
| "loss": 1.64799165725708, |
| "step": 982 |
| }, |
| { |
| "epoch": 1.312, |
| "grad_norm": 2.0625, |
| "learning_rate": 4.243928334783148e-09, |
| "loss": 1.7538410425186157, |
| "step": 984 |
| }, |
| { |
| "epoch": 1.3146666666666667, |
| "grad_norm": 2.90625, |
| "learning_rate": 4.2284250159030325e-09, |
| "loss": 1.9145493507385254, |
| "step": 986 |
| }, |
| { |
| "epoch": 1.3173333333333335, |
| "grad_norm": 1.140625, |
| "learning_rate": 4.212954733415191e-09, |
| "loss": 2.1837127208709717, |
| "step": 988 |
| }, |
| { |
| "epoch": 1.32, |
| "grad_norm": 2.21875, |
| "learning_rate": 4.197517775809992e-09, |
| "loss": 1.7847557067871094, |
| "step": 990 |
| }, |
| { |
| "epoch": 1.3226666666666667, |
| "grad_norm": 2.671875, |
| "learning_rate": 4.182114430956362e-09, |
| "loss": 2.1116790771484375, |
| "step": 992 |
| }, |
| { |
| "epoch": 1.3253333333333333, |
| "grad_norm": 1.359375, |
| "learning_rate": 4.166744986096413e-09, |
| "loss": 1.7069684267044067, |
| "step": 994 |
| }, |
| { |
| "epoch": 1.328, |
| "grad_norm": 1.4609375, |
| "learning_rate": 4.151409727840092e-09, |
| "loss": 1.912143588066101, |
| "step": 996 |
| }, |
| { |
| "epoch": 1.3306666666666667, |
| "grad_norm": 4.125, |
| "learning_rate": 4.136108942159832e-09, |
| "loss": 2.4729881286621094, |
| "step": 998 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 3.734375, |
| "learning_rate": 4.120842914385218e-09, |
| "loss": 1.7187219858169556, |
| "step": 1000 |
| }, |
| { |
| "epoch": 1.336, |
| "grad_norm": 0.515625, |
| "learning_rate": 4.105611929197671e-09, |
| "loss": 1.569278359413147, |
| "step": 1002 |
| }, |
| { |
| "epoch": 1.3386666666666667, |
| "grad_norm": 1.3203125, |
| "learning_rate": 4.090416270625135e-09, |
| "loss": 1.8596712350845337, |
| "step": 1004 |
| }, |
| { |
| "epoch": 1.3413333333333333, |
| "grad_norm": 0.61328125, |
| "learning_rate": 4.0752562220367804e-09, |
| "loss": 1.6299768686294556, |
| "step": 1006 |
| }, |
| { |
| "epoch": 1.3439999999999999, |
| "grad_norm": 1.1953125, |
| "learning_rate": 4.0601320661377275e-09, |
| "loss": 1.9480643272399902, |
| "step": 1008 |
| }, |
| { |
| "epoch": 1.3466666666666667, |
| "grad_norm": 1.015625, |
| "learning_rate": 4.045044084963762e-09, |
| "loss": 1.8339238166809082, |
| "step": 1010 |
| }, |
| { |
| "epoch": 1.3493333333333333, |
| "grad_norm": 0.89453125, |
| "learning_rate": 4.029992559876088e-09, |
| "loss": 1.838714361190796, |
| "step": 1012 |
| }, |
| { |
| "epoch": 1.3519999999999999, |
| "grad_norm": 2.078125, |
| "learning_rate": 4.014977771556067e-09, |
| "loss": 1.9255378246307373, |
| "step": 1014 |
| }, |
| { |
| "epoch": 1.3546666666666667, |
| "grad_norm": 3.59375, |
| "learning_rate": 4.000000000000001e-09, |
| "loss": 1.8615750074386597, |
| "step": 1016 |
| }, |
| { |
| "epoch": 1.3573333333333333, |
| "grad_norm": 1.2109375, |
| "learning_rate": 3.985059524513895e-09, |
| "loss": 1.465595006942749, |
| "step": 1018 |
| }, |
| { |
| "epoch": 1.3599999999999999, |
| "grad_norm": 3.125, |
| "learning_rate": 3.970156623708261e-09, |
| "loss": 2.2073721885681152, |
| "step": 1020 |
| }, |
| { |
| "epoch": 1.3626666666666667, |
| "grad_norm": 0.59765625, |
| "learning_rate": 3.955291575492912e-09, |
| "loss": 1.5387027263641357, |
| "step": 1022 |
| }, |
| { |
| "epoch": 1.3653333333333333, |
| "grad_norm": 1.5234375, |
| "learning_rate": 3.940464657071786e-09, |
| "loss": 1.861857295036316, |
| "step": 1024 |
| }, |
| { |
| "epoch": 1.3679999999999999, |
| "grad_norm": 2.203125, |
| "learning_rate": 3.925676144937782e-09, |
| "loss": 2.1772828102111816, |
| "step": 1026 |
| }, |
| { |
| "epoch": 1.3706666666666667, |
| "grad_norm": 0.921875, |
| "learning_rate": 3.910926314867587e-09, |
| "loss": 1.5904673337936401, |
| "step": 1028 |
| }, |
| { |
| "epoch": 1.3733333333333333, |
| "grad_norm": 3.890625, |
| "learning_rate": 3.8962154419165485e-09, |
| "loss": 2.2001538276672363, |
| "step": 1030 |
| }, |
| { |
| "epoch": 1.376, |
| "grad_norm": 1.390625, |
| "learning_rate": 3.881543800413542e-09, |
| "loss": 1.5958366394042969, |
| "step": 1032 |
| }, |
| { |
| "epoch": 1.3786666666666667, |
| "grad_norm": 2.28125, |
| "learning_rate": 3.86691166395585e-09, |
| "loss": 2.1380932331085205, |
| "step": 1034 |
| }, |
| { |
| "epoch": 1.3813333333333333, |
| "grad_norm": 0.451171875, |
| "learning_rate": 3.852319305404065e-09, |
| "loss": 1.7112258672714233, |
| "step": 1036 |
| }, |
| { |
| "epoch": 1.384, |
| "grad_norm": 1.21875, |
| "learning_rate": 3.837766996877e-09, |
| "loss": 1.9973968267440796, |
| "step": 1038 |
| }, |
| { |
| "epoch": 1.3866666666666667, |
| "grad_norm": 1.578125, |
| "learning_rate": 3.823255009746614e-09, |
| "loss": 2.2577526569366455, |
| "step": 1040 |
| }, |
| { |
| "epoch": 1.3893333333333333, |
| "grad_norm": 0.890625, |
| "learning_rate": 3.808783614632949e-09, |
| "loss": 1.3888800144195557, |
| "step": 1042 |
| }, |
| { |
| "epoch": 1.392, |
| "grad_norm": 2.234375, |
| "learning_rate": 3.794353081399089e-09, |
| "loss": 2.0604593753814697, |
| "step": 1044 |
| }, |
| { |
| "epoch": 1.3946666666666667, |
| "grad_norm": 1.234375, |
| "learning_rate": 3.779963679146121e-09, |
| "loss": 1.9488394260406494, |
| "step": 1046 |
| }, |
| { |
| "epoch": 1.3973333333333333, |
| "grad_norm": 1.2578125, |
| "learning_rate": 3.765615676208124e-09, |
| "loss": 1.8341143131256104, |
| "step": 1048 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 1.0859375, |
| "learning_rate": 3.751309340147156e-09, |
| "loss": 2.020453929901123, |
| "step": 1050 |
| }, |
| { |
| "epoch": 1.4026666666666667, |
| "grad_norm": 0.796875, |
| "learning_rate": 3.7370449377482715e-09, |
| "loss": 1.5498268604278564, |
| "step": 1052 |
| }, |
| { |
| "epoch": 1.4053333333333333, |
| "grad_norm": 6.84375, |
| "learning_rate": 3.7228227350145493e-09, |
| "loss": 1.3826239109039307, |
| "step": 1054 |
| }, |
| { |
| "epoch": 1.408, |
| "grad_norm": 0.7734375, |
| "learning_rate": 3.7086429971621214e-09, |
| "loss": 1.6661386489868164, |
| "step": 1056 |
| }, |
| { |
| "epoch": 1.4106666666666667, |
| "grad_norm": 1.125, |
| "learning_rate": 3.6945059886152356e-09, |
| "loss": 1.9143027067184448, |
| "step": 1058 |
| }, |
| { |
| "epoch": 1.4133333333333333, |
| "grad_norm": 1.21875, |
| "learning_rate": 3.6804119730013215e-09, |
| "loss": 2.2068653106689453, |
| "step": 1060 |
| }, |
| { |
| "epoch": 1.416, |
| "grad_norm": 9.25, |
| "learning_rate": 3.666361213146075e-09, |
| "loss": 1.890751838684082, |
| "step": 1062 |
| }, |
| { |
| "epoch": 1.4186666666666667, |
| "grad_norm": 0.6640625, |
| "learning_rate": 3.6523539710685583e-09, |
| "loss": 1.8205938339233398, |
| "step": 1064 |
| }, |
| { |
| "epoch": 1.4213333333333333, |
| "grad_norm": 0.8046875, |
| "learning_rate": 3.6383905079763108e-09, |
| "loss": 1.2335028648376465, |
| "step": 1066 |
| }, |
| { |
| "epoch": 1.424, |
| "grad_norm": 0.99609375, |
| "learning_rate": 3.6244710842604813e-09, |
| "loss": 2.0793159008026123, |
| "step": 1068 |
| }, |
| { |
| "epoch": 1.4266666666666667, |
| "grad_norm": 1.734375, |
| "learning_rate": 3.6105959594909676e-09, |
| "loss": 1.5506471395492554, |
| "step": 1070 |
| }, |
| { |
| "epoch": 1.4293333333333333, |
| "grad_norm": 1.0078125, |
| "learning_rate": 3.596765392411586e-09, |
| "loss": 1.755253553390503, |
| "step": 1072 |
| }, |
| { |
| "epoch": 1.432, |
| "grad_norm": 1.2890625, |
| "learning_rate": 3.582979640935233e-09, |
| "loss": 1.554221510887146, |
| "step": 1074 |
| }, |
| { |
| "epoch": 1.4346666666666668, |
| "grad_norm": 1.3359375, |
| "learning_rate": 3.5692389621390836e-09, |
| "loss": 2.169426679611206, |
| "step": 1076 |
| }, |
| { |
| "epoch": 1.4373333333333334, |
| "grad_norm": 2.796875, |
| "learning_rate": 3.5555436122597996e-09, |
| "loss": 1.9468799829483032, |
| "step": 1078 |
| }, |
| { |
| "epoch": 1.44, |
| "grad_norm": 10.125, |
| "learning_rate": 3.5418938466887415e-09, |
| "loss": 1.915063738822937, |
| "step": 1080 |
| }, |
| { |
| "epoch": 1.4426666666666668, |
| "grad_norm": 0.51171875, |
| "learning_rate": 3.5282899199672164e-09, |
| "loss": 1.5836447477340698, |
| "step": 1082 |
| }, |
| { |
| "epoch": 1.4453333333333334, |
| "grad_norm": 1.1875, |
| "learning_rate": 3.5147320857817262e-09, |
| "loss": 2.057462453842163, |
| "step": 1084 |
| }, |
| { |
| "epoch": 1.448, |
| "grad_norm": 1.078125, |
| "learning_rate": 3.501220596959236e-09, |
| "loss": 1.4570143222808838, |
| "step": 1086 |
| }, |
| { |
| "epoch": 1.4506666666666668, |
| "grad_norm": 2.4375, |
| "learning_rate": 3.487755705462462e-09, |
| "loss": 2.0535616874694824, |
| "step": 1088 |
| }, |
| { |
| "epoch": 1.4533333333333334, |
| "grad_norm": 2.359375, |
| "learning_rate": 3.4743376623851725e-09, |
| "loss": 1.644309163093567, |
| "step": 1090 |
| }, |
| { |
| "epoch": 1.456, |
| "grad_norm": 12.4375, |
| "learning_rate": 3.4609667179475037e-09, |
| "loss": 1.939032793045044, |
| "step": 1092 |
| }, |
| { |
| "epoch": 1.4586666666666668, |
| "grad_norm": 5.21875, |
| "learning_rate": 3.4476431214912964e-09, |
| "loss": 1.7405142784118652, |
| "step": 1094 |
| }, |
| { |
| "epoch": 1.4613333333333334, |
| "grad_norm": 2.734375, |
| "learning_rate": 3.4343671214754412e-09, |
| "loss": 2.0724618434906006, |
| "step": 1096 |
| }, |
| { |
| "epoch": 1.464, |
| "grad_norm": 2.0625, |
| "learning_rate": 3.4211389654712517e-09, |
| "loss": 1.8232965469360352, |
| "step": 1098 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 1.0546875, |
| "learning_rate": 3.4079589001578446e-09, |
| "loss": 2.136154890060425, |
| "step": 1100 |
| }, |
| { |
| "epoch": 1.4693333333333334, |
| "grad_norm": 0.69921875, |
| "learning_rate": 3.3948271713175394e-09, |
| "loss": 1.7769290208816528, |
| "step": 1102 |
| }, |
| { |
| "epoch": 1.472, |
| "grad_norm": 1.3984375, |
| "learning_rate": 3.381744023831273e-09, |
| "loss": 1.8233089447021484, |
| "step": 1104 |
| }, |
| { |
| "epoch": 1.4746666666666668, |
| "grad_norm": 2.375, |
| "learning_rate": 3.3687097016740386e-09, |
| "loss": 2.1642887592315674, |
| "step": 1106 |
| }, |
| { |
| "epoch": 1.4773333333333334, |
| "grad_norm": 1.2890625, |
| "learning_rate": 3.355724447910331e-09, |
| "loss": 1.5282243490219116, |
| "step": 1108 |
| }, |
| { |
| "epoch": 1.48, |
| "grad_norm": 1.140625, |
| "learning_rate": 3.342788504689618e-09, |
| "loss": 1.8636339902877808, |
| "step": 1110 |
| }, |
| { |
| "epoch": 1.4826666666666668, |
| "grad_norm": 0.75, |
| "learning_rate": 3.3299021132418196e-09, |
| "loss": 1.6796783208847046, |
| "step": 1112 |
| }, |
| { |
| "epoch": 1.4853333333333334, |
| "grad_norm": 1.1953125, |
| "learning_rate": 3.3170655138728146e-09, |
| "loss": 2.1287944316864014, |
| "step": 1114 |
| }, |
| { |
| "epoch": 1.488, |
| "grad_norm": 1.3671875, |
| "learning_rate": 3.3042789459599566e-09, |
| "loss": 2.1079940795898438, |
| "step": 1116 |
| }, |
| { |
| "epoch": 1.4906666666666666, |
| "grad_norm": 3.265625, |
| "learning_rate": 3.291542647947614e-09, |
| "loss": 2.15340256690979, |
| "step": 1118 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 0.66015625, |
| "learning_rate": 3.2788568573427146e-09, |
| "loss": 1.1380071640014648, |
| "step": 1120 |
| }, |
| { |
| "epoch": 1.496, |
| "grad_norm": 4.03125, |
| "learning_rate": 3.2662218107103264e-09, |
| "loss": 2.2066473960876465, |
| "step": 1122 |
| }, |
| { |
| "epoch": 1.4986666666666666, |
| "grad_norm": 0.46484375, |
| "learning_rate": 3.2536377436692423e-09, |
| "loss": 1.1828243732452393, |
| "step": 1124 |
| }, |
| { |
| "epoch": 1.5013333333333332, |
| "grad_norm": 3.546875, |
| "learning_rate": 3.241104890887583e-09, |
| "loss": 2.094403028488159, |
| "step": 1126 |
| }, |
| { |
| "epoch": 1.504, |
| "grad_norm": 3.015625, |
| "learning_rate": 3.2286234860784265e-09, |
| "loss": 1.8210811614990234, |
| "step": 1128 |
| }, |
| { |
| "epoch": 1.5066666666666668, |
| "grad_norm": 0.546875, |
| "learning_rate": 3.2161937619954455e-09, |
| "loss": 1.8125649690628052, |
| "step": 1130 |
| }, |
| { |
| "epoch": 1.5093333333333332, |
| "grad_norm": 0.921875, |
| "learning_rate": 3.2038159504285707e-09, |
| "loss": 1.8376426696777344, |
| "step": 1132 |
| }, |
| { |
| "epoch": 1.512, |
| "grad_norm": 1.2734375, |
| "learning_rate": 3.191490282199664e-09, |
| "loss": 1.9754841327667236, |
| "step": 1134 |
| }, |
| { |
| "epoch": 1.5146666666666668, |
| "grad_norm": 0.5703125, |
| "learning_rate": 3.179216987158218e-09, |
| "loss": 1.4537146091461182, |
| "step": 1136 |
| }, |
| { |
| "epoch": 1.5173333333333332, |
| "grad_norm": 3.046875, |
| "learning_rate": 3.166996294177068e-09, |
| "loss": 1.799623727798462, |
| "step": 1138 |
| }, |
| { |
| "epoch": 1.52, |
| "grad_norm": 3.828125, |
| "learning_rate": 3.1548284311481244e-09, |
| "loss": 2.3792202472686768, |
| "step": 1140 |
| }, |
| { |
| "epoch": 1.5226666666666666, |
| "grad_norm": 0.62890625, |
| "learning_rate": 3.1427136249781224e-09, |
| "loss": 1.2780814170837402, |
| "step": 1142 |
| }, |
| { |
| "epoch": 1.5253333333333332, |
| "grad_norm": 1.0546875, |
| "learning_rate": 3.1306521015843904e-09, |
| "loss": 2.1566176414489746, |
| "step": 1144 |
| }, |
| { |
| "epoch": 1.528, |
| "grad_norm": 0.80859375, |
| "learning_rate": 3.11864408589064e-09, |
| "loss": 1.1312358379364014, |
| "step": 1146 |
| }, |
| { |
| "epoch": 1.5306666666666666, |
| "grad_norm": 1.1640625, |
| "learning_rate": 3.106689801822768e-09, |
| "loss": 1.954304814338684, |
| "step": 1148 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 0.87109375, |
| "learning_rate": 3.094789472304681e-09, |
| "loss": 1.234276533126831, |
| "step": 1150 |
| }, |
| { |
| "epoch": 1.536, |
| "grad_norm": 0.625, |
| "learning_rate": 3.08294331925414e-09, |
| "loss": 1.7781298160552979, |
| "step": 1152 |
| }, |
| { |
| "epoch": 1.5386666666666666, |
| "grad_norm": 0.67578125, |
| "learning_rate": 3.0711515635786224e-09, |
| "loss": 1.8762702941894531, |
| "step": 1154 |
| }, |
| { |
| "epoch": 1.5413333333333332, |
| "grad_norm": 2.453125, |
| "learning_rate": 3.0594144251711996e-09, |
| "loss": 2.161132574081421, |
| "step": 1156 |
| }, |
| { |
| "epoch": 1.544, |
| "grad_norm": 1.15625, |
| "learning_rate": 3.047732122906439e-09, |
| "loss": 2.0912721157073975, |
| "step": 1158 |
| }, |
| { |
| "epoch": 1.5466666666666666, |
| "grad_norm": 6.6875, |
| "learning_rate": 3.0361048746363224e-09, |
| "loss": 2.5332658290863037, |
| "step": 1160 |
| }, |
| { |
| "epoch": 1.5493333333333332, |
| "grad_norm": 3.890625, |
| "learning_rate": 3.024532897186183e-09, |
| "loss": 2.111358404159546, |
| "step": 1162 |
| }, |
| { |
| "epoch": 1.552, |
| "grad_norm": 3.15625, |
| "learning_rate": 3.0130164063506606e-09, |
| "loss": 2.2159292697906494, |
| "step": 1164 |
| }, |
| { |
| "epoch": 1.5546666666666666, |
| "grad_norm": 3.46875, |
| "learning_rate": 3.0015556168896785e-09, |
| "loss": 2.2090470790863037, |
| "step": 1166 |
| }, |
| { |
| "epoch": 1.5573333333333332, |
| "grad_norm": 1.140625, |
| "learning_rate": 2.990150742524439e-09, |
| "loss": 2.118368148803711, |
| "step": 1168 |
| }, |
| { |
| "epoch": 1.56, |
| "grad_norm": 8.5, |
| "learning_rate": 2.9788019959334402e-09, |
| "loss": 2.0572381019592285, |
| "step": 1170 |
| }, |
| { |
| "epoch": 1.5626666666666666, |
| "grad_norm": 4.59375, |
| "learning_rate": 2.967509588748504e-09, |
| "loss": 2.4544730186462402, |
| "step": 1172 |
| }, |
| { |
| "epoch": 1.5653333333333332, |
| "grad_norm": 1.2578125, |
| "learning_rate": 2.956273731550836e-09, |
| "loss": 1.7947977781295776, |
| "step": 1174 |
| }, |
| { |
| "epoch": 1.568, |
| "grad_norm": 3.328125, |
| "learning_rate": 2.9450946338670925e-09, |
| "loss": 2.1816515922546387, |
| "step": 1176 |
| }, |
| { |
| "epoch": 1.5706666666666667, |
| "grad_norm": 1.421875, |
| "learning_rate": 2.9339725041654792e-09, |
| "loss": 1.5207916498184204, |
| "step": 1178 |
| }, |
| { |
| "epoch": 1.5733333333333333, |
| "grad_norm": 1.453125, |
| "learning_rate": 2.9229075498518596e-09, |
| "loss": 1.8684794902801514, |
| "step": 1180 |
| }, |
| { |
| "epoch": 1.576, |
| "grad_norm": 1.2578125, |
| "learning_rate": 2.9118999772658887e-09, |
| "loss": 1.882980227470398, |
| "step": 1182 |
| }, |
| { |
| "epoch": 1.5786666666666667, |
| "grad_norm": 1.0234375, |
| "learning_rate": 2.9009499916771655e-09, |
| "loss": 1.7312045097351074, |
| "step": 1184 |
| }, |
| { |
| "epoch": 1.5813333333333333, |
| "grad_norm": 1.2890625, |
| "learning_rate": 2.890057797281404e-09, |
| "loss": 2.04587984085083, |
| "step": 1186 |
| }, |
| { |
| "epoch": 1.584, |
| "grad_norm": 0.49609375, |
| "learning_rate": 2.8792235971966256e-09, |
| "loss": 1.5842205286026, |
| "step": 1188 |
| }, |
| { |
| "epoch": 1.5866666666666667, |
| "grad_norm": 4.96875, |
| "learning_rate": 2.868447593459373e-09, |
| "loss": 2.111997365951538, |
| "step": 1190 |
| }, |
| { |
| "epoch": 1.5893333333333333, |
| "grad_norm": 2.46875, |
| "learning_rate": 2.8577299870209417e-09, |
| "loss": 1.9834377765655518, |
| "step": 1192 |
| }, |
| { |
| "epoch": 1.592, |
| "grad_norm": 0.97265625, |
| "learning_rate": 2.847070977743631e-09, |
| "loss": 1.9653667211532593, |
| "step": 1194 |
| }, |
| { |
| "epoch": 1.5946666666666667, |
| "grad_norm": 1.234375, |
| "learning_rate": 2.8364707643970182e-09, |
| "loss": 1.9497570991516113, |
| "step": 1196 |
| }, |
| { |
| "epoch": 1.5973333333333333, |
| "grad_norm": 2.15625, |
| "learning_rate": 2.8259295446542533e-09, |
| "loss": 1.9541677236557007, |
| "step": 1198 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 2.859375, |
| "learning_rate": 2.8154475150883702e-09, |
| "loss": 1.6280796527862549, |
| "step": 1200 |
| }, |
| { |
| "epoch": 1.6026666666666667, |
| "grad_norm": 0.82421875, |
| "learning_rate": 2.8050248711686233e-09, |
| "loss": 1.8475522994995117, |
| "step": 1202 |
| }, |
| { |
| "epoch": 1.6053333333333333, |
| "grad_norm": 0.9296875, |
| "learning_rate": 2.7946618072568407e-09, |
| "loss": 1.6077812910079956, |
| "step": 1204 |
| }, |
| { |
| "epoch": 1.608, |
| "grad_norm": 1.4453125, |
| "learning_rate": 2.7843585166038e-09, |
| "loss": 1.924946904182434, |
| "step": 1206 |
| }, |
| { |
| "epoch": 1.6106666666666667, |
| "grad_norm": 1.515625, |
| "learning_rate": 2.7741151913456283e-09, |
| "loss": 1.5497167110443115, |
| "step": 1208 |
| }, |
| { |
| "epoch": 1.6133333333333333, |
| "grad_norm": 9.3125, |
| "learning_rate": 2.7639320225002108e-09, |
| "loss": 2.1292612552642822, |
| "step": 1210 |
| }, |
| { |
| "epoch": 1.616, |
| "grad_norm": 1.2890625, |
| "learning_rate": 2.7538091999636373e-09, |
| "loss": 2.072988510131836, |
| "step": 1212 |
| }, |
| { |
| "epoch": 1.6186666666666667, |
| "grad_norm": 2.15625, |
| "learning_rate": 2.7437469125066557e-09, |
| "loss": 2.1661105155944824, |
| "step": 1214 |
| }, |
| { |
| "epoch": 1.6213333333333333, |
| "grad_norm": 4.65625, |
| "learning_rate": 2.7337453477711562e-09, |
| "loss": 2.3083508014678955, |
| "step": 1216 |
| }, |
| { |
| "epoch": 1.624, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.7238046922666672e-09, |
| "loss": 1.6864315271377563, |
| "step": 1218 |
| }, |
| { |
| "epoch": 1.6266666666666667, |
| "grad_norm": 3.0, |
| "learning_rate": 2.7139251313668787e-09, |
| "loss": 2.1456027030944824, |
| "step": 1220 |
| }, |
| { |
| "epoch": 1.6293333333333333, |
| "grad_norm": 1.9765625, |
| "learning_rate": 2.7041068493061906e-09, |
| "loss": 1.9634565114974976, |
| "step": 1222 |
| }, |
| { |
| "epoch": 1.6320000000000001, |
| "grad_norm": 1.328125, |
| "learning_rate": 2.6943500291762686e-09, |
| "loss": 1.8810245990753174, |
| "step": 1224 |
| }, |
| { |
| "epoch": 1.6346666666666667, |
| "grad_norm": 0.60546875, |
| "learning_rate": 2.6846548529226356e-09, |
| "loss": 1.2452850341796875, |
| "step": 1226 |
| }, |
| { |
| "epoch": 1.6373333333333333, |
| "grad_norm": 0.58203125, |
| "learning_rate": 2.675021501341278e-09, |
| "loss": 1.812221646308899, |
| "step": 1228 |
| }, |
| { |
| "epoch": 1.6400000000000001, |
| "grad_norm": 0.87109375, |
| "learning_rate": 2.665450154075273e-09, |
| "loss": 1.5201737880706787, |
| "step": 1230 |
| }, |
| { |
| "epoch": 1.6426666666666667, |
| "grad_norm": 4.5, |
| "learning_rate": 2.6559409896114397e-09, |
| "loss": 2.3033218383789062, |
| "step": 1232 |
| }, |
| { |
| "epoch": 1.6453333333333333, |
| "grad_norm": 2.8125, |
| "learning_rate": 2.6464941852770087e-09, |
| "loss": 2.171069860458374, |
| "step": 1234 |
| }, |
| { |
| "epoch": 1.6480000000000001, |
| "grad_norm": 52.0, |
| "learning_rate": 2.637109917236317e-09, |
| "loss": 1.7426239252090454, |
| "step": 1236 |
| }, |
| { |
| "epoch": 1.6506666666666665, |
| "grad_norm": 3.015625, |
| "learning_rate": 2.6277883604875256e-09, |
| "loss": 2.4066109657287598, |
| "step": 1238 |
| }, |
| { |
| "epoch": 1.6533333333333333, |
| "grad_norm": 1.0390625, |
| "learning_rate": 2.6185296888593503e-09, |
| "loss": 1.845947027206421, |
| "step": 1240 |
| }, |
| { |
| "epoch": 1.6560000000000001, |
| "grad_norm": 0.60546875, |
| "learning_rate": 2.609334075007822e-09, |
| "loss": 1.5353820323944092, |
| "step": 1242 |
| }, |
| { |
| "epoch": 1.6586666666666665, |
| "grad_norm": 0.65234375, |
| "learning_rate": 2.600201690413071e-09, |
| "loss": 1.6985620260238647, |
| "step": 1244 |
| }, |
| { |
| "epoch": 1.6613333333333333, |
| "grad_norm": 1.6796875, |
| "learning_rate": 2.5911327053761234e-09, |
| "loss": 1.9166572093963623, |
| "step": 1246 |
| }, |
| { |
| "epoch": 1.6640000000000001, |
| "grad_norm": 0.703125, |
| "learning_rate": 2.5821272890157305e-09, |
| "loss": 1.800106167793274, |
| "step": 1248 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 1.2890625, |
| "learning_rate": 2.5731856092652117e-09, |
| "loss": 2.13812255859375, |
| "step": 1250 |
| }, |
| { |
| "epoch": 1.6693333333333333, |
| "grad_norm": 0.765625, |
| "learning_rate": 2.5643078328693215e-09, |
| "loss": 1.7946287393569946, |
| "step": 1252 |
| }, |
| { |
| "epoch": 1.6720000000000002, |
| "grad_norm": 1.4453125, |
| "learning_rate": 2.5554941253811474e-09, |
| "loss": 1.8380168676376343, |
| "step": 1254 |
| }, |
| { |
| "epoch": 1.6746666666666665, |
| "grad_norm": 1.265625, |
| "learning_rate": 2.546744651159014e-09, |
| "loss": 2.0702295303344727, |
| "step": 1256 |
| }, |
| { |
| "epoch": 1.6773333333333333, |
| "grad_norm": 3.6875, |
| "learning_rate": 2.538059573363423e-09, |
| "loss": 2.456021547317505, |
| "step": 1258 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 0.91796875, |
| "learning_rate": 2.529439053954007e-09, |
| "loss": 1.9975608587265015, |
| "step": 1260 |
| }, |
| { |
| "epoch": 1.6826666666666665, |
| "grad_norm": 1.3359375, |
| "learning_rate": 2.520883253686516e-09, |
| "loss": 2.070209264755249, |
| "step": 1262 |
| }, |
| { |
| "epoch": 1.6853333333333333, |
| "grad_norm": 0.65625, |
| "learning_rate": 2.512392332109812e-09, |
| "loss": 1.3402646780014038, |
| "step": 1264 |
| }, |
| { |
| "epoch": 1.688, |
| "grad_norm": 2.09375, |
| "learning_rate": 2.5039664475628977e-09, |
| "loss": 1.8698097467422485, |
| "step": 1266 |
| }, |
| { |
| "epoch": 1.6906666666666665, |
| "grad_norm": 2.40625, |
| "learning_rate": 2.4956057571719613e-09, |
| "loss": 2.21203351020813, |
| "step": 1268 |
| }, |
| { |
| "epoch": 1.6933333333333334, |
| "grad_norm": 3.921875, |
| "learning_rate": 2.4873104168474517e-09, |
| "loss": 2.100764751434326, |
| "step": 1270 |
| }, |
| { |
| "epoch": 1.696, |
| "grad_norm": 1.4375, |
| "learning_rate": 2.4790805812811644e-09, |
| "loss": 2.067443370819092, |
| "step": 1272 |
| }, |
| { |
| "epoch": 1.6986666666666665, |
| "grad_norm": 1.6640625, |
| "learning_rate": 2.470916403943361e-09, |
| "loss": 2.3430261611938477, |
| "step": 1274 |
| }, |
| { |
| "epoch": 1.7013333333333334, |
| "grad_norm": 5.3125, |
| "learning_rate": 2.4628180370799064e-09, |
| "loss": 1.6885303258895874, |
| "step": 1276 |
| }, |
| { |
| "epoch": 1.704, |
| "grad_norm": 1.0234375, |
| "learning_rate": 2.4547856317094284e-09, |
| "loss": 1.4781967401504517, |
| "step": 1278 |
| }, |
| { |
| "epoch": 1.7066666666666666, |
| "grad_norm": 1.0078125, |
| "learning_rate": 2.446819337620505e-09, |
| "loss": 2.173083543777466, |
| "step": 1280 |
| }, |
| { |
| "epoch": 1.7093333333333334, |
| "grad_norm": 0.875, |
| "learning_rate": 2.4389193033688637e-09, |
| "loss": 1.1628178358078003, |
| "step": 1282 |
| }, |
| { |
| "epoch": 1.712, |
| "grad_norm": 2.90625, |
| "learning_rate": 2.4310856762746237e-09, |
| "loss": 1.7809157371520996, |
| "step": 1284 |
| }, |
| { |
| "epoch": 1.7146666666666666, |
| "grad_norm": 8.5625, |
| "learning_rate": 2.4233186024195345e-09, |
| "loss": 2.0602993965148926, |
| "step": 1286 |
| }, |
| { |
| "epoch": 1.7173333333333334, |
| "grad_norm": 4.40625, |
| "learning_rate": 2.415618226644262e-09, |
| "loss": 2.208303689956665, |
| "step": 1288 |
| }, |
| { |
| "epoch": 1.72, |
| "grad_norm": 1.765625, |
| "learning_rate": 2.407984692545683e-09, |
| "loss": 1.8603630065917969, |
| "step": 1290 |
| }, |
| { |
| "epoch": 1.7226666666666666, |
| "grad_norm": 2.828125, |
| "learning_rate": 2.4004181424742075e-09, |
| "loss": 2.1588354110717773, |
| "step": 1292 |
| }, |
| { |
| "epoch": 1.7253333333333334, |
| "grad_norm": 1.203125, |
| "learning_rate": 2.392918717531127e-09, |
| "loss": 1.9170048236846924, |
| "step": 1294 |
| }, |
| { |
| "epoch": 1.728, |
| "grad_norm": 11.3125, |
| "learning_rate": 2.3854865575659795e-09, |
| "loss": 2.4841866493225098, |
| "step": 1296 |
| }, |
| { |
| "epoch": 1.7306666666666666, |
| "grad_norm": 1.375, |
| "learning_rate": 2.3781218011739436e-09, |
| "loss": 1.6329795122146606, |
| "step": 1298 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 0.33984375, |
| "learning_rate": 2.3708245856932555e-09, |
| "loss": 1.4959043264389038, |
| "step": 1300 |
| }, |
| { |
| "epoch": 1.736, |
| "grad_norm": 2.921875, |
| "learning_rate": 2.363595047202644e-09, |
| "loss": 2.1001901626586914, |
| "step": 1302 |
| }, |
| { |
| "epoch": 1.7386666666666666, |
| "grad_norm": 1.1171875, |
| "learning_rate": 2.356433320518795e-09, |
| "loss": 1.6259511709213257, |
| "step": 1304 |
| }, |
| { |
| "epoch": 1.7413333333333334, |
| "grad_norm": 0.8359375, |
| "learning_rate": 2.34933953919384e-09, |
| "loss": 1.5684748888015747, |
| "step": 1306 |
| }, |
| { |
| "epoch": 1.744, |
| "grad_norm": 2.171875, |
| "learning_rate": 2.3423138355128588e-09, |
| "loss": 1.9166902303695679, |
| "step": 1308 |
| }, |
| { |
| "epoch": 1.7466666666666666, |
| "grad_norm": 0.65625, |
| "learning_rate": 2.3353563404914225e-09, |
| "loss": 1.6639024019241333, |
| "step": 1310 |
| }, |
| { |
| "epoch": 1.7493333333333334, |
| "grad_norm": 0.98046875, |
| "learning_rate": 2.3284671838731394e-09, |
| "loss": 1.5359309911727905, |
| "step": 1312 |
| }, |
| { |
| "epoch": 1.752, |
| "grad_norm": 1.0234375, |
| "learning_rate": 2.3216464941272437e-09, |
| "loss": 1.5925889015197754, |
| "step": 1314 |
| }, |
| { |
| "epoch": 1.7546666666666666, |
| "grad_norm": 2.78125, |
| "learning_rate": 2.3148943984461964e-09, |
| "loss": 1.7936471700668335, |
| "step": 1316 |
| }, |
| { |
| "epoch": 1.7573333333333334, |
| "grad_norm": 8.625, |
| "learning_rate": 2.308211022743314e-09, |
| "loss": 1.6536723375320435, |
| "step": 1318 |
| }, |
| { |
| "epoch": 1.76, |
| "grad_norm": 1.421875, |
| "learning_rate": 2.301596491650421e-09, |
| "loss": 1.9484955072402954, |
| "step": 1320 |
| }, |
| { |
| "epoch": 1.7626666666666666, |
| "grad_norm": 0.66015625, |
| "learning_rate": 2.2950509285155227e-09, |
| "loss": 1.586497187614441, |
| "step": 1322 |
| }, |
| { |
| "epoch": 1.7653333333333334, |
| "grad_norm": 3.15625, |
| "learning_rate": 2.2885744554005115e-09, |
| "loss": 2.573892593383789, |
| "step": 1324 |
| }, |
| { |
| "epoch": 1.768, |
| "grad_norm": 3.90625, |
| "learning_rate": 2.282167193078883e-09, |
| "loss": 1.8689093589782715, |
| "step": 1326 |
| }, |
| { |
| "epoch": 1.7706666666666666, |
| "grad_norm": 3.65625, |
| "learning_rate": 2.27582926103349e-09, |
| "loss": 2.242807388305664, |
| "step": 1328 |
| }, |
| { |
| "epoch": 1.7733333333333334, |
| "grad_norm": 1.359375, |
| "learning_rate": 2.269560777454311e-09, |
| "loss": 1.885353922843933, |
| "step": 1330 |
| }, |
| { |
| "epoch": 1.776, |
| "grad_norm": 4.09375, |
| "learning_rate": 2.263361859236247e-09, |
| "loss": 2.140164375305176, |
| "step": 1332 |
| }, |
| { |
| "epoch": 1.7786666666666666, |
| "grad_norm": 3.515625, |
| "learning_rate": 2.257232621976942e-09, |
| "loss": 2.360833168029785, |
| "step": 1334 |
| }, |
| { |
| "epoch": 1.7813333333333334, |
| "grad_norm": 0.94140625, |
| "learning_rate": 2.251173179974626e-09, |
| "loss": 1.4787445068359375, |
| "step": 1336 |
| }, |
| { |
| "epoch": 1.784, |
| "grad_norm": 1.28125, |
| "learning_rate": 2.245183646225986e-09, |
| "loss": 1.6667358875274658, |
| "step": 1338 |
| }, |
| { |
| "epoch": 1.7866666666666666, |
| "grad_norm": 0.78125, |
| "learning_rate": 2.239264132424057e-09, |
| "loss": 1.5062923431396484, |
| "step": 1340 |
| }, |
| { |
| "epoch": 1.7893333333333334, |
| "grad_norm": 1.3828125, |
| "learning_rate": 2.2334147489561385e-09, |
| "loss": 1.9134619235992432, |
| "step": 1342 |
| }, |
| { |
| "epoch": 1.792, |
| "grad_norm": 3.265625, |
| "learning_rate": 2.227635604901739e-09, |
| "loss": 2.386061429977417, |
| "step": 1344 |
| }, |
| { |
| "epoch": 1.7946666666666666, |
| "grad_norm": 3.8125, |
| "learning_rate": 2.221926808030539e-09, |
| "loss": 1.713474988937378, |
| "step": 1346 |
| }, |
| { |
| "epoch": 1.7973333333333334, |
| "grad_norm": 6.90625, |
| "learning_rate": 2.216288464800382e-09, |
| "loss": 2.0952322483062744, |
| "step": 1348 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 0.8046875, |
| "learning_rate": 2.21072068035529e-09, |
| "loss": 1.6858350038528442, |
| "step": 1350 |
| }, |
| { |
| "epoch": 1.8026666666666666, |
| "grad_norm": 3.28125, |
| "learning_rate": 2.2052235585235013e-09, |
| "loss": 1.7180297374725342, |
| "step": 1352 |
| }, |
| { |
| "epoch": 1.8053333333333335, |
| "grad_norm": 1.40625, |
| "learning_rate": 2.1997972018155367e-09, |
| "loss": 2.088247537612915, |
| "step": 1354 |
| }, |
| { |
| "epoch": 1.808, |
| "grad_norm": 4.03125, |
| "learning_rate": 2.194441711422286e-09, |
| "loss": 2.0213112831115723, |
| "step": 1356 |
| }, |
| { |
| "epoch": 1.8106666666666666, |
| "grad_norm": 1.6328125, |
| "learning_rate": 2.1891571872131214e-09, |
| "loss": 1.8595952987670898, |
| "step": 1358 |
| }, |
| { |
| "epoch": 1.8133333333333335, |
| "grad_norm": 1.0703125, |
| "learning_rate": 2.183943727734035e-09, |
| "loss": 1.9161452054977417, |
| "step": 1360 |
| }, |
| { |
| "epoch": 1.8159999999999998, |
| "grad_norm": 1.328125, |
| "learning_rate": 2.1788014302058016e-09, |
| "loss": 2.0716159343719482, |
| "step": 1362 |
| }, |
| { |
| "epoch": 1.8186666666666667, |
| "grad_norm": 1.421875, |
| "learning_rate": 2.173730390522165e-09, |
| "loss": 1.8699593544006348, |
| "step": 1364 |
| }, |
| { |
| "epoch": 1.8213333333333335, |
| "grad_norm": 0.640625, |
| "learning_rate": 2.1687307032480517e-09, |
| "loss": 1.4571788311004639, |
| "step": 1366 |
| }, |
| { |
| "epoch": 1.8239999999999998, |
| "grad_norm": 0.7265625, |
| "learning_rate": 2.163802461617804e-09, |
| "loss": 1.3341227769851685, |
| "step": 1368 |
| }, |
| { |
| "epoch": 1.8266666666666667, |
| "grad_norm": 3.453125, |
| "learning_rate": 2.1589457575334446e-09, |
| "loss": 2.376683235168457, |
| "step": 1370 |
| }, |
| { |
| "epoch": 1.8293333333333335, |
| "grad_norm": 1.3046875, |
| "learning_rate": 2.1541606815629607e-09, |
| "loss": 1.5830719470977783, |
| "step": 1372 |
| }, |
| { |
| "epoch": 1.8319999999999999, |
| "grad_norm": 1.4765625, |
| "learning_rate": 2.1494473229386157e-09, |
| "loss": 1.9643088579177856, |
| "step": 1374 |
| }, |
| { |
| "epoch": 1.8346666666666667, |
| "grad_norm": 2.984375, |
| "learning_rate": 2.1448057695552884e-09, |
| "loss": 2.1722934246063232, |
| "step": 1376 |
| }, |
| { |
| "epoch": 1.8373333333333335, |
| "grad_norm": 1.28125, |
| "learning_rate": 2.140236107968827e-09, |
| "loss": 2.062533140182495, |
| "step": 1378 |
| }, |
| { |
| "epoch": 1.8399999999999999, |
| "grad_norm": 3.046875, |
| "learning_rate": 2.1357384233944406e-09, |
| "loss": 2.185145378112793, |
| "step": 1380 |
| }, |
| { |
| "epoch": 1.8426666666666667, |
| "grad_norm": 1.8671875, |
| "learning_rate": 2.1313127997051087e-09, |
| "loss": 1.728112816810608, |
| "step": 1382 |
| }, |
| { |
| "epoch": 1.8453333333333335, |
| "grad_norm": 0.75, |
| "learning_rate": 2.1269593194300173e-09, |
| "loss": 1.4799309968948364, |
| "step": 1384 |
| }, |
| { |
| "epoch": 1.8479999999999999, |
| "grad_norm": 0.86328125, |
| "learning_rate": 2.1226780637530177e-09, |
| "loss": 1.1412889957427979, |
| "step": 1386 |
| }, |
| { |
| "epoch": 1.8506666666666667, |
| "grad_norm": 1.09375, |
| "learning_rate": 2.1184691125111164e-09, |
| "loss": 1.9346895217895508, |
| "step": 1388 |
| }, |
| { |
| "epoch": 1.8533333333333335, |
| "grad_norm": 1.5390625, |
| "learning_rate": 2.114332544192983e-09, |
| "loss": 1.9198468923568726, |
| "step": 1390 |
| }, |
| { |
| "epoch": 1.8559999999999999, |
| "grad_norm": 2.5625, |
| "learning_rate": 2.1102684359374886e-09, |
| "loss": 1.8833012580871582, |
| "step": 1392 |
| }, |
| { |
| "epoch": 1.8586666666666667, |
| "grad_norm": 1.375, |
| "learning_rate": 2.106276863532266e-09, |
| "loss": 1.5958240032196045, |
| "step": 1394 |
| }, |
| { |
| "epoch": 1.8613333333333333, |
| "grad_norm": 4.0, |
| "learning_rate": 2.1023579014122962e-09, |
| "loss": 1.778863787651062, |
| "step": 1396 |
| }, |
| { |
| "epoch": 1.8639999999999999, |
| "grad_norm": 0.703125, |
| "learning_rate": 2.098511622658523e-09, |
| "loss": 1.5995181798934937, |
| "step": 1398 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 0.84765625, |
| "learning_rate": 2.0947380989964864e-09, |
| "loss": 1.2716095447540283, |
| "step": 1400 |
| }, |
| { |
| "epoch": 1.8693333333333333, |
| "grad_norm": 2.9375, |
| "learning_rate": 2.0910374007949882e-09, |
| "loss": 1.8460922241210938, |
| "step": 1402 |
| }, |
| { |
| "epoch": 1.8719999999999999, |
| "grad_norm": 1.2890625, |
| "learning_rate": 2.0874095970647775e-09, |
| "loss": 1.9044862985610962, |
| "step": 1404 |
| }, |
| { |
| "epoch": 1.8746666666666667, |
| "grad_norm": 0.75390625, |
| "learning_rate": 2.0838547554572652e-09, |
| "loss": 1.7778054475784302, |
| "step": 1406 |
| }, |
| { |
| "epoch": 1.8773333333333333, |
| "grad_norm": 3.796875, |
| "learning_rate": 2.0803729422632627e-09, |
| "loss": 2.0947136878967285, |
| "step": 1408 |
| }, |
| { |
| "epoch": 1.88, |
| "grad_norm": 0.78515625, |
| "learning_rate": 2.0769642224117435e-09, |
| "loss": 1.7014892101287842, |
| "step": 1410 |
| }, |
| { |
| "epoch": 1.8826666666666667, |
| "grad_norm": 1.5859375, |
| "learning_rate": 2.0736286594686347e-09, |
| "loss": 1.6266264915466309, |
| "step": 1412 |
| }, |
| { |
| "epoch": 1.8853333333333333, |
| "grad_norm": 2.90625, |
| "learning_rate": 2.070366315635631e-09, |
| "loss": 1.8329254388809204, |
| "step": 1414 |
| }, |
| { |
| "epoch": 1.888, |
| "grad_norm": 1.2421875, |
| "learning_rate": 2.067177251749034e-09, |
| "loss": 1.946657419204712, |
| "step": 1416 |
| }, |
| { |
| "epoch": 1.8906666666666667, |
| "grad_norm": 3.28125, |
| "learning_rate": 2.0640615272786184e-09, |
| "loss": 1.5195972919464111, |
| "step": 1418 |
| }, |
| { |
| "epoch": 1.8933333333333333, |
| "grad_norm": 2.265625, |
| "learning_rate": 2.0610192003265235e-09, |
| "loss": 1.9642360210418701, |
| "step": 1420 |
| }, |
| { |
| "epoch": 1.896, |
| "grad_norm": 2.15625, |
| "learning_rate": 2.0580503276261686e-09, |
| "loss": 1.5578608512878418, |
| "step": 1422 |
| }, |
| { |
| "epoch": 1.8986666666666667, |
| "grad_norm": 0.7109375, |
| "learning_rate": 2.055154964541196e-09, |
| "loss": 1.6206289529800415, |
| "step": 1424 |
| }, |
| { |
| "epoch": 1.9013333333333333, |
| "grad_norm": 1.0, |
| "learning_rate": 2.0523331650644374e-09, |
| "loss": 1.849732518196106, |
| "step": 1426 |
| }, |
| { |
| "epoch": 1.904, |
| "grad_norm": 1.9296875, |
| "learning_rate": 2.049584981816909e-09, |
| "loss": 1.8542307615280151, |
| "step": 1428 |
| }, |
| { |
| "epoch": 1.9066666666666667, |
| "grad_norm": 0.5546875, |
| "learning_rate": 2.0469104660468262e-09, |
| "loss": 1.7200909852981567, |
| "step": 1430 |
| }, |
| { |
| "epoch": 1.9093333333333333, |
| "grad_norm": 0.6171875, |
| "learning_rate": 2.0443096676286543e-09, |
| "loss": 1.5688989162445068, |
| "step": 1432 |
| }, |
| { |
| "epoch": 1.912, |
| "grad_norm": 0.78125, |
| "learning_rate": 2.0417826350621728e-09, |
| "loss": 1.2694445848464966, |
| "step": 1434 |
| }, |
| { |
| "epoch": 1.9146666666666667, |
| "grad_norm": 3.375, |
| "learning_rate": 2.0393294154715734e-09, |
| "loss": 2.1561031341552734, |
| "step": 1436 |
| }, |
| { |
| "epoch": 1.9173333333333333, |
| "grad_norm": 1.328125, |
| "learning_rate": 2.0369500546045812e-09, |
| "loss": 2.044318199157715, |
| "step": 1438 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 4.0625, |
| "learning_rate": 2.0346445968315998e-09, |
| "loss": 2.1859350204467773, |
| "step": 1440 |
| }, |
| { |
| "epoch": 1.9226666666666667, |
| "grad_norm": 3.09375, |
| "learning_rate": 2.0324130851448873e-09, |
| "loss": 2.1700329780578613, |
| "step": 1442 |
| }, |
| { |
| "epoch": 1.9253333333333333, |
| "grad_norm": 4.53125, |
| "learning_rate": 2.0302555611577514e-09, |
| "loss": 1.9053682088851929, |
| "step": 1444 |
| }, |
| { |
| "epoch": 1.928, |
| "grad_norm": 3.171875, |
| "learning_rate": 2.028172065103775e-09, |
| "loss": 2.2752044200897217, |
| "step": 1446 |
| }, |
| { |
| "epoch": 1.9306666666666668, |
| "grad_norm": 0.76171875, |
| "learning_rate": 2.0261626358360648e-09, |
| "loss": 1.795888900756836, |
| "step": 1448 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 2.0625, |
| "learning_rate": 2.0242273108265288e-09, |
| "loss": 2.250343084335327, |
| "step": 1450 |
| }, |
| { |
| "epoch": 1.936, |
| "grad_norm": 1.578125, |
| "learning_rate": 2.0223661261651756e-09, |
| "loss": 1.5136520862579346, |
| "step": 1452 |
| }, |
| { |
| "epoch": 1.9386666666666668, |
| "grad_norm": 0.734375, |
| "learning_rate": 2.0205791165594414e-09, |
| "loss": 1.6827259063720703, |
| "step": 1454 |
| }, |
| { |
| "epoch": 1.9413333333333334, |
| "grad_norm": 1.0234375, |
| "learning_rate": 2.0188663153335444e-09, |
| "loss": 2.275217294692993, |
| "step": 1456 |
| }, |
| { |
| "epoch": 1.944, |
| "grad_norm": 3.28125, |
| "learning_rate": 2.0172277544278608e-09, |
| "loss": 1.769717812538147, |
| "step": 1458 |
| }, |
| { |
| "epoch": 1.9466666666666668, |
| "grad_norm": 0.55078125, |
| "learning_rate": 2.0156634643983325e-09, |
| "loss": 1.218135118484497, |
| "step": 1460 |
| }, |
| { |
| "epoch": 1.9493333333333334, |
| "grad_norm": 0.890625, |
| "learning_rate": 2.0141734744158944e-09, |
| "loss": 1.6439656019210815, |
| "step": 1462 |
| }, |
| { |
| "epoch": 1.952, |
| "grad_norm": 1.1796875, |
| "learning_rate": 2.0127578122659318e-09, |
| "loss": 2.0347836017608643, |
| "step": 1464 |
| }, |
| { |
| "epoch": 1.9546666666666668, |
| "grad_norm": 3.234375, |
| "learning_rate": 2.0114165043477616e-09, |
| "loss": 2.0779073238372803, |
| "step": 1466 |
| }, |
| { |
| "epoch": 1.9573333333333334, |
| "grad_norm": 0.74609375, |
| "learning_rate": 2.010149575674142e-09, |
| "loss": 1.604543685913086, |
| "step": 1468 |
| }, |
| { |
| "epoch": 1.96, |
| "grad_norm": 1.7265625, |
| "learning_rate": 2.008957049870802e-09, |
| "loss": 2.00571608543396, |
| "step": 1470 |
| }, |
| { |
| "epoch": 1.9626666666666668, |
| "grad_norm": 6.1875, |
| "learning_rate": 2.0078389491760053e-09, |
| "loss": 1.7918572425842285, |
| "step": 1472 |
| }, |
| { |
| "epoch": 1.9653333333333334, |
| "grad_norm": 1.5546875, |
| "learning_rate": 2.006795294440132e-09, |
| "loss": 1.6840412616729736, |
| "step": 1474 |
| }, |
| { |
| "epoch": 1.968, |
| "grad_norm": 0.6640625, |
| "learning_rate": 2.0058261051252924e-09, |
| "loss": 1.3448158502578735, |
| "step": 1476 |
| }, |
| { |
| "epoch": 1.9706666666666668, |
| "grad_norm": 2.375, |
| "learning_rate": 2.004931399304963e-09, |
| "loss": 1.295865774154663, |
| "step": 1478 |
| }, |
| { |
| "epoch": 1.9733333333333334, |
| "grad_norm": 1.3515625, |
| "learning_rate": 2.0041111936636493e-09, |
| "loss": 1.9201714992523193, |
| "step": 1480 |
| }, |
| { |
| "epoch": 1.976, |
| "grad_norm": 3.453125, |
| "learning_rate": 2.0033655034965744e-09, |
| "loss": 2.2232666015625, |
| "step": 1482 |
| }, |
| { |
| "epoch": 1.9786666666666668, |
| "grad_norm": 3.015625, |
| "learning_rate": 2.0026943427093947e-09, |
| "loss": 2.1795105934143066, |
| "step": 1484 |
| }, |
| { |
| "epoch": 1.9813333333333332, |
| "grad_norm": 1.890625, |
| "learning_rate": 2.0020977238179403e-09, |
| "loss": 2.0359418392181396, |
| "step": 1486 |
| }, |
| { |
| "epoch": 1.984, |
| "grad_norm": 3.0625, |
| "learning_rate": 2.0015756579479818e-09, |
| "loss": 1.7598989009857178, |
| "step": 1488 |
| }, |
| { |
| "epoch": 1.9866666666666668, |
| "grad_norm": 4.4375, |
| "learning_rate": 2.0011281548350195e-09, |
| "loss": 2.175452470779419, |
| "step": 1490 |
| }, |
| { |
| "epoch": 1.9893333333333332, |
| "grad_norm": 0.5390625, |
| "learning_rate": 2.00075522282411e-09, |
| "loss": 1.6275960206985474, |
| "step": 1492 |
| }, |
| { |
| "epoch": 1.992, |
| "grad_norm": 3.15625, |
| "learning_rate": 2.0004568688697e-09, |
| "loss": 2.3912622928619385, |
| "step": 1494 |
| }, |
| { |
| "epoch": 1.9946666666666668, |
| "grad_norm": 3.203125, |
| "learning_rate": 2.0002330985355065e-09, |
| "loss": 1.9995014667510986, |
| "step": 1496 |
| }, |
| { |
| "epoch": 1.9973333333333332, |
| "grad_norm": 2.84375, |
| "learning_rate": 2.0000839159944053e-09, |
| "loss": 1.8321871757507324, |
| "step": 1498 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 0.4453125, |
| "learning_rate": 2.0000093240283575e-09, |
| "loss": 1.464523196220398, |
| "step": 1500 |
| }, |
| { |
| "epoch": 2.0, |
| "step": 1500, |
| "total_flos": 2.4645762376668283e+18, |
| "train_loss": 1.8469134418169657, |
| "train_runtime": 67297.7524, |
| "train_samples_per_second": 0.357, |
| "train_steps_per_second": 0.022 |
| } |
| ], |
| "logging_steps": 2, |
| "max_steps": 1500, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 2, |
| "save_steps": 9999999, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.4645762376668283e+18, |
| "train_batch_size": 1, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|