| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 1.0, |
| "eval_steps": 500, |
| "global_step": 3750, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 43.21000289916992, |
| "learning_rate": 8.75e-06, |
| "loss": 3.2727, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 47.455650329589844, |
| "learning_rate": 2.125e-05, |
| "loss": 2.1485, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 31.872121810913086, |
| "learning_rate": 3.375000000000001e-05, |
| "loss": 1.5833, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 36.87827682495117, |
| "learning_rate": 4.6250000000000006e-05, |
| "loss": 1.9734, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 70.77291107177734, |
| "learning_rate": 4.9905660377358493e-05, |
| "loss": 1.822, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 29.27912712097168, |
| "learning_rate": 4.977088948787062e-05, |
| "loss": 1.9707, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 36.23347854614258, |
| "learning_rate": 4.963611859838275e-05, |
| "loss": 1.8666, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 31.739728927612305, |
| "learning_rate": 4.950134770889488e-05, |
| "loss": 1.7691, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 42.13410568237305, |
| "learning_rate": 4.936657681940701e-05, |
| "loss": 1.9758, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 24.906110763549805, |
| "learning_rate": 4.923180592991914e-05, |
| "loss": 1.5765, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 28.87664794921875, |
| "learning_rate": 4.909703504043127e-05, |
| "loss": 1.7567, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 37.15755844116211, |
| "learning_rate": 4.89622641509434e-05, |
| "loss": 1.7731, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 29.51161003112793, |
| "learning_rate": 4.8827493261455524e-05, |
| "loss": 1.5907, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 29.301471710205078, |
| "learning_rate": 4.869272237196766e-05, |
| "loss": 1.6875, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 46.797672271728516, |
| "learning_rate": 4.855795148247978e-05, |
| "loss": 1.7979, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 25.33574104309082, |
| "learning_rate": 4.8423180592991916e-05, |
| "loss": 1.2263, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 25.485023498535156, |
| "learning_rate": 4.828840970350404e-05, |
| "loss": 1.488, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 74.90763092041016, |
| "learning_rate": 4.8153638814016175e-05, |
| "loss": 1.3792, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 33.34780502319336, |
| "learning_rate": 4.80188679245283e-05, |
| "loss": 1.6467, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 24.647794723510742, |
| "learning_rate": 4.7884097035040435e-05, |
| "loss": 1.7445, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 36.283172607421875, |
| "learning_rate": 4.774932614555256e-05, |
| "loss": 1.4224, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 37.99179458618164, |
| "learning_rate": 4.762803234501348e-05, |
| "loss": 1.3721, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 42.827003479003906, |
| "learning_rate": 4.7493261455525606e-05, |
| "loss": 1.3213, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 22.346420288085938, |
| "learning_rate": 4.735849056603774e-05, |
| "loss": 1.3944, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 39.7874755859375, |
| "learning_rate": 4.7223719676549865e-05, |
| "loss": 1.4543, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 38.3151969909668, |
| "learning_rate": 4.7088948787062e-05, |
| "loss": 1.2215, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 30.64872932434082, |
| "learning_rate": 4.6954177897574125e-05, |
| "loss": 1.2395, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 48.72249984741211, |
| "learning_rate": 4.681940700808626e-05, |
| "loss": 1.2292, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 49.0009651184082, |
| "learning_rate": 4.6684636118598384e-05, |
| "loss": 1.3233, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 25.584505081176758, |
| "learning_rate": 4.654986522911051e-05, |
| "loss": 1.3794, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 28.286766052246094, |
| "learning_rate": 4.641509433962264e-05, |
| "loss": 1.5431, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 26.837583541870117, |
| "learning_rate": 4.628032345013477e-05, |
| "loss": 1.0882, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 24.280277252197266, |
| "learning_rate": 4.61455525606469e-05, |
| "loss": 1.4259, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 19.906932830810547, |
| "learning_rate": 4.601078167115903e-05, |
| "loss": 1.0805, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 31.082399368286133, |
| "learning_rate": 4.587601078167116e-05, |
| "loss": 1.8389, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 52.819393157958984, |
| "learning_rate": 4.574123989218329e-05, |
| "loss": 1.4061, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 20.074241638183594, |
| "learning_rate": 4.560646900269542e-05, |
| "loss": 1.2801, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 20.526960372924805, |
| "learning_rate": 4.547169811320755e-05, |
| "loss": 1.4846, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 18.68368148803711, |
| "learning_rate": 4.533692722371968e-05, |
| "loss": 1.0469, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 26.07550811767578, |
| "learning_rate": 4.520215633423181e-05, |
| "loss": 1.0938, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 13.613316535949707, |
| "learning_rate": 4.506738544474394e-05, |
| "loss": 1.3384, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 24.458545684814453, |
| "learning_rate": 4.493261455525607e-05, |
| "loss": 1.0776, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 22.590333938598633, |
| "learning_rate": 4.47978436657682e-05, |
| "loss": 1.0344, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 25.568437576293945, |
| "learning_rate": 4.4663072776280325e-05, |
| "loss": 1.1796, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 24.736976623535156, |
| "learning_rate": 4.452830188679246e-05, |
| "loss": 1.2969, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 27.838829040527344, |
| "learning_rate": 4.4393530997304585e-05, |
| "loss": 1.0064, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 22.678813934326172, |
| "learning_rate": 4.425876010781672e-05, |
| "loss": 1.1484, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 21.477985382080078, |
| "learning_rate": 4.4123989218328844e-05, |
| "loss": 1.0713, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 44.675785064697266, |
| "learning_rate": 4.398921832884097e-05, |
| "loss": 1.1913, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 36.141239166259766, |
| "learning_rate": 4.38544474393531e-05, |
| "loss": 1.0395, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 28.088905334472656, |
| "learning_rate": 4.371967654986523e-05, |
| "loss": 1.3696, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 33.25151062011719, |
| "learning_rate": 4.358490566037736e-05, |
| "loss": 1.0583, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 27.604703903198242, |
| "learning_rate": 4.345013477088949e-05, |
| "loss": 1.2549, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 18.853084564208984, |
| "learning_rate": 4.331536388140162e-05, |
| "loss": 1.1462, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 21.798755645751953, |
| "learning_rate": 4.318059299191375e-05, |
| "loss": 0.9352, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 20.20722770690918, |
| "learning_rate": 4.3045822102425874e-05, |
| "loss": 0.9641, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 20.60011100769043, |
| "learning_rate": 4.291105121293801e-05, |
| "loss": 1.2349, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 26.98384666442871, |
| "learning_rate": 4.2776280323450133e-05, |
| "loss": 1.0098, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 16.067293167114258, |
| "learning_rate": 4.2641509433962266e-05, |
| "loss": 1.0833, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 22.49300193786621, |
| "learning_rate": 4.250673854447439e-05, |
| "loss": 1.093, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 18.183324813842773, |
| "learning_rate": 4.2371967654986526e-05, |
| "loss": 0.9785, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 25.482059478759766, |
| "learning_rate": 4.223719676549865e-05, |
| "loss": 1.0856, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 23.133333206176758, |
| "learning_rate": 4.210242587601078e-05, |
| "loss": 0.9639, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 18.067371368408203, |
| "learning_rate": 4.196765498652291e-05, |
| "loss": 0.9634, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 12.229750633239746, |
| "learning_rate": 4.1832884097035044e-05, |
| "loss": 1.0344, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 22.890745162963867, |
| "learning_rate": 4.169811320754717e-05, |
| "loss": 0.9957, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 14.036510467529297, |
| "learning_rate": 4.1563342318059304e-05, |
| "loss": 1.0437, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 20.7513427734375, |
| "learning_rate": 4.1428571428571437e-05, |
| "loss": 0.9701, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 17.166906356811523, |
| "learning_rate": 4.129380053908356e-05, |
| "loss": 1.0441, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 20.572906494140625, |
| "learning_rate": 4.115902964959569e-05, |
| "loss": 0.9385, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 31.991064071655273, |
| "learning_rate": 4.102425876010782e-05, |
| "loss": 0.8948, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 17.177244186401367, |
| "learning_rate": 4.088948787061995e-05, |
| "loss": 0.9879, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 40.46111297607422, |
| "learning_rate": 4.075471698113208e-05, |
| "loss": 0.9407, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 18.954919815063477, |
| "learning_rate": 4.061994609164421e-05, |
| "loss": 0.8769, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 27.662670135498047, |
| "learning_rate": 4.0485175202156334e-05, |
| "loss": 0.9017, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 23.883554458618164, |
| "learning_rate": 4.035040431266847e-05, |
| "loss": 0.8869, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.20533333333333334, |
| "grad_norm": 12.331147193908691, |
| "learning_rate": 4.021563342318059e-05, |
| "loss": 1.0079, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 28.752796173095703, |
| "learning_rate": 4.0080862533692726e-05, |
| "loss": 1.086, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.21066666666666667, |
| "grad_norm": 13.401335716247559, |
| "learning_rate": 3.994609164420485e-05, |
| "loss": 0.9125, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 15.617888450622559, |
| "learning_rate": 3.9811320754716985e-05, |
| "loss": 1.0721, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.216, |
| "grad_norm": 15.418866157531738, |
| "learning_rate": 3.967654986522911e-05, |
| "loss": 0.9077, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 15.754548072814941, |
| "learning_rate": 3.954177897574124e-05, |
| "loss": 0.8357, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.22133333333333333, |
| "grad_norm": 41.20192337036133, |
| "learning_rate": 3.940700808625337e-05, |
| "loss": 0.9083, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 16.211647033691406, |
| "learning_rate": 3.92722371967655e-05, |
| "loss": 0.9127, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 13.946799278259277, |
| "learning_rate": 3.913746630727763e-05, |
| "loss": 0.7372, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 21.009559631347656, |
| "learning_rate": 3.9002695417789756e-05, |
| "loss": 1.3809, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.232, |
| "grad_norm": 21.615312576293945, |
| "learning_rate": 3.886792452830189e-05, |
| "loss": 0.6986, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 19.901323318481445, |
| "learning_rate": 3.8733153638814016e-05, |
| "loss": 0.7376, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.23733333333333334, |
| "grad_norm": 16.549930572509766, |
| "learning_rate": 3.859838274932614e-05, |
| "loss": 0.909, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 15.812335968017578, |
| "learning_rate": 3.8463611859838275e-05, |
| "loss": 0.992, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.24266666666666667, |
| "grad_norm": 24.12803840637207, |
| "learning_rate": 3.832884097035041e-05, |
| "loss": 0.6972, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 21.171733856201172, |
| "learning_rate": 3.8194070080862534e-05, |
| "loss": 0.7434, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.248, |
| "grad_norm": 26.37090301513672, |
| "learning_rate": 3.805929919137467e-05, |
| "loss": 0.8473, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 20.04369354248047, |
| "learning_rate": 3.7924528301886794e-05, |
| "loss": 0.894, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 13.9522705078125, |
| "learning_rate": 3.778975741239893e-05, |
| "loss": 0.9453, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 24.92080307006836, |
| "learning_rate": 3.765498652291105e-05, |
| "loss": 0.8933, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.25866666666666666, |
| "grad_norm": 16.42112922668457, |
| "learning_rate": 3.7520215633423186e-05, |
| "loss": 0.8796, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 20.49955177307129, |
| "learning_rate": 3.738544474393531e-05, |
| "loss": 0.9124, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.264, |
| "grad_norm": 15.735032081604004, |
| "learning_rate": 3.7250673854447445e-05, |
| "loss": 0.7667, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 19.217073440551758, |
| "learning_rate": 3.711590296495957e-05, |
| "loss": 0.8998, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.2693333333333333, |
| "grad_norm": 8.541267395019531, |
| "learning_rate": 3.69811320754717e-05, |
| "loss": 0.7713, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 14.928740501403809, |
| "learning_rate": 3.684636118598383e-05, |
| "loss": 0.7236, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.27466666666666667, |
| "grad_norm": 16.99907875061035, |
| "learning_rate": 3.671159029649596e-05, |
| "loss": 1.1256, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 19.001367568969727, |
| "learning_rate": 3.657681940700809e-05, |
| "loss": 0.7618, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 10.604147911071777, |
| "learning_rate": 3.6442048517520216e-05, |
| "loss": 0.552, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 21.42070960998535, |
| "learning_rate": 3.630727762803235e-05, |
| "loss": 0.7332, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.2853333333333333, |
| "grad_norm": 18.641592025756836, |
| "learning_rate": 3.6172506738544476e-05, |
| "loss": 0.8692, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 16.066688537597656, |
| "learning_rate": 3.60377358490566e-05, |
| "loss": 0.8477, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.2906666666666667, |
| "grad_norm": 12.110546112060547, |
| "learning_rate": 3.591644204851752e-05, |
| "loss": 0.7791, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 16.413415908813477, |
| "learning_rate": 3.5781671159029654e-05, |
| "loss": 0.8859, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.296, |
| "grad_norm": 22.351011276245117, |
| "learning_rate": 3.564690026954178e-05, |
| "loss": 0.7636, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 24.596023559570312, |
| "learning_rate": 3.551212938005391e-05, |
| "loss": 0.7844, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.30133333333333334, |
| "grad_norm": 22.409677505493164, |
| "learning_rate": 3.537735849056604e-05, |
| "loss": 0.6592, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 24.0985164642334, |
| "learning_rate": 3.524258760107817e-05, |
| "loss": 0.6166, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 27.24460220336914, |
| "learning_rate": 3.51078167115903e-05, |
| "loss": 0.6103, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 19.044878005981445, |
| "learning_rate": 3.497304582210243e-05, |
| "loss": 0.8619, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.312, |
| "grad_norm": 15.642664909362793, |
| "learning_rate": 3.483827493261456e-05, |
| "loss": 0.5552, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 15.886361122131348, |
| "learning_rate": 3.470350404312669e-05, |
| "loss": 0.6504, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.31733333333333336, |
| "grad_norm": 13.45265007019043, |
| "learning_rate": 3.456873315363882e-05, |
| "loss": 0.6795, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 16.279279708862305, |
| "learning_rate": 3.4433962264150943e-05, |
| "loss": 0.7133, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.32266666666666666, |
| "grad_norm": 13.857735633850098, |
| "learning_rate": 3.4299191374663076e-05, |
| "loss": 0.7624, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 30.951120376586914, |
| "learning_rate": 3.41644204851752e-05, |
| "loss": 0.8361, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.328, |
| "grad_norm": 18.188127517700195, |
| "learning_rate": 3.4029649595687336e-05, |
| "loss": 0.8501, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 10.986045837402344, |
| "learning_rate": 3.389487870619946e-05, |
| "loss": 0.5995, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 20.819345474243164, |
| "learning_rate": 3.376010781671159e-05, |
| "loss": 0.7281, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 11.451189041137695, |
| "learning_rate": 3.362533692722372e-05, |
| "loss": 0.7865, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.33866666666666667, |
| "grad_norm": 14.050557136535645, |
| "learning_rate": 3.349056603773585e-05, |
| "loss": 0.7317, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 15.141704559326172, |
| "learning_rate": 3.335579514824798e-05, |
| "loss": 0.8523, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.344, |
| "grad_norm": 10.00051212310791, |
| "learning_rate": 3.322102425876011e-05, |
| "loss": 0.6845, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 13.601828575134277, |
| "learning_rate": 3.308625336927224e-05, |
| "loss": 0.6095, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.34933333333333333, |
| "grad_norm": 10.909045219421387, |
| "learning_rate": 3.2951482479784366e-05, |
| "loss": 0.6171, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 11.6277494430542, |
| "learning_rate": 3.281671159029649e-05, |
| "loss": 0.6462, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.3546666666666667, |
| "grad_norm": 20.13886260986328, |
| "learning_rate": 3.2681940700808625e-05, |
| "loss": 0.7949, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 17.524749755859375, |
| "learning_rate": 3.254716981132075e-05, |
| "loss": 0.652, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 54.58905029296875, |
| "learning_rate": 3.2412398921832885e-05, |
| "loss": 0.8208, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 18.752511978149414, |
| "learning_rate": 3.227762803234501e-05, |
| "loss": 0.5932, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.36533333333333334, |
| "grad_norm": 14.622041702270508, |
| "learning_rate": 3.2142857142857144e-05, |
| "loss": 0.7167, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 8.478232383728027, |
| "learning_rate": 3.200808625336928e-05, |
| "loss": 0.7539, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.37066666666666664, |
| "grad_norm": 12.95142650604248, |
| "learning_rate": 3.18733153638814e-05, |
| "loss": 0.5204, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 17.096162796020508, |
| "learning_rate": 3.1738544474393536e-05, |
| "loss": 0.6483, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.376, |
| "grad_norm": 10.984807014465332, |
| "learning_rate": 3.160377358490566e-05, |
| "loss": 0.6095, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 13.153656005859375, |
| "learning_rate": 3.1469002695417795e-05, |
| "loss": 0.9426, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.38133333333333336, |
| "grad_norm": 17.266773223876953, |
| "learning_rate": 3.133423180592992e-05, |
| "loss": 0.6305, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 19.149139404296875, |
| "learning_rate": 3.1199460916442055e-05, |
| "loss": 0.5216, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 16.195602416992188, |
| "learning_rate": 3.106469002695418e-05, |
| "loss": 0.6495, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 22.2844295501709, |
| "learning_rate": 3.092991913746631e-05, |
| "loss": 0.6727, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.392, |
| "grad_norm": 35.478431701660156, |
| "learning_rate": 3.079514824797844e-05, |
| "loss": 0.523, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 16.394384384155273, |
| "learning_rate": 3.0660377358490567e-05, |
| "loss": 0.6651, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.3973333333333333, |
| "grad_norm": 27.04049301147461, |
| "learning_rate": 3.05256064690027e-05, |
| "loss": 0.6955, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 16.169918060302734, |
| "learning_rate": 3.0390835579514826e-05, |
| "loss": 0.9615, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.4026666666666667, |
| "grad_norm": 13.561074256896973, |
| "learning_rate": 3.0256064690026952e-05, |
| "loss": 0.5601, |
| "step": 1510 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 11.765976905822754, |
| "learning_rate": 3.0121293800539085e-05, |
| "loss": 0.8551, |
| "step": 1520 |
| }, |
| { |
| "epoch": 0.408, |
| "grad_norm": 19.16045570373535, |
| "learning_rate": 2.998652291105121e-05, |
| "loss": 0.7272, |
| "step": 1530 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 16.194807052612305, |
| "learning_rate": 2.9851752021563344e-05, |
| "loss": 0.5103, |
| "step": 1540 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 17.953489303588867, |
| "learning_rate": 2.971698113207547e-05, |
| "loss": 0.5305, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 9.067590713500977, |
| "learning_rate": 2.9582210242587604e-05, |
| "loss": 0.5572, |
| "step": 1560 |
| }, |
| { |
| "epoch": 0.4186666666666667, |
| "grad_norm": 13.370523452758789, |
| "learning_rate": 2.9447439353099733e-05, |
| "loss": 0.7039, |
| "step": 1570 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 16.49010467529297, |
| "learning_rate": 2.931266846361186e-05, |
| "loss": 0.6186, |
| "step": 1580 |
| }, |
| { |
| "epoch": 0.424, |
| "grad_norm": 6.0413432121276855, |
| "learning_rate": 2.9177897574123993e-05, |
| "loss": 0.5004, |
| "step": 1590 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 14.460140228271484, |
| "learning_rate": 2.904312668463612e-05, |
| "loss": 0.5807, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.42933333333333334, |
| "grad_norm": 15.20493221282959, |
| "learning_rate": 2.8908355795148252e-05, |
| "loss": 0.7204, |
| "step": 1610 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 12.341790199279785, |
| "learning_rate": 2.8773584905660378e-05, |
| "loss": 0.5921, |
| "step": 1620 |
| }, |
| { |
| "epoch": 0.43466666666666665, |
| "grad_norm": 10.590622901916504, |
| "learning_rate": 2.863881401617251e-05, |
| "loss": 0.6006, |
| "step": 1630 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 8.964296340942383, |
| "learning_rate": 2.8504043126684637e-05, |
| "loss": 0.6091, |
| "step": 1640 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 8.68560791015625, |
| "learning_rate": 2.8369272237196764e-05, |
| "loss": 0.4824, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 13.087327003479004, |
| "learning_rate": 2.8234501347708897e-05, |
| "loss": 0.555, |
| "step": 1660 |
| }, |
| { |
| "epoch": 0.44533333333333336, |
| "grad_norm": 12.374855995178223, |
| "learning_rate": 2.8099730458221023e-05, |
| "loss": 0.495, |
| "step": 1670 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 15.60127067565918, |
| "learning_rate": 2.7964959568733156e-05, |
| "loss": 0.4963, |
| "step": 1680 |
| }, |
| { |
| "epoch": 0.45066666666666666, |
| "grad_norm": 18.035654067993164, |
| "learning_rate": 2.7830188679245282e-05, |
| "loss": 0.4912, |
| "step": 1690 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 13.443245887756348, |
| "learning_rate": 2.7695417789757415e-05, |
| "loss": 0.5632, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.456, |
| "grad_norm": 12.241705894470215, |
| "learning_rate": 2.7560646900269545e-05, |
| "loss": 0.6605, |
| "step": 1710 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 11.940319061279297, |
| "learning_rate": 2.742587601078167e-05, |
| "loss": 0.539, |
| "step": 1720 |
| }, |
| { |
| "epoch": 0.4613333333333333, |
| "grad_norm": 18.570348739624023, |
| "learning_rate": 2.7291105121293804e-05, |
| "loss": 0.614, |
| "step": 1730 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 9.429092407226562, |
| "learning_rate": 2.715633423180593e-05, |
| "loss": 0.4103, |
| "step": 1740 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 14.560633659362793, |
| "learning_rate": 2.7021563342318063e-05, |
| "loss": 0.4716, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 10.830166816711426, |
| "learning_rate": 2.688679245283019e-05, |
| "loss": 0.4992, |
| "step": 1760 |
| }, |
| { |
| "epoch": 0.472, |
| "grad_norm": 23.776018142700195, |
| "learning_rate": 2.6752021563342316e-05, |
| "loss": 0.5022, |
| "step": 1770 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 9.272604942321777, |
| "learning_rate": 2.661725067385445e-05, |
| "loss": 0.5528, |
| "step": 1780 |
| }, |
| { |
| "epoch": 0.47733333333333333, |
| "grad_norm": 10.480013847351074, |
| "learning_rate": 2.6482479784366575e-05, |
| "loss": 0.4867, |
| "step": 1790 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 12.409500122070312, |
| "learning_rate": 2.6347708894878708e-05, |
| "loss": 0.5734, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.4826666666666667, |
| "grad_norm": 10.523347854614258, |
| "learning_rate": 2.6212938005390834e-05, |
| "loss": 0.408, |
| "step": 1810 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 25.753644943237305, |
| "learning_rate": 2.6078167115902967e-05, |
| "loss": 0.7066, |
| "step": 1820 |
| }, |
| { |
| "epoch": 0.488, |
| "grad_norm": 7.335714340209961, |
| "learning_rate": 2.5943396226415094e-05, |
| "loss": 0.6111, |
| "step": 1830 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 15.647913932800293, |
| "learning_rate": 2.5808625336927223e-05, |
| "loss": 0.4276, |
| "step": 1840 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 17.750133514404297, |
| "learning_rate": 2.5673854447439356e-05, |
| "loss": 0.5272, |
| "step": 1850 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 8.927289009094238, |
| "learning_rate": 2.5539083557951483e-05, |
| "loss": 0.3994, |
| "step": 1860 |
| }, |
| { |
| "epoch": 0.49866666666666665, |
| "grad_norm": 17.202116012573242, |
| "learning_rate": 2.5404312668463616e-05, |
| "loss": 0.4298, |
| "step": 1870 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 15.45162582397461, |
| "learning_rate": 2.5269541778975742e-05, |
| "loss": 0.5383, |
| "step": 1880 |
| }, |
| { |
| "epoch": 0.504, |
| "grad_norm": 14.994674682617188, |
| "learning_rate": 2.5134770889487875e-05, |
| "loss": 0.5111, |
| "step": 1890 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 10.413031578063965, |
| "learning_rate": 2.5e-05, |
| "loss": 0.6101, |
| "step": 1900 |
| }, |
| { |
| "epoch": 0.5093333333333333, |
| "grad_norm": 4.97536039352417, |
| "learning_rate": 2.486522911051213e-05, |
| "loss": 0.4024, |
| "step": 1910 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 12.021340370178223, |
| "learning_rate": 2.473045822102426e-05, |
| "loss": 0.4435, |
| "step": 1920 |
| }, |
| { |
| "epoch": 0.5146666666666667, |
| "grad_norm": 10.06999397277832, |
| "learning_rate": 2.459568733153639e-05, |
| "loss": 0.4014, |
| "step": 1930 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 17.036684036254883, |
| "learning_rate": 2.4460916442048516e-05, |
| "loss": 0.5831, |
| "step": 1940 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 17.28995704650879, |
| "learning_rate": 2.4326145552560646e-05, |
| "loss": 0.4183, |
| "step": 1950 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 15.344680786132812, |
| "learning_rate": 2.4191374663072776e-05, |
| "loss": 0.5594, |
| "step": 1960 |
| }, |
| { |
| "epoch": 0.5253333333333333, |
| "grad_norm": 16.586666107177734, |
| "learning_rate": 2.405660377358491e-05, |
| "loss": 0.7698, |
| "step": 1970 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 9.886058807373047, |
| "learning_rate": 2.3921832884097038e-05, |
| "loss": 0.3961, |
| "step": 1980 |
| }, |
| { |
| "epoch": 0.5306666666666666, |
| "grad_norm": 38.06374740600586, |
| "learning_rate": 2.3787061994609168e-05, |
| "loss": 0.5962, |
| "step": 1990 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 14.431428909301758, |
| "learning_rate": 2.3652291105121294e-05, |
| "loss": 0.5876, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.536, |
| "grad_norm": 10.744256973266602, |
| "learning_rate": 2.3517520215633424e-05, |
| "loss": 0.4312, |
| "step": 2010 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 12.408907890319824, |
| "learning_rate": 2.3382749326145553e-05, |
| "loss": 0.4252, |
| "step": 2020 |
| }, |
| { |
| "epoch": 0.5413333333333333, |
| "grad_norm": 12.613394737243652, |
| "learning_rate": 2.3247978436657683e-05, |
| "loss": 0.56, |
| "step": 2030 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 13.715694427490234, |
| "learning_rate": 2.3113207547169813e-05, |
| "loss": 0.5211, |
| "step": 2040 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 12.417014122009277, |
| "learning_rate": 2.2978436657681942e-05, |
| "loss": 0.5882, |
| "step": 2050 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 9.672564506530762, |
| "learning_rate": 2.2843665768194072e-05, |
| "loss": 0.3459, |
| "step": 2060 |
| }, |
| { |
| "epoch": 0.552, |
| "grad_norm": 13.13898754119873, |
| "learning_rate": 2.2708894878706198e-05, |
| "loss": 0.4834, |
| "step": 2070 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 14.900617599487305, |
| "learning_rate": 2.2574123989218328e-05, |
| "loss": 0.5048, |
| "step": 2080 |
| }, |
| { |
| "epoch": 0.5573333333333333, |
| "grad_norm": 11.404877662658691, |
| "learning_rate": 2.2439353099730458e-05, |
| "loss": 0.4535, |
| "step": 2090 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 7.463709354400635, |
| "learning_rate": 2.2304582210242587e-05, |
| "loss": 0.4313, |
| "step": 2100 |
| }, |
| { |
| "epoch": 0.5626666666666666, |
| "grad_norm": 11.312776565551758, |
| "learning_rate": 2.216981132075472e-05, |
| "loss": 0.5036, |
| "step": 2110 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 8.457867622375488, |
| "learning_rate": 2.203504043126685e-05, |
| "loss": 0.3745, |
| "step": 2120 |
| }, |
| { |
| "epoch": 0.568, |
| "grad_norm": 12.78984260559082, |
| "learning_rate": 2.1900269541778976e-05, |
| "loss": 0.4506, |
| "step": 2130 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 8.840005874633789, |
| "learning_rate": 2.1765498652291106e-05, |
| "loss": 0.4627, |
| "step": 2140 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 7.707107067108154, |
| "learning_rate": 2.1630727762803235e-05, |
| "loss": 0.4992, |
| "step": 2150 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 14.227144241333008, |
| "learning_rate": 2.1495956873315365e-05, |
| "loss": 0.4225, |
| "step": 2160 |
| }, |
| { |
| "epoch": 0.5786666666666667, |
| "grad_norm": 5.796125888824463, |
| "learning_rate": 2.1361185983827495e-05, |
| "loss": 0.4205, |
| "step": 2170 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 9.55081558227539, |
| "learning_rate": 2.1226415094339624e-05, |
| "loss": 0.5001, |
| "step": 2180 |
| }, |
| { |
| "epoch": 0.584, |
| "grad_norm": 8.978111267089844, |
| "learning_rate": 2.1091644204851754e-05, |
| "loss": 0.4012, |
| "step": 2190 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 7.070921421051025, |
| "learning_rate": 2.095687331536388e-05, |
| "loss": 0.3401, |
| "step": 2200 |
| }, |
| { |
| "epoch": 0.5893333333333334, |
| "grad_norm": 11.980148315429688, |
| "learning_rate": 2.082210242587601e-05, |
| "loss": 0.3706, |
| "step": 2210 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 16.289701461791992, |
| "learning_rate": 2.068733153638814e-05, |
| "loss": 0.5465, |
| "step": 2220 |
| }, |
| { |
| "epoch": 0.5946666666666667, |
| "grad_norm": 11.466804504394531, |
| "learning_rate": 2.055256064690027e-05, |
| "loss": 0.4451, |
| "step": 2230 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 9.505926132202148, |
| "learning_rate": 2.0417789757412402e-05, |
| "loss": 0.4636, |
| "step": 2240 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 12.751081466674805, |
| "learning_rate": 2.0283018867924532e-05, |
| "loss": 0.4407, |
| "step": 2250 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 19.082717895507812, |
| "learning_rate": 2.0148247978436658e-05, |
| "loss": 0.6069, |
| "step": 2260 |
| }, |
| { |
| "epoch": 0.6053333333333333, |
| "grad_norm": 9.956210136413574, |
| "learning_rate": 2.0013477088948788e-05, |
| "loss": 0.3804, |
| "step": 2270 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 22.91667938232422, |
| "learning_rate": 1.9878706199460917e-05, |
| "loss": 0.4452, |
| "step": 2280 |
| }, |
| { |
| "epoch": 0.6106666666666667, |
| "grad_norm": 11.472311973571777, |
| "learning_rate": 1.9743935309973047e-05, |
| "loss": 0.5524, |
| "step": 2290 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 7.967957019805908, |
| "learning_rate": 1.9609164420485177e-05, |
| "loss": 0.3626, |
| "step": 2300 |
| }, |
| { |
| "epoch": 0.616, |
| "grad_norm": 8.504613876342773, |
| "learning_rate": 1.9474393530997306e-05, |
| "loss": 0.2569, |
| "step": 2310 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 11.852409362792969, |
| "learning_rate": 1.9339622641509436e-05, |
| "loss": 0.4051, |
| "step": 2320 |
| }, |
| { |
| "epoch": 0.6213333333333333, |
| "grad_norm": 12.512871742248535, |
| "learning_rate": 1.9204851752021562e-05, |
| "loss": 0.3631, |
| "step": 2330 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 16.21477508544922, |
| "learning_rate": 1.9070080862533692e-05, |
| "loss": 0.7231, |
| "step": 2340 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 12.807674407958984, |
| "learning_rate": 1.893530997304582e-05, |
| "loss": 0.4406, |
| "step": 2350 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 8.169772148132324, |
| "learning_rate": 1.880053908355795e-05, |
| "loss": 0.5181, |
| "step": 2360 |
| }, |
| { |
| "epoch": 0.632, |
| "grad_norm": 11.73438549041748, |
| "learning_rate": 1.8665768194070084e-05, |
| "loss": 0.392, |
| "step": 2370 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 19.76089096069336, |
| "learning_rate": 1.8530997304582214e-05, |
| "loss": 0.4631, |
| "step": 2380 |
| }, |
| { |
| "epoch": 0.6373333333333333, |
| "grad_norm": 9.086039543151855, |
| "learning_rate": 1.839622641509434e-05, |
| "loss": 0.3171, |
| "step": 2390 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 16.056007385253906, |
| "learning_rate": 1.826145552560647e-05, |
| "loss": 0.4297, |
| "step": 2400 |
| }, |
| { |
| "epoch": 0.6426666666666667, |
| "grad_norm": 4.929039001464844, |
| "learning_rate": 1.81266846361186e-05, |
| "loss": 0.3565, |
| "step": 2410 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 14.620661735534668, |
| "learning_rate": 1.799191374663073e-05, |
| "loss": 0.4003, |
| "step": 2420 |
| }, |
| { |
| "epoch": 0.648, |
| "grad_norm": 11.428451538085938, |
| "learning_rate": 1.785714285714286e-05, |
| "loss": 0.3116, |
| "step": 2430 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 7.882524490356445, |
| "learning_rate": 1.7722371967654988e-05, |
| "loss": 0.3754, |
| "step": 2440 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 8.926907539367676, |
| "learning_rate": 1.7587601078167118e-05, |
| "loss": 0.3893, |
| "step": 2450 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 8.45529842376709, |
| "learning_rate": 1.7452830188679244e-05, |
| "loss": 0.4121, |
| "step": 2460 |
| }, |
| { |
| "epoch": 0.6586666666666666, |
| "grad_norm": 8.348902702331543, |
| "learning_rate": 1.7318059299191374e-05, |
| "loss": 0.243, |
| "step": 2470 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 7.9367852210998535, |
| "learning_rate": 1.7183288409703503e-05, |
| "loss": 0.2918, |
| "step": 2480 |
| }, |
| { |
| "epoch": 0.664, |
| "grad_norm": 7.673737525939941, |
| "learning_rate": 1.7048517520215633e-05, |
| "loss": 0.4514, |
| "step": 2490 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 17.945858001708984, |
| "learning_rate": 1.6913746630727763e-05, |
| "loss": 0.2516, |
| "step": 2500 |
| }, |
| { |
| "epoch": 0.6693333333333333, |
| "grad_norm": 6.667047500610352, |
| "learning_rate": 1.6778975741239896e-05, |
| "loss": 0.318, |
| "step": 2510 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 11.213757514953613, |
| "learning_rate": 1.6644204851752022e-05, |
| "loss": 0.3921, |
| "step": 2520 |
| }, |
| { |
| "epoch": 0.6746666666666666, |
| "grad_norm": 6.478138446807861, |
| "learning_rate": 1.650943396226415e-05, |
| "loss": 0.2691, |
| "step": 2530 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 10.628767967224121, |
| "learning_rate": 1.637466307277628e-05, |
| "loss": 0.3391, |
| "step": 2540 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 12.021836280822754, |
| "learning_rate": 1.623989218328841e-05, |
| "loss": 0.2776, |
| "step": 2550 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 11.101051330566406, |
| "learning_rate": 1.610512129380054e-05, |
| "loss": 0.3061, |
| "step": 2560 |
| }, |
| { |
| "epoch": 0.6853333333333333, |
| "grad_norm": 12.261982917785645, |
| "learning_rate": 1.597035040431267e-05, |
| "loss": 0.2941, |
| "step": 2570 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 11.71900749206543, |
| "learning_rate": 1.58355795148248e-05, |
| "loss": 0.298, |
| "step": 2580 |
| }, |
| { |
| "epoch": 0.6906666666666667, |
| "grad_norm": 19.52393341064453, |
| "learning_rate": 1.5700808625336926e-05, |
| "loss": 0.3845, |
| "step": 2590 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 6.994551658630371, |
| "learning_rate": 1.5566037735849056e-05, |
| "loss": 0.3451, |
| "step": 2600 |
| }, |
| { |
| "epoch": 0.696, |
| "grad_norm": 9.673632621765137, |
| "learning_rate": 1.5431266846361185e-05, |
| "loss": 0.4304, |
| "step": 2610 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 19.336353302001953, |
| "learning_rate": 1.5296495956873315e-05, |
| "loss": 0.3696, |
| "step": 2620 |
| }, |
| { |
| "epoch": 0.7013333333333334, |
| "grad_norm": 7.714166641235352, |
| "learning_rate": 1.5161725067385446e-05, |
| "loss": 0.3726, |
| "step": 2630 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 11.61363697052002, |
| "learning_rate": 1.5026954177897576e-05, |
| "loss": 0.3762, |
| "step": 2640 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 9.290796279907227, |
| "learning_rate": 1.4892183288409702e-05, |
| "loss": 0.3336, |
| "step": 2650 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 16.186071395874023, |
| "learning_rate": 1.4757412398921833e-05, |
| "loss": 0.4329, |
| "step": 2660 |
| }, |
| { |
| "epoch": 0.712, |
| "grad_norm": 12.934135437011719, |
| "learning_rate": 1.4622641509433963e-05, |
| "loss": 0.3037, |
| "step": 2670 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 12.35031509399414, |
| "learning_rate": 1.4487870619946093e-05, |
| "loss": 0.2696, |
| "step": 2680 |
| }, |
| { |
| "epoch": 0.7173333333333334, |
| "grad_norm": 6.391822814941406, |
| "learning_rate": 1.4353099730458222e-05, |
| "loss": 0.3316, |
| "step": 2690 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 6.126807689666748, |
| "learning_rate": 1.4218328840970352e-05, |
| "loss": 0.5354, |
| "step": 2700 |
| }, |
| { |
| "epoch": 0.7226666666666667, |
| "grad_norm": 6.678376197814941, |
| "learning_rate": 1.4083557951482482e-05, |
| "loss": 0.2671, |
| "step": 2710 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 10.559714317321777, |
| "learning_rate": 1.394878706199461e-05, |
| "loss": 0.2821, |
| "step": 2720 |
| }, |
| { |
| "epoch": 0.728, |
| "grad_norm": 7.568365573883057, |
| "learning_rate": 1.381401617250674e-05, |
| "loss": 0.2898, |
| "step": 2730 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 6.339846611022949, |
| "learning_rate": 1.3679245283018869e-05, |
| "loss": 0.2709, |
| "step": 2740 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 11.902572631835938, |
| "learning_rate": 1.3544474393530998e-05, |
| "loss": 0.272, |
| "step": 2750 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 7.209833145141602, |
| "learning_rate": 1.3409703504043128e-05, |
| "loss": 0.3483, |
| "step": 2760 |
| }, |
| { |
| "epoch": 0.7386666666666667, |
| "grad_norm": 6.14058780670166, |
| "learning_rate": 1.3274932614555258e-05, |
| "loss": 0.4361, |
| "step": 2770 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 7.956258296966553, |
| "learning_rate": 1.3140161725067384e-05, |
| "loss": 0.2328, |
| "step": 2780 |
| }, |
| { |
| "epoch": 0.744, |
| "grad_norm": 14.678977966308594, |
| "learning_rate": 1.3005390835579515e-05, |
| "loss": 0.2982, |
| "step": 2790 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 10.953269958496094, |
| "learning_rate": 1.2870619946091645e-05, |
| "loss": 0.3598, |
| "step": 2800 |
| }, |
| { |
| "epoch": 0.7493333333333333, |
| "grad_norm": 18.05754280090332, |
| "learning_rate": 1.2735849056603775e-05, |
| "loss": 0.5306, |
| "step": 2810 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 6.063964366912842, |
| "learning_rate": 1.2601078167115904e-05, |
| "loss": 0.3629, |
| "step": 2820 |
| }, |
| { |
| "epoch": 0.7546666666666667, |
| "grad_norm": 7.156852722167969, |
| "learning_rate": 1.2466307277628032e-05, |
| "loss": 0.2525, |
| "step": 2830 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 8.384916305541992, |
| "learning_rate": 1.2331536388140162e-05, |
| "loss": 0.4145, |
| "step": 2840 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 7.009305000305176, |
| "learning_rate": 1.2196765498652291e-05, |
| "loss": 0.2607, |
| "step": 2850 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 6.685764312744141, |
| "learning_rate": 1.2061994609164421e-05, |
| "loss": 0.2744, |
| "step": 2860 |
| }, |
| { |
| "epoch": 0.7653333333333333, |
| "grad_norm": 7.995823383331299, |
| "learning_rate": 1.192722371967655e-05, |
| "loss": 0.2453, |
| "step": 2870 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 5.732645034790039, |
| "learning_rate": 1.179245283018868e-05, |
| "loss": 0.3084, |
| "step": 2880 |
| }, |
| { |
| "epoch": 0.7706666666666667, |
| "grad_norm": 7.629417896270752, |
| "learning_rate": 1.165768194070081e-05, |
| "loss": 0.2558, |
| "step": 2890 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 19.03529167175293, |
| "learning_rate": 1.1522911051212938e-05, |
| "loss": 0.2691, |
| "step": 2900 |
| }, |
| { |
| "epoch": 0.776, |
| "grad_norm": 8.533991813659668, |
| "learning_rate": 1.1388140161725068e-05, |
| "loss": 0.3345, |
| "step": 2910 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 9.780989646911621, |
| "learning_rate": 1.1253369272237197e-05, |
| "loss": 0.2568, |
| "step": 2920 |
| }, |
| { |
| "epoch": 0.7813333333333333, |
| "grad_norm": 6.1835408210754395, |
| "learning_rate": 1.1118598382749327e-05, |
| "loss": 0.3091, |
| "step": 2930 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 7.115200996398926, |
| "learning_rate": 1.0983827493261456e-05, |
| "loss": 0.3147, |
| "step": 2940 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 23.340068817138672, |
| "learning_rate": 1.0849056603773586e-05, |
| "loss": 0.3335, |
| "step": 2950 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 5.916553020477295, |
| "learning_rate": 1.0714285714285714e-05, |
| "loss": 0.2359, |
| "step": 2960 |
| }, |
| { |
| "epoch": 0.792, |
| "grad_norm": 6.533686637878418, |
| "learning_rate": 1.0579514824797844e-05, |
| "loss": 0.3634, |
| "step": 2970 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 6.188602447509766, |
| "learning_rate": 1.0444743935309973e-05, |
| "loss": 0.3016, |
| "step": 2980 |
| }, |
| { |
| "epoch": 0.7973333333333333, |
| "grad_norm": 5.642481327056885, |
| "learning_rate": 1.0309973045822103e-05, |
| "loss": 0.2852, |
| "step": 2990 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 13.653228759765625, |
| "learning_rate": 1.0175202156334233e-05, |
| "loss": 0.2609, |
| "step": 3000 |
| }, |
| { |
| "epoch": 0.8026666666666666, |
| "grad_norm": 8.680575370788574, |
| "learning_rate": 1.0040431266846362e-05, |
| "loss": 0.5043, |
| "step": 3010 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 6.801578044891357, |
| "learning_rate": 9.905660377358492e-06, |
| "loss": 0.2743, |
| "step": 3020 |
| }, |
| { |
| "epoch": 0.808, |
| "grad_norm": 8.94039535522461, |
| "learning_rate": 9.77088948787062e-06, |
| "loss": 0.5254, |
| "step": 3030 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 5.270666599273682, |
| "learning_rate": 9.63611859838275e-06, |
| "loss": 0.2423, |
| "step": 3040 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 18.539167404174805, |
| "learning_rate": 9.501347708894879e-06, |
| "loss": 0.2445, |
| "step": 3050 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 17.910654067993164, |
| "learning_rate": 9.366576819407009e-06, |
| "loss": 0.2115, |
| "step": 3060 |
| }, |
| { |
| "epoch": 0.8186666666666667, |
| "grad_norm": 18.064149856567383, |
| "learning_rate": 9.231805929919138e-06, |
| "loss": 0.2265, |
| "step": 3070 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 6.2826972007751465, |
| "learning_rate": 9.097035040431268e-06, |
| "loss": 0.3454, |
| "step": 3080 |
| }, |
| { |
| "epoch": 0.824, |
| "grad_norm": 11.170026779174805, |
| "learning_rate": 8.962264150943396e-06, |
| "loss": 0.2811, |
| "step": 3090 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 16.875585556030273, |
| "learning_rate": 8.827493261455526e-06, |
| "loss": 0.2665, |
| "step": 3100 |
| }, |
| { |
| "epoch": 0.8293333333333334, |
| "grad_norm": 6.005315780639648, |
| "learning_rate": 8.692722371967655e-06, |
| "loss": 0.3352, |
| "step": 3110 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 10.657337188720703, |
| "learning_rate": 8.557951482479785e-06, |
| "loss": 0.3018, |
| "step": 3120 |
| }, |
| { |
| "epoch": 0.8346666666666667, |
| "grad_norm": 8.12637996673584, |
| "learning_rate": 8.423180592991915e-06, |
| "loss": 0.261, |
| "step": 3130 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 9.491544723510742, |
| "learning_rate": 8.288409703504044e-06, |
| "loss": 0.2966, |
| "step": 3140 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 8.712248802185059, |
| "learning_rate": 8.153638814016174e-06, |
| "loss": 0.3018, |
| "step": 3150 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 5.385801792144775, |
| "learning_rate": 8.018867924528302e-06, |
| "loss": 0.2286, |
| "step": 3160 |
| }, |
| { |
| "epoch": 0.8453333333333334, |
| "grad_norm": 7.639825820922852, |
| "learning_rate": 7.884097035040431e-06, |
| "loss": 0.2401, |
| "step": 3170 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 9.133435249328613, |
| "learning_rate": 7.749326145552561e-06, |
| "loss": 0.3611, |
| "step": 3180 |
| }, |
| { |
| "epoch": 0.8506666666666667, |
| "grad_norm": 5.726224899291992, |
| "learning_rate": 7.61455525606469e-06, |
| "loss": 0.2351, |
| "step": 3190 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 6.735703468322754, |
| "learning_rate": 7.4797843665768195e-06, |
| "loss": 0.2259, |
| "step": 3200 |
| }, |
| { |
| "epoch": 0.856, |
| "grad_norm": 5.516600608825684, |
| "learning_rate": 7.345013477088949e-06, |
| "loss": 0.2526, |
| "step": 3210 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 8.448160171508789, |
| "learning_rate": 7.210242587601078e-06, |
| "loss": 0.3138, |
| "step": 3220 |
| }, |
| { |
| "epoch": 0.8613333333333333, |
| "grad_norm": 9.42566967010498, |
| "learning_rate": 7.0754716981132075e-06, |
| "loss": 0.1969, |
| "step": 3230 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 6.008419036865234, |
| "learning_rate": 6.940700808625337e-06, |
| "loss": 0.3795, |
| "step": 3240 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 5.922680377960205, |
| "learning_rate": 6.805929919137468e-06, |
| "loss": 0.2464, |
| "step": 3250 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 5.073930740356445, |
| "learning_rate": 6.671159029649596e-06, |
| "loss": 0.2491, |
| "step": 3260 |
| }, |
| { |
| "epoch": 0.872, |
| "grad_norm": 6.984921932220459, |
| "learning_rate": 6.536388140161725e-06, |
| "loss": 0.2212, |
| "step": 3270 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 5.525951862335205, |
| "learning_rate": 6.401617250673856e-06, |
| "loss": 0.2446, |
| "step": 3280 |
| }, |
| { |
| "epoch": 0.8773333333333333, |
| "grad_norm": 5.485599040985107, |
| "learning_rate": 6.266846361185984e-06, |
| "loss": 0.2735, |
| "step": 3290 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 6.451603889465332, |
| "learning_rate": 6.132075471698113e-06, |
| "loss": 0.2499, |
| "step": 3300 |
| }, |
| { |
| "epoch": 0.8826666666666667, |
| "grad_norm": 8.449997901916504, |
| "learning_rate": 5.997304582210243e-06, |
| "loss": 0.262, |
| "step": 3310 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 2.8802688121795654, |
| "learning_rate": 5.862533692722373e-06, |
| "loss": 0.248, |
| "step": 3320 |
| }, |
| { |
| "epoch": 0.888, |
| "grad_norm": 6.58447790145874, |
| "learning_rate": 5.727762803234501e-06, |
| "loss": 0.1707, |
| "step": 3330 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 10.708820343017578, |
| "learning_rate": 5.592991913746631e-06, |
| "loss": 0.2294, |
| "step": 3340 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 8.319356918334961, |
| "learning_rate": 5.458221024258761e-06, |
| "loss": 0.2165, |
| "step": 3350 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 6.977818012237549, |
| "learning_rate": 5.3234501347708894e-06, |
| "loss": 0.2321, |
| "step": 3360 |
| }, |
| { |
| "epoch": 0.8986666666666666, |
| "grad_norm": 6.978248119354248, |
| "learning_rate": 5.188679245283019e-06, |
| "loss": 0.2039, |
| "step": 3370 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 7.0379438400268555, |
| "learning_rate": 5.053908355795149e-06, |
| "loss": 0.2364, |
| "step": 3380 |
| }, |
| { |
| "epoch": 0.904, |
| "grad_norm": 5.10407018661499, |
| "learning_rate": 4.9191374663072775e-06, |
| "loss": 0.3408, |
| "step": 3390 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 4.217552185058594, |
| "learning_rate": 4.784366576819407e-06, |
| "loss": 0.1653, |
| "step": 3400 |
| }, |
| { |
| "epoch": 0.9093333333333333, |
| "grad_norm": 8.982743263244629, |
| "learning_rate": 4.649595687331537e-06, |
| "loss": 0.208, |
| "step": 3410 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 7.103553295135498, |
| "learning_rate": 4.5148247978436664e-06, |
| "loss": 0.1838, |
| "step": 3420 |
| }, |
| { |
| "epoch": 0.9146666666666666, |
| "grad_norm": 6.565107822418213, |
| "learning_rate": 4.380053908355795e-06, |
| "loss": 0.2254, |
| "step": 3430 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 8.163582801818848, |
| "learning_rate": 4.245283018867925e-06, |
| "loss": 0.1598, |
| "step": 3440 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 4.565555095672607, |
| "learning_rate": 4.1105121293800545e-06, |
| "loss": 0.1888, |
| "step": 3450 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 7.8352508544921875, |
| "learning_rate": 3.975741239892183e-06, |
| "loss": 0.2683, |
| "step": 3460 |
| }, |
| { |
| "epoch": 0.9253333333333333, |
| "grad_norm": 8.402386665344238, |
| "learning_rate": 3.840970350404313e-06, |
| "loss": 0.1869, |
| "step": 3470 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 8.078757286071777, |
| "learning_rate": 3.706199460916442e-06, |
| "loss": 0.2293, |
| "step": 3480 |
| }, |
| { |
| "epoch": 0.9306666666666666, |
| "grad_norm": 7.771483898162842, |
| "learning_rate": 3.5714285714285714e-06, |
| "loss": 0.3479, |
| "step": 3490 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 3.739326000213623, |
| "learning_rate": 3.436657681940701e-06, |
| "loss": 0.1441, |
| "step": 3500 |
| }, |
| { |
| "epoch": 0.936, |
| "grad_norm": 9.182714462280273, |
| "learning_rate": 3.30188679245283e-06, |
| "loss": 0.2332, |
| "step": 3510 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 6.365874290466309, |
| "learning_rate": 3.1671159029649594e-06, |
| "loss": 0.1443, |
| "step": 3520 |
| }, |
| { |
| "epoch": 0.9413333333333334, |
| "grad_norm": 6.266571521759033, |
| "learning_rate": 3.032345013477089e-06, |
| "loss": 0.1959, |
| "step": 3530 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 7.494802474975586, |
| "learning_rate": 2.8975741239892183e-06, |
| "loss": 0.149, |
| "step": 3540 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 5.22160005569458, |
| "learning_rate": 2.762803234501348e-06, |
| "loss": 0.3431, |
| "step": 3550 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 11.847735404968262, |
| "learning_rate": 2.628032345013477e-06, |
| "loss": 0.2068, |
| "step": 3560 |
| }, |
| { |
| "epoch": 0.952, |
| "grad_norm": 41.45210647583008, |
| "learning_rate": 2.4932614555256068e-06, |
| "loss": 0.2057, |
| "step": 3570 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 8.89501953125, |
| "learning_rate": 2.358490566037736e-06, |
| "loss": 0.5128, |
| "step": 3580 |
| }, |
| { |
| "epoch": 0.9573333333333334, |
| "grad_norm": 6.3149261474609375, |
| "learning_rate": 2.223719676549865e-06, |
| "loss": 0.1869, |
| "step": 3590 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 5.511444091796875, |
| "learning_rate": 2.088948787061995e-06, |
| "loss": 0.2311, |
| "step": 3600 |
| }, |
| { |
| "epoch": 0.9626666666666667, |
| "grad_norm": 6.782158851623535, |
| "learning_rate": 1.954177897574124e-06, |
| "loss": 0.1655, |
| "step": 3610 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 6.828353404998779, |
| "learning_rate": 1.8194070080862537e-06, |
| "loss": 0.1694, |
| "step": 3620 |
| }, |
| { |
| "epoch": 0.968, |
| "grad_norm": 2.4872541427612305, |
| "learning_rate": 1.6846361185983827e-06, |
| "loss": 0.1647, |
| "step": 3630 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 8.890005111694336, |
| "learning_rate": 1.5498652291105121e-06, |
| "loss": 0.1979, |
| "step": 3640 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 7.4598259925842285, |
| "learning_rate": 1.4150943396226415e-06, |
| "loss": 0.3526, |
| "step": 3650 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 4.237139701843262, |
| "learning_rate": 1.280323450134771e-06, |
| "loss": 0.2159, |
| "step": 3660 |
| }, |
| { |
| "epoch": 0.9786666666666667, |
| "grad_norm": 5.643311500549316, |
| "learning_rate": 1.1455525606469004e-06, |
| "loss": 0.1425, |
| "step": 3670 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 7.4330267906188965, |
| "learning_rate": 1.0107816711590296e-06, |
| "loss": 0.1761, |
| "step": 3680 |
| }, |
| { |
| "epoch": 0.984, |
| "grad_norm": 12.03699779510498, |
| "learning_rate": 8.76010781671159e-07, |
| "loss": 0.2607, |
| "step": 3690 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 6.911093235015869, |
| "learning_rate": 7.412398921832885e-07, |
| "loss": 0.1755, |
| "step": 3700 |
| }, |
| { |
| "epoch": 0.9893333333333333, |
| "grad_norm": 6.668974876403809, |
| "learning_rate": 6.064690026954178e-07, |
| "loss": 0.2031, |
| "step": 3710 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 11.474651336669922, |
| "learning_rate": 4.7169811320754717e-07, |
| "loss": 0.2236, |
| "step": 3720 |
| }, |
| { |
| "epoch": 0.9946666666666667, |
| "grad_norm": 9.00444507598877, |
| "learning_rate": 3.369272237196766e-07, |
| "loss": 0.1306, |
| "step": 3730 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 52.68935012817383, |
| "learning_rate": 2.0215633423180594e-07, |
| "loss": 0.231, |
| "step": 3740 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 5.777242183685303, |
| "learning_rate": 6.738544474393531e-08, |
| "loss": 0.1794, |
| "step": 3750 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 3750, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 1, |
| "save_steps": 250, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 6.77976396217344e+16, |
| "train_batch_size": 2, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|