| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 2.6666666666666665, |
| "eval_steps": 500, |
| "global_step": 10000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0026666666666666666, |
| "grad_norm": 3.859375, |
| "learning_rate": 5e-05, |
| "loss": 13.148, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 1.3125, |
| "learning_rate": 5e-05, |
| "loss": 11.866, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.008, |
| "grad_norm": 0.8203125, |
| "learning_rate": 5e-05, |
| "loss": 11.5656, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 1.765625, |
| "learning_rate": 5e-05, |
| "loss": 11.2837, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.013333333333333334, |
| "grad_norm": 1.21875, |
| "learning_rate": 5e-05, |
| "loss": 11.1472, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 1.046875, |
| "learning_rate": 5e-05, |
| "loss": 11.0555, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.018666666666666668, |
| "grad_norm": 0.92578125, |
| "learning_rate": 5e-05, |
| "loss": 11.0296, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 0.87109375, |
| "learning_rate": 5e-05, |
| "loss": 10.9821, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.024, |
| "grad_norm": 0.80859375, |
| "learning_rate": 5e-05, |
| "loss": 10.9764, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 0.8671875, |
| "learning_rate": 5e-05, |
| "loss": 10.9371, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.029333333333333333, |
| "grad_norm": 0.9296875, |
| "learning_rate": 5e-05, |
| "loss": 10.9483, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 0.99609375, |
| "learning_rate": 5e-05, |
| "loss": 10.9114, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.034666666666666665, |
| "grad_norm": 1.6328125, |
| "learning_rate": 5e-05, |
| "loss": 10.9139, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 1.1328125, |
| "learning_rate": 5e-05, |
| "loss": 10.8852, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.04, |
| "grad_norm": 1.0234375, |
| "learning_rate": 5e-05, |
| "loss": 10.849, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 1.078125, |
| "learning_rate": 5e-05, |
| "loss": 10.8824, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.04533333333333334, |
| "grad_norm": 1.2890625, |
| "learning_rate": 5e-05, |
| "loss": 10.8542, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 1.2109375, |
| "learning_rate": 5e-05, |
| "loss": 10.842, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.050666666666666665, |
| "grad_norm": 1.125, |
| "learning_rate": 5e-05, |
| "loss": 10.8347, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 10.8218, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.056, |
| "grad_norm": 1.546875, |
| "learning_rate": 5e-05, |
| "loss": 10.7805, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 2.34375, |
| "learning_rate": 5e-05, |
| "loss": 10.8079, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.06133333333333333, |
| "grad_norm": 1.0859375, |
| "learning_rate": 5e-05, |
| "loss": 10.773, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 1.2734375, |
| "learning_rate": 5e-05, |
| "loss": 10.749, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 1.6953125, |
| "learning_rate": 5e-05, |
| "loss": 10.7417, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 1.734375, |
| "learning_rate": 5e-05, |
| "loss": 10.7551, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.072, |
| "grad_norm": 1.3515625, |
| "learning_rate": 5e-05, |
| "loss": 10.7216, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 1.3984375, |
| "learning_rate": 5e-05, |
| "loss": 10.7129, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.07733333333333334, |
| "grad_norm": 1.4296875, |
| "learning_rate": 5e-05, |
| "loss": 10.706, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 2.59375, |
| "learning_rate": 5e-05, |
| "loss": 10.6832, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.08266666666666667, |
| "grad_norm": 1.765625, |
| "learning_rate": 5e-05, |
| "loss": 10.6449, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 1.8359375, |
| "learning_rate": 5e-05, |
| "loss": 10.6364, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.088, |
| "grad_norm": 2.015625, |
| "learning_rate": 5e-05, |
| "loss": 10.6481, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 1.671875, |
| "learning_rate": 5e-05, |
| "loss": 10.6691, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.09333333333333334, |
| "grad_norm": 2.171875, |
| "learning_rate": 5e-05, |
| "loss": 10.617, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 2.390625, |
| "learning_rate": 5e-05, |
| "loss": 10.6195, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.09866666666666667, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 10.5946, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 2.65625, |
| "learning_rate": 5e-05, |
| "loss": 10.6041, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.104, |
| "grad_norm": 2.34375, |
| "learning_rate": 5e-05, |
| "loss": 10.5639, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 2.828125, |
| "learning_rate": 5e-05, |
| "loss": 10.6121, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.10933333333333334, |
| "grad_norm": 2.375, |
| "learning_rate": 5e-05, |
| "loss": 10.5634, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 5.4375, |
| "learning_rate": 5e-05, |
| "loss": 10.5551, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.11466666666666667, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 10.5735, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 2.53125, |
| "learning_rate": 5e-05, |
| "loss": 10.5368, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.12, |
| "grad_norm": 1.5546875, |
| "learning_rate": 5e-05, |
| "loss": 10.5202, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 2.4375, |
| "learning_rate": 5e-05, |
| "loss": 10.5292, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.12533333333333332, |
| "grad_norm": 1.78125, |
| "learning_rate": 5e-05, |
| "loss": 10.5436, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 2.90625, |
| "learning_rate": 5e-05, |
| "loss": 10.5241, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.13066666666666665, |
| "grad_norm": 5.3125, |
| "learning_rate": 5e-05, |
| "loss": 10.4764, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 2.0, |
| "learning_rate": 5e-05, |
| "loss": 10.4852, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.136, |
| "grad_norm": 2.796875, |
| "learning_rate": 5e-05, |
| "loss": 10.4816, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 4.53125, |
| "learning_rate": 5e-05, |
| "loss": 10.4847, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.14133333333333334, |
| "grad_norm": 7.25, |
| "learning_rate": 5e-05, |
| "loss": 10.4955, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 2.6875, |
| "learning_rate": 5e-05, |
| "loss": 10.4825, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.14666666666666667, |
| "grad_norm": 4.9375, |
| "learning_rate": 5e-05, |
| "loss": 10.4632, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 2.578125, |
| "learning_rate": 5e-05, |
| "loss": 10.4508, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.152, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 10.442, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 2.015625, |
| "learning_rate": 5e-05, |
| "loss": 10.4237, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.15733333333333333, |
| "grad_norm": 2.84375, |
| "learning_rate": 5e-05, |
| "loss": 10.4337, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 1.4296875, |
| "learning_rate": 5e-05, |
| "loss": 10.4107, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.16266666666666665, |
| "grad_norm": 2.078125, |
| "learning_rate": 5e-05, |
| "loss": 10.4422, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 2.0, |
| "learning_rate": 5e-05, |
| "loss": 10.4271, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.168, |
| "grad_norm": 2.234375, |
| "learning_rate": 5e-05, |
| "loss": 10.4462, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 10.4013, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.17333333333333334, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 10.4466, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 5.28125, |
| "learning_rate": 5e-05, |
| "loss": 10.4073, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.17866666666666667, |
| "grad_norm": 2.4375, |
| "learning_rate": 5e-05, |
| "loss": 10.3784, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 2.5625, |
| "learning_rate": 5e-05, |
| "loss": 10.4327, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.184, |
| "grad_norm": 2.203125, |
| "learning_rate": 5e-05, |
| "loss": 10.3795, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 2.390625, |
| "learning_rate": 5e-05, |
| "loss": 10.3992, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.18933333333333333, |
| "grad_norm": 2.109375, |
| "learning_rate": 5e-05, |
| "loss": 10.3656, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 10.3691, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.19466666666666665, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 10.3626, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 3.1875, |
| "learning_rate": 5e-05, |
| "loss": 10.3504, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 4.625, |
| "learning_rate": 5e-05, |
| "loss": 10.3449, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 1.625, |
| "learning_rate": 5e-05, |
| "loss": 10.369, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.20533333333333334, |
| "grad_norm": 1.9375, |
| "learning_rate": 5e-05, |
| "loss": 10.3227, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 2.75, |
| "learning_rate": 5e-05, |
| "loss": 10.3632, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.21066666666666667, |
| "grad_norm": 2.796875, |
| "learning_rate": 5e-05, |
| "loss": 10.3337, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 10.3099, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.216, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 10.2898, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 2.59375, |
| "learning_rate": 5e-05, |
| "loss": 10.2606, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.22133333333333333, |
| "grad_norm": 2.453125, |
| "learning_rate": 5e-05, |
| "loss": 10.2242, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 2.390625, |
| "learning_rate": 5e-05, |
| "loss": 10.2569, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.22666666666666666, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 10.2333, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 2.625, |
| "learning_rate": 5e-05, |
| "loss": 10.2443, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.232, |
| "grad_norm": 3.0625, |
| "learning_rate": 5e-05, |
| "loss": 10.1958, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 2.625, |
| "learning_rate": 5e-05, |
| "loss": 10.1956, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.23733333333333334, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 10.221, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 2.65625, |
| "learning_rate": 5e-05, |
| "loss": 10.208, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.24266666666666667, |
| "grad_norm": 2.546875, |
| "learning_rate": 5e-05, |
| "loss": 10.2112, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 10.1963, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.248, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 10.1662, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 7.125, |
| "learning_rate": 5e-05, |
| "loss": 10.1569, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.25333333333333335, |
| "grad_norm": 2.765625, |
| "learning_rate": 5e-05, |
| "loss": 10.1859, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 10.1295, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.25866666666666666, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 10.1628, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 10.1148, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.264, |
| "grad_norm": 2.390625, |
| "learning_rate": 5e-05, |
| "loss": 10.0963, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 2.03125, |
| "learning_rate": 5e-05, |
| "loss": 10.1251, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.2693333333333333, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 10.1163, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 10.0889, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.27466666666666667, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 10.1037, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 10.0687, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 2.5, |
| "learning_rate": 5e-05, |
| "loss": 10.0502, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 2.921875, |
| "learning_rate": 5e-05, |
| "loss": 10.0382, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.2853333333333333, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 10.0468, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 9.999, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.2906666666666667, |
| "grad_norm": 2.609375, |
| "learning_rate": 5e-05, |
| "loss": 10.0457, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 4.59375, |
| "learning_rate": 5e-05, |
| "loss": 9.9854, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.296, |
| "grad_norm": 4.59375, |
| "learning_rate": 5e-05, |
| "loss": 9.9364, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 5e-05, |
| "loss": 10.0078, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.30133333333333334, |
| "grad_norm": 4.8125, |
| "learning_rate": 5e-05, |
| "loss": 10.0062, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 6.34375, |
| "learning_rate": 5e-05, |
| "loss": 9.9458, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.30666666666666664, |
| "grad_norm": 2.609375, |
| "learning_rate": 5e-05, |
| "loss": 9.963, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 2.546875, |
| "learning_rate": 5e-05, |
| "loss": 9.9398, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.312, |
| "grad_norm": 4.71875, |
| "learning_rate": 5e-05, |
| "loss": 9.9944, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 2.484375, |
| "learning_rate": 5e-05, |
| "loss": 10.0043, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.31733333333333336, |
| "grad_norm": 2.65625, |
| "learning_rate": 5e-05, |
| "loss": 9.9903, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 9.9524, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.32266666666666666, |
| "grad_norm": 2.796875, |
| "learning_rate": 5e-05, |
| "loss": 9.951, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 9.889, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.328, |
| "grad_norm": 2.421875, |
| "learning_rate": 5e-05, |
| "loss": 9.9035, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 5.125, |
| "learning_rate": 5e-05, |
| "loss": 9.9233, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 9.843, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 9.8895, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.33866666666666667, |
| "grad_norm": 2.8125, |
| "learning_rate": 5e-05, |
| "loss": 9.8654, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 4.21875, |
| "learning_rate": 5e-05, |
| "loss": 9.8478, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.344, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 9.8444, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 5.0, |
| "learning_rate": 5e-05, |
| "loss": 9.8647, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.34933333333333333, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 9.8336, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 9.8544, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.3546666666666667, |
| "grad_norm": 2.671875, |
| "learning_rate": 5e-05, |
| "loss": 9.8403, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 2.25, |
| "learning_rate": 5e-05, |
| "loss": 9.784, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.36, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 9.7565, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 9.8167, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.36533333333333334, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 9.8149, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 4.6875, |
| "learning_rate": 5e-05, |
| "loss": 9.7595, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.37066666666666664, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 9.7916, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 9.7197, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.376, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 9.7576, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 9.7141, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.38133333333333336, |
| "grad_norm": 2.421875, |
| "learning_rate": 5e-05, |
| "loss": 9.7305, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 2.890625, |
| "learning_rate": 5e-05, |
| "loss": 9.7228, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.38666666666666666, |
| "grad_norm": 4.53125, |
| "learning_rate": 5e-05, |
| "loss": 9.7237, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.6811, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.392, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 9.6485, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 9.6615, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.3973333333333333, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 9.673, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 9.6536, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.4026666666666667, |
| "grad_norm": 3.984375, |
| "learning_rate": 5e-05, |
| "loss": 9.6979, |
| "step": 1510 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 9.6306, |
| "step": 1520 |
| }, |
| { |
| "epoch": 0.408, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 9.637, |
| "step": 1530 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 9.6217, |
| "step": 1540 |
| }, |
| { |
| "epoch": 0.41333333333333333, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 9.6068, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 9.6113, |
| "step": 1560 |
| }, |
| { |
| "epoch": 0.4186666666666667, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.58, |
| "step": 1570 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 4.875, |
| "learning_rate": 5e-05, |
| "loss": 9.5902, |
| "step": 1580 |
| }, |
| { |
| "epoch": 0.424, |
| "grad_norm": 5.21875, |
| "learning_rate": 5e-05, |
| "loss": 9.597, |
| "step": 1590 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 2.828125, |
| "learning_rate": 5e-05, |
| "loss": 9.6396, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.42933333333333334, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 9.5972, |
| "step": 1610 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 9.5946, |
| "step": 1620 |
| }, |
| { |
| "epoch": 0.43466666666666665, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 9.5534, |
| "step": 1630 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 5.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.5793, |
| "step": 1640 |
| }, |
| { |
| "epoch": 0.44, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 9.5413, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 4.5, |
| "learning_rate": 5e-05, |
| "loss": 9.5306, |
| "step": 1660 |
| }, |
| { |
| "epoch": 0.44533333333333336, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 9.5327, |
| "step": 1670 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 9.5801, |
| "step": 1680 |
| }, |
| { |
| "epoch": 0.45066666666666666, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 9.5263, |
| "step": 1690 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 4.625, |
| "learning_rate": 5e-05, |
| "loss": 9.4707, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.456, |
| "grad_norm": 4.71875, |
| "learning_rate": 5e-05, |
| "loss": 9.4704, |
| "step": 1710 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 3.171875, |
| "learning_rate": 5e-05, |
| "loss": 9.4684, |
| "step": 1720 |
| }, |
| { |
| "epoch": 0.4613333333333333, |
| "grad_norm": 4.59375, |
| "learning_rate": 5e-05, |
| "loss": 9.5247, |
| "step": 1730 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 9.4796, |
| "step": 1740 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 9.5152, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 9.4583, |
| "step": 1760 |
| }, |
| { |
| "epoch": 0.472, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 9.467, |
| "step": 1770 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 9.4501, |
| "step": 1780 |
| }, |
| { |
| "epoch": 0.47733333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.4939, |
| "step": 1790 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 9.386, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.4826666666666667, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 9.4706, |
| "step": 1810 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 4.78125, |
| "learning_rate": 5e-05, |
| "loss": 9.4456, |
| "step": 1820 |
| }, |
| { |
| "epoch": 0.488, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 9.3977, |
| "step": 1830 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 2.90625, |
| "learning_rate": 5e-05, |
| "loss": 9.3684, |
| "step": 1840 |
| }, |
| { |
| "epoch": 0.49333333333333335, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 9.3757, |
| "step": 1850 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 9.4378, |
| "step": 1860 |
| }, |
| { |
| "epoch": 0.49866666666666665, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 9.3659, |
| "step": 1870 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 9.297, |
| "step": 1880 |
| }, |
| { |
| "epoch": 0.504, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 9.3905, |
| "step": 1890 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 9.3842, |
| "step": 1900 |
| }, |
| { |
| "epoch": 0.5093333333333333, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 9.412, |
| "step": 1910 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 9.3608, |
| "step": 1920 |
| }, |
| { |
| "epoch": 0.5146666666666667, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 9.3577, |
| "step": 1930 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 9.403, |
| "step": 1940 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 9.3578, |
| "step": 1950 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 4.5, |
| "learning_rate": 5e-05, |
| "loss": 9.3194, |
| "step": 1960 |
| }, |
| { |
| "epoch": 0.5253333333333333, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 9.3235, |
| "step": 1970 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 9.2696, |
| "step": 1980 |
| }, |
| { |
| "epoch": 0.5306666666666666, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 9.3585, |
| "step": 1990 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 9.3515, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.536, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.3556, |
| "step": 2010 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 9.3557, |
| "step": 2020 |
| }, |
| { |
| "epoch": 0.5413333333333333, |
| "grad_norm": 4.96875, |
| "learning_rate": 5e-05, |
| "loss": 9.3124, |
| "step": 2030 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 9.333, |
| "step": 2040 |
| }, |
| { |
| "epoch": 0.5466666666666666, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 9.2505, |
| "step": 2050 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 5.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.3129, |
| "step": 2060 |
| }, |
| { |
| "epoch": 0.552, |
| "grad_norm": 4.9375, |
| "learning_rate": 5e-05, |
| "loss": 9.2701, |
| "step": 2070 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 4.1875, |
| "learning_rate": 5e-05, |
| "loss": 9.2717, |
| "step": 2080 |
| }, |
| { |
| "epoch": 0.5573333333333333, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 9.2785, |
| "step": 2090 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 9.2572, |
| "step": 2100 |
| }, |
| { |
| "epoch": 0.5626666666666666, |
| "grad_norm": 4.28125, |
| "learning_rate": 5e-05, |
| "loss": 9.3103, |
| "step": 2110 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 9.2323, |
| "step": 2120 |
| }, |
| { |
| "epoch": 0.568, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 9.2808, |
| "step": 2130 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 9.2812, |
| "step": 2140 |
| }, |
| { |
| "epoch": 0.5733333333333334, |
| "grad_norm": 4.3125, |
| "learning_rate": 5e-05, |
| "loss": 9.2819, |
| "step": 2150 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 4.375, |
| "learning_rate": 5e-05, |
| "loss": 9.2806, |
| "step": 2160 |
| }, |
| { |
| "epoch": 0.5786666666666667, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 9.2775, |
| "step": 2170 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 5.1875, |
| "learning_rate": 5e-05, |
| "loss": 9.2295, |
| "step": 2180 |
| }, |
| { |
| "epoch": 0.584, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 9.2718, |
| "step": 2190 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 9.2084, |
| "step": 2200 |
| }, |
| { |
| "epoch": 0.5893333333333334, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 9.1748, |
| "step": 2210 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 9.2223, |
| "step": 2220 |
| }, |
| { |
| "epoch": 0.5946666666666667, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 9.2269, |
| "step": 2230 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 5.125, |
| "learning_rate": 5e-05, |
| "loss": 9.2084, |
| "step": 2240 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 2.859375, |
| "learning_rate": 5e-05, |
| "loss": 9.2371, |
| "step": 2250 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 9.1666, |
| "step": 2260 |
| }, |
| { |
| "epoch": 0.6053333333333333, |
| "grad_norm": 4.46875, |
| "learning_rate": 5e-05, |
| "loss": 9.1823, |
| "step": 2270 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 9.1545, |
| "step": 2280 |
| }, |
| { |
| "epoch": 0.6106666666666667, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 9.1556, |
| "step": 2290 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 9.2025, |
| "step": 2300 |
| }, |
| { |
| "epoch": 0.616, |
| "grad_norm": 4.28125, |
| "learning_rate": 5e-05, |
| "loss": 9.1662, |
| "step": 2310 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 4.40625, |
| "learning_rate": 5e-05, |
| "loss": 9.1624, |
| "step": 2320 |
| }, |
| { |
| "epoch": 0.6213333333333333, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 9.2, |
| "step": 2330 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.1496, |
| "step": 2340 |
| }, |
| { |
| "epoch": 0.6266666666666667, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 9.1904, |
| "step": 2350 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 9.1821, |
| "step": 2360 |
| }, |
| { |
| "epoch": 0.632, |
| "grad_norm": 5.25, |
| "learning_rate": 5e-05, |
| "loss": 9.1935, |
| "step": 2370 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 9.1674, |
| "step": 2380 |
| }, |
| { |
| "epoch": 0.6373333333333333, |
| "grad_norm": 4.46875, |
| "learning_rate": 5e-05, |
| "loss": 9.1794, |
| "step": 2390 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 4.65625, |
| "learning_rate": 5e-05, |
| "loss": 9.1321, |
| "step": 2400 |
| }, |
| { |
| "epoch": 0.6426666666666667, |
| "grad_norm": 5.1875, |
| "learning_rate": 5e-05, |
| "loss": 9.2008, |
| "step": 2410 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 4.25, |
| "learning_rate": 5e-05, |
| "loss": 9.0925, |
| "step": 2420 |
| }, |
| { |
| "epoch": 0.648, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 9.1344, |
| "step": 2430 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 4.4375, |
| "learning_rate": 5e-05, |
| "loss": 9.0662, |
| "step": 2440 |
| }, |
| { |
| "epoch": 0.6533333333333333, |
| "grad_norm": 2.984375, |
| "learning_rate": 5e-05, |
| "loss": 9.0432, |
| "step": 2450 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 3.171875, |
| "learning_rate": 5e-05, |
| "loss": 9.1379, |
| "step": 2460 |
| }, |
| { |
| "epoch": 0.6586666666666666, |
| "grad_norm": 4.96875, |
| "learning_rate": 5e-05, |
| "loss": 9.1404, |
| "step": 2470 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 9.1302, |
| "step": 2480 |
| }, |
| { |
| "epoch": 0.664, |
| "grad_norm": 4.21875, |
| "learning_rate": 5e-05, |
| "loss": 9.1508, |
| "step": 2490 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 9.1086, |
| "step": 2500 |
| }, |
| { |
| "epoch": 0.6693333333333333, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 9.0648, |
| "step": 2510 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 9.0636, |
| "step": 2520 |
| }, |
| { |
| "epoch": 0.6746666666666666, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 9.1143, |
| "step": 2530 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 9.0609, |
| "step": 2540 |
| }, |
| { |
| "epoch": 0.68, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.0651, |
| "step": 2550 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.9523, |
| "step": 2560 |
| }, |
| { |
| "epoch": 0.6853333333333333, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 9.0692, |
| "step": 2570 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.9692, |
| "step": 2580 |
| }, |
| { |
| "epoch": 0.6906666666666667, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 9.1309, |
| "step": 2590 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 2.9375, |
| "learning_rate": 5e-05, |
| "loss": 9.0622, |
| "step": 2600 |
| }, |
| { |
| "epoch": 0.696, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 9.0475, |
| "step": 2610 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 9.0244, |
| "step": 2620 |
| }, |
| { |
| "epoch": 0.7013333333333334, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 9.1252, |
| "step": 2630 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 9.0199, |
| "step": 2640 |
| }, |
| { |
| "epoch": 0.7066666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 9.046, |
| "step": 2650 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.9843, |
| "step": 2660 |
| }, |
| { |
| "epoch": 0.712, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 9.0729, |
| "step": 2670 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 9.0799, |
| "step": 2680 |
| }, |
| { |
| "epoch": 0.7173333333333334, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 9.0411, |
| "step": 2690 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 9.06, |
| "step": 2700 |
| }, |
| { |
| "epoch": 0.7226666666666667, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.963, |
| "step": 2710 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 9.0558, |
| "step": 2720 |
| }, |
| { |
| "epoch": 0.728, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 9.0274, |
| "step": 2730 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 9.0072, |
| "step": 2740 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.9986, |
| "step": 2750 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.9914, |
| "step": 2760 |
| }, |
| { |
| "epoch": 0.7386666666666667, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 9.0377, |
| "step": 2770 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.9912, |
| "step": 2780 |
| }, |
| { |
| "epoch": 0.744, |
| "grad_norm": 2.625, |
| "learning_rate": 5e-05, |
| "loss": 9.0297, |
| "step": 2790 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 4.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.9733, |
| "step": 2800 |
| }, |
| { |
| "epoch": 0.7493333333333333, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 9.0434, |
| "step": 2810 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 2.9375, |
| "learning_rate": 5e-05, |
| "loss": 9.0294, |
| "step": 2820 |
| }, |
| { |
| "epoch": 0.7546666666666667, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 9.0637, |
| "step": 2830 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 8.9925, |
| "step": 2840 |
| }, |
| { |
| "epoch": 0.76, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.9761, |
| "step": 2850 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.9459, |
| "step": 2860 |
| }, |
| { |
| "epoch": 0.7653333333333333, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.9665, |
| "step": 2870 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.9196, |
| "step": 2880 |
| }, |
| { |
| "epoch": 0.7706666666666667, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.9831, |
| "step": 2890 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.9753, |
| "step": 2900 |
| }, |
| { |
| "epoch": 0.776, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 9.0454, |
| "step": 2910 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 9.0771, |
| "step": 2920 |
| }, |
| { |
| "epoch": 0.7813333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.9809, |
| "step": 2930 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 9.0178, |
| "step": 2940 |
| }, |
| { |
| "epoch": 0.7866666666666666, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.9926, |
| "step": 2950 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 9.0076, |
| "step": 2960 |
| }, |
| { |
| "epoch": 0.792, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.9578, |
| "step": 2970 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.9546, |
| "step": 2980 |
| }, |
| { |
| "epoch": 0.7973333333333333, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 8.894, |
| "step": 2990 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.9271, |
| "step": 3000 |
| }, |
| { |
| "epoch": 0.8026666666666666, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.9096, |
| "step": 3010 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.9207, |
| "step": 3020 |
| }, |
| { |
| "epoch": 0.808, |
| "grad_norm": 4.25, |
| "learning_rate": 5e-05, |
| "loss": 8.9548, |
| "step": 3030 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.9005, |
| "step": 3040 |
| }, |
| { |
| "epoch": 0.8133333333333334, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.988, |
| "step": 3050 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.8622, |
| "step": 3060 |
| }, |
| { |
| "epoch": 0.8186666666666667, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.9278, |
| "step": 3070 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.9191, |
| "step": 3080 |
| }, |
| { |
| "epoch": 0.824, |
| "grad_norm": 2.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.925, |
| "step": 3090 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.9401, |
| "step": 3100 |
| }, |
| { |
| "epoch": 0.8293333333333334, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.8617, |
| "step": 3110 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.9744, |
| "step": 3120 |
| }, |
| { |
| "epoch": 0.8346666666666667, |
| "grad_norm": 3.1875, |
| "learning_rate": 5e-05, |
| "loss": 8.9597, |
| "step": 3130 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.9486, |
| "step": 3140 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.9196, |
| "step": 3150 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 3.109375, |
| "learning_rate": 5e-05, |
| "loss": 8.9516, |
| "step": 3160 |
| }, |
| { |
| "epoch": 0.8453333333333334, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.9339, |
| "step": 3170 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.9061, |
| "step": 3180 |
| }, |
| { |
| "epoch": 0.8506666666666667, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.8785, |
| "step": 3190 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.8895, |
| "step": 3200 |
| }, |
| { |
| "epoch": 0.856, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.8774, |
| "step": 3210 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.958, |
| "step": 3220 |
| }, |
| { |
| "epoch": 0.8613333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.8687, |
| "step": 3230 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.8526, |
| "step": 3240 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.979, |
| "step": 3250 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.8807, |
| "step": 3260 |
| }, |
| { |
| "epoch": 0.872, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.8811, |
| "step": 3270 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.8865, |
| "step": 3280 |
| }, |
| { |
| "epoch": 0.8773333333333333, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.9366, |
| "step": 3290 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.8785, |
| "step": 3300 |
| }, |
| { |
| "epoch": 0.8826666666666667, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.967, |
| "step": 3310 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.9382, |
| "step": 3320 |
| }, |
| { |
| "epoch": 0.888, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.8817, |
| "step": 3330 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.9454, |
| "step": 3340 |
| }, |
| { |
| "epoch": 0.8933333333333333, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.897, |
| "step": 3350 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 8.8306, |
| "step": 3360 |
| }, |
| { |
| "epoch": 0.8986666666666666, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.8397, |
| "step": 3370 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 3.1875, |
| "learning_rate": 5e-05, |
| "loss": 8.9366, |
| "step": 3380 |
| }, |
| { |
| "epoch": 0.904, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.778, |
| "step": 3390 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.7922, |
| "step": 3400 |
| }, |
| { |
| "epoch": 0.9093333333333333, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.819, |
| "step": 3410 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.926, |
| "step": 3420 |
| }, |
| { |
| "epoch": 0.9146666666666666, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.8503, |
| "step": 3430 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.8734, |
| "step": 3440 |
| }, |
| { |
| "epoch": 0.92, |
| "grad_norm": 4.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.8899, |
| "step": 3450 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.9122, |
| "step": 3460 |
| }, |
| { |
| "epoch": 0.9253333333333333, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 8.8478, |
| "step": 3470 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.8546, |
| "step": 3480 |
| }, |
| { |
| "epoch": 0.9306666666666666, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.8307, |
| "step": 3490 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.739, |
| "step": 3500 |
| }, |
| { |
| "epoch": 0.936, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.7631, |
| "step": 3510 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.923, |
| "step": 3520 |
| }, |
| { |
| "epoch": 0.9413333333333334, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.751, |
| "step": 3530 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.8614, |
| "step": 3540 |
| }, |
| { |
| "epoch": 0.9466666666666667, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.8275, |
| "step": 3550 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.8947, |
| "step": 3560 |
| }, |
| { |
| "epoch": 0.952, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.8559, |
| "step": 3570 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.8231, |
| "step": 3580 |
| }, |
| { |
| "epoch": 0.9573333333333334, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.8452, |
| "step": 3590 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.8789, |
| "step": 3600 |
| }, |
| { |
| "epoch": 0.9626666666666667, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.8514, |
| "step": 3610 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.8474, |
| "step": 3620 |
| }, |
| { |
| "epoch": 0.968, |
| "grad_norm": 2.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.812, |
| "step": 3630 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 3.109375, |
| "learning_rate": 5e-05, |
| "loss": 8.8215, |
| "step": 3640 |
| }, |
| { |
| "epoch": 0.9733333333333334, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.8847, |
| "step": 3650 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.8009, |
| "step": 3660 |
| }, |
| { |
| "epoch": 0.9786666666666667, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.8274, |
| "step": 3670 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.7917, |
| "step": 3680 |
| }, |
| { |
| "epoch": 0.984, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.7884, |
| "step": 3690 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.8078, |
| "step": 3700 |
| }, |
| { |
| "epoch": 0.9893333333333333, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.8107, |
| "step": 3710 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.8449, |
| "step": 3720 |
| }, |
| { |
| "epoch": 0.9946666666666667, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.8149, |
| "step": 3730 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.8505, |
| "step": 3740 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.8226, |
| "step": 3750 |
| }, |
| { |
| "epoch": 1.0026666666666666, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.7336, |
| "step": 3760 |
| }, |
| { |
| "epoch": 1.0053333333333334, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.7833, |
| "step": 3770 |
| }, |
| { |
| "epoch": 1.008, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.7382, |
| "step": 3780 |
| }, |
| { |
| "epoch": 1.0106666666666666, |
| "grad_norm": 3.234375, |
| "learning_rate": 5e-05, |
| "loss": 8.7895, |
| "step": 3790 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.7754, |
| "step": 3800 |
| }, |
| { |
| "epoch": 1.016, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.7841, |
| "step": 3810 |
| }, |
| { |
| "epoch": 1.0186666666666666, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.7281, |
| "step": 3820 |
| }, |
| { |
| "epoch": 1.0213333333333334, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.7534, |
| "step": 3830 |
| }, |
| { |
| "epoch": 1.024, |
| "grad_norm": 3.046875, |
| "learning_rate": 5e-05, |
| "loss": 8.6806, |
| "step": 3840 |
| }, |
| { |
| "epoch": 1.0266666666666666, |
| "grad_norm": 3.25, |
| "learning_rate": 5e-05, |
| "loss": 8.7398, |
| "step": 3850 |
| }, |
| { |
| "epoch": 1.0293333333333334, |
| "grad_norm": 2.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.7835, |
| "step": 3860 |
| }, |
| { |
| "epoch": 1.032, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.6487, |
| "step": 3870 |
| }, |
| { |
| "epoch": 1.0346666666666666, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.7452, |
| "step": 3880 |
| }, |
| { |
| "epoch": 1.0373333333333334, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.6877, |
| "step": 3890 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.7239, |
| "step": 3900 |
| }, |
| { |
| "epoch": 1.0426666666666666, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.701, |
| "step": 3910 |
| }, |
| { |
| "epoch": 1.0453333333333332, |
| "grad_norm": 3.046875, |
| "learning_rate": 5e-05, |
| "loss": 8.6785, |
| "step": 3920 |
| }, |
| { |
| "epoch": 1.048, |
| "grad_norm": 3.046875, |
| "learning_rate": 5e-05, |
| "loss": 8.7212, |
| "step": 3930 |
| }, |
| { |
| "epoch": 1.0506666666666666, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.7787, |
| "step": 3940 |
| }, |
| { |
| "epoch": 1.0533333333333332, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.6925, |
| "step": 3950 |
| }, |
| { |
| "epoch": 1.056, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.7436, |
| "step": 3960 |
| }, |
| { |
| "epoch": 1.0586666666666666, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.7476, |
| "step": 3970 |
| }, |
| { |
| "epoch": 1.0613333333333332, |
| "grad_norm": 3.234375, |
| "learning_rate": 5e-05, |
| "loss": 8.6918, |
| "step": 3980 |
| }, |
| { |
| "epoch": 1.064, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.7247, |
| "step": 3990 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.6937, |
| "step": 4000 |
| }, |
| { |
| "epoch": 1.0693333333333332, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.796, |
| "step": 4010 |
| }, |
| { |
| "epoch": 1.072, |
| "grad_norm": 4.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.6301, |
| "step": 4020 |
| }, |
| { |
| "epoch": 1.0746666666666667, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.7184, |
| "step": 4030 |
| }, |
| { |
| "epoch": 1.0773333333333333, |
| "grad_norm": 3.25, |
| "learning_rate": 5e-05, |
| "loss": 8.6705, |
| "step": 4040 |
| }, |
| { |
| "epoch": 1.08, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.7739, |
| "step": 4050 |
| }, |
| { |
| "epoch": 1.0826666666666667, |
| "grad_norm": 3.859375, |
| "learning_rate": 5e-05, |
| "loss": 8.7336, |
| "step": 4060 |
| }, |
| { |
| "epoch": 1.0853333333333333, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.6794, |
| "step": 4070 |
| }, |
| { |
| "epoch": 1.088, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.7368, |
| "step": 4080 |
| }, |
| { |
| "epoch": 1.0906666666666667, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.6867, |
| "step": 4090 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.6763, |
| "step": 4100 |
| }, |
| { |
| "epoch": 1.096, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.7819, |
| "step": 4110 |
| }, |
| { |
| "epoch": 1.0986666666666667, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.673, |
| "step": 4120 |
| }, |
| { |
| "epoch": 1.1013333333333333, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.7987, |
| "step": 4130 |
| }, |
| { |
| "epoch": 1.104, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.7294, |
| "step": 4140 |
| }, |
| { |
| "epoch": 1.1066666666666667, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.691, |
| "step": 4150 |
| }, |
| { |
| "epoch": 1.1093333333333333, |
| "grad_norm": 2.984375, |
| "learning_rate": 5e-05, |
| "loss": 8.7871, |
| "step": 4160 |
| }, |
| { |
| "epoch": 1.112, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.7172, |
| "step": 4170 |
| }, |
| { |
| "epoch": 1.1146666666666667, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.695, |
| "step": 4180 |
| }, |
| { |
| "epoch": 1.1173333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.8026, |
| "step": 4190 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.7174, |
| "step": 4200 |
| }, |
| { |
| "epoch": 1.1226666666666667, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.6617, |
| "step": 4210 |
| }, |
| { |
| "epoch": 1.1253333333333333, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.7579, |
| "step": 4220 |
| }, |
| { |
| "epoch": 1.1280000000000001, |
| "grad_norm": 3.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.7623, |
| "step": 4230 |
| }, |
| { |
| "epoch": 1.1306666666666667, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.7362, |
| "step": 4240 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.6792, |
| "step": 4250 |
| }, |
| { |
| "epoch": 1.1360000000000001, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.6331, |
| "step": 4260 |
| }, |
| { |
| "epoch": 1.1386666666666667, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.7171, |
| "step": 4270 |
| }, |
| { |
| "epoch": 1.1413333333333333, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.7579, |
| "step": 4280 |
| }, |
| { |
| "epoch": 1.144, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.6708, |
| "step": 4290 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 2.75, |
| "learning_rate": 5e-05, |
| "loss": 8.7337, |
| "step": 4300 |
| }, |
| { |
| "epoch": 1.1493333333333333, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.7275, |
| "step": 4310 |
| }, |
| { |
| "epoch": 1.152, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.6959, |
| "step": 4320 |
| }, |
| { |
| "epoch": 1.1546666666666667, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.6473, |
| "step": 4330 |
| }, |
| { |
| "epoch": 1.1573333333333333, |
| "grad_norm": 3.171875, |
| "learning_rate": 5e-05, |
| "loss": 8.7016, |
| "step": 4340 |
| }, |
| { |
| "epoch": 1.16, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.6011, |
| "step": 4350 |
| }, |
| { |
| "epoch": 1.1626666666666667, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.7292, |
| "step": 4360 |
| }, |
| { |
| "epoch": 1.1653333333333333, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.762, |
| "step": 4370 |
| }, |
| { |
| "epoch": 1.168, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.6861, |
| "step": 4380 |
| }, |
| { |
| "epoch": 1.1706666666666667, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.6942, |
| "step": 4390 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.704, |
| "step": 4400 |
| }, |
| { |
| "epoch": 1.176, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.7035, |
| "step": 4410 |
| }, |
| { |
| "epoch": 1.1786666666666668, |
| "grad_norm": 2.859375, |
| "learning_rate": 5e-05, |
| "loss": 8.6753, |
| "step": 4420 |
| }, |
| { |
| "epoch": 1.1813333333333333, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.7025, |
| "step": 4430 |
| }, |
| { |
| "epoch": 1.184, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.6857, |
| "step": 4440 |
| }, |
| { |
| "epoch": 1.1866666666666668, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.7001, |
| "step": 4450 |
| }, |
| { |
| "epoch": 1.1893333333333334, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.7129, |
| "step": 4460 |
| }, |
| { |
| "epoch": 1.192, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.7568, |
| "step": 4470 |
| }, |
| { |
| "epoch": 1.1946666666666665, |
| "grad_norm": 3.046875, |
| "learning_rate": 5e-05, |
| "loss": 8.6526, |
| "step": 4480 |
| }, |
| { |
| "epoch": 1.1973333333333334, |
| "grad_norm": 3.109375, |
| "learning_rate": 5e-05, |
| "loss": 8.6935, |
| "step": 4490 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.6572, |
| "step": 4500 |
| }, |
| { |
| "epoch": 1.2026666666666666, |
| "grad_norm": 2.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.6901, |
| "step": 4510 |
| }, |
| { |
| "epoch": 1.2053333333333334, |
| "grad_norm": 3.171875, |
| "learning_rate": 5e-05, |
| "loss": 8.7106, |
| "step": 4520 |
| }, |
| { |
| "epoch": 1.208, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.6638, |
| "step": 4530 |
| }, |
| { |
| "epoch": 1.2106666666666666, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.7011, |
| "step": 4540 |
| }, |
| { |
| "epoch": 1.2133333333333334, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.7156, |
| "step": 4550 |
| }, |
| { |
| "epoch": 1.216, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.6572, |
| "step": 4560 |
| }, |
| { |
| "epoch": 1.2186666666666666, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.659, |
| "step": 4570 |
| }, |
| { |
| "epoch": 1.2213333333333334, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.6484, |
| "step": 4580 |
| }, |
| { |
| "epoch": 1.224, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.6486, |
| "step": 4590 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.5558, |
| "step": 4600 |
| }, |
| { |
| "epoch": 1.2293333333333334, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.6917, |
| "step": 4610 |
| }, |
| { |
| "epoch": 1.232, |
| "grad_norm": 3.984375, |
| "learning_rate": 5e-05, |
| "loss": 8.6924, |
| "step": 4620 |
| }, |
| { |
| "epoch": 1.2346666666666666, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.6504, |
| "step": 4630 |
| }, |
| { |
| "epoch": 1.2373333333333334, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.6403, |
| "step": 4640 |
| }, |
| { |
| "epoch": 1.24, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.6102, |
| "step": 4650 |
| }, |
| { |
| "epoch": 1.2426666666666666, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.6625, |
| "step": 4660 |
| }, |
| { |
| "epoch": 1.2453333333333334, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.6719, |
| "step": 4670 |
| }, |
| { |
| "epoch": 1.248, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.6142, |
| "step": 4680 |
| }, |
| { |
| "epoch": 1.2506666666666666, |
| "grad_norm": 2.875, |
| "learning_rate": 5e-05, |
| "loss": 8.7342, |
| "step": 4690 |
| }, |
| { |
| "epoch": 1.2533333333333334, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.5965, |
| "step": 4700 |
| }, |
| { |
| "epoch": 1.256, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.6557, |
| "step": 4710 |
| }, |
| { |
| "epoch": 1.2586666666666666, |
| "grad_norm": 4.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.6241, |
| "step": 4720 |
| }, |
| { |
| "epoch": 1.2613333333333334, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.7325, |
| "step": 4730 |
| }, |
| { |
| "epoch": 1.264, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.6574, |
| "step": 4740 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 4.25, |
| "learning_rate": 5e-05, |
| "loss": 8.5803, |
| "step": 4750 |
| }, |
| { |
| "epoch": 1.2693333333333334, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.6993, |
| "step": 4760 |
| }, |
| { |
| "epoch": 1.272, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.6366, |
| "step": 4770 |
| }, |
| { |
| "epoch": 1.2746666666666666, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.6141, |
| "step": 4780 |
| }, |
| { |
| "epoch": 1.2773333333333334, |
| "grad_norm": 4.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.6508, |
| "step": 4790 |
| }, |
| { |
| "epoch": 1.28, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.673, |
| "step": 4800 |
| }, |
| { |
| "epoch": 1.2826666666666666, |
| "grad_norm": 2.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.6687, |
| "step": 4810 |
| }, |
| { |
| "epoch": 1.2853333333333334, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.7113, |
| "step": 4820 |
| }, |
| { |
| "epoch": 1.288, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.6409, |
| "step": 4830 |
| }, |
| { |
| "epoch": 1.2906666666666666, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.6644, |
| "step": 4840 |
| }, |
| { |
| "epoch": 1.2933333333333334, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.564, |
| "step": 4850 |
| }, |
| { |
| "epoch": 1.296, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.5957, |
| "step": 4860 |
| }, |
| { |
| "epoch": 1.2986666666666666, |
| "grad_norm": 3.109375, |
| "learning_rate": 5e-05, |
| "loss": 8.6735, |
| "step": 4870 |
| }, |
| { |
| "epoch": 1.3013333333333335, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 8.6784, |
| "step": 4880 |
| }, |
| { |
| "epoch": 1.304, |
| "grad_norm": 5.0, |
| "learning_rate": 5e-05, |
| "loss": 8.6793, |
| "step": 4890 |
| }, |
| { |
| "epoch": 1.3066666666666666, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.6369, |
| "step": 4900 |
| }, |
| { |
| "epoch": 1.3093333333333335, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.6359, |
| "step": 4910 |
| }, |
| { |
| "epoch": 1.312, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.6969, |
| "step": 4920 |
| }, |
| { |
| "epoch": 1.3146666666666667, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.7275, |
| "step": 4930 |
| }, |
| { |
| "epoch": 1.3173333333333335, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.6723, |
| "step": 4940 |
| }, |
| { |
| "epoch": 1.32, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.7038, |
| "step": 4950 |
| }, |
| { |
| "epoch": 1.3226666666666667, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.655, |
| "step": 4960 |
| }, |
| { |
| "epoch": 1.3253333333333333, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.5811, |
| "step": 4970 |
| }, |
| { |
| "epoch": 1.328, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.6238, |
| "step": 4980 |
| }, |
| { |
| "epoch": 1.3306666666666667, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.6653, |
| "step": 4990 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.6001, |
| "step": 5000 |
| }, |
| { |
| "epoch": 1.336, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.6779, |
| "step": 5010 |
| }, |
| { |
| "epoch": 1.3386666666666667, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.6725, |
| "step": 5020 |
| }, |
| { |
| "epoch": 1.3413333333333333, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.6688, |
| "step": 5030 |
| }, |
| { |
| "epoch": 1.3439999999999999, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.5453, |
| "step": 5040 |
| }, |
| { |
| "epoch": 1.3466666666666667, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.6429, |
| "step": 5050 |
| }, |
| { |
| "epoch": 1.3493333333333333, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.6254, |
| "step": 5060 |
| }, |
| { |
| "epoch": 1.3519999999999999, |
| "grad_norm": 3.25, |
| "learning_rate": 5e-05, |
| "loss": 8.6079, |
| "step": 5070 |
| }, |
| { |
| "epoch": 1.3546666666666667, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.6289, |
| "step": 5080 |
| }, |
| { |
| "epoch": 1.3573333333333333, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.6029, |
| "step": 5090 |
| }, |
| { |
| "epoch": 1.3599999999999999, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.5965, |
| "step": 5100 |
| }, |
| { |
| "epoch": 1.3626666666666667, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.6517, |
| "step": 5110 |
| }, |
| { |
| "epoch": 1.3653333333333333, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.6274, |
| "step": 5120 |
| }, |
| { |
| "epoch": 1.3679999999999999, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.6839, |
| "step": 5130 |
| }, |
| { |
| "epoch": 1.3706666666666667, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.7047, |
| "step": 5140 |
| }, |
| { |
| "epoch": 1.3733333333333333, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.6501, |
| "step": 5150 |
| }, |
| { |
| "epoch": 1.376, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.6347, |
| "step": 5160 |
| }, |
| { |
| "epoch": 1.3786666666666667, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.6583, |
| "step": 5170 |
| }, |
| { |
| "epoch": 1.3813333333333333, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.4911, |
| "step": 5180 |
| }, |
| { |
| "epoch": 1.384, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.6375, |
| "step": 5190 |
| }, |
| { |
| "epoch": 1.3866666666666667, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.7026, |
| "step": 5200 |
| }, |
| { |
| "epoch": 1.3893333333333333, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.6019, |
| "step": 5210 |
| }, |
| { |
| "epoch": 1.392, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.5993, |
| "step": 5220 |
| }, |
| { |
| "epoch": 1.3946666666666667, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.6636, |
| "step": 5230 |
| }, |
| { |
| "epoch": 1.3973333333333333, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.5969, |
| "step": 5240 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.6128, |
| "step": 5250 |
| }, |
| { |
| "epoch": 1.4026666666666667, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.6121, |
| "step": 5260 |
| }, |
| { |
| "epoch": 1.4053333333333333, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.5983, |
| "step": 5270 |
| }, |
| { |
| "epoch": 1.408, |
| "grad_norm": 2.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.6046, |
| "step": 5280 |
| }, |
| { |
| "epoch": 1.4106666666666667, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.6434, |
| "step": 5290 |
| }, |
| { |
| "epoch": 1.4133333333333333, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.6253, |
| "step": 5300 |
| }, |
| { |
| "epoch": 1.416, |
| "grad_norm": 4.1875, |
| "learning_rate": 5e-05, |
| "loss": 8.6822, |
| "step": 5310 |
| }, |
| { |
| "epoch": 1.4186666666666667, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.6089, |
| "step": 5320 |
| }, |
| { |
| "epoch": 1.4213333333333333, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.7294, |
| "step": 5330 |
| }, |
| { |
| "epoch": 1.424, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.5811, |
| "step": 5340 |
| }, |
| { |
| "epoch": 1.4266666666666667, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.5553, |
| "step": 5350 |
| }, |
| { |
| "epoch": 1.4293333333333333, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.5118, |
| "step": 5360 |
| }, |
| { |
| "epoch": 1.432, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.6547, |
| "step": 5370 |
| }, |
| { |
| "epoch": 1.4346666666666668, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.4599, |
| "step": 5380 |
| }, |
| { |
| "epoch": 1.4373333333333334, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.6262, |
| "step": 5390 |
| }, |
| { |
| "epoch": 1.44, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.584, |
| "step": 5400 |
| }, |
| { |
| "epoch": 1.4426666666666668, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.6713, |
| "step": 5410 |
| }, |
| { |
| "epoch": 1.4453333333333334, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.5114, |
| "step": 5420 |
| }, |
| { |
| "epoch": 1.448, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.5719, |
| "step": 5430 |
| }, |
| { |
| "epoch": 1.4506666666666668, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.4808, |
| "step": 5440 |
| }, |
| { |
| "epoch": 1.4533333333333334, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.5614, |
| "step": 5450 |
| }, |
| { |
| "epoch": 1.456, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.476, |
| "step": 5460 |
| }, |
| { |
| "epoch": 1.4586666666666668, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.617, |
| "step": 5470 |
| }, |
| { |
| "epoch": 1.4613333333333334, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.5677, |
| "step": 5480 |
| }, |
| { |
| "epoch": 1.464, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.5872, |
| "step": 5490 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.6089, |
| "step": 5500 |
| }, |
| { |
| "epoch": 1.4693333333333334, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.6228, |
| "step": 5510 |
| }, |
| { |
| "epoch": 1.472, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.6318, |
| "step": 5520 |
| }, |
| { |
| "epoch": 1.4746666666666668, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.6433, |
| "step": 5530 |
| }, |
| { |
| "epoch": 1.4773333333333334, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.5664, |
| "step": 5540 |
| }, |
| { |
| "epoch": 1.48, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.6109, |
| "step": 5550 |
| }, |
| { |
| "epoch": 1.4826666666666668, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.5947, |
| "step": 5560 |
| }, |
| { |
| "epoch": 1.4853333333333334, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.5976, |
| "step": 5570 |
| }, |
| { |
| "epoch": 1.488, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.5191, |
| "step": 5580 |
| }, |
| { |
| "epoch": 1.4906666666666666, |
| "grad_norm": 4.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.6561, |
| "step": 5590 |
| }, |
| { |
| "epoch": 1.4933333333333334, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.5823, |
| "step": 5600 |
| }, |
| { |
| "epoch": 1.496, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.5854, |
| "step": 5610 |
| }, |
| { |
| "epoch": 1.4986666666666666, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 8.6228, |
| "step": 5620 |
| }, |
| { |
| "epoch": 1.5013333333333332, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.6922, |
| "step": 5630 |
| }, |
| { |
| "epoch": 1.504, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.5462, |
| "step": 5640 |
| }, |
| { |
| "epoch": 1.5066666666666668, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.6556, |
| "step": 5650 |
| }, |
| { |
| "epoch": 1.5093333333333332, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.6224, |
| "step": 5660 |
| }, |
| { |
| "epoch": 1.512, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.5796, |
| "step": 5670 |
| }, |
| { |
| "epoch": 1.5146666666666668, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 8.589, |
| "step": 5680 |
| }, |
| { |
| "epoch": 1.5173333333333332, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.5876, |
| "step": 5690 |
| }, |
| { |
| "epoch": 1.52, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.5751, |
| "step": 5700 |
| }, |
| { |
| "epoch": 1.5226666666666666, |
| "grad_norm": 3.0, |
| "learning_rate": 5e-05, |
| "loss": 8.5862, |
| "step": 5710 |
| }, |
| { |
| "epoch": 1.5253333333333332, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.6323, |
| "step": 5720 |
| }, |
| { |
| "epoch": 1.528, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.5967, |
| "step": 5730 |
| }, |
| { |
| "epoch": 1.5306666666666666, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.555, |
| "step": 5740 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.5394, |
| "step": 5750 |
| }, |
| { |
| "epoch": 1.536, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.62, |
| "step": 5760 |
| }, |
| { |
| "epoch": 1.5386666666666666, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.5603, |
| "step": 5770 |
| }, |
| { |
| "epoch": 1.5413333333333332, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.5232, |
| "step": 5780 |
| }, |
| { |
| "epoch": 1.544, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.5971, |
| "step": 5790 |
| }, |
| { |
| "epoch": 1.5466666666666666, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.6031, |
| "step": 5800 |
| }, |
| { |
| "epoch": 1.5493333333333332, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.6187, |
| "step": 5810 |
| }, |
| { |
| "epoch": 1.552, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.5813, |
| "step": 5820 |
| }, |
| { |
| "epoch": 1.5546666666666666, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.5745, |
| "step": 5830 |
| }, |
| { |
| "epoch": 1.5573333333333332, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.5447, |
| "step": 5840 |
| }, |
| { |
| "epoch": 1.56, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.5222, |
| "step": 5850 |
| }, |
| { |
| "epoch": 1.5626666666666666, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.6144, |
| "step": 5860 |
| }, |
| { |
| "epoch": 1.5653333333333332, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.5623, |
| "step": 5870 |
| }, |
| { |
| "epoch": 1.568, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.5845, |
| "step": 5880 |
| }, |
| { |
| "epoch": 1.5706666666666667, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.6351, |
| "step": 5890 |
| }, |
| { |
| "epoch": 1.5733333333333333, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.5446, |
| "step": 5900 |
| }, |
| { |
| "epoch": 1.576, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 8.6036, |
| "step": 5910 |
| }, |
| { |
| "epoch": 1.5786666666666667, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.5835, |
| "step": 5920 |
| }, |
| { |
| "epoch": 1.5813333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.4803, |
| "step": 5930 |
| }, |
| { |
| "epoch": 1.584, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.5633, |
| "step": 5940 |
| }, |
| { |
| "epoch": 1.5866666666666667, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.6141, |
| "step": 5950 |
| }, |
| { |
| "epoch": 1.5893333333333333, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.5231, |
| "step": 5960 |
| }, |
| { |
| "epoch": 1.592, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.5337, |
| "step": 5970 |
| }, |
| { |
| "epoch": 1.5946666666666667, |
| "grad_norm": 3.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.5591, |
| "step": 5980 |
| }, |
| { |
| "epoch": 1.5973333333333333, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.5885, |
| "step": 5990 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.497, |
| "step": 6000 |
| }, |
| { |
| "epoch": 1.6026666666666667, |
| "grad_norm": 3.046875, |
| "learning_rate": 5e-05, |
| "loss": 8.5879, |
| "step": 6010 |
| }, |
| { |
| "epoch": 1.6053333333333333, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.5074, |
| "step": 6020 |
| }, |
| { |
| "epoch": 1.608, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.5938, |
| "step": 6030 |
| }, |
| { |
| "epoch": 1.6106666666666667, |
| "grad_norm": 3.171875, |
| "learning_rate": 5e-05, |
| "loss": 8.5598, |
| "step": 6040 |
| }, |
| { |
| "epoch": 1.6133333333333333, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.5732, |
| "step": 6050 |
| }, |
| { |
| "epoch": 1.616, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.5917, |
| "step": 6060 |
| }, |
| { |
| "epoch": 1.6186666666666667, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.5606, |
| "step": 6070 |
| }, |
| { |
| "epoch": 1.6213333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.6154, |
| "step": 6080 |
| }, |
| { |
| "epoch": 1.624, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.4492, |
| "step": 6090 |
| }, |
| { |
| "epoch": 1.6266666666666667, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.5907, |
| "step": 6100 |
| }, |
| { |
| "epoch": 1.6293333333333333, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 8.614, |
| "step": 6110 |
| }, |
| { |
| "epoch": 1.6320000000000001, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.541, |
| "step": 6120 |
| }, |
| { |
| "epoch": 1.6346666666666667, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.508, |
| "step": 6130 |
| }, |
| { |
| "epoch": 1.6373333333333333, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.5224, |
| "step": 6140 |
| }, |
| { |
| "epoch": 1.6400000000000001, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.65, |
| "step": 6150 |
| }, |
| { |
| "epoch": 1.6426666666666667, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.4739, |
| "step": 6160 |
| }, |
| { |
| "epoch": 1.6453333333333333, |
| "grad_norm": 3.140625, |
| "learning_rate": 5e-05, |
| "loss": 8.5727, |
| "step": 6170 |
| }, |
| { |
| "epoch": 1.6480000000000001, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.5965, |
| "step": 6180 |
| }, |
| { |
| "epoch": 1.6506666666666665, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.5191, |
| "step": 6190 |
| }, |
| { |
| "epoch": 1.6533333333333333, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.5929, |
| "step": 6200 |
| }, |
| { |
| "epoch": 1.6560000000000001, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.6351, |
| "step": 6210 |
| }, |
| { |
| "epoch": 1.6586666666666665, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.4666, |
| "step": 6220 |
| }, |
| { |
| "epoch": 1.6613333333333333, |
| "grad_norm": 2.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.5731, |
| "step": 6230 |
| }, |
| { |
| "epoch": 1.6640000000000001, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 8.6132, |
| "step": 6240 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.5358, |
| "step": 6250 |
| }, |
| { |
| "epoch": 1.6693333333333333, |
| "grad_norm": 3.234375, |
| "learning_rate": 5e-05, |
| "loss": 8.4424, |
| "step": 6260 |
| }, |
| { |
| "epoch": 1.6720000000000002, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.5644, |
| "step": 6270 |
| }, |
| { |
| "epoch": 1.6746666666666665, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.5273, |
| "step": 6280 |
| }, |
| { |
| "epoch": 1.6773333333333333, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 8.5741, |
| "step": 6290 |
| }, |
| { |
| "epoch": 1.6800000000000002, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.5112, |
| "step": 6300 |
| }, |
| { |
| "epoch": 1.6826666666666665, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.5082, |
| "step": 6310 |
| }, |
| { |
| "epoch": 1.6853333333333333, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.4702, |
| "step": 6320 |
| }, |
| { |
| "epoch": 1.688, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.5579, |
| "step": 6330 |
| }, |
| { |
| "epoch": 1.6906666666666665, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.5671, |
| "step": 6340 |
| }, |
| { |
| "epoch": 1.6933333333333334, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.4889, |
| "step": 6350 |
| }, |
| { |
| "epoch": 1.696, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.4103, |
| "step": 6360 |
| }, |
| { |
| "epoch": 1.6986666666666665, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.467, |
| "step": 6370 |
| }, |
| { |
| "epoch": 1.7013333333333334, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.4528, |
| "step": 6380 |
| }, |
| { |
| "epoch": 1.704, |
| "grad_norm": 2.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.5825, |
| "step": 6390 |
| }, |
| { |
| "epoch": 1.7066666666666666, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.59, |
| "step": 6400 |
| }, |
| { |
| "epoch": 1.7093333333333334, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.5321, |
| "step": 6410 |
| }, |
| { |
| "epoch": 1.712, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.3842, |
| "step": 6420 |
| }, |
| { |
| "epoch": 1.7146666666666666, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.4924, |
| "step": 6430 |
| }, |
| { |
| "epoch": 1.7173333333333334, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.5926, |
| "step": 6440 |
| }, |
| { |
| "epoch": 1.72, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.4559, |
| "step": 6450 |
| }, |
| { |
| "epoch": 1.7226666666666666, |
| "grad_norm": 2.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.527, |
| "step": 6460 |
| }, |
| { |
| "epoch": 1.7253333333333334, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.5794, |
| "step": 6470 |
| }, |
| { |
| "epoch": 1.728, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.6779, |
| "step": 6480 |
| }, |
| { |
| "epoch": 1.7306666666666666, |
| "grad_norm": 4.375, |
| "learning_rate": 5e-05, |
| "loss": 8.576, |
| "step": 6490 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.5871, |
| "step": 6500 |
| }, |
| { |
| "epoch": 1.736, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.542, |
| "step": 6510 |
| }, |
| { |
| "epoch": 1.7386666666666666, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.4706, |
| "step": 6520 |
| }, |
| { |
| "epoch": 1.7413333333333334, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.5719, |
| "step": 6530 |
| }, |
| { |
| "epoch": 1.744, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.5483, |
| "step": 6540 |
| }, |
| { |
| "epoch": 1.7466666666666666, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4821, |
| "step": 6550 |
| }, |
| { |
| "epoch": 1.7493333333333334, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.4338, |
| "step": 6560 |
| }, |
| { |
| "epoch": 1.752, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.6344, |
| "step": 6570 |
| }, |
| { |
| "epoch": 1.7546666666666666, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.4767, |
| "step": 6580 |
| }, |
| { |
| "epoch": 1.7573333333333334, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.558, |
| "step": 6590 |
| }, |
| { |
| "epoch": 1.76, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.511, |
| "step": 6600 |
| }, |
| { |
| "epoch": 1.7626666666666666, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.5303, |
| "step": 6610 |
| }, |
| { |
| "epoch": 1.7653333333333334, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.5713, |
| "step": 6620 |
| }, |
| { |
| "epoch": 1.768, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.5541, |
| "step": 6630 |
| }, |
| { |
| "epoch": 1.7706666666666666, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 8.5192, |
| "step": 6640 |
| }, |
| { |
| "epoch": 1.7733333333333334, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.6113, |
| "step": 6650 |
| }, |
| { |
| "epoch": 1.776, |
| "grad_norm": 4.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.561, |
| "step": 6660 |
| }, |
| { |
| "epoch": 1.7786666666666666, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.5964, |
| "step": 6670 |
| }, |
| { |
| "epoch": 1.7813333333333334, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.4891, |
| "step": 6680 |
| }, |
| { |
| "epoch": 1.784, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.5411, |
| "step": 6690 |
| }, |
| { |
| "epoch": 1.7866666666666666, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.529, |
| "step": 6700 |
| }, |
| { |
| "epoch": 1.7893333333333334, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.6079, |
| "step": 6710 |
| }, |
| { |
| "epoch": 1.792, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.5954, |
| "step": 6720 |
| }, |
| { |
| "epoch": 1.7946666666666666, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.5559, |
| "step": 6730 |
| }, |
| { |
| "epoch": 1.7973333333333334, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.4952, |
| "step": 6740 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.5621, |
| "step": 6750 |
| }, |
| { |
| "epoch": 1.8026666666666666, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.5473, |
| "step": 6760 |
| }, |
| { |
| "epoch": 1.8053333333333335, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.5703, |
| "step": 6770 |
| }, |
| { |
| "epoch": 1.808, |
| "grad_norm": 3.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.5151, |
| "step": 6780 |
| }, |
| { |
| "epoch": 1.8106666666666666, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.4987, |
| "step": 6790 |
| }, |
| { |
| "epoch": 1.8133333333333335, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.4792, |
| "step": 6800 |
| }, |
| { |
| "epoch": 1.8159999999999998, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.5375, |
| "step": 6810 |
| }, |
| { |
| "epoch": 1.8186666666666667, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.5858, |
| "step": 6820 |
| }, |
| { |
| "epoch": 1.8213333333333335, |
| "grad_norm": 3.234375, |
| "learning_rate": 5e-05, |
| "loss": 8.517, |
| "step": 6830 |
| }, |
| { |
| "epoch": 1.8239999999999998, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.5081, |
| "step": 6840 |
| }, |
| { |
| "epoch": 1.8266666666666667, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.6012, |
| "step": 6850 |
| }, |
| { |
| "epoch": 1.8293333333333335, |
| "grad_norm": 4.375, |
| "learning_rate": 5e-05, |
| "loss": 8.5624, |
| "step": 6860 |
| }, |
| { |
| "epoch": 1.8319999999999999, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.5767, |
| "step": 6870 |
| }, |
| { |
| "epoch": 1.8346666666666667, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.5398, |
| "step": 6880 |
| }, |
| { |
| "epoch": 1.8373333333333335, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.4925, |
| "step": 6890 |
| }, |
| { |
| "epoch": 1.8399999999999999, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.5159, |
| "step": 6900 |
| }, |
| { |
| "epoch": 1.8426666666666667, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.518, |
| "step": 6910 |
| }, |
| { |
| "epoch": 1.8453333333333335, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 8.4422, |
| "step": 6920 |
| }, |
| { |
| "epoch": 1.8479999999999999, |
| "grad_norm": 3.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.5514, |
| "step": 6930 |
| }, |
| { |
| "epoch": 1.8506666666666667, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.4729, |
| "step": 6940 |
| }, |
| { |
| "epoch": 1.8533333333333335, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.4828, |
| "step": 6950 |
| }, |
| { |
| "epoch": 1.8559999999999999, |
| "grad_norm": 4.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.6071, |
| "step": 6960 |
| }, |
| { |
| "epoch": 1.8586666666666667, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 8.4915, |
| "step": 6970 |
| }, |
| { |
| "epoch": 1.8613333333333333, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 8.5481, |
| "step": 6980 |
| }, |
| { |
| "epoch": 1.8639999999999999, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.4365, |
| "step": 6990 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.4495, |
| "step": 7000 |
| }, |
| { |
| "epoch": 1.8693333333333333, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.4822, |
| "step": 7010 |
| }, |
| { |
| "epoch": 1.8719999999999999, |
| "grad_norm": 3.234375, |
| "learning_rate": 5e-05, |
| "loss": 8.4989, |
| "step": 7020 |
| }, |
| { |
| "epoch": 1.8746666666666667, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.4934, |
| "step": 7030 |
| }, |
| { |
| "epoch": 1.8773333333333333, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.4656, |
| "step": 7040 |
| }, |
| { |
| "epoch": 1.88, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.4763, |
| "step": 7050 |
| }, |
| { |
| "epoch": 1.8826666666666667, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.5058, |
| "step": 7060 |
| }, |
| { |
| "epoch": 1.8853333333333333, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.558, |
| "step": 7070 |
| }, |
| { |
| "epoch": 1.888, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.5794, |
| "step": 7080 |
| }, |
| { |
| "epoch": 1.8906666666666667, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.5904, |
| "step": 7090 |
| }, |
| { |
| "epoch": 1.8933333333333333, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.4718, |
| "step": 7100 |
| }, |
| { |
| "epoch": 1.896, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.5251, |
| "step": 7110 |
| }, |
| { |
| "epoch": 1.8986666666666667, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.4081, |
| "step": 7120 |
| }, |
| { |
| "epoch": 1.9013333333333333, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.5322, |
| "step": 7130 |
| }, |
| { |
| "epoch": 1.904, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.6064, |
| "step": 7140 |
| }, |
| { |
| "epoch": 1.9066666666666667, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.4637, |
| "step": 7150 |
| }, |
| { |
| "epoch": 1.9093333333333333, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.5089, |
| "step": 7160 |
| }, |
| { |
| "epoch": 1.912, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.4904, |
| "step": 7170 |
| }, |
| { |
| "epoch": 1.9146666666666667, |
| "grad_norm": 3.109375, |
| "learning_rate": 5e-05, |
| "loss": 8.5078, |
| "step": 7180 |
| }, |
| { |
| "epoch": 1.9173333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.4706, |
| "step": 7190 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.5437, |
| "step": 7200 |
| }, |
| { |
| "epoch": 1.9226666666666667, |
| "grad_norm": 3.234375, |
| "learning_rate": 5e-05, |
| "loss": 8.5425, |
| "step": 7210 |
| }, |
| { |
| "epoch": 1.9253333333333333, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.441, |
| "step": 7220 |
| }, |
| { |
| "epoch": 1.928, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.5605, |
| "step": 7230 |
| }, |
| { |
| "epoch": 1.9306666666666668, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.5426, |
| "step": 7240 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.396, |
| "step": 7250 |
| }, |
| { |
| "epoch": 1.936, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.4331, |
| "step": 7260 |
| }, |
| { |
| "epoch": 1.9386666666666668, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.5459, |
| "step": 7270 |
| }, |
| { |
| "epoch": 1.9413333333333334, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.5222, |
| "step": 7280 |
| }, |
| { |
| "epoch": 1.944, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.5466, |
| "step": 7290 |
| }, |
| { |
| "epoch": 1.9466666666666668, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4933, |
| "step": 7300 |
| }, |
| { |
| "epoch": 1.9493333333333334, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.5517, |
| "step": 7310 |
| }, |
| { |
| "epoch": 1.952, |
| "grad_norm": 3.859375, |
| "learning_rate": 5e-05, |
| "loss": 8.5072, |
| "step": 7320 |
| }, |
| { |
| "epoch": 1.9546666666666668, |
| "grad_norm": 3.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.4758, |
| "step": 7330 |
| }, |
| { |
| "epoch": 1.9573333333333334, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.4883, |
| "step": 7340 |
| }, |
| { |
| "epoch": 1.96, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.4851, |
| "step": 7350 |
| }, |
| { |
| "epoch": 1.9626666666666668, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.4725, |
| "step": 7360 |
| }, |
| { |
| "epoch": 1.9653333333333334, |
| "grad_norm": 3.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.4518, |
| "step": 7370 |
| }, |
| { |
| "epoch": 1.968, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.4889, |
| "step": 7380 |
| }, |
| { |
| "epoch": 1.9706666666666668, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.4629, |
| "step": 7390 |
| }, |
| { |
| "epoch": 1.9733333333333334, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.537, |
| "step": 7400 |
| }, |
| { |
| "epoch": 1.976, |
| "grad_norm": 3.0, |
| "learning_rate": 5e-05, |
| "loss": 8.5166, |
| "step": 7410 |
| }, |
| { |
| "epoch": 1.9786666666666668, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.3775, |
| "step": 7420 |
| }, |
| { |
| "epoch": 1.9813333333333332, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.5668, |
| "step": 7430 |
| }, |
| { |
| "epoch": 1.984, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4867, |
| "step": 7440 |
| }, |
| { |
| "epoch": 1.9866666666666668, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.4918, |
| "step": 7450 |
| }, |
| { |
| "epoch": 1.9893333333333332, |
| "grad_norm": 3.390625, |
| "learning_rate": 5e-05, |
| "loss": 8.5235, |
| "step": 7460 |
| }, |
| { |
| "epoch": 1.992, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.4905, |
| "step": 7470 |
| }, |
| { |
| "epoch": 1.9946666666666668, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.4935, |
| "step": 7480 |
| }, |
| { |
| "epoch": 1.9973333333333332, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.5003, |
| "step": 7490 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.5143, |
| "step": 7500 |
| }, |
| { |
| "epoch": 2.002666666666667, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.332, |
| "step": 7510 |
| }, |
| { |
| "epoch": 2.005333333333333, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.3508, |
| "step": 7520 |
| }, |
| { |
| "epoch": 2.008, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.4023, |
| "step": 7530 |
| }, |
| { |
| "epoch": 2.010666666666667, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.4722, |
| "step": 7540 |
| }, |
| { |
| "epoch": 2.013333333333333, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.4394, |
| "step": 7550 |
| }, |
| { |
| "epoch": 2.016, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.3801, |
| "step": 7560 |
| }, |
| { |
| "epoch": 2.018666666666667, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.4388, |
| "step": 7570 |
| }, |
| { |
| "epoch": 2.021333333333333, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.4604, |
| "step": 7580 |
| }, |
| { |
| "epoch": 2.024, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.4928, |
| "step": 7590 |
| }, |
| { |
| "epoch": 2.026666666666667, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.3133, |
| "step": 7600 |
| }, |
| { |
| "epoch": 2.029333333333333, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.4401, |
| "step": 7610 |
| }, |
| { |
| "epoch": 2.032, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.3209, |
| "step": 7620 |
| }, |
| { |
| "epoch": 2.034666666666667, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.4897, |
| "step": 7630 |
| }, |
| { |
| "epoch": 2.037333333333333, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 8.4166, |
| "step": 7640 |
| }, |
| { |
| "epoch": 2.04, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.4569, |
| "step": 7650 |
| }, |
| { |
| "epoch": 2.042666666666667, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.4011, |
| "step": 7660 |
| }, |
| { |
| "epoch": 2.0453333333333332, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.3643, |
| "step": 7670 |
| }, |
| { |
| "epoch": 2.048, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4129, |
| "step": 7680 |
| }, |
| { |
| "epoch": 2.050666666666667, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.418, |
| "step": 7690 |
| }, |
| { |
| "epoch": 2.0533333333333332, |
| "grad_norm": 3.984375, |
| "learning_rate": 5e-05, |
| "loss": 8.3578, |
| "step": 7700 |
| }, |
| { |
| "epoch": 2.056, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.3547, |
| "step": 7710 |
| }, |
| { |
| "epoch": 2.058666666666667, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.4492, |
| "step": 7720 |
| }, |
| { |
| "epoch": 2.0613333333333332, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.4105, |
| "step": 7730 |
| }, |
| { |
| "epoch": 2.064, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.4885, |
| "step": 7740 |
| }, |
| { |
| "epoch": 2.066666666666667, |
| "grad_norm": 4.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.4048, |
| "step": 7750 |
| }, |
| { |
| "epoch": 2.0693333333333332, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.3348, |
| "step": 7760 |
| }, |
| { |
| "epoch": 2.072, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.361, |
| "step": 7770 |
| }, |
| { |
| "epoch": 2.074666666666667, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.4188, |
| "step": 7780 |
| }, |
| { |
| "epoch": 2.0773333333333333, |
| "grad_norm": 3.1875, |
| "learning_rate": 5e-05, |
| "loss": 8.3337, |
| "step": 7790 |
| }, |
| { |
| "epoch": 2.08, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.4736, |
| "step": 7800 |
| }, |
| { |
| "epoch": 2.0826666666666664, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.3918, |
| "step": 7810 |
| }, |
| { |
| "epoch": 2.0853333333333333, |
| "grad_norm": 3.859375, |
| "learning_rate": 5e-05, |
| "loss": 8.401, |
| "step": 7820 |
| }, |
| { |
| "epoch": 2.088, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.4377, |
| "step": 7830 |
| }, |
| { |
| "epoch": 2.0906666666666665, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3613, |
| "step": 7840 |
| }, |
| { |
| "epoch": 2.0933333333333333, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3717, |
| "step": 7850 |
| }, |
| { |
| "epoch": 2.096, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.4026, |
| "step": 7860 |
| }, |
| { |
| "epoch": 2.0986666666666665, |
| "grad_norm": 3.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.4735, |
| "step": 7870 |
| }, |
| { |
| "epoch": 2.1013333333333333, |
| "grad_norm": 4.25, |
| "learning_rate": 5e-05, |
| "loss": 8.3725, |
| "step": 7880 |
| }, |
| { |
| "epoch": 2.104, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.4048, |
| "step": 7890 |
| }, |
| { |
| "epoch": 2.1066666666666665, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.4571, |
| "step": 7900 |
| }, |
| { |
| "epoch": 2.1093333333333333, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.482, |
| "step": 7910 |
| }, |
| { |
| "epoch": 2.112, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.3953, |
| "step": 7920 |
| }, |
| { |
| "epoch": 2.1146666666666665, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.4823, |
| "step": 7930 |
| }, |
| { |
| "epoch": 2.1173333333333333, |
| "grad_norm": 3.015625, |
| "learning_rate": 5e-05, |
| "loss": 8.3374, |
| "step": 7940 |
| }, |
| { |
| "epoch": 2.12, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.3737, |
| "step": 7950 |
| }, |
| { |
| "epoch": 2.1226666666666665, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.4138, |
| "step": 7960 |
| }, |
| { |
| "epoch": 2.1253333333333333, |
| "grad_norm": 4.09375, |
| "learning_rate": 5e-05, |
| "loss": 8.3734, |
| "step": 7970 |
| }, |
| { |
| "epoch": 2.128, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.4801, |
| "step": 7980 |
| }, |
| { |
| "epoch": 2.1306666666666665, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.4273, |
| "step": 7990 |
| }, |
| { |
| "epoch": 2.1333333333333333, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.3919, |
| "step": 8000 |
| }, |
| { |
| "epoch": 2.136, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.4952, |
| "step": 8010 |
| }, |
| { |
| "epoch": 2.1386666666666665, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.3403, |
| "step": 8020 |
| }, |
| { |
| "epoch": 2.1413333333333333, |
| "grad_norm": 3.125, |
| "learning_rate": 5e-05, |
| "loss": 8.4555, |
| "step": 8030 |
| }, |
| { |
| "epoch": 2.144, |
| "grad_norm": 4.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.3876, |
| "step": 8040 |
| }, |
| { |
| "epoch": 2.1466666666666665, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.3839, |
| "step": 8050 |
| }, |
| { |
| "epoch": 2.1493333333333333, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.4707, |
| "step": 8060 |
| }, |
| { |
| "epoch": 2.152, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.4097, |
| "step": 8070 |
| }, |
| { |
| "epoch": 2.1546666666666665, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.4364, |
| "step": 8080 |
| }, |
| { |
| "epoch": 2.1573333333333333, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.4178, |
| "step": 8090 |
| }, |
| { |
| "epoch": 2.16, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.4467, |
| "step": 8100 |
| }, |
| { |
| "epoch": 2.1626666666666665, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.3096, |
| "step": 8110 |
| }, |
| { |
| "epoch": 2.1653333333333333, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.3934, |
| "step": 8120 |
| }, |
| { |
| "epoch": 2.168, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.3867, |
| "step": 8130 |
| }, |
| { |
| "epoch": 2.1706666666666665, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.4006, |
| "step": 8140 |
| }, |
| { |
| "epoch": 2.1733333333333333, |
| "grad_norm": 3.078125, |
| "learning_rate": 5e-05, |
| "loss": 8.391, |
| "step": 8150 |
| }, |
| { |
| "epoch": 2.176, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.3886, |
| "step": 8160 |
| }, |
| { |
| "epoch": 2.1786666666666665, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3494, |
| "step": 8170 |
| }, |
| { |
| "epoch": 2.1813333333333333, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.3447, |
| "step": 8180 |
| }, |
| { |
| "epoch": 2.184, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3852, |
| "step": 8190 |
| }, |
| { |
| "epoch": 2.1866666666666665, |
| "grad_norm": 3.25, |
| "learning_rate": 5e-05, |
| "loss": 8.4316, |
| "step": 8200 |
| }, |
| { |
| "epoch": 2.1893333333333334, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.4058, |
| "step": 8210 |
| }, |
| { |
| "epoch": 2.192, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.3817, |
| "step": 8220 |
| }, |
| { |
| "epoch": 2.1946666666666665, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.363, |
| "step": 8230 |
| }, |
| { |
| "epoch": 2.1973333333333334, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.363, |
| "step": 8240 |
| }, |
| { |
| "epoch": 2.2, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.3754, |
| "step": 8250 |
| }, |
| { |
| "epoch": 2.2026666666666666, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.3754, |
| "step": 8260 |
| }, |
| { |
| "epoch": 2.2053333333333334, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3609, |
| "step": 8270 |
| }, |
| { |
| "epoch": 2.208, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.3442, |
| "step": 8280 |
| }, |
| { |
| "epoch": 2.2106666666666666, |
| "grad_norm": 3.1875, |
| "learning_rate": 5e-05, |
| "loss": 8.3905, |
| "step": 8290 |
| }, |
| { |
| "epoch": 2.2133333333333334, |
| "grad_norm": 4.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.3059, |
| "step": 8300 |
| }, |
| { |
| "epoch": 2.216, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.4205, |
| "step": 8310 |
| }, |
| { |
| "epoch": 2.2186666666666666, |
| "grad_norm": 3.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.4029, |
| "step": 8320 |
| }, |
| { |
| "epoch": 2.2213333333333334, |
| "grad_norm": 3.640625, |
| "learning_rate": 5e-05, |
| "loss": 8.2663, |
| "step": 8330 |
| }, |
| { |
| "epoch": 2.224, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3837, |
| "step": 8340 |
| }, |
| { |
| "epoch": 2.2266666666666666, |
| "grad_norm": 4.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.2925, |
| "step": 8350 |
| }, |
| { |
| "epoch": 2.2293333333333334, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.4147, |
| "step": 8360 |
| }, |
| { |
| "epoch": 2.232, |
| "grad_norm": 3.109375, |
| "learning_rate": 5e-05, |
| "loss": 8.432, |
| "step": 8370 |
| }, |
| { |
| "epoch": 2.2346666666666666, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.4209, |
| "step": 8380 |
| }, |
| { |
| "epoch": 2.2373333333333334, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.407, |
| "step": 8390 |
| }, |
| { |
| "epoch": 2.24, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.3395, |
| "step": 8400 |
| }, |
| { |
| "epoch": 2.2426666666666666, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.4336, |
| "step": 8410 |
| }, |
| { |
| "epoch": 2.2453333333333334, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.34, |
| "step": 8420 |
| }, |
| { |
| "epoch": 2.248, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.5166, |
| "step": 8430 |
| }, |
| { |
| "epoch": 2.2506666666666666, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3446, |
| "step": 8440 |
| }, |
| { |
| "epoch": 2.2533333333333334, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.3443, |
| "step": 8450 |
| }, |
| { |
| "epoch": 2.2560000000000002, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.3425, |
| "step": 8460 |
| }, |
| { |
| "epoch": 2.2586666666666666, |
| "grad_norm": 4.125, |
| "learning_rate": 5e-05, |
| "loss": 8.3932, |
| "step": 8470 |
| }, |
| { |
| "epoch": 2.2613333333333334, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.3787, |
| "step": 8480 |
| }, |
| { |
| "epoch": 2.2640000000000002, |
| "grad_norm": 4.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.3504, |
| "step": 8490 |
| }, |
| { |
| "epoch": 2.2666666666666666, |
| "grad_norm": 3.796875, |
| "learning_rate": 5e-05, |
| "loss": 8.418, |
| "step": 8500 |
| }, |
| { |
| "epoch": 2.2693333333333334, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.4061, |
| "step": 8510 |
| }, |
| { |
| "epoch": 2.2720000000000002, |
| "grad_norm": 3.875, |
| "learning_rate": 5e-05, |
| "loss": 8.2642, |
| "step": 8520 |
| }, |
| { |
| "epoch": 2.2746666666666666, |
| "grad_norm": 3.859375, |
| "learning_rate": 5e-05, |
| "loss": 8.3829, |
| "step": 8530 |
| }, |
| { |
| "epoch": 2.2773333333333334, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.4213, |
| "step": 8540 |
| }, |
| { |
| "epoch": 2.2800000000000002, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.3465, |
| "step": 8550 |
| }, |
| { |
| "epoch": 2.2826666666666666, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.356, |
| "step": 8560 |
| }, |
| { |
| "epoch": 2.2853333333333334, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.3858, |
| "step": 8570 |
| }, |
| { |
| "epoch": 2.288, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3875, |
| "step": 8580 |
| }, |
| { |
| "epoch": 2.2906666666666666, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.3977, |
| "step": 8590 |
| }, |
| { |
| "epoch": 2.2933333333333334, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.375, |
| "step": 8600 |
| }, |
| { |
| "epoch": 2.296, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.4593, |
| "step": 8610 |
| }, |
| { |
| "epoch": 2.2986666666666666, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.4033, |
| "step": 8620 |
| }, |
| { |
| "epoch": 2.3013333333333335, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3465, |
| "step": 8630 |
| }, |
| { |
| "epoch": 2.304, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.356, |
| "step": 8640 |
| }, |
| { |
| "epoch": 2.3066666666666666, |
| "grad_norm": 3.78125, |
| "learning_rate": 5e-05, |
| "loss": 8.3258, |
| "step": 8650 |
| }, |
| { |
| "epoch": 2.3093333333333335, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.3226, |
| "step": 8660 |
| }, |
| { |
| "epoch": 2.312, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.3652, |
| "step": 8670 |
| }, |
| { |
| "epoch": 2.3146666666666667, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.4954, |
| "step": 8680 |
| }, |
| { |
| "epoch": 2.3173333333333335, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.3055, |
| "step": 8690 |
| }, |
| { |
| "epoch": 2.32, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.3442, |
| "step": 8700 |
| }, |
| { |
| "epoch": 2.3226666666666667, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.3536, |
| "step": 8710 |
| }, |
| { |
| "epoch": 2.3253333333333335, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.2991, |
| "step": 8720 |
| }, |
| { |
| "epoch": 2.328, |
| "grad_norm": 3.5, |
| "learning_rate": 5e-05, |
| "loss": 8.3714, |
| "step": 8730 |
| }, |
| { |
| "epoch": 2.3306666666666667, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.3396, |
| "step": 8740 |
| }, |
| { |
| "epoch": 2.3333333333333335, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.2554, |
| "step": 8750 |
| }, |
| { |
| "epoch": 2.336, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.4486, |
| "step": 8760 |
| }, |
| { |
| "epoch": 2.3386666666666667, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.4133, |
| "step": 8770 |
| }, |
| { |
| "epoch": 2.3413333333333335, |
| "grad_norm": 3.328125, |
| "learning_rate": 5e-05, |
| "loss": 8.4044, |
| "step": 8780 |
| }, |
| { |
| "epoch": 2.344, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.3514, |
| "step": 8790 |
| }, |
| { |
| "epoch": 2.3466666666666667, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.3556, |
| "step": 8800 |
| }, |
| { |
| "epoch": 2.3493333333333335, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.3895, |
| "step": 8810 |
| }, |
| { |
| "epoch": 2.352, |
| "grad_norm": 3.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.3508, |
| "step": 8820 |
| }, |
| { |
| "epoch": 2.3546666666666667, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.3866, |
| "step": 8830 |
| }, |
| { |
| "epoch": 2.3573333333333335, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.4261, |
| "step": 8840 |
| }, |
| { |
| "epoch": 2.36, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.4172, |
| "step": 8850 |
| }, |
| { |
| "epoch": 2.3626666666666667, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.355, |
| "step": 8860 |
| }, |
| { |
| "epoch": 2.3653333333333335, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4041, |
| "step": 8870 |
| }, |
| { |
| "epoch": 2.368, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3288, |
| "step": 8880 |
| }, |
| { |
| "epoch": 2.3706666666666667, |
| "grad_norm": 3.84375, |
| "learning_rate": 5e-05, |
| "loss": 8.3875, |
| "step": 8890 |
| }, |
| { |
| "epoch": 2.3733333333333335, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.3253, |
| "step": 8900 |
| }, |
| { |
| "epoch": 2.376, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.4186, |
| "step": 8910 |
| }, |
| { |
| "epoch": 2.3786666666666667, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.3284, |
| "step": 8920 |
| }, |
| { |
| "epoch": 2.3813333333333335, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4258, |
| "step": 8930 |
| }, |
| { |
| "epoch": 2.384, |
| "grad_norm": 4.375, |
| "learning_rate": 5e-05, |
| "loss": 8.3507, |
| "step": 8940 |
| }, |
| { |
| "epoch": 2.3866666666666667, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.4096, |
| "step": 8950 |
| }, |
| { |
| "epoch": 2.389333333333333, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.4393, |
| "step": 8960 |
| }, |
| { |
| "epoch": 2.392, |
| "grad_norm": 3.734375, |
| "learning_rate": 5e-05, |
| "loss": 8.4187, |
| "step": 8970 |
| }, |
| { |
| "epoch": 2.3946666666666667, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.4179, |
| "step": 8980 |
| }, |
| { |
| "epoch": 2.397333333333333, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.3166, |
| "step": 8990 |
| }, |
| { |
| "epoch": 2.4, |
| "grad_norm": 4.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.2742, |
| "step": 9000 |
| }, |
| { |
| "epoch": 2.4026666666666667, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.464, |
| "step": 9010 |
| }, |
| { |
| "epoch": 2.405333333333333, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.3783, |
| "step": 9020 |
| }, |
| { |
| "epoch": 2.408, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.4269, |
| "step": 9030 |
| }, |
| { |
| "epoch": 2.4106666666666667, |
| "grad_norm": 3.859375, |
| "learning_rate": 5e-05, |
| "loss": 8.3586, |
| "step": 9040 |
| }, |
| { |
| "epoch": 2.413333333333333, |
| "grad_norm": 4.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.3239, |
| "step": 9050 |
| }, |
| { |
| "epoch": 2.416, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.3536, |
| "step": 9060 |
| }, |
| { |
| "epoch": 2.4186666666666667, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.4236, |
| "step": 9070 |
| }, |
| { |
| "epoch": 2.421333333333333, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.4555, |
| "step": 9080 |
| }, |
| { |
| "epoch": 2.424, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.3247, |
| "step": 9090 |
| }, |
| { |
| "epoch": 2.4266666666666667, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.3792, |
| "step": 9100 |
| }, |
| { |
| "epoch": 2.429333333333333, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.4055, |
| "step": 9110 |
| }, |
| { |
| "epoch": 2.432, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.3226, |
| "step": 9120 |
| }, |
| { |
| "epoch": 2.4346666666666668, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.3969, |
| "step": 9130 |
| }, |
| { |
| "epoch": 2.437333333333333, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.3356, |
| "step": 9140 |
| }, |
| { |
| "epoch": 2.44, |
| "grad_norm": 3.9375, |
| "learning_rate": 5e-05, |
| "loss": 8.3909, |
| "step": 9150 |
| }, |
| { |
| "epoch": 2.4426666666666668, |
| "grad_norm": 3.296875, |
| "learning_rate": 5e-05, |
| "loss": 8.4148, |
| "step": 9160 |
| }, |
| { |
| "epoch": 2.445333333333333, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.3769, |
| "step": 9170 |
| }, |
| { |
| "epoch": 2.448, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.2872, |
| "step": 9180 |
| }, |
| { |
| "epoch": 2.4506666666666668, |
| "grad_norm": 3.203125, |
| "learning_rate": 5e-05, |
| "loss": 8.398, |
| "step": 9190 |
| }, |
| { |
| "epoch": 2.453333333333333, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.4092, |
| "step": 9200 |
| }, |
| { |
| "epoch": 2.456, |
| "grad_norm": 3.703125, |
| "learning_rate": 5e-05, |
| "loss": 8.392, |
| "step": 9210 |
| }, |
| { |
| "epoch": 2.458666666666667, |
| "grad_norm": 4.1875, |
| "learning_rate": 5e-05, |
| "loss": 8.2785, |
| "step": 9220 |
| }, |
| { |
| "epoch": 2.461333333333333, |
| "grad_norm": 3.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.339, |
| "step": 9230 |
| }, |
| { |
| "epoch": 2.464, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.2926, |
| "step": 9240 |
| }, |
| { |
| "epoch": 2.466666666666667, |
| "grad_norm": 3.765625, |
| "learning_rate": 5e-05, |
| "loss": 8.4579, |
| "step": 9250 |
| }, |
| { |
| "epoch": 2.469333333333333, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3867, |
| "step": 9260 |
| }, |
| { |
| "epoch": 2.472, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.4056, |
| "step": 9270 |
| }, |
| { |
| "epoch": 2.474666666666667, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.3216, |
| "step": 9280 |
| }, |
| { |
| "epoch": 2.477333333333333, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.2881, |
| "step": 9290 |
| }, |
| { |
| "epoch": 2.48, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.3675, |
| "step": 9300 |
| }, |
| { |
| "epoch": 2.482666666666667, |
| "grad_norm": 3.59375, |
| "learning_rate": 5e-05, |
| "loss": 8.3628, |
| "step": 9310 |
| }, |
| { |
| "epoch": 2.485333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.4069, |
| "step": 9320 |
| }, |
| { |
| "epoch": 2.488, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.2892, |
| "step": 9330 |
| }, |
| { |
| "epoch": 2.490666666666667, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.3817, |
| "step": 9340 |
| }, |
| { |
| "epoch": 2.493333333333333, |
| "grad_norm": 3.453125, |
| "learning_rate": 5e-05, |
| "loss": 8.3718, |
| "step": 9350 |
| }, |
| { |
| "epoch": 2.496, |
| "grad_norm": 4.03125, |
| "learning_rate": 5e-05, |
| "loss": 8.3237, |
| "step": 9360 |
| }, |
| { |
| "epoch": 2.498666666666667, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.3112, |
| "step": 9370 |
| }, |
| { |
| "epoch": 2.501333333333333, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.3542, |
| "step": 9380 |
| }, |
| { |
| "epoch": 2.504, |
| "grad_norm": 3.921875, |
| "learning_rate": 5e-05, |
| "loss": 8.2692, |
| "step": 9390 |
| }, |
| { |
| "epoch": 2.506666666666667, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.3019, |
| "step": 9400 |
| }, |
| { |
| "epoch": 2.509333333333333, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.4043, |
| "step": 9410 |
| }, |
| { |
| "epoch": 2.512, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.4561, |
| "step": 9420 |
| }, |
| { |
| "epoch": 2.514666666666667, |
| "grad_norm": 3.21875, |
| "learning_rate": 5e-05, |
| "loss": 8.3569, |
| "step": 9430 |
| }, |
| { |
| "epoch": 2.517333333333333, |
| "grad_norm": 4.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.3696, |
| "step": 9440 |
| }, |
| { |
| "epoch": 2.52, |
| "grad_norm": 3.890625, |
| "learning_rate": 5e-05, |
| "loss": 8.3672, |
| "step": 9450 |
| }, |
| { |
| "epoch": 2.522666666666667, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3086, |
| "step": 9460 |
| }, |
| { |
| "epoch": 2.525333333333333, |
| "grad_norm": 3.6875, |
| "learning_rate": 5e-05, |
| "loss": 8.3924, |
| "step": 9470 |
| }, |
| { |
| "epoch": 2.528, |
| "grad_norm": 4.375, |
| "learning_rate": 5e-05, |
| "loss": 8.3117, |
| "step": 9480 |
| }, |
| { |
| "epoch": 2.530666666666667, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.3966, |
| "step": 9490 |
| }, |
| { |
| "epoch": 2.533333333333333, |
| "grad_norm": 3.4375, |
| "learning_rate": 5e-05, |
| "loss": 8.3803, |
| "step": 9500 |
| }, |
| { |
| "epoch": 2.536, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 8.4408, |
| "step": 9510 |
| }, |
| { |
| "epoch": 2.538666666666667, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.3459, |
| "step": 9520 |
| }, |
| { |
| "epoch": 2.541333333333333, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.2409, |
| "step": 9530 |
| }, |
| { |
| "epoch": 2.544, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 8.2638, |
| "step": 9540 |
| }, |
| { |
| "epoch": 2.546666666666667, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.3063, |
| "step": 9550 |
| }, |
| { |
| "epoch": 2.5493333333333332, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.3212, |
| "step": 9560 |
| }, |
| { |
| "epoch": 2.552, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.4372, |
| "step": 9570 |
| }, |
| { |
| "epoch": 2.554666666666667, |
| "grad_norm": 3.546875, |
| "learning_rate": 5e-05, |
| "loss": 8.2926, |
| "step": 9580 |
| }, |
| { |
| "epoch": 2.5573333333333332, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.2972, |
| "step": 9590 |
| }, |
| { |
| "epoch": 2.56, |
| "grad_norm": 3.90625, |
| "learning_rate": 5e-05, |
| "loss": 8.2943, |
| "step": 9600 |
| }, |
| { |
| "epoch": 2.562666666666667, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.3699, |
| "step": 9610 |
| }, |
| { |
| "epoch": 2.5653333333333332, |
| "grad_norm": 3.953125, |
| "learning_rate": 5e-05, |
| "loss": 8.321, |
| "step": 9620 |
| }, |
| { |
| "epoch": 2.568, |
| "grad_norm": 3.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.3429, |
| "step": 9630 |
| }, |
| { |
| "epoch": 2.570666666666667, |
| "grad_norm": 3.3125, |
| "learning_rate": 5e-05, |
| "loss": 8.426, |
| "step": 9640 |
| }, |
| { |
| "epoch": 2.5733333333333333, |
| "grad_norm": 3.265625, |
| "learning_rate": 5e-05, |
| "loss": 8.2175, |
| "step": 9650 |
| }, |
| { |
| "epoch": 2.576, |
| "grad_norm": 3.421875, |
| "learning_rate": 5e-05, |
| "loss": 8.3261, |
| "step": 9660 |
| }, |
| { |
| "epoch": 2.578666666666667, |
| "grad_norm": 3.65625, |
| "learning_rate": 5e-05, |
| "loss": 8.3222, |
| "step": 9670 |
| }, |
| { |
| "epoch": 2.5813333333333333, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.3359, |
| "step": 9680 |
| }, |
| { |
| "epoch": 2.584, |
| "grad_norm": 3.359375, |
| "learning_rate": 5e-05, |
| "loss": 8.3796, |
| "step": 9690 |
| }, |
| { |
| "epoch": 2.586666666666667, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.3266, |
| "step": 9700 |
| }, |
| { |
| "epoch": 2.5893333333333333, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.4311, |
| "step": 9710 |
| }, |
| { |
| "epoch": 2.592, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.3577, |
| "step": 9720 |
| }, |
| { |
| "epoch": 2.594666666666667, |
| "grad_norm": 3.625, |
| "learning_rate": 5e-05, |
| "loss": 8.2954, |
| "step": 9730 |
| }, |
| { |
| "epoch": 2.5973333333333333, |
| "grad_norm": 3.71875, |
| "learning_rate": 5e-05, |
| "loss": 8.299, |
| "step": 9740 |
| }, |
| { |
| "epoch": 2.6, |
| "grad_norm": 3.578125, |
| "learning_rate": 5e-05, |
| "loss": 8.3302, |
| "step": 9750 |
| }, |
| { |
| "epoch": 2.602666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.3474, |
| "step": 9760 |
| }, |
| { |
| "epoch": 2.6053333333333333, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.3863, |
| "step": 9770 |
| }, |
| { |
| "epoch": 2.608, |
| "grad_norm": 3.96875, |
| "learning_rate": 5e-05, |
| "loss": 8.2551, |
| "step": 9780 |
| }, |
| { |
| "epoch": 2.610666666666667, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.4702, |
| "step": 9790 |
| }, |
| { |
| "epoch": 2.6133333333333333, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.3566, |
| "step": 9800 |
| }, |
| { |
| "epoch": 2.616, |
| "grad_norm": 4.28125, |
| "learning_rate": 5e-05, |
| "loss": 8.3878, |
| "step": 9810 |
| }, |
| { |
| "epoch": 2.618666666666667, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.4194, |
| "step": 9820 |
| }, |
| { |
| "epoch": 2.6213333333333333, |
| "grad_norm": 3.484375, |
| "learning_rate": 5e-05, |
| "loss": 8.3354, |
| "step": 9830 |
| }, |
| { |
| "epoch": 2.624, |
| "grad_norm": 3.5625, |
| "learning_rate": 5e-05, |
| "loss": 8.3281, |
| "step": 9840 |
| }, |
| { |
| "epoch": 2.626666666666667, |
| "grad_norm": 3.34375, |
| "learning_rate": 5e-05, |
| "loss": 8.4448, |
| "step": 9850 |
| }, |
| { |
| "epoch": 2.6293333333333333, |
| "grad_norm": 4.15625, |
| "learning_rate": 5e-05, |
| "loss": 8.4688, |
| "step": 9860 |
| }, |
| { |
| "epoch": 2.632, |
| "grad_norm": 3.53125, |
| "learning_rate": 5e-05, |
| "loss": 8.318, |
| "step": 9870 |
| }, |
| { |
| "epoch": 2.634666666666667, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.2967, |
| "step": 9880 |
| }, |
| { |
| "epoch": 2.6373333333333333, |
| "grad_norm": 4.0, |
| "learning_rate": 5e-05, |
| "loss": 8.2724, |
| "step": 9890 |
| }, |
| { |
| "epoch": 2.64, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.2993, |
| "step": 9900 |
| }, |
| { |
| "epoch": 2.642666666666667, |
| "grad_norm": 4.46875, |
| "learning_rate": 5e-05, |
| "loss": 8.3305, |
| "step": 9910 |
| }, |
| { |
| "epoch": 2.6453333333333333, |
| "grad_norm": 3.375, |
| "learning_rate": 5e-05, |
| "loss": 8.3948, |
| "step": 9920 |
| }, |
| { |
| "epoch": 2.648, |
| "grad_norm": 3.515625, |
| "learning_rate": 5e-05, |
| "loss": 8.4176, |
| "step": 9930 |
| }, |
| { |
| "epoch": 2.6506666666666665, |
| "grad_norm": 3.609375, |
| "learning_rate": 5e-05, |
| "loss": 8.3245, |
| "step": 9940 |
| }, |
| { |
| "epoch": 2.6533333333333333, |
| "grad_norm": 3.8125, |
| "learning_rate": 5e-05, |
| "loss": 8.3752, |
| "step": 9950 |
| }, |
| { |
| "epoch": 2.656, |
| "grad_norm": 4.40625, |
| "learning_rate": 5e-05, |
| "loss": 8.3213, |
| "step": 9960 |
| }, |
| { |
| "epoch": 2.6586666666666665, |
| "grad_norm": 3.75, |
| "learning_rate": 5e-05, |
| "loss": 8.3632, |
| "step": 9970 |
| }, |
| { |
| "epoch": 2.6613333333333333, |
| "grad_norm": 4.0625, |
| "learning_rate": 5e-05, |
| "loss": 8.3122, |
| "step": 9980 |
| }, |
| { |
| "epoch": 2.664, |
| "grad_norm": 3.828125, |
| "learning_rate": 5e-05, |
| "loss": 8.3917, |
| "step": 9990 |
| }, |
| { |
| "epoch": 2.6666666666666665, |
| "grad_norm": 3.671875, |
| "learning_rate": 5e-05, |
| "loss": 8.3175, |
| "step": 10000 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 10000, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": true |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.258109377821532e+17, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|