| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 1.8333333333333335, | |
| "eval_steps": 500, | |
| "global_step": 5500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0033333333333333335, | |
| "grad_norm": 31.375, | |
| "learning_rate": 8e-05, | |
| "loss": 3.7929, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 21.25, | |
| "learning_rate": 8e-05, | |
| "loss": 3.148, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 21.375, | |
| "learning_rate": 8e-05, | |
| "loss": 3.0908, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 19.75, | |
| "learning_rate": 8e-05, | |
| "loss": 2.9399, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 22.375, | |
| "learning_rate": 8e-05, | |
| "loss": 2.7765, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 20.25, | |
| "learning_rate": 8e-05, | |
| "loss": 2.1794, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.023333333333333334, | |
| "grad_norm": 36.25, | |
| "learning_rate": 8e-05, | |
| "loss": 2.2676, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 27.125, | |
| "learning_rate": 8e-05, | |
| "loss": 2.6547, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.03, | |
| "grad_norm": 18.75, | |
| "learning_rate": 8e-05, | |
| "loss": 2.4368, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 20.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.7289, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.03666666666666667, | |
| "grad_norm": 27.75, | |
| "learning_rate": 8e-05, | |
| "loss": 2.1116, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 18.625, | |
| "learning_rate": 8e-05, | |
| "loss": 2.0407, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.043333333333333335, | |
| "grad_norm": 32.5, | |
| "learning_rate": 8e-05, | |
| "loss": 2.0913, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 21.125, | |
| "learning_rate": 8e-05, | |
| "loss": 2.2282, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 14.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 2.0761, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 29.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8582, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.056666666666666664, | |
| "grad_norm": 19.375, | |
| "learning_rate": 8e-05, | |
| "loss": 2.1367, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 18.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.7402, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.06333333333333334, | |
| "grad_norm": 15.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5356, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 15.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5126, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "grad_norm": 21.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8978, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 14.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.9682, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.07666666666666666, | |
| "grad_norm": 15.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.474, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 14.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.9926, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 15.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.9286, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 21.375, | |
| "learning_rate": 8e-05, | |
| "loss": 2.1986, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 12.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8814, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 11.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6575, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.09666666666666666, | |
| "grad_norm": 13.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.718, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 20.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6656, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.10333333333333333, | |
| "grad_norm": 15.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5677, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 9.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3565, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.11, | |
| "grad_norm": 15.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.9722, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.11333333333333333, | |
| "grad_norm": 13.625, | |
| "learning_rate": 8e-05, | |
| "loss": 2.0481, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 20.375, | |
| "learning_rate": 8e-05, | |
| "loss": 2.0189, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 12.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4388, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.12333333333333334, | |
| "grad_norm": 14.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5514, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.12666666666666668, | |
| "grad_norm": 17.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4547, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.13, | |
| "grad_norm": 16.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2481, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 11.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6155, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.13666666666666666, | |
| "grad_norm": 17.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5433, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 14.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.341, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.14333333333333334, | |
| "grad_norm": 15.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8352, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 21.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6776, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 15.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5878, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.15333333333333332, | |
| "grad_norm": 9.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4318, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.15666666666666668, | |
| "grad_norm": 19.375, | |
| "learning_rate": 8e-05, | |
| "loss": 2.1154, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 18.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2984, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.16333333333333333, | |
| "grad_norm": 11.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8941, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 21.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8376, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "eval_loss": 1.966795802116394, | |
| "eval_runtime": 1.4933, | |
| "eval_samples_per_second": 66.964, | |
| "eval_steps_per_second": 66.964, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.17, | |
| "grad_norm": 11.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4669, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 14.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5271, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.17666666666666667, | |
| "grad_norm": 15.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.324, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "grad_norm": 15.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3112, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 12.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.63, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 27.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8947, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.19, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1481, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.19333333333333333, | |
| "grad_norm": 18.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.981, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.19666666666666666, | |
| "grad_norm": 13.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6207, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 12.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.256, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.20333333333333334, | |
| "grad_norm": 14.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3009, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.20666666666666667, | |
| "grad_norm": 13.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3396, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.21, | |
| "grad_norm": 7.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3633, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 18.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3612, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 15.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4465, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.22, | |
| "grad_norm": 14.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8267, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.22333333333333333, | |
| "grad_norm": 7.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1913, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 17.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4176, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.23, | |
| "grad_norm": 17.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2347, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 17.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4197, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.23666666666666666, | |
| "grad_norm": 9.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1041, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 11.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3469, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.24333333333333335, | |
| "grad_norm": 12.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2701, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.24666666666666667, | |
| "grad_norm": 14.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5301, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 10.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5207, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4237, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 0.25666666666666665, | |
| "grad_norm": 15.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6761, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "grad_norm": 13.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1909, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 0.2633333333333333, | |
| "grad_norm": 12.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3235, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 13.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6189, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.27, | |
| "grad_norm": 17.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3584, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 0.2733333333333333, | |
| "grad_norm": 5.71875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3963, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 0.27666666666666667, | |
| "grad_norm": 12.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4556, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 16.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.31, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 15.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.9185, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.2866666666666667, | |
| "grad_norm": 11.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5779, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 0.29, | |
| "grad_norm": 18.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3979, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 12.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1311, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 0.2966666666666667, | |
| "grad_norm": 16.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.598, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 6.78125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2326, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.30333333333333334, | |
| "grad_norm": 12.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2988, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 15.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.212, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 0.31, | |
| "grad_norm": 7.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3268, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 0.31333333333333335, | |
| "grad_norm": 17.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3641, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 8.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.312, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 13.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4937, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 0.3233333333333333, | |
| "grad_norm": 8.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0728, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 0.32666666666666666, | |
| "grad_norm": 12.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1938, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 0.33, | |
| "grad_norm": 8.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1703, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 5.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6129, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "eval_loss": 1.6106005907058716, | |
| "eval_runtime": 1.5095, | |
| "eval_samples_per_second": 66.249, | |
| "eval_steps_per_second": 66.249, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.33666666666666667, | |
| "grad_norm": 11.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2093, | |
| "step": 1010 | |
| }, | |
| { | |
| "epoch": 0.34, | |
| "grad_norm": 17.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2458, | |
| "step": 1020 | |
| }, | |
| { | |
| "epoch": 0.3433333333333333, | |
| "grad_norm": 9.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3032, | |
| "step": 1030 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 17.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2791, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 7.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2859, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.35333333333333333, | |
| "grad_norm": 9.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6731, | |
| "step": 1060 | |
| }, | |
| { | |
| "epoch": 0.3566666666666667, | |
| "grad_norm": 10.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9607, | |
| "step": 1070 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 10.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2513, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 0.36333333333333334, | |
| "grad_norm": 15.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5032, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 12.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8248, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.37, | |
| "grad_norm": 7.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0109, | |
| "step": 1110 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 14.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2995, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 0.37666666666666665, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6192, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "grad_norm": 8.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4933, | |
| "step": 1140 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 18.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2595, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 0.38666666666666666, | |
| "grad_norm": 16.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0554, | |
| "step": 1160 | |
| }, | |
| { | |
| "epoch": 0.39, | |
| "grad_norm": 14.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3212, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 0.3933333333333333, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.163, | |
| "step": 1180 | |
| }, | |
| { | |
| "epoch": 0.39666666666666667, | |
| "grad_norm": 15.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6691, | |
| "step": 1190 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 13.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9269, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.4033333333333333, | |
| "grad_norm": 15.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2617, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 0.4066666666666667, | |
| "grad_norm": 10.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2103, | |
| "step": 1220 | |
| }, | |
| { | |
| "epoch": 0.41, | |
| "grad_norm": 10.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.06, | |
| "step": 1230 | |
| }, | |
| { | |
| "epoch": 0.41333333333333333, | |
| "grad_norm": 8.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1669, | |
| "step": 1240 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 14.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8515, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "grad_norm": 12.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8689, | |
| "step": 1260 | |
| }, | |
| { | |
| "epoch": 0.42333333333333334, | |
| "grad_norm": 12.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0939, | |
| "step": 1270 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 7.53125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3105, | |
| "step": 1280 | |
| }, | |
| { | |
| "epoch": 0.43, | |
| "grad_norm": 15.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6286, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 15.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.468, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.43666666666666665, | |
| "grad_norm": 10.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2465, | |
| "step": 1310 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 8.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9342, | |
| "step": 1320 | |
| }, | |
| { | |
| "epoch": 0.44333333333333336, | |
| "grad_norm": 18.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4561, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 0.44666666666666666, | |
| "grad_norm": 14.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2254, | |
| "step": 1340 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 13.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5919, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 9.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0516, | |
| "step": 1360 | |
| }, | |
| { | |
| "epoch": 0.45666666666666667, | |
| "grad_norm": 12.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.197, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "grad_norm": 13.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2144, | |
| "step": 1380 | |
| }, | |
| { | |
| "epoch": 0.4633333333333333, | |
| "grad_norm": 9.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9973, | |
| "step": 1390 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 17.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.8518, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.47, | |
| "grad_norm": 8.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9273, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 0.47333333333333333, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4137, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 0.4766666666666667, | |
| "grad_norm": 12.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8136, | |
| "step": 1430 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 10.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.39, | |
| "step": 1440 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 11.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9037, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 0.4866666666666667, | |
| "grad_norm": 10.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5845, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 0.49, | |
| "grad_norm": 10.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.6661, | |
| "step": 1470 | |
| }, | |
| { | |
| "epoch": 0.49333333333333335, | |
| "grad_norm": 7.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.083, | |
| "step": 1480 | |
| }, | |
| { | |
| "epoch": 0.49666666666666665, | |
| "grad_norm": 13.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1422, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1393, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "eval_loss": 1.5809861421585083, | |
| "eval_runtime": 1.483, | |
| "eval_samples_per_second": 67.429, | |
| "eval_steps_per_second": 67.429, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.5033333333333333, | |
| "grad_norm": 8.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8686, | |
| "step": 1510 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 9.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4827, | |
| "step": 1520 | |
| }, | |
| { | |
| "epoch": 0.51, | |
| "grad_norm": 16.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5385, | |
| "step": 1530 | |
| }, | |
| { | |
| "epoch": 0.5133333333333333, | |
| "grad_norm": 14.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1622, | |
| "step": 1540 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 5.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8973, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 6.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4794, | |
| "step": 1560 | |
| }, | |
| { | |
| "epoch": 0.5233333333333333, | |
| "grad_norm": 11.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2969, | |
| "step": 1570 | |
| }, | |
| { | |
| "epoch": 0.5266666666666666, | |
| "grad_norm": 9.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2002, | |
| "step": 1580 | |
| }, | |
| { | |
| "epoch": 0.53, | |
| "grad_norm": 14.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5348, | |
| "step": 1590 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 11.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2332, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.5366666666666666, | |
| "grad_norm": 9.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2609, | |
| "step": 1610 | |
| }, | |
| { | |
| "epoch": 0.54, | |
| "grad_norm": 15.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8256, | |
| "step": 1620 | |
| }, | |
| { | |
| "epoch": 0.5433333333333333, | |
| "grad_norm": 6.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0224, | |
| "step": 1630 | |
| }, | |
| { | |
| "epoch": 0.5466666666666666, | |
| "grad_norm": 8.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0633, | |
| "step": 1640 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 6.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0233, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 0.5533333333333333, | |
| "grad_norm": 18.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2611, | |
| "step": 1660 | |
| }, | |
| { | |
| "epoch": 0.5566666666666666, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2132, | |
| "step": 1670 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 10.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4638, | |
| "step": 1680 | |
| }, | |
| { | |
| "epoch": 0.5633333333333334, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.209, | |
| "step": 1690 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 9.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8849, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.57, | |
| "grad_norm": 11.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2099, | |
| "step": 1710 | |
| }, | |
| { | |
| "epoch": 0.5733333333333334, | |
| "grad_norm": 11.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0148, | |
| "step": 1720 | |
| }, | |
| { | |
| "epoch": 0.5766666666666667, | |
| "grad_norm": 8.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2307, | |
| "step": 1730 | |
| }, | |
| { | |
| "epoch": 0.58, | |
| "grad_norm": 17.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1949, | |
| "step": 1740 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 7.71875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0376, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 11.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2139, | |
| "step": 1760 | |
| }, | |
| { | |
| "epoch": 0.59, | |
| "grad_norm": 8.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8258, | |
| "step": 1770 | |
| }, | |
| { | |
| "epoch": 0.5933333333333334, | |
| "grad_norm": 7.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1132, | |
| "step": 1780 | |
| }, | |
| { | |
| "epoch": 0.5966666666666667, | |
| "grad_norm": 12.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0304, | |
| "step": 1790 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 10.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5131, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.6033333333333334, | |
| "grad_norm": 7.78125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7743, | |
| "step": 1810 | |
| }, | |
| { | |
| "epoch": 0.6066666666666667, | |
| "grad_norm": 10.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1828, | |
| "step": 1820 | |
| }, | |
| { | |
| "epoch": 0.61, | |
| "grad_norm": 9.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9431, | |
| "step": 1830 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 17.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0334, | |
| "step": 1840 | |
| }, | |
| { | |
| "epoch": 0.6166666666666667, | |
| "grad_norm": 17.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4119, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 0.62, | |
| "grad_norm": 18.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.9803, | |
| "step": 1860 | |
| }, | |
| { | |
| "epoch": 0.6233333333333333, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8401, | |
| "step": 1870 | |
| }, | |
| { | |
| "epoch": 0.6266666666666667, | |
| "grad_norm": 5.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2499, | |
| "step": 1880 | |
| }, | |
| { | |
| "epoch": 0.63, | |
| "grad_norm": 9.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4622, | |
| "step": 1890 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 11.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0979, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.6366666666666667, | |
| "grad_norm": 14.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9413, | |
| "step": 1910 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 13.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3307, | |
| "step": 1920 | |
| }, | |
| { | |
| "epoch": 0.6433333333333333, | |
| "grad_norm": 10.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0274, | |
| "step": 1930 | |
| }, | |
| { | |
| "epoch": 0.6466666666666666, | |
| "grad_norm": 7.34375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4339, | |
| "step": 1940 | |
| }, | |
| { | |
| "epoch": 0.65, | |
| "grad_norm": 9.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0824, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 0.6533333333333333, | |
| "grad_norm": 7.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1589, | |
| "step": 1960 | |
| }, | |
| { | |
| "epoch": 0.6566666666666666, | |
| "grad_norm": 10.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2271, | |
| "step": 1970 | |
| }, | |
| { | |
| "epoch": 0.66, | |
| "grad_norm": 12.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0261, | |
| "step": 1980 | |
| }, | |
| { | |
| "epoch": 0.6633333333333333, | |
| "grad_norm": 7.46875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7684, | |
| "step": 1990 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 13.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1978, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "eval_loss": 1.5073453187942505, | |
| "eval_runtime": 1.4906, | |
| "eval_samples_per_second": 67.085, | |
| "eval_steps_per_second": 67.085, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.67, | |
| "grad_norm": 20.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5083, | |
| "step": 2010 | |
| }, | |
| { | |
| "epoch": 0.6733333333333333, | |
| "grad_norm": 8.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3159, | |
| "step": 2020 | |
| }, | |
| { | |
| "epoch": 0.6766666666666666, | |
| "grad_norm": 9.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1565, | |
| "step": 2030 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 14.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4058, | |
| "step": 2040 | |
| }, | |
| { | |
| "epoch": 0.6833333333333333, | |
| "grad_norm": 13.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1081, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 0.6866666666666666, | |
| "grad_norm": 20.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2205, | |
| "step": 2060 | |
| }, | |
| { | |
| "epoch": 0.69, | |
| "grad_norm": 9.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3288, | |
| "step": 2070 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 11.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9431, | |
| "step": 2080 | |
| }, | |
| { | |
| "epoch": 0.6966666666666667, | |
| "grad_norm": 10.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8867, | |
| "step": 2090 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 7.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.991, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.7033333333333334, | |
| "grad_norm": 13.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4118, | |
| "step": 2110 | |
| }, | |
| { | |
| "epoch": 0.7066666666666667, | |
| "grad_norm": 9.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8804, | |
| "step": 2120 | |
| }, | |
| { | |
| "epoch": 0.71, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9083, | |
| "step": 2130 | |
| }, | |
| { | |
| "epoch": 0.7133333333333334, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1815, | |
| "step": 2140 | |
| }, | |
| { | |
| "epoch": 0.7166666666666667, | |
| "grad_norm": 17.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1443, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 9.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8821, | |
| "step": 2160 | |
| }, | |
| { | |
| "epoch": 0.7233333333333334, | |
| "grad_norm": 5.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8278, | |
| "step": 2170 | |
| }, | |
| { | |
| "epoch": 0.7266666666666667, | |
| "grad_norm": 18.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1163, | |
| "step": 2180 | |
| }, | |
| { | |
| "epoch": 0.73, | |
| "grad_norm": 8.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0937, | |
| "step": 2190 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 7.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7285, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.7366666666666667, | |
| "grad_norm": 6.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9257, | |
| "step": 2210 | |
| }, | |
| { | |
| "epoch": 0.74, | |
| "grad_norm": 18.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4325, | |
| "step": 2220 | |
| }, | |
| { | |
| "epoch": 0.7433333333333333, | |
| "grad_norm": 11.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9493, | |
| "step": 2230 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 14.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2654, | |
| "step": 2240 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 9.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2009, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 0.7533333333333333, | |
| "grad_norm": 9.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.801, | |
| "step": 2260 | |
| }, | |
| { | |
| "epoch": 0.7566666666666667, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.727, | |
| "step": 2270 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 9.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8378, | |
| "step": 2280 | |
| }, | |
| { | |
| "epoch": 0.7633333333333333, | |
| "grad_norm": 17.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4446, | |
| "step": 2290 | |
| }, | |
| { | |
| "epoch": 0.7666666666666667, | |
| "grad_norm": 11.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1986, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.77, | |
| "grad_norm": 11.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9733, | |
| "step": 2310 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7296, | |
| "step": 2320 | |
| }, | |
| { | |
| "epoch": 0.7766666666666666, | |
| "grad_norm": 11.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1498, | |
| "step": 2330 | |
| }, | |
| { | |
| "epoch": 0.78, | |
| "grad_norm": 8.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1156, | |
| "step": 2340 | |
| }, | |
| { | |
| "epoch": 0.7833333333333333, | |
| "grad_norm": 12.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9574, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 0.7866666666666666, | |
| "grad_norm": 4.59375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.662, | |
| "step": 2360 | |
| }, | |
| { | |
| "epoch": 0.79, | |
| "grad_norm": 15.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1971, | |
| "step": 2370 | |
| }, | |
| { | |
| "epoch": 0.7933333333333333, | |
| "grad_norm": 11.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1303, | |
| "step": 2380 | |
| }, | |
| { | |
| "epoch": 0.7966666666666666, | |
| "grad_norm": 8.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.4754, | |
| "step": 2390 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 9.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7876, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.8033333333333333, | |
| "grad_norm": 14.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.225, | |
| "step": 2410 | |
| }, | |
| { | |
| "epoch": 0.8066666666666666, | |
| "grad_norm": 16.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3629, | |
| "step": 2420 | |
| }, | |
| { | |
| "epoch": 0.81, | |
| "grad_norm": 15.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1181, | |
| "step": 2430 | |
| }, | |
| { | |
| "epoch": 0.8133333333333334, | |
| "grad_norm": 14.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0279, | |
| "step": 2440 | |
| }, | |
| { | |
| "epoch": 0.8166666666666667, | |
| "grad_norm": 7.09375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8439, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 0.82, | |
| "grad_norm": 11.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1542, | |
| "step": 2460 | |
| }, | |
| { | |
| "epoch": 0.8233333333333334, | |
| "grad_norm": 12.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9432, | |
| "step": 2470 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 9.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0189, | |
| "step": 2480 | |
| }, | |
| { | |
| "epoch": 0.83, | |
| "grad_norm": 8.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.092, | |
| "step": 2490 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 11.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7372, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "eval_loss": 1.4910119771957397, | |
| "eval_runtime": 1.5067, | |
| "eval_samples_per_second": 66.372, | |
| "eval_steps_per_second": 66.372, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.8366666666666667, | |
| "grad_norm": 8.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.364, | |
| "step": 2510 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 8.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1914, | |
| "step": 2520 | |
| }, | |
| { | |
| "epoch": 0.8433333333333334, | |
| "grad_norm": 8.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1143, | |
| "step": 2530 | |
| }, | |
| { | |
| "epoch": 0.8466666666666667, | |
| "grad_norm": 7.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.7295, | |
| "step": 2540 | |
| }, | |
| { | |
| "epoch": 0.85, | |
| "grad_norm": 13.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6841, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 10.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9985, | |
| "step": 2560 | |
| }, | |
| { | |
| "epoch": 0.8566666666666667, | |
| "grad_norm": 9.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0085, | |
| "step": 2570 | |
| }, | |
| { | |
| "epoch": 0.86, | |
| "grad_norm": 11.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1737, | |
| "step": 2580 | |
| }, | |
| { | |
| "epoch": 0.8633333333333333, | |
| "grad_norm": 11.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0104, | |
| "step": 2590 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 9.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0886, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.87, | |
| "grad_norm": 13.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1291, | |
| "step": 2610 | |
| }, | |
| { | |
| "epoch": 0.8733333333333333, | |
| "grad_norm": 7.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9525, | |
| "step": 2620 | |
| }, | |
| { | |
| "epoch": 0.8766666666666667, | |
| "grad_norm": 9.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1204, | |
| "step": 2630 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 16.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2049, | |
| "step": 2640 | |
| }, | |
| { | |
| "epoch": 0.8833333333333333, | |
| "grad_norm": 10.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9501, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 0.8866666666666667, | |
| "grad_norm": 12.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9432, | |
| "step": 2660 | |
| }, | |
| { | |
| "epoch": 0.89, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.423, | |
| "step": 2670 | |
| }, | |
| { | |
| "epoch": 0.8933333333333333, | |
| "grad_norm": 10.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8791, | |
| "step": 2680 | |
| }, | |
| { | |
| "epoch": 0.8966666666666666, | |
| "grad_norm": 9.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5834, | |
| "step": 2690 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 12.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.295, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.9033333333333333, | |
| "grad_norm": 6.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8429, | |
| "step": 2710 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 13.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5811, | |
| "step": 2720 | |
| }, | |
| { | |
| "epoch": 0.91, | |
| "grad_norm": 13.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2521, | |
| "step": 2730 | |
| }, | |
| { | |
| "epoch": 0.9133333333333333, | |
| "grad_norm": 14.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.066, | |
| "step": 2740 | |
| }, | |
| { | |
| "epoch": 0.9166666666666666, | |
| "grad_norm": 8.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5251, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 13.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0101, | |
| "step": 2760 | |
| }, | |
| { | |
| "epoch": 0.9233333333333333, | |
| "grad_norm": 12.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9255, | |
| "step": 2770 | |
| }, | |
| { | |
| "epoch": 0.9266666666666666, | |
| "grad_norm": 11.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7263, | |
| "step": 2780 | |
| }, | |
| { | |
| "epoch": 0.93, | |
| "grad_norm": 12.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.075, | |
| "step": 2790 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 6.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9958, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.9366666666666666, | |
| "grad_norm": 16.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9563, | |
| "step": 2810 | |
| }, | |
| { | |
| "epoch": 0.94, | |
| "grad_norm": 12.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0587, | |
| "step": 2820 | |
| }, | |
| { | |
| "epoch": 0.9433333333333334, | |
| "grad_norm": 13.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.166, | |
| "step": 2830 | |
| }, | |
| { | |
| "epoch": 0.9466666666666667, | |
| "grad_norm": 7.46875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7965, | |
| "step": 2840 | |
| }, | |
| { | |
| "epoch": 0.95, | |
| "grad_norm": 9.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6451, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 0.9533333333333334, | |
| "grad_norm": 6.34375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.998, | |
| "step": 2860 | |
| }, | |
| { | |
| "epoch": 0.9566666666666667, | |
| "grad_norm": 6.21875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8531, | |
| "step": 2870 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 8.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.3781, | |
| "step": 2880 | |
| }, | |
| { | |
| "epoch": 0.9633333333333334, | |
| "grad_norm": 6.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8368, | |
| "step": 2890 | |
| }, | |
| { | |
| "epoch": 0.9666666666666667, | |
| "grad_norm": 12.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.965, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.97, | |
| "grad_norm": 5.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7755, | |
| "step": 2910 | |
| }, | |
| { | |
| "epoch": 0.9733333333333334, | |
| "grad_norm": 9.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0652, | |
| "step": 2920 | |
| }, | |
| { | |
| "epoch": 0.9766666666666667, | |
| "grad_norm": 7.34375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.643, | |
| "step": 2930 | |
| }, | |
| { | |
| "epoch": 0.98, | |
| "grad_norm": 7.71875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2531, | |
| "step": 2940 | |
| }, | |
| { | |
| "epoch": 0.9833333333333333, | |
| "grad_norm": 13.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8193, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 13.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0242, | |
| "step": 2960 | |
| }, | |
| { | |
| "epoch": 0.99, | |
| "grad_norm": 18.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.133, | |
| "step": 2970 | |
| }, | |
| { | |
| "epoch": 0.9933333333333333, | |
| "grad_norm": 15.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2699, | |
| "step": 2980 | |
| }, | |
| { | |
| "epoch": 0.9966666666666667, | |
| "grad_norm": 6.09375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5593, | |
| "step": 2990 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 19.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9879, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "eval_loss": 1.2729908227920532, | |
| "eval_runtime": 1.4911, | |
| "eval_samples_per_second": 67.063, | |
| "eval_steps_per_second": 67.063, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 1.0033333333333334, | |
| "grad_norm": 6.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6428, | |
| "step": 3010 | |
| }, | |
| { | |
| "epoch": 1.0066666666666666, | |
| "grad_norm": 7.34375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8844, | |
| "step": 3020 | |
| }, | |
| { | |
| "epoch": 1.01, | |
| "grad_norm": 13.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7795, | |
| "step": 3030 | |
| }, | |
| { | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9683, | |
| "step": 3040 | |
| }, | |
| { | |
| "epoch": 1.0166666666666666, | |
| "grad_norm": 14.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.544, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 1.02, | |
| "grad_norm": 9.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8387, | |
| "step": 3060 | |
| }, | |
| { | |
| "epoch": 1.0233333333333334, | |
| "grad_norm": 11.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6297, | |
| "step": 3070 | |
| }, | |
| { | |
| "epoch": 1.0266666666666666, | |
| "grad_norm": 9.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1408, | |
| "step": 3080 | |
| }, | |
| { | |
| "epoch": 1.03, | |
| "grad_norm": 8.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0732, | |
| "step": 3090 | |
| }, | |
| { | |
| "epoch": 1.0333333333333334, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9673, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 1.0366666666666666, | |
| "grad_norm": 10.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.807, | |
| "step": 3110 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 6.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7884, | |
| "step": 3120 | |
| }, | |
| { | |
| "epoch": 1.0433333333333334, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6826, | |
| "step": 3130 | |
| }, | |
| { | |
| "epoch": 1.0466666666666666, | |
| "grad_norm": 7.09375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7949, | |
| "step": 3140 | |
| }, | |
| { | |
| "epoch": 1.05, | |
| "grad_norm": 14.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9325, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 1.0533333333333332, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9807, | |
| "step": 3160 | |
| }, | |
| { | |
| "epoch": 1.0566666666666666, | |
| "grad_norm": 5.59375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5723, | |
| "step": 3170 | |
| }, | |
| { | |
| "epoch": 1.06, | |
| "grad_norm": 6.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6637, | |
| "step": 3180 | |
| }, | |
| { | |
| "epoch": 1.0633333333333332, | |
| "grad_norm": 10.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6526, | |
| "step": 3190 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 7.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6763, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 1.07, | |
| "grad_norm": 7.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.844, | |
| "step": 3210 | |
| }, | |
| { | |
| "epoch": 1.0733333333333333, | |
| "grad_norm": 13.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1305, | |
| "step": 3220 | |
| }, | |
| { | |
| "epoch": 1.0766666666666667, | |
| "grad_norm": 7.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0141, | |
| "step": 3230 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 11.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2215, | |
| "step": 3240 | |
| }, | |
| { | |
| "epoch": 1.0833333333333333, | |
| "grad_norm": 14.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.051, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 1.0866666666666667, | |
| "grad_norm": 5.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9119, | |
| "step": 3260 | |
| }, | |
| { | |
| "epoch": 1.09, | |
| "grad_norm": 19.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9393, | |
| "step": 3270 | |
| }, | |
| { | |
| "epoch": 1.0933333333333333, | |
| "grad_norm": 14.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9094, | |
| "step": 3280 | |
| }, | |
| { | |
| "epoch": 1.0966666666666667, | |
| "grad_norm": 8.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6976, | |
| "step": 3290 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 12.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0146, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 1.1033333333333333, | |
| "grad_norm": 9.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.82, | |
| "step": 3310 | |
| }, | |
| { | |
| "epoch": 1.1066666666666667, | |
| "grad_norm": 8.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6891, | |
| "step": 3320 | |
| }, | |
| { | |
| "epoch": 1.11, | |
| "grad_norm": 7.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7284, | |
| "step": 3330 | |
| }, | |
| { | |
| "epoch": 1.1133333333333333, | |
| "grad_norm": 11.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8431, | |
| "step": 3340 | |
| }, | |
| { | |
| "epoch": 1.1166666666666667, | |
| "grad_norm": 8.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6466, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 6.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7491, | |
| "step": 3360 | |
| }, | |
| { | |
| "epoch": 1.1233333333333333, | |
| "grad_norm": 6.71875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0866, | |
| "step": 3370 | |
| }, | |
| { | |
| "epoch": 1.1266666666666667, | |
| "grad_norm": 9.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0735, | |
| "step": 3380 | |
| }, | |
| { | |
| "epoch": 1.13, | |
| "grad_norm": 9.25, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0675, | |
| "step": 3390 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 19.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6896, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 1.1366666666666667, | |
| "grad_norm": 9.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.602, | |
| "step": 3410 | |
| }, | |
| { | |
| "epoch": 1.1400000000000001, | |
| "grad_norm": 10.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1624, | |
| "step": 3420 | |
| }, | |
| { | |
| "epoch": 1.1433333333333333, | |
| "grad_norm": 8.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9683, | |
| "step": 3430 | |
| }, | |
| { | |
| "epoch": 1.1466666666666667, | |
| "grad_norm": 12.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9399, | |
| "step": 3440 | |
| }, | |
| { | |
| "epoch": 1.15, | |
| "grad_norm": 8.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9233, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 1.1533333333333333, | |
| "grad_norm": 12.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8884, | |
| "step": 3460 | |
| }, | |
| { | |
| "epoch": 1.1566666666666667, | |
| "grad_norm": 8.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7118, | |
| "step": 3470 | |
| }, | |
| { | |
| "epoch": 1.16, | |
| "grad_norm": 9.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8281, | |
| "step": 3480 | |
| }, | |
| { | |
| "epoch": 1.1633333333333333, | |
| "grad_norm": 8.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8028, | |
| "step": 3490 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 7.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.631, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "eval_loss": 1.5200310945510864, | |
| "eval_runtime": 1.4786, | |
| "eval_samples_per_second": 67.632, | |
| "eval_steps_per_second": 67.632, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 1.17, | |
| "grad_norm": 13.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.88, | |
| "step": 3510 | |
| }, | |
| { | |
| "epoch": 1.1733333333333333, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8539, | |
| "step": 3520 | |
| }, | |
| { | |
| "epoch": 1.1766666666666667, | |
| "grad_norm": 13.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0459, | |
| "step": 3530 | |
| }, | |
| { | |
| "epoch": 1.18, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7037, | |
| "step": 3540 | |
| }, | |
| { | |
| "epoch": 1.1833333333333333, | |
| "grad_norm": 6.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.762, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 1.1866666666666668, | |
| "grad_norm": 6.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8332, | |
| "step": 3560 | |
| }, | |
| { | |
| "epoch": 1.19, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.752, | |
| "step": 3570 | |
| }, | |
| { | |
| "epoch": 1.1933333333333334, | |
| "grad_norm": 8.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7187, | |
| "step": 3580 | |
| }, | |
| { | |
| "epoch": 1.1966666666666668, | |
| "grad_norm": 12.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.948, | |
| "step": 3590 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 7.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0132, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 1.2033333333333334, | |
| "grad_norm": 7.21875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6313, | |
| "step": 3610 | |
| }, | |
| { | |
| "epoch": 1.2066666666666666, | |
| "grad_norm": 11.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6459, | |
| "step": 3620 | |
| }, | |
| { | |
| "epoch": 1.21, | |
| "grad_norm": 6.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5337, | |
| "step": 3630 | |
| }, | |
| { | |
| "epoch": 1.2133333333333334, | |
| "grad_norm": 9.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9013, | |
| "step": 3640 | |
| }, | |
| { | |
| "epoch": 1.2166666666666668, | |
| "grad_norm": 11.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8657, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 1.22, | |
| "grad_norm": 5.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6971, | |
| "step": 3660 | |
| }, | |
| { | |
| "epoch": 1.2233333333333334, | |
| "grad_norm": 12.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9352, | |
| "step": 3670 | |
| }, | |
| { | |
| "epoch": 1.2266666666666666, | |
| "grad_norm": 3.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5657, | |
| "step": 3680 | |
| }, | |
| { | |
| "epoch": 1.23, | |
| "grad_norm": 11.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8288, | |
| "step": 3690 | |
| }, | |
| { | |
| "epoch": 1.2333333333333334, | |
| "grad_norm": 11.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7747, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 1.2366666666666666, | |
| "grad_norm": 8.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9586, | |
| "step": 3710 | |
| }, | |
| { | |
| "epoch": 1.24, | |
| "grad_norm": 12.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9847, | |
| "step": 3720 | |
| }, | |
| { | |
| "epoch": 1.2433333333333334, | |
| "grad_norm": 11.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.808, | |
| "step": 3730 | |
| }, | |
| { | |
| "epoch": 1.2466666666666666, | |
| "grad_norm": 10.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8121, | |
| "step": 3740 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 6.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7466, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 1.2533333333333334, | |
| "grad_norm": 9.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0139, | |
| "step": 3760 | |
| }, | |
| { | |
| "epoch": 1.2566666666666666, | |
| "grad_norm": 11.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7579, | |
| "step": 3770 | |
| }, | |
| { | |
| "epoch": 1.26, | |
| "grad_norm": 7.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8063, | |
| "step": 3780 | |
| }, | |
| { | |
| "epoch": 1.2633333333333332, | |
| "grad_norm": 8.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.795, | |
| "step": 3790 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 15.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8635, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 1.27, | |
| "grad_norm": 4.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7666, | |
| "step": 3810 | |
| }, | |
| { | |
| "epoch": 1.2733333333333334, | |
| "grad_norm": 9.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9352, | |
| "step": 3820 | |
| }, | |
| { | |
| "epoch": 1.2766666666666666, | |
| "grad_norm": 12.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9208, | |
| "step": 3830 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 14.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.5634, | |
| "step": 3840 | |
| }, | |
| { | |
| "epoch": 1.2833333333333332, | |
| "grad_norm": 11.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7935, | |
| "step": 3850 | |
| }, | |
| { | |
| "epoch": 1.2866666666666666, | |
| "grad_norm": 8.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7438, | |
| "step": 3860 | |
| }, | |
| { | |
| "epoch": 1.29, | |
| "grad_norm": 6.46875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6676, | |
| "step": 3870 | |
| }, | |
| { | |
| "epoch": 1.2933333333333334, | |
| "grad_norm": 13.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9965, | |
| "step": 3880 | |
| }, | |
| { | |
| "epoch": 1.2966666666666666, | |
| "grad_norm": 12.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8424, | |
| "step": 3890 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 10.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8935, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 1.3033333333333332, | |
| "grad_norm": 5.78125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6218, | |
| "step": 3910 | |
| }, | |
| { | |
| "epoch": 1.3066666666666666, | |
| "grad_norm": 11.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0064, | |
| "step": 3920 | |
| }, | |
| { | |
| "epoch": 1.31, | |
| "grad_norm": 10.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6783, | |
| "step": 3930 | |
| }, | |
| { | |
| "epoch": 1.3133333333333335, | |
| "grad_norm": 11.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7612, | |
| "step": 3940 | |
| }, | |
| { | |
| "epoch": 1.3166666666666667, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7639, | |
| "step": 3950 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 15.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0953, | |
| "step": 3960 | |
| }, | |
| { | |
| "epoch": 1.3233333333333333, | |
| "grad_norm": 9.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8648, | |
| "step": 3970 | |
| }, | |
| { | |
| "epoch": 1.3266666666666667, | |
| "grad_norm": 6.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1842, | |
| "step": 3980 | |
| }, | |
| { | |
| "epoch": 1.33, | |
| "grad_norm": 6.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7245, | |
| "step": 3990 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 3.78125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7613, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "eval_loss": 1.3309038877487183, | |
| "eval_runtime": 1.5103, | |
| "eval_samples_per_second": 66.211, | |
| "eval_steps_per_second": 66.211, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 1.3366666666666667, | |
| "grad_norm": 7.21875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8095, | |
| "step": 4010 | |
| }, | |
| { | |
| "epoch": 1.34, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.618, | |
| "step": 4020 | |
| }, | |
| { | |
| "epoch": 1.3433333333333333, | |
| "grad_norm": 7.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5434, | |
| "step": 4030 | |
| }, | |
| { | |
| "epoch": 1.3466666666666667, | |
| "grad_norm": 10.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9937, | |
| "step": 4040 | |
| }, | |
| { | |
| "epoch": 1.35, | |
| "grad_norm": 6.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7051, | |
| "step": 4050 | |
| }, | |
| { | |
| "epoch": 1.3533333333333333, | |
| "grad_norm": 8.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1111, | |
| "step": 4060 | |
| }, | |
| { | |
| "epoch": 1.3566666666666667, | |
| "grad_norm": 7.15625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7973, | |
| "step": 4070 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 16.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.87, | |
| "step": 4080 | |
| }, | |
| { | |
| "epoch": 1.3633333333333333, | |
| "grad_norm": 8.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8975, | |
| "step": 4090 | |
| }, | |
| { | |
| "epoch": 1.3666666666666667, | |
| "grad_norm": 11.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8453, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 1.37, | |
| "grad_norm": 6.53125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7556, | |
| "step": 4110 | |
| }, | |
| { | |
| "epoch": 1.3733333333333333, | |
| "grad_norm": 36.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.018, | |
| "step": 4120 | |
| }, | |
| { | |
| "epoch": 1.3766666666666667, | |
| "grad_norm": 10.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9081, | |
| "step": 4130 | |
| }, | |
| { | |
| "epoch": 1.38, | |
| "grad_norm": 14.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6659, | |
| "step": 4140 | |
| }, | |
| { | |
| "epoch": 1.3833333333333333, | |
| "grad_norm": 14.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8089, | |
| "step": 4150 | |
| }, | |
| { | |
| "epoch": 1.3866666666666667, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8605, | |
| "step": 4160 | |
| }, | |
| { | |
| "epoch": 1.3900000000000001, | |
| "grad_norm": 15.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9791, | |
| "step": 4170 | |
| }, | |
| { | |
| "epoch": 1.3933333333333333, | |
| "grad_norm": 14.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9712, | |
| "step": 4180 | |
| }, | |
| { | |
| "epoch": 1.3966666666666667, | |
| "grad_norm": 8.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7968, | |
| "step": 4190 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 9.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7767, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 1.4033333333333333, | |
| "grad_norm": 5.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9018, | |
| "step": 4210 | |
| }, | |
| { | |
| "epoch": 1.4066666666666667, | |
| "grad_norm": 11.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9582, | |
| "step": 4220 | |
| }, | |
| { | |
| "epoch": 1.41, | |
| "grad_norm": 9.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9324, | |
| "step": 4230 | |
| }, | |
| { | |
| "epoch": 1.4133333333333333, | |
| "grad_norm": 5.90625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5169, | |
| "step": 4240 | |
| }, | |
| { | |
| "epoch": 1.4166666666666667, | |
| "grad_norm": 10.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8069, | |
| "step": 4250 | |
| }, | |
| { | |
| "epoch": 1.42, | |
| "grad_norm": 3.546875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6172, | |
| "step": 4260 | |
| }, | |
| { | |
| "epoch": 1.4233333333333333, | |
| "grad_norm": 13.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8091, | |
| "step": 4270 | |
| }, | |
| { | |
| "epoch": 1.4266666666666667, | |
| "grad_norm": 6.09375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6978, | |
| "step": 4280 | |
| }, | |
| { | |
| "epoch": 1.43, | |
| "grad_norm": 8.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7878, | |
| "step": 4290 | |
| }, | |
| { | |
| "epoch": 1.4333333333333333, | |
| "grad_norm": 16.0, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0185, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 1.4366666666666665, | |
| "grad_norm": 10.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9008, | |
| "step": 4310 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 6.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8248, | |
| "step": 4320 | |
| }, | |
| { | |
| "epoch": 1.4433333333333334, | |
| "grad_norm": 8.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.87, | |
| "step": 4330 | |
| }, | |
| { | |
| "epoch": 1.4466666666666668, | |
| "grad_norm": 11.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5887, | |
| "step": 4340 | |
| }, | |
| { | |
| "epoch": 1.45, | |
| "grad_norm": 10.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1285, | |
| "step": 4350 | |
| }, | |
| { | |
| "epoch": 1.4533333333333334, | |
| "grad_norm": 8.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0273, | |
| "step": 4360 | |
| }, | |
| { | |
| "epoch": 1.4566666666666666, | |
| "grad_norm": 6.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9528, | |
| "step": 4370 | |
| }, | |
| { | |
| "epoch": 1.46, | |
| "grad_norm": 9.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8467, | |
| "step": 4380 | |
| }, | |
| { | |
| "epoch": 1.4633333333333334, | |
| "grad_norm": 8.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7858, | |
| "step": 4390 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 7.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.616, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 1.47, | |
| "grad_norm": 10.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8403, | |
| "step": 4410 | |
| }, | |
| { | |
| "epoch": 1.4733333333333334, | |
| "grad_norm": 9.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7927, | |
| "step": 4420 | |
| }, | |
| { | |
| "epoch": 1.4766666666666666, | |
| "grad_norm": 16.875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.25, | |
| "step": 4430 | |
| }, | |
| { | |
| "epoch": 1.48, | |
| "grad_norm": 11.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9957, | |
| "step": 4440 | |
| }, | |
| { | |
| "epoch": 1.4833333333333334, | |
| "grad_norm": 5.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0198, | |
| "step": 4450 | |
| }, | |
| { | |
| "epoch": 1.4866666666666668, | |
| "grad_norm": 6.53125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8877, | |
| "step": 4460 | |
| }, | |
| { | |
| "epoch": 1.49, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8736, | |
| "step": 4470 | |
| }, | |
| { | |
| "epoch": 1.4933333333333334, | |
| "grad_norm": 7.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7929, | |
| "step": 4480 | |
| }, | |
| { | |
| "epoch": 1.4966666666666666, | |
| "grad_norm": 10.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1071, | |
| "step": 4490 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 6.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.572, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "eval_loss": 1.4378467798233032, | |
| "eval_runtime": 1.4747, | |
| "eval_samples_per_second": 67.811, | |
| "eval_steps_per_second": 67.811, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 1.5033333333333334, | |
| "grad_norm": 5.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6085, | |
| "step": 4510 | |
| }, | |
| { | |
| "epoch": 1.5066666666666668, | |
| "grad_norm": 11.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0296, | |
| "step": 4520 | |
| }, | |
| { | |
| "epoch": 1.51, | |
| "grad_norm": 15.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.957, | |
| "step": 4530 | |
| }, | |
| { | |
| "epoch": 1.5133333333333332, | |
| "grad_norm": 8.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9682, | |
| "step": 4540 | |
| }, | |
| { | |
| "epoch": 1.5166666666666666, | |
| "grad_norm": 7.71875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5619, | |
| "step": 4550 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 7.84375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7063, | |
| "step": 4560 | |
| }, | |
| { | |
| "epoch": 1.5233333333333334, | |
| "grad_norm": 7.21875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6725, | |
| "step": 4570 | |
| }, | |
| { | |
| "epoch": 1.5266666666666666, | |
| "grad_norm": 11.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5147, | |
| "step": 4580 | |
| }, | |
| { | |
| "epoch": 1.53, | |
| "grad_norm": 5.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8195, | |
| "step": 4590 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 10.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7961, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 1.5366666666666666, | |
| "grad_norm": 9.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5977, | |
| "step": 4610 | |
| }, | |
| { | |
| "epoch": 1.54, | |
| "grad_norm": 11.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8334, | |
| "step": 4620 | |
| }, | |
| { | |
| "epoch": 1.5433333333333334, | |
| "grad_norm": 13.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9209, | |
| "step": 4630 | |
| }, | |
| { | |
| "epoch": 1.5466666666666666, | |
| "grad_norm": 5.71875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6465, | |
| "step": 4640 | |
| }, | |
| { | |
| "epoch": 1.55, | |
| "grad_norm": 9.625, | |
| "learning_rate": 8e-05, | |
| "loss": 1.2715, | |
| "step": 4650 | |
| }, | |
| { | |
| "epoch": 1.5533333333333332, | |
| "grad_norm": 5.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5966, | |
| "step": 4660 | |
| }, | |
| { | |
| "epoch": 1.5566666666666666, | |
| "grad_norm": 10.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7788, | |
| "step": 4670 | |
| }, | |
| { | |
| "epoch": 1.56, | |
| "grad_norm": 8.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7401, | |
| "step": 4680 | |
| }, | |
| { | |
| "epoch": 1.5633333333333335, | |
| "grad_norm": 9.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8736, | |
| "step": 4690 | |
| }, | |
| { | |
| "epoch": 1.5666666666666667, | |
| "grad_norm": 12.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.793, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 1.5699999999999998, | |
| "grad_norm": 14.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7883, | |
| "step": 4710 | |
| }, | |
| { | |
| "epoch": 1.5733333333333333, | |
| "grad_norm": 4.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8556, | |
| "step": 4720 | |
| }, | |
| { | |
| "epoch": 1.5766666666666667, | |
| "grad_norm": 11.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9062, | |
| "step": 4730 | |
| }, | |
| { | |
| "epoch": 1.58, | |
| "grad_norm": 9.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5457, | |
| "step": 4740 | |
| }, | |
| { | |
| "epoch": 1.5833333333333335, | |
| "grad_norm": 12.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7557, | |
| "step": 4750 | |
| }, | |
| { | |
| "epoch": 1.5866666666666667, | |
| "grad_norm": 17.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1667, | |
| "step": 4760 | |
| }, | |
| { | |
| "epoch": 1.5899999999999999, | |
| "grad_norm": 10.1875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0694, | |
| "step": 4770 | |
| }, | |
| { | |
| "epoch": 1.5933333333333333, | |
| "grad_norm": 10.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.811, | |
| "step": 4780 | |
| }, | |
| { | |
| "epoch": 1.5966666666666667, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6258, | |
| "step": 4790 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 6.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6296, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 1.6033333333333335, | |
| "grad_norm": 17.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.187, | |
| "step": 4810 | |
| }, | |
| { | |
| "epoch": 1.6066666666666667, | |
| "grad_norm": 5.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8847, | |
| "step": 4820 | |
| }, | |
| { | |
| "epoch": 1.6099999999999999, | |
| "grad_norm": 5.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8844, | |
| "step": 4830 | |
| }, | |
| { | |
| "epoch": 1.6133333333333333, | |
| "grad_norm": 6.28125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8376, | |
| "step": 4840 | |
| }, | |
| { | |
| "epoch": 1.6166666666666667, | |
| "grad_norm": 8.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9426, | |
| "step": 4850 | |
| }, | |
| { | |
| "epoch": 1.62, | |
| "grad_norm": 15.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8989, | |
| "step": 4860 | |
| }, | |
| { | |
| "epoch": 1.6233333333333333, | |
| "grad_norm": 11.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9158, | |
| "step": 4870 | |
| }, | |
| { | |
| "epoch": 1.6266666666666667, | |
| "grad_norm": 4.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8376, | |
| "step": 4880 | |
| }, | |
| { | |
| "epoch": 1.63, | |
| "grad_norm": 12.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0749, | |
| "step": 4890 | |
| }, | |
| { | |
| "epoch": 1.6333333333333333, | |
| "grad_norm": 7.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9205, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 1.6366666666666667, | |
| "grad_norm": 8.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0431, | |
| "step": 4910 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 13.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8251, | |
| "step": 4920 | |
| }, | |
| { | |
| "epoch": 1.6433333333333333, | |
| "grad_norm": 10.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0441, | |
| "step": 4930 | |
| }, | |
| { | |
| "epoch": 1.6466666666666665, | |
| "grad_norm": 8.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7812, | |
| "step": 4940 | |
| }, | |
| { | |
| "epoch": 1.65, | |
| "grad_norm": 9.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6304, | |
| "step": 4950 | |
| }, | |
| { | |
| "epoch": 1.6533333333333333, | |
| "grad_norm": 5.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8142, | |
| "step": 4960 | |
| }, | |
| { | |
| "epoch": 1.6566666666666667, | |
| "grad_norm": 11.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9602, | |
| "step": 4970 | |
| }, | |
| { | |
| "epoch": 1.6600000000000001, | |
| "grad_norm": 10.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5319, | |
| "step": 4980 | |
| }, | |
| { | |
| "epoch": 1.6633333333333333, | |
| "grad_norm": 8.375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0824, | |
| "step": 4990 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 12.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0395, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "eval_loss": 1.3757331371307373, | |
| "eval_runtime": 1.4881, | |
| "eval_samples_per_second": 67.201, | |
| "eval_steps_per_second": 67.201, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 1.67, | |
| "grad_norm": 9.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5506, | |
| "step": 5010 | |
| }, | |
| { | |
| "epoch": 1.6733333333333333, | |
| "grad_norm": 10.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8105, | |
| "step": 5020 | |
| }, | |
| { | |
| "epoch": 1.6766666666666667, | |
| "grad_norm": 8.75, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7754, | |
| "step": 5030 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 5.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6683, | |
| "step": 5040 | |
| }, | |
| { | |
| "epoch": 1.6833333333333333, | |
| "grad_norm": 7.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8269, | |
| "step": 5050 | |
| }, | |
| { | |
| "epoch": 1.6866666666666665, | |
| "grad_norm": 6.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0235, | |
| "step": 5060 | |
| }, | |
| { | |
| "epoch": 1.69, | |
| "grad_norm": 10.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7771, | |
| "step": 5070 | |
| }, | |
| { | |
| "epoch": 1.6933333333333334, | |
| "grad_norm": 8.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6871, | |
| "step": 5080 | |
| }, | |
| { | |
| "epoch": 1.6966666666666668, | |
| "grad_norm": 10.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7671, | |
| "step": 5090 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 8.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8296, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 1.7033333333333334, | |
| "grad_norm": 8.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7887, | |
| "step": 5110 | |
| }, | |
| { | |
| "epoch": 1.7066666666666666, | |
| "grad_norm": 7.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.019, | |
| "step": 5120 | |
| }, | |
| { | |
| "epoch": 1.71, | |
| "grad_norm": 6.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7246, | |
| "step": 5130 | |
| }, | |
| { | |
| "epoch": 1.7133333333333334, | |
| "grad_norm": 10.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7407, | |
| "step": 5140 | |
| }, | |
| { | |
| "epoch": 1.7166666666666668, | |
| "grad_norm": 9.0625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8178, | |
| "step": 5150 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "grad_norm": 12.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.088, | |
| "step": 5160 | |
| }, | |
| { | |
| "epoch": 1.7233333333333334, | |
| "grad_norm": 14.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7856, | |
| "step": 5170 | |
| }, | |
| { | |
| "epoch": 1.7266666666666666, | |
| "grad_norm": 10.3125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8207, | |
| "step": 5180 | |
| }, | |
| { | |
| "epoch": 1.73, | |
| "grad_norm": 7.625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8045, | |
| "step": 5190 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9247, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 1.7366666666666668, | |
| "grad_norm": 4.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9863, | |
| "step": 5210 | |
| }, | |
| { | |
| "epoch": 1.74, | |
| "grad_norm": 6.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.733, | |
| "step": 5220 | |
| }, | |
| { | |
| "epoch": 1.7433333333333332, | |
| "grad_norm": 5.78125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1817, | |
| "step": 5230 | |
| }, | |
| { | |
| "epoch": 1.7466666666666666, | |
| "grad_norm": 6.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7971, | |
| "step": 5240 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0004, | |
| "step": 5250 | |
| }, | |
| { | |
| "epoch": 1.7533333333333334, | |
| "grad_norm": 5.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.5812, | |
| "step": 5260 | |
| }, | |
| { | |
| "epoch": 1.7566666666666668, | |
| "grad_norm": 8.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6109, | |
| "step": 5270 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 15.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9819, | |
| "step": 5280 | |
| }, | |
| { | |
| "epoch": 1.7633333333333332, | |
| "grad_norm": 9.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1918, | |
| "step": 5290 | |
| }, | |
| { | |
| "epoch": 1.7666666666666666, | |
| "grad_norm": 8.25, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7268, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 1.77, | |
| "grad_norm": 15.125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8006, | |
| "step": 5310 | |
| }, | |
| { | |
| "epoch": 1.7733333333333334, | |
| "grad_norm": 8.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0006, | |
| "step": 5320 | |
| }, | |
| { | |
| "epoch": 1.7766666666666666, | |
| "grad_norm": 8.5625, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9145, | |
| "step": 5330 | |
| }, | |
| { | |
| "epoch": 1.78, | |
| "grad_norm": 10.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8083, | |
| "step": 5340 | |
| }, | |
| { | |
| "epoch": 1.7833333333333332, | |
| "grad_norm": 9.5, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0911, | |
| "step": 5350 | |
| }, | |
| { | |
| "epoch": 1.7866666666666666, | |
| "grad_norm": 16.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.1058, | |
| "step": 5360 | |
| }, | |
| { | |
| "epoch": 1.79, | |
| "grad_norm": 5.875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8683, | |
| "step": 5370 | |
| }, | |
| { | |
| "epoch": 1.7933333333333334, | |
| "grad_norm": 8.6875, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9138, | |
| "step": 5380 | |
| }, | |
| { | |
| "epoch": 1.7966666666666666, | |
| "grad_norm": 8.5, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9268, | |
| "step": 5390 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 7.4375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.6563, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 1.8033333333333332, | |
| "grad_norm": 7.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0088, | |
| "step": 5410 | |
| }, | |
| { | |
| "epoch": 1.8066666666666666, | |
| "grad_norm": 8.75, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0201, | |
| "step": 5420 | |
| }, | |
| { | |
| "epoch": 1.81, | |
| "grad_norm": 6.34375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8984, | |
| "step": 5430 | |
| }, | |
| { | |
| "epoch": 1.8133333333333335, | |
| "grad_norm": 18.125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.0949, | |
| "step": 5440 | |
| }, | |
| { | |
| "epoch": 1.8166666666666667, | |
| "grad_norm": 9.375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.702, | |
| "step": 5450 | |
| }, | |
| { | |
| "epoch": 1.8199999999999998, | |
| "grad_norm": 8.8125, | |
| "learning_rate": 8e-05, | |
| "loss": 1.009, | |
| "step": 5460 | |
| }, | |
| { | |
| "epoch": 1.8233333333333333, | |
| "grad_norm": 9.9375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7565, | |
| "step": 5470 | |
| }, | |
| { | |
| "epoch": 1.8266666666666667, | |
| "grad_norm": 3.859375, | |
| "learning_rate": 8e-05, | |
| "loss": 0.8057, | |
| "step": 5480 | |
| }, | |
| { | |
| "epoch": 1.83, | |
| "grad_norm": 14.0, | |
| "learning_rate": 8e-05, | |
| "loss": 0.7567, | |
| "step": 5490 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 7.78125, | |
| "learning_rate": 8e-05, | |
| "loss": 0.9078, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "eval_loss": 1.4543490409851074, | |
| "eval_runtime": 1.4799, | |
| "eval_samples_per_second": 67.571, | |
| "eval_steps_per_second": 67.571, | |
| "step": 5500 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 6000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 2, | |
| "save_steps": 250, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1790774192996352.0, | |
| "train_batch_size": 1, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |