{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 1.8333333333333335, "eval_steps": 500, "global_step": 5500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0033333333333333335, "grad_norm": 31.375, "learning_rate": 8e-05, "loss": 3.7929, "step": 10 }, { "epoch": 0.006666666666666667, "grad_norm": 21.25, "learning_rate": 8e-05, "loss": 3.148, "step": 20 }, { "epoch": 0.01, "grad_norm": 21.375, "learning_rate": 8e-05, "loss": 3.0908, "step": 30 }, { "epoch": 0.013333333333333334, "grad_norm": 19.75, "learning_rate": 8e-05, "loss": 2.9399, "step": 40 }, { "epoch": 0.016666666666666666, "grad_norm": 22.375, "learning_rate": 8e-05, "loss": 2.7765, "step": 50 }, { "epoch": 0.02, "grad_norm": 20.25, "learning_rate": 8e-05, "loss": 2.1794, "step": 60 }, { "epoch": 0.023333333333333334, "grad_norm": 36.25, "learning_rate": 8e-05, "loss": 2.2676, "step": 70 }, { "epoch": 0.02666666666666667, "grad_norm": 27.125, "learning_rate": 8e-05, "loss": 2.6547, "step": 80 }, { "epoch": 0.03, "grad_norm": 18.75, "learning_rate": 8e-05, "loss": 2.4368, "step": 90 }, { "epoch": 0.03333333333333333, "grad_norm": 20.125, "learning_rate": 8e-05, "loss": 1.7289, "step": 100 }, { "epoch": 0.03666666666666667, "grad_norm": 27.75, "learning_rate": 8e-05, "loss": 2.1116, "step": 110 }, { "epoch": 0.04, "grad_norm": 18.625, "learning_rate": 8e-05, "loss": 2.0407, "step": 120 }, { "epoch": 0.043333333333333335, "grad_norm": 32.5, "learning_rate": 8e-05, "loss": 2.0913, "step": 130 }, { "epoch": 0.04666666666666667, "grad_norm": 21.125, "learning_rate": 8e-05, "loss": 2.2282, "step": 140 }, { "epoch": 0.05, "grad_norm": 14.6875, "learning_rate": 8e-05, "loss": 2.0761, "step": 150 }, { "epoch": 0.05333333333333334, "grad_norm": 29.375, "learning_rate": 8e-05, "loss": 1.8582, "step": 160 }, { "epoch": 0.056666666666666664, "grad_norm": 19.375, "learning_rate": 8e-05, "loss": 2.1367, "step": 170 }, { "epoch": 0.06, "grad_norm": 18.0, "learning_rate": 8e-05, "loss": 1.7402, "step": 180 }, { "epoch": 0.06333333333333334, "grad_norm": 15.5625, "learning_rate": 8e-05, "loss": 1.5356, "step": 190 }, { "epoch": 0.06666666666666667, "grad_norm": 15.1875, "learning_rate": 8e-05, "loss": 1.5126, "step": 200 }, { "epoch": 0.07, "grad_norm": 21.75, "learning_rate": 8e-05, "loss": 1.8978, "step": 210 }, { "epoch": 0.07333333333333333, "grad_norm": 14.75, "learning_rate": 8e-05, "loss": 1.9682, "step": 220 }, { "epoch": 0.07666666666666666, "grad_norm": 15.9375, "learning_rate": 8e-05, "loss": 1.474, "step": 230 }, { "epoch": 0.08, "grad_norm": 14.9375, "learning_rate": 8e-05, "loss": 1.9926, "step": 240 }, { "epoch": 0.08333333333333333, "grad_norm": 15.1875, "learning_rate": 8e-05, "loss": 1.9286, "step": 250 }, { "epoch": 0.08666666666666667, "grad_norm": 21.375, "learning_rate": 8e-05, "loss": 2.1986, "step": 260 }, { "epoch": 0.09, "grad_norm": 12.4375, "learning_rate": 8e-05, "loss": 1.8814, "step": 270 }, { "epoch": 0.09333333333333334, "grad_norm": 11.4375, "learning_rate": 8e-05, "loss": 1.6575, "step": 280 }, { "epoch": 0.09666666666666666, "grad_norm": 13.375, "learning_rate": 8e-05, "loss": 1.718, "step": 290 }, { "epoch": 0.1, "grad_norm": 20.0, "learning_rate": 8e-05, "loss": 1.6656, "step": 300 }, { "epoch": 0.10333333333333333, "grad_norm": 15.5, "learning_rate": 8e-05, "loss": 1.5677, "step": 310 }, { "epoch": 0.10666666666666667, "grad_norm": 9.625, "learning_rate": 8e-05, "loss": 1.3565, "step": 320 }, { "epoch": 0.11, "grad_norm": 15.125, "learning_rate": 8e-05, "loss": 1.9722, "step": 330 }, { "epoch": 0.11333333333333333, "grad_norm": 13.625, "learning_rate": 8e-05, "loss": 2.0481, "step": 340 }, { "epoch": 0.11666666666666667, "grad_norm": 20.375, "learning_rate": 8e-05, "loss": 2.0189, "step": 350 }, { "epoch": 0.12, "grad_norm": 12.125, "learning_rate": 8e-05, "loss": 1.4388, "step": 360 }, { "epoch": 0.12333333333333334, "grad_norm": 14.6875, "learning_rate": 8e-05, "loss": 1.5514, "step": 370 }, { "epoch": 0.12666666666666668, "grad_norm": 17.5, "learning_rate": 8e-05, "loss": 1.4547, "step": 380 }, { "epoch": 0.13, "grad_norm": 16.375, "learning_rate": 8e-05, "loss": 1.2481, "step": 390 }, { "epoch": 0.13333333333333333, "grad_norm": 11.125, "learning_rate": 8e-05, "loss": 1.6155, "step": 400 }, { "epoch": 0.13666666666666666, "grad_norm": 17.0, "learning_rate": 8e-05, "loss": 1.5433, "step": 410 }, { "epoch": 0.14, "grad_norm": 14.4375, "learning_rate": 8e-05, "loss": 1.341, "step": 420 }, { "epoch": 0.14333333333333334, "grad_norm": 15.4375, "learning_rate": 8e-05, "loss": 1.8352, "step": 430 }, { "epoch": 0.14666666666666667, "grad_norm": 21.125, "learning_rate": 8e-05, "loss": 1.6776, "step": 440 }, { "epoch": 0.15, "grad_norm": 15.3125, "learning_rate": 8e-05, "loss": 1.5878, "step": 450 }, { "epoch": 0.15333333333333332, "grad_norm": 9.25, "learning_rate": 8e-05, "loss": 1.4318, "step": 460 }, { "epoch": 0.15666666666666668, "grad_norm": 19.375, "learning_rate": 8e-05, "loss": 2.1154, "step": 470 }, { "epoch": 0.16, "grad_norm": 18.75, "learning_rate": 8e-05, "loss": 1.2984, "step": 480 }, { "epoch": 0.16333333333333333, "grad_norm": 11.875, "learning_rate": 8e-05, "loss": 0.8941, "step": 490 }, { "epoch": 0.16666666666666666, "grad_norm": 21.375, "learning_rate": 8e-05, "loss": 1.8376, "step": 500 }, { "epoch": 0.16666666666666666, "eval_loss": 1.966795802116394, "eval_runtime": 1.4933, "eval_samples_per_second": 66.964, "eval_steps_per_second": 66.964, "step": 500 }, { "epoch": 0.17, "grad_norm": 11.25, "learning_rate": 8e-05, "loss": 1.4669, "step": 510 }, { "epoch": 0.17333333333333334, "grad_norm": 14.25, "learning_rate": 8e-05, "loss": 1.5271, "step": 520 }, { "epoch": 0.17666666666666667, "grad_norm": 15.5, "learning_rate": 8e-05, "loss": 1.324, "step": 530 }, { "epoch": 0.18, "grad_norm": 15.5625, "learning_rate": 8e-05, "loss": 1.3112, "step": 540 }, { "epoch": 0.18333333333333332, "grad_norm": 12.3125, "learning_rate": 8e-05, "loss": 1.63, "step": 550 }, { "epoch": 0.18666666666666668, "grad_norm": 27.75, "learning_rate": 8e-05, "loss": 1.8947, "step": 560 }, { "epoch": 0.19, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 1.1481, "step": 570 }, { "epoch": 0.19333333333333333, "grad_norm": 18.0, "learning_rate": 8e-05, "loss": 1.981, "step": 580 }, { "epoch": 0.19666666666666666, "grad_norm": 13.8125, "learning_rate": 8e-05, "loss": 1.6207, "step": 590 }, { "epoch": 0.2, "grad_norm": 12.6875, "learning_rate": 8e-05, "loss": 1.256, "step": 600 }, { "epoch": 0.20333333333333334, "grad_norm": 14.9375, "learning_rate": 8e-05, "loss": 1.3009, "step": 610 }, { "epoch": 0.20666666666666667, "grad_norm": 13.6875, "learning_rate": 8e-05, "loss": 1.3396, "step": 620 }, { "epoch": 0.21, "grad_norm": 7.9375, "learning_rate": 8e-05, "loss": 1.3633, "step": 630 }, { "epoch": 0.21333333333333335, "grad_norm": 18.0, "learning_rate": 8e-05, "loss": 1.3612, "step": 640 }, { "epoch": 0.21666666666666667, "grad_norm": 15.25, "learning_rate": 8e-05, "loss": 1.4465, "step": 650 }, { "epoch": 0.22, "grad_norm": 14.875, "learning_rate": 8e-05, "loss": 1.8267, "step": 660 }, { "epoch": 0.22333333333333333, "grad_norm": 7.0625, "learning_rate": 8e-05, "loss": 1.1913, "step": 670 }, { "epoch": 0.22666666666666666, "grad_norm": 17.5, "learning_rate": 8e-05, "loss": 1.4176, "step": 680 }, { "epoch": 0.23, "grad_norm": 17.125, "learning_rate": 8e-05, "loss": 1.2347, "step": 690 }, { "epoch": 0.23333333333333334, "grad_norm": 17.0, "learning_rate": 8e-05, "loss": 1.4197, "step": 700 }, { "epoch": 0.23666666666666666, "grad_norm": 9.3125, "learning_rate": 8e-05, "loss": 1.1041, "step": 710 }, { "epoch": 0.24, "grad_norm": 11.375, "learning_rate": 8e-05, "loss": 1.3469, "step": 720 }, { "epoch": 0.24333333333333335, "grad_norm": 12.1875, "learning_rate": 8e-05, "loss": 1.2701, "step": 730 }, { "epoch": 0.24666666666666667, "grad_norm": 14.4375, "learning_rate": 8e-05, "loss": 1.5301, "step": 740 }, { "epoch": 0.25, "grad_norm": 10.0, "learning_rate": 8e-05, "loss": 1.5207, "step": 750 }, { "epoch": 0.25333333333333335, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 1.4237, "step": 760 }, { "epoch": 0.25666666666666665, "grad_norm": 15.75, "learning_rate": 8e-05, "loss": 1.6761, "step": 770 }, { "epoch": 0.26, "grad_norm": 13.0625, "learning_rate": 8e-05, "loss": 1.1909, "step": 780 }, { "epoch": 0.2633333333333333, "grad_norm": 12.6875, "learning_rate": 8e-05, "loss": 1.3235, "step": 790 }, { "epoch": 0.26666666666666666, "grad_norm": 13.3125, "learning_rate": 8e-05, "loss": 1.6189, "step": 800 }, { "epoch": 0.27, "grad_norm": 17.25, "learning_rate": 8e-05, "loss": 1.3584, "step": 810 }, { "epoch": 0.2733333333333333, "grad_norm": 5.71875, "learning_rate": 8e-05, "loss": 1.3963, "step": 820 }, { "epoch": 0.27666666666666667, "grad_norm": 12.375, "learning_rate": 8e-05, "loss": 1.4556, "step": 830 }, { "epoch": 0.28, "grad_norm": 16.125, "learning_rate": 8e-05, "loss": 1.31, "step": 840 }, { "epoch": 0.2833333333333333, "grad_norm": 15.75, "learning_rate": 8e-05, "loss": 1.9185, "step": 850 }, { "epoch": 0.2866666666666667, "grad_norm": 11.1875, "learning_rate": 8e-05, "loss": 1.5779, "step": 860 }, { "epoch": 0.29, "grad_norm": 18.0, "learning_rate": 8e-05, "loss": 1.3979, "step": 870 }, { "epoch": 0.29333333333333333, "grad_norm": 12.8125, "learning_rate": 8e-05, "loss": 1.1311, "step": 880 }, { "epoch": 0.2966666666666667, "grad_norm": 16.625, "learning_rate": 8e-05, "loss": 1.598, "step": 890 }, { "epoch": 0.3, "grad_norm": 6.78125, "learning_rate": 8e-05, "loss": 1.2326, "step": 900 }, { "epoch": 0.30333333333333334, "grad_norm": 12.3125, "learning_rate": 8e-05, "loss": 1.2988, "step": 910 }, { "epoch": 0.30666666666666664, "grad_norm": 15.125, "learning_rate": 8e-05, "loss": 1.212, "step": 920 }, { "epoch": 0.31, "grad_norm": 7.625, "learning_rate": 8e-05, "loss": 1.3268, "step": 930 }, { "epoch": 0.31333333333333335, "grad_norm": 17.25, "learning_rate": 8e-05, "loss": 1.3641, "step": 940 }, { "epoch": 0.31666666666666665, "grad_norm": 8.375, "learning_rate": 8e-05, "loss": 1.312, "step": 950 }, { "epoch": 0.32, "grad_norm": 13.25, "learning_rate": 8e-05, "loss": 1.4937, "step": 960 }, { "epoch": 0.3233333333333333, "grad_norm": 8.3125, "learning_rate": 8e-05, "loss": 1.0728, "step": 970 }, { "epoch": 0.32666666666666666, "grad_norm": 12.5625, "learning_rate": 8e-05, "loss": 1.1938, "step": 980 }, { "epoch": 0.33, "grad_norm": 8.8125, "learning_rate": 8e-05, "loss": 1.1703, "step": 990 }, { "epoch": 0.3333333333333333, "grad_norm": 5.875, "learning_rate": 8e-05, "loss": 1.6129, "step": 1000 }, { "epoch": 0.3333333333333333, "eval_loss": 1.6106005907058716, "eval_runtime": 1.5095, "eval_samples_per_second": 66.249, "eval_steps_per_second": 66.249, "step": 1000 }, { "epoch": 0.33666666666666667, "grad_norm": 11.5625, "learning_rate": 8e-05, "loss": 1.2093, "step": 1010 }, { "epoch": 0.34, "grad_norm": 17.75, "learning_rate": 8e-05, "loss": 1.2458, "step": 1020 }, { "epoch": 0.3433333333333333, "grad_norm": 9.4375, "learning_rate": 8e-05, "loss": 1.3032, "step": 1030 }, { "epoch": 0.3466666666666667, "grad_norm": 17.125, "learning_rate": 8e-05, "loss": 1.2791, "step": 1040 }, { "epoch": 0.35, "grad_norm": 7.0, "learning_rate": 8e-05, "loss": 1.2859, "step": 1050 }, { "epoch": 0.35333333333333333, "grad_norm": 9.9375, "learning_rate": 8e-05, "loss": 1.6731, "step": 1060 }, { "epoch": 0.3566666666666667, "grad_norm": 10.25, "learning_rate": 8e-05, "loss": 0.9607, "step": 1070 }, { "epoch": 0.36, "grad_norm": 10.75, "learning_rate": 8e-05, "loss": 1.2513, "step": 1080 }, { "epoch": 0.36333333333333334, "grad_norm": 15.3125, "learning_rate": 8e-05, "loss": 1.5032, "step": 1090 }, { "epoch": 0.36666666666666664, "grad_norm": 12.4375, "learning_rate": 8e-05, "loss": 1.8248, "step": 1100 }, { "epoch": 0.37, "grad_norm": 7.96875, "learning_rate": 8e-05, "loss": 1.0109, "step": 1110 }, { "epoch": 0.37333333333333335, "grad_norm": 14.3125, "learning_rate": 8e-05, "loss": 1.2995, "step": 1120 }, { "epoch": 0.37666666666666665, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 1.6192, "step": 1130 }, { "epoch": 0.38, "grad_norm": 8.4375, "learning_rate": 8e-05, "loss": 1.4933, "step": 1140 }, { "epoch": 0.38333333333333336, "grad_norm": 18.5, "learning_rate": 8e-05, "loss": 1.2595, "step": 1150 }, { "epoch": 0.38666666666666666, "grad_norm": 16.125, "learning_rate": 8e-05, "loss": 1.0554, "step": 1160 }, { "epoch": 0.39, "grad_norm": 14.375, "learning_rate": 8e-05, "loss": 1.3212, "step": 1170 }, { "epoch": 0.3933333333333333, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 1.163, "step": 1180 }, { "epoch": 0.39666666666666667, "grad_norm": 15.5, "learning_rate": 8e-05, "loss": 1.6691, "step": 1190 }, { "epoch": 0.4, "grad_norm": 13.9375, "learning_rate": 8e-05, "loss": 0.9269, "step": 1200 }, { "epoch": 0.4033333333333333, "grad_norm": 15.5, "learning_rate": 8e-05, "loss": 1.2617, "step": 1210 }, { "epoch": 0.4066666666666667, "grad_norm": 10.9375, "learning_rate": 8e-05, "loss": 1.2103, "step": 1220 }, { "epoch": 0.41, "grad_norm": 10.3125, "learning_rate": 8e-05, "loss": 1.06, "step": 1230 }, { "epoch": 0.41333333333333333, "grad_norm": 8.0625, "learning_rate": 8e-05, "loss": 1.1669, "step": 1240 }, { "epoch": 0.4166666666666667, "grad_norm": 14.9375, "learning_rate": 8e-05, "loss": 0.8515, "step": 1250 }, { "epoch": 0.42, "grad_norm": 12.25, "learning_rate": 8e-05, "loss": 0.8689, "step": 1260 }, { "epoch": 0.42333333333333334, "grad_norm": 12.3125, "learning_rate": 8e-05, "loss": 1.0939, "step": 1270 }, { "epoch": 0.4266666666666667, "grad_norm": 7.53125, "learning_rate": 8e-05, "loss": 1.3105, "step": 1280 }, { "epoch": 0.43, "grad_norm": 15.0, "learning_rate": 8e-05, "loss": 1.6286, "step": 1290 }, { "epoch": 0.43333333333333335, "grad_norm": 15.125, "learning_rate": 8e-05, "loss": 1.468, "step": 1300 }, { "epoch": 0.43666666666666665, "grad_norm": 10.0625, "learning_rate": 8e-05, "loss": 1.2465, "step": 1310 }, { "epoch": 0.44, "grad_norm": 8.9375, "learning_rate": 8e-05, "loss": 0.9342, "step": 1320 }, { "epoch": 0.44333333333333336, "grad_norm": 18.125, "learning_rate": 8e-05, "loss": 1.4561, "step": 1330 }, { "epoch": 0.44666666666666666, "grad_norm": 14.6875, "learning_rate": 8e-05, "loss": 1.2254, "step": 1340 }, { "epoch": 0.45, "grad_norm": 13.25, "learning_rate": 8e-05, "loss": 1.5919, "step": 1350 }, { "epoch": 0.4533333333333333, "grad_norm": 9.4375, "learning_rate": 8e-05, "loss": 1.0516, "step": 1360 }, { "epoch": 0.45666666666666667, "grad_norm": 12.0, "learning_rate": 8e-05, "loss": 1.197, "step": 1370 }, { "epoch": 0.46, "grad_norm": 13.0625, "learning_rate": 8e-05, "loss": 1.2144, "step": 1380 }, { "epoch": 0.4633333333333333, "grad_norm": 9.875, "learning_rate": 8e-05, "loss": 0.9973, "step": 1390 }, { "epoch": 0.4666666666666667, "grad_norm": 17.0, "learning_rate": 8e-05, "loss": 1.8518, "step": 1400 }, { "epoch": 0.47, "grad_norm": 8.1875, "learning_rate": 8e-05, "loss": 0.9273, "step": 1410 }, { "epoch": 0.47333333333333333, "grad_norm": 5.46875, "learning_rate": 8e-05, "loss": 1.4137, "step": 1420 }, { "epoch": 0.4766666666666667, "grad_norm": 12.125, "learning_rate": 8e-05, "loss": 0.8136, "step": 1430 }, { "epoch": 0.48, "grad_norm": 10.875, "learning_rate": 8e-05, "loss": 1.39, "step": 1440 }, { "epoch": 0.48333333333333334, "grad_norm": 11.125, "learning_rate": 8e-05, "loss": 0.9037, "step": 1450 }, { "epoch": 0.4866666666666667, "grad_norm": 10.125, "learning_rate": 8e-05, "loss": 0.5845, "step": 1460 }, { "epoch": 0.49, "grad_norm": 10.375, "learning_rate": 8e-05, "loss": 1.6661, "step": 1470 }, { "epoch": 0.49333333333333335, "grad_norm": 7.96875, "learning_rate": 8e-05, "loss": 1.083, "step": 1480 }, { "epoch": 0.49666666666666665, "grad_norm": 13.75, "learning_rate": 8e-05, "loss": 1.1422, "step": 1490 }, { "epoch": 0.5, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 1.1393, "step": 1500 }, { "epoch": 0.5, "eval_loss": 1.5809861421585083, "eval_runtime": 1.483, "eval_samples_per_second": 67.429, "eval_steps_per_second": 67.429, "step": 1500 }, { "epoch": 0.5033333333333333, "grad_norm": 8.0625, "learning_rate": 8e-05, "loss": 0.8686, "step": 1510 }, { "epoch": 0.5066666666666667, "grad_norm": 9.9375, "learning_rate": 8e-05, "loss": 1.4827, "step": 1520 }, { "epoch": 0.51, "grad_norm": 16.125, "learning_rate": 8e-05, "loss": 1.5385, "step": 1530 }, { "epoch": 0.5133333333333333, "grad_norm": 14.1875, "learning_rate": 8e-05, "loss": 1.1622, "step": 1540 }, { "epoch": 0.5166666666666667, "grad_norm": 5.75, "learning_rate": 8e-05, "loss": 0.8973, "step": 1550 }, { "epoch": 0.52, "grad_norm": 6.875, "learning_rate": 8e-05, "loss": 1.4794, "step": 1560 }, { "epoch": 0.5233333333333333, "grad_norm": 11.5625, "learning_rate": 8e-05, "loss": 1.2969, "step": 1570 }, { "epoch": 0.5266666666666666, "grad_norm": 9.375, "learning_rate": 8e-05, "loss": 1.2002, "step": 1580 }, { "epoch": 0.53, "grad_norm": 14.9375, "learning_rate": 8e-05, "loss": 1.5348, "step": 1590 }, { "epoch": 0.5333333333333333, "grad_norm": 11.5625, "learning_rate": 8e-05, "loss": 1.2332, "step": 1600 }, { "epoch": 0.5366666666666666, "grad_norm": 9.25, "learning_rate": 8e-05, "loss": 1.2609, "step": 1610 }, { "epoch": 0.54, "grad_norm": 15.125, "learning_rate": 8e-05, "loss": 0.8256, "step": 1620 }, { "epoch": 0.5433333333333333, "grad_norm": 6.15625, "learning_rate": 8e-05, "loss": 1.0224, "step": 1630 }, { "epoch": 0.5466666666666666, "grad_norm": 8.875, "learning_rate": 8e-05, "loss": 1.0633, "step": 1640 }, { "epoch": 0.55, "grad_norm": 6.375, "learning_rate": 8e-05, "loss": 1.0233, "step": 1650 }, { "epoch": 0.5533333333333333, "grad_norm": 18.625, "learning_rate": 8e-05, "loss": 1.2611, "step": 1660 }, { "epoch": 0.5566666666666666, "grad_norm": 5.53125, "learning_rate": 8e-05, "loss": 1.2132, "step": 1670 }, { "epoch": 0.56, "grad_norm": 10.1875, "learning_rate": 8e-05, "loss": 1.4638, "step": 1680 }, { "epoch": 0.5633333333333334, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 1.209, "step": 1690 }, { "epoch": 0.5666666666666667, "grad_norm": 9.1875, "learning_rate": 8e-05, "loss": 0.8849, "step": 1700 }, { "epoch": 0.57, "grad_norm": 11.75, "learning_rate": 8e-05, "loss": 1.2099, "step": 1710 }, { "epoch": 0.5733333333333334, "grad_norm": 11.4375, "learning_rate": 8e-05, "loss": 1.0148, "step": 1720 }, { "epoch": 0.5766666666666667, "grad_norm": 8.6875, "learning_rate": 8e-05, "loss": 1.2307, "step": 1730 }, { "epoch": 0.58, "grad_norm": 17.25, "learning_rate": 8e-05, "loss": 1.1949, "step": 1740 }, { "epoch": 0.5833333333333334, "grad_norm": 7.71875, "learning_rate": 8e-05, "loss": 1.0376, "step": 1750 }, { "epoch": 0.5866666666666667, "grad_norm": 11.25, "learning_rate": 8e-05, "loss": 1.2139, "step": 1760 }, { "epoch": 0.59, "grad_norm": 8.875, "learning_rate": 8e-05, "loss": 0.8258, "step": 1770 }, { "epoch": 0.5933333333333334, "grad_norm": 7.15625, "learning_rate": 8e-05, "loss": 1.1132, "step": 1780 }, { "epoch": 0.5966666666666667, "grad_norm": 12.0625, "learning_rate": 8e-05, "loss": 1.0304, "step": 1790 }, { "epoch": 0.6, "grad_norm": 10.0625, "learning_rate": 8e-05, "loss": 1.5131, "step": 1800 }, { "epoch": 0.6033333333333334, "grad_norm": 7.78125, "learning_rate": 8e-05, "loss": 0.7743, "step": 1810 }, { "epoch": 0.6066666666666667, "grad_norm": 10.5, "learning_rate": 8e-05, "loss": 1.1828, "step": 1820 }, { "epoch": 0.61, "grad_norm": 9.75, "learning_rate": 8e-05, "loss": 0.9431, "step": 1830 }, { "epoch": 0.6133333333333333, "grad_norm": 17.625, "learning_rate": 8e-05, "loss": 1.0334, "step": 1840 }, { "epoch": 0.6166666666666667, "grad_norm": 17.125, "learning_rate": 8e-05, "loss": 1.4119, "step": 1850 }, { "epoch": 0.62, "grad_norm": 18.375, "learning_rate": 8e-05, "loss": 1.9803, "step": 1860 }, { "epoch": 0.6233333333333333, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 0.8401, "step": 1870 }, { "epoch": 0.6266666666666667, "grad_norm": 5.96875, "learning_rate": 8e-05, "loss": 1.2499, "step": 1880 }, { "epoch": 0.63, "grad_norm": 9.5625, "learning_rate": 8e-05, "loss": 1.4622, "step": 1890 }, { "epoch": 0.6333333333333333, "grad_norm": 11.3125, "learning_rate": 8e-05, "loss": 1.0979, "step": 1900 }, { "epoch": 0.6366666666666667, "grad_norm": 14.1875, "learning_rate": 8e-05, "loss": 0.9413, "step": 1910 }, { "epoch": 0.64, "grad_norm": 13.25, "learning_rate": 8e-05, "loss": 1.3307, "step": 1920 }, { "epoch": 0.6433333333333333, "grad_norm": 10.0625, "learning_rate": 8e-05, "loss": 1.0274, "step": 1930 }, { "epoch": 0.6466666666666666, "grad_norm": 7.34375, "learning_rate": 8e-05, "loss": 1.4339, "step": 1940 }, { "epoch": 0.65, "grad_norm": 9.3125, "learning_rate": 8e-05, "loss": 1.0824, "step": 1950 }, { "epoch": 0.6533333333333333, "grad_norm": 7.5, "learning_rate": 8e-05, "loss": 1.1589, "step": 1960 }, { "epoch": 0.6566666666666666, "grad_norm": 10.9375, "learning_rate": 8e-05, "loss": 1.2271, "step": 1970 }, { "epoch": 0.66, "grad_norm": 12.125, "learning_rate": 8e-05, "loss": 1.0261, "step": 1980 }, { "epoch": 0.6633333333333333, "grad_norm": 7.46875, "learning_rate": 8e-05, "loss": 0.7684, "step": 1990 }, { "epoch": 0.6666666666666666, "grad_norm": 13.6875, "learning_rate": 8e-05, "loss": 1.1978, "step": 2000 }, { "epoch": 0.6666666666666666, "eval_loss": 1.5073453187942505, "eval_runtime": 1.4906, "eval_samples_per_second": 67.085, "eval_steps_per_second": 67.085, "step": 2000 }, { "epoch": 0.67, "grad_norm": 20.375, "learning_rate": 8e-05, "loss": 1.5083, "step": 2010 }, { "epoch": 0.6733333333333333, "grad_norm": 8.125, "learning_rate": 8e-05, "loss": 1.3159, "step": 2020 }, { "epoch": 0.6766666666666666, "grad_norm": 9.125, "learning_rate": 8e-05, "loss": 1.1565, "step": 2030 }, { "epoch": 0.68, "grad_norm": 14.75, "learning_rate": 8e-05, "loss": 1.4058, "step": 2040 }, { "epoch": 0.6833333333333333, "grad_norm": 13.5625, "learning_rate": 8e-05, "loss": 1.1081, "step": 2050 }, { "epoch": 0.6866666666666666, "grad_norm": 20.25, "learning_rate": 8e-05, "loss": 1.2205, "step": 2060 }, { "epoch": 0.69, "grad_norm": 9.625, "learning_rate": 8e-05, "loss": 1.3288, "step": 2070 }, { "epoch": 0.6933333333333334, "grad_norm": 11.3125, "learning_rate": 8e-05, "loss": 0.9431, "step": 2080 }, { "epoch": 0.6966666666666667, "grad_norm": 10.875, "learning_rate": 8e-05, "loss": 0.8867, "step": 2090 }, { "epoch": 0.7, "grad_norm": 7.6875, "learning_rate": 8e-05, "loss": 0.991, "step": 2100 }, { "epoch": 0.7033333333333334, "grad_norm": 13.6875, "learning_rate": 8e-05, "loss": 1.4118, "step": 2110 }, { "epoch": 0.7066666666666667, "grad_norm": 9.3125, "learning_rate": 8e-05, "loss": 0.8804, "step": 2120 }, { "epoch": 0.71, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 0.9083, "step": 2130 }, { "epoch": 0.7133333333333334, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 1.1815, "step": 2140 }, { "epoch": 0.7166666666666667, "grad_norm": 17.0, "learning_rate": 8e-05, "loss": 1.1443, "step": 2150 }, { "epoch": 0.72, "grad_norm": 9.9375, "learning_rate": 8e-05, "loss": 0.8821, "step": 2160 }, { "epoch": 0.7233333333333334, "grad_norm": 5.8125, "learning_rate": 8e-05, "loss": 0.8278, "step": 2170 }, { "epoch": 0.7266666666666667, "grad_norm": 18.0, "learning_rate": 8e-05, "loss": 1.1163, "step": 2180 }, { "epoch": 0.73, "grad_norm": 8.1875, "learning_rate": 8e-05, "loss": 1.0937, "step": 2190 }, { "epoch": 0.7333333333333333, "grad_norm": 7.8125, "learning_rate": 8e-05, "loss": 0.7285, "step": 2200 }, { "epoch": 0.7366666666666667, "grad_norm": 6.0625, "learning_rate": 8e-05, "loss": 0.9257, "step": 2210 }, { "epoch": 0.74, "grad_norm": 18.125, "learning_rate": 8e-05, "loss": 1.4325, "step": 2220 }, { "epoch": 0.7433333333333333, "grad_norm": 11.1875, "learning_rate": 8e-05, "loss": 0.9493, "step": 2230 }, { "epoch": 0.7466666666666667, "grad_norm": 14.5625, "learning_rate": 8e-05, "loss": 1.2654, "step": 2240 }, { "epoch": 0.75, "grad_norm": 9.4375, "learning_rate": 8e-05, "loss": 1.2009, "step": 2250 }, { "epoch": 0.7533333333333333, "grad_norm": 9.5625, "learning_rate": 8e-05, "loss": 0.801, "step": 2260 }, { "epoch": 0.7566666666666667, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 0.727, "step": 2270 }, { "epoch": 0.76, "grad_norm": 9.5625, "learning_rate": 8e-05, "loss": 0.8378, "step": 2280 }, { "epoch": 0.7633333333333333, "grad_norm": 17.125, "learning_rate": 8e-05, "loss": 1.4446, "step": 2290 }, { "epoch": 0.7666666666666667, "grad_norm": 11.125, "learning_rate": 8e-05, "loss": 1.1986, "step": 2300 }, { "epoch": 0.77, "grad_norm": 11.5, "learning_rate": 8e-05, "loss": 0.9733, "step": 2310 }, { "epoch": 0.7733333333333333, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 0.7296, "step": 2320 }, { "epoch": 0.7766666666666666, "grad_norm": 11.0, "learning_rate": 8e-05, "loss": 1.1498, "step": 2330 }, { "epoch": 0.78, "grad_norm": 8.1875, "learning_rate": 8e-05, "loss": 1.1156, "step": 2340 }, { "epoch": 0.7833333333333333, "grad_norm": 12.1875, "learning_rate": 8e-05, "loss": 0.9574, "step": 2350 }, { "epoch": 0.7866666666666666, "grad_norm": 4.59375, "learning_rate": 8e-05, "loss": 0.662, "step": 2360 }, { "epoch": 0.79, "grad_norm": 15.6875, "learning_rate": 8e-05, "loss": 1.1971, "step": 2370 }, { "epoch": 0.7933333333333333, "grad_norm": 11.75, "learning_rate": 8e-05, "loss": 1.1303, "step": 2380 }, { "epoch": 0.7966666666666666, "grad_norm": 8.5625, "learning_rate": 8e-05, "loss": 1.4754, "step": 2390 }, { "epoch": 0.8, "grad_norm": 9.8125, "learning_rate": 8e-05, "loss": 0.7876, "step": 2400 }, { "epoch": 0.8033333333333333, "grad_norm": 14.625, "learning_rate": 8e-05, "loss": 1.225, "step": 2410 }, { "epoch": 0.8066666666666666, "grad_norm": 16.125, "learning_rate": 8e-05, "loss": 1.3629, "step": 2420 }, { "epoch": 0.81, "grad_norm": 15.6875, "learning_rate": 8e-05, "loss": 1.1181, "step": 2430 }, { "epoch": 0.8133333333333334, "grad_norm": 14.9375, "learning_rate": 8e-05, "loss": 1.0279, "step": 2440 }, { "epoch": 0.8166666666666667, "grad_norm": 7.09375, "learning_rate": 8e-05, "loss": 0.8439, "step": 2450 }, { "epoch": 0.82, "grad_norm": 11.4375, "learning_rate": 8e-05, "loss": 1.1542, "step": 2460 }, { "epoch": 0.8233333333333334, "grad_norm": 12.4375, "learning_rate": 8e-05, "loss": 0.9432, "step": 2470 }, { "epoch": 0.8266666666666667, "grad_norm": 9.0625, "learning_rate": 8e-05, "loss": 1.0189, "step": 2480 }, { "epoch": 0.83, "grad_norm": 8.4375, "learning_rate": 8e-05, "loss": 1.092, "step": 2490 }, { "epoch": 0.8333333333333334, "grad_norm": 11.375, "learning_rate": 8e-05, "loss": 0.7372, "step": 2500 }, { "epoch": 0.8333333333333334, "eval_loss": 1.4910119771957397, "eval_runtime": 1.5067, "eval_samples_per_second": 66.372, "eval_steps_per_second": 66.372, "step": 2500 }, { "epoch": 0.8366666666666667, "grad_norm": 8.6875, "learning_rate": 8e-05, "loss": 1.364, "step": 2510 }, { "epoch": 0.84, "grad_norm": 8.1875, "learning_rate": 8e-05, "loss": 1.1914, "step": 2520 }, { "epoch": 0.8433333333333334, "grad_norm": 8.1875, "learning_rate": 8e-05, "loss": 1.1143, "step": 2530 }, { "epoch": 0.8466666666666667, "grad_norm": 7.96875, "learning_rate": 8e-05, "loss": 1.7295, "step": 2540 }, { "epoch": 0.85, "grad_norm": 13.9375, "learning_rate": 8e-05, "loss": 0.6841, "step": 2550 }, { "epoch": 0.8533333333333334, "grad_norm": 10.9375, "learning_rate": 8e-05, "loss": 0.9985, "step": 2560 }, { "epoch": 0.8566666666666667, "grad_norm": 9.1875, "learning_rate": 8e-05, "loss": 1.0085, "step": 2570 }, { "epoch": 0.86, "grad_norm": 11.875, "learning_rate": 8e-05, "loss": 1.1737, "step": 2580 }, { "epoch": 0.8633333333333333, "grad_norm": 11.0625, "learning_rate": 8e-05, "loss": 1.0104, "step": 2590 }, { "epoch": 0.8666666666666667, "grad_norm": 9.4375, "learning_rate": 8e-05, "loss": 1.0886, "step": 2600 }, { "epoch": 0.87, "grad_norm": 13.9375, "learning_rate": 8e-05, "loss": 1.1291, "step": 2610 }, { "epoch": 0.8733333333333333, "grad_norm": 7.25, "learning_rate": 8e-05, "loss": 0.9525, "step": 2620 }, { "epoch": 0.8766666666666667, "grad_norm": 9.375, "learning_rate": 8e-05, "loss": 1.1204, "step": 2630 }, { "epoch": 0.88, "grad_norm": 16.625, "learning_rate": 8e-05, "loss": 1.2049, "step": 2640 }, { "epoch": 0.8833333333333333, "grad_norm": 10.875, "learning_rate": 8e-05, "loss": 0.9501, "step": 2650 }, { "epoch": 0.8866666666666667, "grad_norm": 12.375, "learning_rate": 8e-05, "loss": 0.9432, "step": 2660 }, { "epoch": 0.89, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 1.423, "step": 2670 }, { "epoch": 0.8933333333333333, "grad_norm": 10.875, "learning_rate": 8e-05, "loss": 0.8791, "step": 2680 }, { "epoch": 0.8966666666666666, "grad_norm": 9.1875, "learning_rate": 8e-05, "loss": 1.5834, "step": 2690 }, { "epoch": 0.9, "grad_norm": 12.9375, "learning_rate": 8e-05, "loss": 1.295, "step": 2700 }, { "epoch": 0.9033333333333333, "grad_norm": 6.25, "learning_rate": 8e-05, "loss": 0.8429, "step": 2710 }, { "epoch": 0.9066666666666666, "grad_norm": 13.3125, "learning_rate": 8e-05, "loss": 0.5811, "step": 2720 }, { "epoch": 0.91, "grad_norm": 13.0625, "learning_rate": 8e-05, "loss": 1.2521, "step": 2730 }, { "epoch": 0.9133333333333333, "grad_norm": 14.1875, "learning_rate": 8e-05, "loss": 1.066, "step": 2740 }, { "epoch": 0.9166666666666666, "grad_norm": 8.5, "learning_rate": 8e-05, "loss": 1.5251, "step": 2750 }, { "epoch": 0.92, "grad_norm": 13.4375, "learning_rate": 8e-05, "loss": 1.0101, "step": 2760 }, { "epoch": 0.9233333333333333, "grad_norm": 12.0625, "learning_rate": 8e-05, "loss": 0.9255, "step": 2770 }, { "epoch": 0.9266666666666666, "grad_norm": 11.4375, "learning_rate": 8e-05, "loss": 0.7263, "step": 2780 }, { "epoch": 0.93, "grad_norm": 12.625, "learning_rate": 8e-05, "loss": 1.075, "step": 2790 }, { "epoch": 0.9333333333333333, "grad_norm": 6.0625, "learning_rate": 8e-05, "loss": 0.9958, "step": 2800 }, { "epoch": 0.9366666666666666, "grad_norm": 16.25, "learning_rate": 8e-05, "loss": 0.9563, "step": 2810 }, { "epoch": 0.94, "grad_norm": 12.75, "learning_rate": 8e-05, "loss": 1.0587, "step": 2820 }, { "epoch": 0.9433333333333334, "grad_norm": 13.375, "learning_rate": 8e-05, "loss": 1.166, "step": 2830 }, { "epoch": 0.9466666666666667, "grad_norm": 7.46875, "learning_rate": 8e-05, "loss": 0.7965, "step": 2840 }, { "epoch": 0.95, "grad_norm": 9.625, "learning_rate": 8e-05, "loss": 0.6451, "step": 2850 }, { "epoch": 0.9533333333333334, "grad_norm": 6.34375, "learning_rate": 8e-05, "loss": 0.998, "step": 2860 }, { "epoch": 0.9566666666666667, "grad_norm": 6.21875, "learning_rate": 8e-05, "loss": 0.8531, "step": 2870 }, { "epoch": 0.96, "grad_norm": 8.9375, "learning_rate": 8e-05, "loss": 1.3781, "step": 2880 }, { "epoch": 0.9633333333333334, "grad_norm": 6.625, "learning_rate": 8e-05, "loss": 0.8368, "step": 2890 }, { "epoch": 0.9666666666666667, "grad_norm": 12.3125, "learning_rate": 8e-05, "loss": 0.965, "step": 2900 }, { "epoch": 0.97, "grad_norm": 5.6875, "learning_rate": 8e-05, "loss": 0.7755, "step": 2910 }, { "epoch": 0.9733333333333334, "grad_norm": 9.1875, "learning_rate": 8e-05, "loss": 1.0652, "step": 2920 }, { "epoch": 0.9766666666666667, "grad_norm": 7.34375, "learning_rate": 8e-05, "loss": 0.643, "step": 2930 }, { "epoch": 0.98, "grad_norm": 7.71875, "learning_rate": 8e-05, "loss": 1.2531, "step": 2940 }, { "epoch": 0.9833333333333333, "grad_norm": 13.5, "learning_rate": 8e-05, "loss": 0.8193, "step": 2950 }, { "epoch": 0.9866666666666667, "grad_norm": 13.875, "learning_rate": 8e-05, "loss": 1.0242, "step": 2960 }, { "epoch": 0.99, "grad_norm": 18.625, "learning_rate": 8e-05, "loss": 1.133, "step": 2970 }, { "epoch": 0.9933333333333333, "grad_norm": 15.25, "learning_rate": 8e-05, "loss": 1.2699, "step": 2980 }, { "epoch": 0.9966666666666667, "grad_norm": 6.09375, "learning_rate": 8e-05, "loss": 1.5593, "step": 2990 }, { "epoch": 1.0, "grad_norm": 19.125, "learning_rate": 8e-05, "loss": 0.9879, "step": 3000 }, { "epoch": 1.0, "eval_loss": 1.2729908227920532, "eval_runtime": 1.4911, "eval_samples_per_second": 67.063, "eval_steps_per_second": 67.063, "step": 3000 }, { "epoch": 1.0033333333333334, "grad_norm": 6.9375, "learning_rate": 8e-05, "loss": 0.6428, "step": 3010 }, { "epoch": 1.0066666666666666, "grad_norm": 7.34375, "learning_rate": 8e-05, "loss": 0.8844, "step": 3020 }, { "epoch": 1.01, "grad_norm": 13.1875, "learning_rate": 8e-05, "loss": 0.7795, "step": 3030 }, { "epoch": 1.0133333333333334, "grad_norm": 5.03125, "learning_rate": 8e-05, "loss": 0.9683, "step": 3040 }, { "epoch": 1.0166666666666666, "grad_norm": 14.4375, "learning_rate": 8e-05, "loss": 0.544, "step": 3050 }, { "epoch": 1.02, "grad_norm": 9.875, "learning_rate": 8e-05, "loss": 0.8387, "step": 3060 }, { "epoch": 1.0233333333333334, "grad_norm": 11.5625, "learning_rate": 8e-05, "loss": 0.6297, "step": 3070 }, { "epoch": 1.0266666666666666, "grad_norm": 9.4375, "learning_rate": 8e-05, "loss": 1.1408, "step": 3080 }, { "epoch": 1.03, "grad_norm": 8.875, "learning_rate": 8e-05, "loss": 1.0732, "step": 3090 }, { "epoch": 1.0333333333333334, "grad_norm": 4.8125, "learning_rate": 8e-05, "loss": 0.9673, "step": 3100 }, { "epoch": 1.0366666666666666, "grad_norm": 10.4375, "learning_rate": 8e-05, "loss": 0.807, "step": 3110 }, { "epoch": 1.04, "grad_norm": 6.9375, "learning_rate": 8e-05, "loss": 0.7884, "step": 3120 }, { "epoch": 1.0433333333333334, "grad_norm": 4.96875, "learning_rate": 8e-05, "loss": 0.6826, "step": 3130 }, { "epoch": 1.0466666666666666, "grad_norm": 7.09375, "learning_rate": 8e-05, "loss": 0.7949, "step": 3140 }, { "epoch": 1.05, "grad_norm": 14.8125, "learning_rate": 8e-05, "loss": 0.9325, "step": 3150 }, { "epoch": 1.0533333333333332, "grad_norm": 5.15625, "learning_rate": 8e-05, "loss": 0.9807, "step": 3160 }, { "epoch": 1.0566666666666666, "grad_norm": 5.59375, "learning_rate": 8e-05, "loss": 0.5723, "step": 3170 }, { "epoch": 1.06, "grad_norm": 6.9375, "learning_rate": 8e-05, "loss": 0.6637, "step": 3180 }, { "epoch": 1.0633333333333332, "grad_norm": 10.1875, "learning_rate": 8e-05, "loss": 0.6526, "step": 3190 }, { "epoch": 1.0666666666666667, "grad_norm": 7.96875, "learning_rate": 8e-05, "loss": 0.6763, "step": 3200 }, { "epoch": 1.07, "grad_norm": 7.3125, "learning_rate": 8e-05, "loss": 0.844, "step": 3210 }, { "epoch": 1.0733333333333333, "grad_norm": 13.5625, "learning_rate": 8e-05, "loss": 1.1305, "step": 3220 }, { "epoch": 1.0766666666666667, "grad_norm": 7.75, "learning_rate": 8e-05, "loss": 1.0141, "step": 3230 }, { "epoch": 1.08, "grad_norm": 11.375, "learning_rate": 8e-05, "loss": 1.2215, "step": 3240 }, { "epoch": 1.0833333333333333, "grad_norm": 14.5, "learning_rate": 8e-05, "loss": 1.051, "step": 3250 }, { "epoch": 1.0866666666666667, "grad_norm": 5.25, "learning_rate": 8e-05, "loss": 0.9119, "step": 3260 }, { "epoch": 1.09, "grad_norm": 19.125, "learning_rate": 8e-05, "loss": 0.9393, "step": 3270 }, { "epoch": 1.0933333333333333, "grad_norm": 14.75, "learning_rate": 8e-05, "loss": 0.9094, "step": 3280 }, { "epoch": 1.0966666666666667, "grad_norm": 8.875, "learning_rate": 8e-05, "loss": 0.6976, "step": 3290 }, { "epoch": 1.1, "grad_norm": 12.1875, "learning_rate": 8e-05, "loss": 1.0146, "step": 3300 }, { "epoch": 1.1033333333333333, "grad_norm": 9.5625, "learning_rate": 8e-05, "loss": 0.82, "step": 3310 }, { "epoch": 1.1066666666666667, "grad_norm": 8.3125, "learning_rate": 8e-05, "loss": 0.6891, "step": 3320 }, { "epoch": 1.11, "grad_norm": 7.75, "learning_rate": 8e-05, "loss": 0.7284, "step": 3330 }, { "epoch": 1.1133333333333333, "grad_norm": 11.4375, "learning_rate": 8e-05, "loss": 0.8431, "step": 3340 }, { "epoch": 1.1166666666666667, "grad_norm": 8.1875, "learning_rate": 8e-05, "loss": 0.6466, "step": 3350 }, { "epoch": 1.12, "grad_norm": 6.15625, "learning_rate": 8e-05, "loss": 0.7491, "step": 3360 }, { "epoch": 1.1233333333333333, "grad_norm": 6.71875, "learning_rate": 8e-05, "loss": 1.0866, "step": 3370 }, { "epoch": 1.1266666666666667, "grad_norm": 9.4375, "learning_rate": 8e-05, "loss": 1.0735, "step": 3380 }, { "epoch": 1.13, "grad_norm": 9.25, "learning_rate": 8e-05, "loss": 1.0675, "step": 3390 }, { "epoch": 1.1333333333333333, "grad_norm": 19.375, "learning_rate": 8e-05, "loss": 0.6896, "step": 3400 }, { "epoch": 1.1366666666666667, "grad_norm": 9.0625, "learning_rate": 8e-05, "loss": 0.602, "step": 3410 }, { "epoch": 1.1400000000000001, "grad_norm": 10.1875, "learning_rate": 8e-05, "loss": 1.1624, "step": 3420 }, { "epoch": 1.1433333333333333, "grad_norm": 8.5, "learning_rate": 8e-05, "loss": 0.9683, "step": 3430 }, { "epoch": 1.1466666666666667, "grad_norm": 12.0625, "learning_rate": 8e-05, "loss": 0.9399, "step": 3440 }, { "epoch": 1.15, "grad_norm": 8.0, "learning_rate": 8e-05, "loss": 0.9233, "step": 3450 }, { "epoch": 1.1533333333333333, "grad_norm": 12.4375, "learning_rate": 8e-05, "loss": 0.8884, "step": 3460 }, { "epoch": 1.1566666666666667, "grad_norm": 8.5, "learning_rate": 8e-05, "loss": 0.7118, "step": 3470 }, { "epoch": 1.16, "grad_norm": 9.375, "learning_rate": 8e-05, "loss": 0.8281, "step": 3480 }, { "epoch": 1.1633333333333333, "grad_norm": 8.4375, "learning_rate": 8e-05, "loss": 0.8028, "step": 3490 }, { "epoch": 1.1666666666666667, "grad_norm": 7.125, "learning_rate": 8e-05, "loss": 0.631, "step": 3500 }, { "epoch": 1.1666666666666667, "eval_loss": 1.5200310945510864, "eval_runtime": 1.4786, "eval_samples_per_second": 67.632, "eval_steps_per_second": 67.632, "step": 3500 }, { "epoch": 1.17, "grad_norm": 13.125, "learning_rate": 8e-05, "loss": 0.88, "step": 3510 }, { "epoch": 1.1733333333333333, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 0.8539, "step": 3520 }, { "epoch": 1.1766666666666667, "grad_norm": 13.125, "learning_rate": 8e-05, "loss": 1.0459, "step": 3530 }, { "epoch": 1.18, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 0.7037, "step": 3540 }, { "epoch": 1.1833333333333333, "grad_norm": 6.25, "learning_rate": 8e-05, "loss": 0.762, "step": 3550 }, { "epoch": 1.1866666666666668, "grad_norm": 6.96875, "learning_rate": 8e-05, "loss": 0.8332, "step": 3560 }, { "epoch": 1.19, "grad_norm": 5.34375, "learning_rate": 8e-05, "loss": 0.752, "step": 3570 }, { "epoch": 1.1933333333333334, "grad_norm": 8.25, "learning_rate": 8e-05, "loss": 0.7187, "step": 3580 }, { "epoch": 1.1966666666666668, "grad_norm": 12.625, "learning_rate": 8e-05, "loss": 0.948, "step": 3590 }, { "epoch": 1.2, "grad_norm": 7.875, "learning_rate": 8e-05, "loss": 1.0132, "step": 3600 }, { "epoch": 1.2033333333333334, "grad_norm": 7.21875, "learning_rate": 8e-05, "loss": 0.6313, "step": 3610 }, { "epoch": 1.2066666666666666, "grad_norm": 11.3125, "learning_rate": 8e-05, "loss": 0.6459, "step": 3620 }, { "epoch": 1.21, "grad_norm": 6.15625, "learning_rate": 8e-05, "loss": 0.5337, "step": 3630 }, { "epoch": 1.2133333333333334, "grad_norm": 9.375, "learning_rate": 8e-05, "loss": 0.9013, "step": 3640 }, { "epoch": 1.2166666666666668, "grad_norm": 11.125, "learning_rate": 8e-05, "loss": 0.8657, "step": 3650 }, { "epoch": 1.22, "grad_norm": 5.96875, "learning_rate": 8e-05, "loss": 0.6971, "step": 3660 }, { "epoch": 1.2233333333333334, "grad_norm": 12.75, "learning_rate": 8e-05, "loss": 0.9352, "step": 3670 }, { "epoch": 1.2266666666666666, "grad_norm": 3.5625, "learning_rate": 8e-05, "loss": 0.5657, "step": 3680 }, { "epoch": 1.23, "grad_norm": 11.4375, "learning_rate": 8e-05, "loss": 0.8288, "step": 3690 }, { "epoch": 1.2333333333333334, "grad_norm": 11.1875, "learning_rate": 8e-05, "loss": 0.7747, "step": 3700 }, { "epoch": 1.2366666666666666, "grad_norm": 8.125, "learning_rate": 8e-05, "loss": 0.9586, "step": 3710 }, { "epoch": 1.24, "grad_norm": 12.3125, "learning_rate": 8e-05, "loss": 0.9847, "step": 3720 }, { "epoch": 1.2433333333333334, "grad_norm": 11.6875, "learning_rate": 8e-05, "loss": 0.808, "step": 3730 }, { "epoch": 1.2466666666666666, "grad_norm": 10.0, "learning_rate": 8e-05, "loss": 0.8121, "step": 3740 }, { "epoch": 1.25, "grad_norm": 6.75, "learning_rate": 8e-05, "loss": 0.7466, "step": 3750 }, { "epoch": 1.2533333333333334, "grad_norm": 9.875, "learning_rate": 8e-05, "loss": 1.0139, "step": 3760 }, { "epoch": 1.2566666666666666, "grad_norm": 11.6875, "learning_rate": 8e-05, "loss": 0.7579, "step": 3770 }, { "epoch": 1.26, "grad_norm": 7.4375, "learning_rate": 8e-05, "loss": 0.8063, "step": 3780 }, { "epoch": 1.2633333333333332, "grad_norm": 8.9375, "learning_rate": 8e-05, "loss": 0.795, "step": 3790 }, { "epoch": 1.2666666666666666, "grad_norm": 15.0, "learning_rate": 8e-05, "loss": 0.8635, "step": 3800 }, { "epoch": 1.27, "grad_norm": 4.15625, "learning_rate": 8e-05, "loss": 0.7666, "step": 3810 }, { "epoch": 1.2733333333333334, "grad_norm": 9.625, "learning_rate": 8e-05, "loss": 0.9352, "step": 3820 }, { "epoch": 1.2766666666666666, "grad_norm": 12.6875, "learning_rate": 8e-05, "loss": 0.9208, "step": 3830 }, { "epoch": 1.28, "grad_norm": 14.4375, "learning_rate": 8e-05, "loss": 1.5634, "step": 3840 }, { "epoch": 1.2833333333333332, "grad_norm": 11.25, "learning_rate": 8e-05, "loss": 0.7935, "step": 3850 }, { "epoch": 1.2866666666666666, "grad_norm": 8.625, "learning_rate": 8e-05, "loss": 0.7438, "step": 3860 }, { "epoch": 1.29, "grad_norm": 6.46875, "learning_rate": 8e-05, "loss": 0.6676, "step": 3870 }, { "epoch": 1.2933333333333334, "grad_norm": 13.25, "learning_rate": 8e-05, "loss": 0.9965, "step": 3880 }, { "epoch": 1.2966666666666666, "grad_norm": 12.6875, "learning_rate": 8e-05, "loss": 0.8424, "step": 3890 }, { "epoch": 1.3, "grad_norm": 10.75, "learning_rate": 8e-05, "loss": 0.8935, "step": 3900 }, { "epoch": 1.3033333333333332, "grad_norm": 5.78125, "learning_rate": 8e-05, "loss": 0.6218, "step": 3910 }, { "epoch": 1.3066666666666666, "grad_norm": 11.1875, "learning_rate": 8e-05, "loss": 1.0064, "step": 3920 }, { "epoch": 1.31, "grad_norm": 10.625, "learning_rate": 8e-05, "loss": 0.6783, "step": 3930 }, { "epoch": 1.3133333333333335, "grad_norm": 11.9375, "learning_rate": 8e-05, "loss": 0.7612, "step": 3940 }, { "epoch": 1.3166666666666667, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 0.7639, "step": 3950 }, { "epoch": 1.32, "grad_norm": 15.8125, "learning_rate": 8e-05, "loss": 1.0953, "step": 3960 }, { "epoch": 1.3233333333333333, "grad_norm": 9.125, "learning_rate": 8e-05, "loss": 0.8648, "step": 3970 }, { "epoch": 1.3266666666666667, "grad_norm": 6.6875, "learning_rate": 8e-05, "loss": 1.1842, "step": 3980 }, { "epoch": 1.33, "grad_norm": 6.96875, "learning_rate": 8e-05, "loss": 0.7245, "step": 3990 }, { "epoch": 1.3333333333333333, "grad_norm": 3.78125, "learning_rate": 8e-05, "loss": 0.7613, "step": 4000 }, { "epoch": 1.3333333333333333, "eval_loss": 1.3309038877487183, "eval_runtime": 1.5103, "eval_samples_per_second": 66.211, "eval_steps_per_second": 66.211, "step": 4000 }, { "epoch": 1.3366666666666667, "grad_norm": 7.21875, "learning_rate": 8e-05, "loss": 0.8095, "step": 4010 }, { "epoch": 1.34, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 0.618, "step": 4020 }, { "epoch": 1.3433333333333333, "grad_norm": 7.75, "learning_rate": 8e-05, "loss": 0.5434, "step": 4030 }, { "epoch": 1.3466666666666667, "grad_norm": 10.0, "learning_rate": 8e-05, "loss": 0.9937, "step": 4040 }, { "epoch": 1.35, "grad_norm": 6.375, "learning_rate": 8e-05, "loss": 0.7051, "step": 4050 }, { "epoch": 1.3533333333333333, "grad_norm": 8.9375, "learning_rate": 8e-05, "loss": 1.1111, "step": 4060 }, { "epoch": 1.3566666666666667, "grad_norm": 7.15625, "learning_rate": 8e-05, "loss": 0.7973, "step": 4070 }, { "epoch": 1.3599999999999999, "grad_norm": 16.125, "learning_rate": 8e-05, "loss": 0.87, "step": 4080 }, { "epoch": 1.3633333333333333, "grad_norm": 8.875, "learning_rate": 8e-05, "loss": 0.8975, "step": 4090 }, { "epoch": 1.3666666666666667, "grad_norm": 11.6875, "learning_rate": 8e-05, "loss": 0.8453, "step": 4100 }, { "epoch": 1.37, "grad_norm": 6.53125, "learning_rate": 8e-05, "loss": 0.7556, "step": 4110 }, { "epoch": 1.3733333333333333, "grad_norm": 36.0, "learning_rate": 8e-05, "loss": 1.018, "step": 4120 }, { "epoch": 1.3766666666666667, "grad_norm": 10.125, "learning_rate": 8e-05, "loss": 0.9081, "step": 4130 }, { "epoch": 1.38, "grad_norm": 14.0, "learning_rate": 8e-05, "loss": 0.6659, "step": 4140 }, { "epoch": 1.3833333333333333, "grad_norm": 14.5625, "learning_rate": 8e-05, "loss": 0.8089, "step": 4150 }, { "epoch": 1.3866666666666667, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 0.8605, "step": 4160 }, { "epoch": 1.3900000000000001, "grad_norm": 15.5625, "learning_rate": 8e-05, "loss": 0.9791, "step": 4170 }, { "epoch": 1.3933333333333333, "grad_norm": 14.125, "learning_rate": 8e-05, "loss": 0.9712, "step": 4180 }, { "epoch": 1.3966666666666667, "grad_norm": 8.5, "learning_rate": 8e-05, "loss": 0.7968, "step": 4190 }, { "epoch": 1.4, "grad_norm": 9.1875, "learning_rate": 8e-05, "loss": 0.7767, "step": 4200 }, { "epoch": 1.4033333333333333, "grad_norm": 5.9375, "learning_rate": 8e-05, "loss": 0.9018, "step": 4210 }, { "epoch": 1.4066666666666667, "grad_norm": 11.25, "learning_rate": 8e-05, "loss": 0.9582, "step": 4220 }, { "epoch": 1.41, "grad_norm": 9.25, "learning_rate": 8e-05, "loss": 0.9324, "step": 4230 }, { "epoch": 1.4133333333333333, "grad_norm": 5.90625, "learning_rate": 8e-05, "loss": 0.5169, "step": 4240 }, { "epoch": 1.4166666666666667, "grad_norm": 10.1875, "learning_rate": 8e-05, "loss": 0.8069, "step": 4250 }, { "epoch": 1.42, "grad_norm": 3.546875, "learning_rate": 8e-05, "loss": 0.6172, "step": 4260 }, { "epoch": 1.4233333333333333, "grad_norm": 13.625, "learning_rate": 8e-05, "loss": 0.8091, "step": 4270 }, { "epoch": 1.4266666666666667, "grad_norm": 6.09375, "learning_rate": 8e-05, "loss": 0.6978, "step": 4280 }, { "epoch": 1.43, "grad_norm": 8.5625, "learning_rate": 8e-05, "loss": 0.7878, "step": 4290 }, { "epoch": 1.4333333333333333, "grad_norm": 16.0, "learning_rate": 8e-05, "loss": 1.0185, "step": 4300 }, { "epoch": 1.4366666666666665, "grad_norm": 10.5, "learning_rate": 8e-05, "loss": 0.9008, "step": 4310 }, { "epoch": 1.44, "grad_norm": 6.0625, "learning_rate": 8e-05, "loss": 0.8248, "step": 4320 }, { "epoch": 1.4433333333333334, "grad_norm": 8.3125, "learning_rate": 8e-05, "loss": 0.87, "step": 4330 }, { "epoch": 1.4466666666666668, "grad_norm": 11.375, "learning_rate": 8e-05, "loss": 0.5887, "step": 4340 }, { "epoch": 1.45, "grad_norm": 10.75, "learning_rate": 8e-05, "loss": 1.1285, "step": 4350 }, { "epoch": 1.4533333333333334, "grad_norm": 8.625, "learning_rate": 8e-05, "loss": 1.0273, "step": 4360 }, { "epoch": 1.4566666666666666, "grad_norm": 6.8125, "learning_rate": 8e-05, "loss": 0.9528, "step": 4370 }, { "epoch": 1.46, "grad_norm": 9.6875, "learning_rate": 8e-05, "loss": 0.8467, "step": 4380 }, { "epoch": 1.4633333333333334, "grad_norm": 8.3125, "learning_rate": 8e-05, "loss": 0.7858, "step": 4390 }, { "epoch": 1.4666666666666668, "grad_norm": 7.0, "learning_rate": 8e-05, "loss": 0.616, "step": 4400 }, { "epoch": 1.47, "grad_norm": 10.0, "learning_rate": 8e-05, "loss": 0.8403, "step": 4410 }, { "epoch": 1.4733333333333334, "grad_norm": 9.0625, "learning_rate": 8e-05, "loss": 0.7927, "step": 4420 }, { "epoch": 1.4766666666666666, "grad_norm": 16.875, "learning_rate": 8e-05, "loss": 1.25, "step": 4430 }, { "epoch": 1.48, "grad_norm": 11.3125, "learning_rate": 8e-05, "loss": 0.9957, "step": 4440 }, { "epoch": 1.4833333333333334, "grad_norm": 5.125, "learning_rate": 8e-05, "loss": 1.0198, "step": 4450 }, { "epoch": 1.4866666666666668, "grad_norm": 6.53125, "learning_rate": 8e-05, "loss": 0.8877, "step": 4460 }, { "epoch": 1.49, "grad_norm": 4.90625, "learning_rate": 8e-05, "loss": 0.8736, "step": 4470 }, { "epoch": 1.4933333333333334, "grad_norm": 7.0625, "learning_rate": 8e-05, "loss": 0.7929, "step": 4480 }, { "epoch": 1.4966666666666666, "grad_norm": 10.8125, "learning_rate": 8e-05, "loss": 1.1071, "step": 4490 }, { "epoch": 1.5, "grad_norm": 6.0625, "learning_rate": 8e-05, "loss": 0.572, "step": 4500 }, { "epoch": 1.5, "eval_loss": 1.4378467798233032, "eval_runtime": 1.4747, "eval_samples_per_second": 67.811, "eval_steps_per_second": 67.811, "step": 4500 }, { "epoch": 1.5033333333333334, "grad_norm": 5.5625, "learning_rate": 8e-05, "loss": 0.6085, "step": 4510 }, { "epoch": 1.5066666666666668, "grad_norm": 11.125, "learning_rate": 8e-05, "loss": 1.0296, "step": 4520 }, { "epoch": 1.51, "grad_norm": 15.1875, "learning_rate": 8e-05, "loss": 0.957, "step": 4530 }, { "epoch": 1.5133333333333332, "grad_norm": 8.25, "learning_rate": 8e-05, "loss": 0.9682, "step": 4540 }, { "epoch": 1.5166666666666666, "grad_norm": 7.71875, "learning_rate": 8e-05, "loss": 0.5619, "step": 4550 }, { "epoch": 1.52, "grad_norm": 7.84375, "learning_rate": 8e-05, "loss": 0.7063, "step": 4560 }, { "epoch": 1.5233333333333334, "grad_norm": 7.21875, "learning_rate": 8e-05, "loss": 0.6725, "step": 4570 }, { "epoch": 1.5266666666666666, "grad_norm": 11.8125, "learning_rate": 8e-05, "loss": 0.5147, "step": 4580 }, { "epoch": 1.53, "grad_norm": 5.625, "learning_rate": 8e-05, "loss": 0.8195, "step": 4590 }, { "epoch": 1.5333333333333332, "grad_norm": 10.125, "learning_rate": 8e-05, "loss": 0.7961, "step": 4600 }, { "epoch": 1.5366666666666666, "grad_norm": 9.75, "learning_rate": 8e-05, "loss": 0.5977, "step": 4610 }, { "epoch": 1.54, "grad_norm": 11.0, "learning_rate": 8e-05, "loss": 0.8334, "step": 4620 }, { "epoch": 1.5433333333333334, "grad_norm": 13.6875, "learning_rate": 8e-05, "loss": 0.9209, "step": 4630 }, { "epoch": 1.5466666666666666, "grad_norm": 5.71875, "learning_rate": 8e-05, "loss": 0.6465, "step": 4640 }, { "epoch": 1.55, "grad_norm": 9.625, "learning_rate": 8e-05, "loss": 1.2715, "step": 4650 }, { "epoch": 1.5533333333333332, "grad_norm": 5.4375, "learning_rate": 8e-05, "loss": 0.5966, "step": 4660 }, { "epoch": 1.5566666666666666, "grad_norm": 10.4375, "learning_rate": 8e-05, "loss": 0.7788, "step": 4670 }, { "epoch": 1.56, "grad_norm": 8.6875, "learning_rate": 8e-05, "loss": 0.7401, "step": 4680 }, { "epoch": 1.5633333333333335, "grad_norm": 9.0, "learning_rate": 8e-05, "loss": 0.8736, "step": 4690 }, { "epoch": 1.5666666666666667, "grad_norm": 12.625, "learning_rate": 8e-05, "loss": 0.793, "step": 4700 }, { "epoch": 1.5699999999999998, "grad_norm": 14.4375, "learning_rate": 8e-05, "loss": 0.7883, "step": 4710 }, { "epoch": 1.5733333333333333, "grad_norm": 4.875, "learning_rate": 8e-05, "loss": 0.8556, "step": 4720 }, { "epoch": 1.5766666666666667, "grad_norm": 11.0625, "learning_rate": 8e-05, "loss": 0.9062, "step": 4730 }, { "epoch": 1.58, "grad_norm": 9.9375, "learning_rate": 8e-05, "loss": 0.5457, "step": 4740 }, { "epoch": 1.5833333333333335, "grad_norm": 12.0, "learning_rate": 8e-05, "loss": 0.7557, "step": 4750 }, { "epoch": 1.5866666666666667, "grad_norm": 17.75, "learning_rate": 8e-05, "loss": 1.1667, "step": 4760 }, { "epoch": 1.5899999999999999, "grad_norm": 10.1875, "learning_rate": 8e-05, "loss": 1.0694, "step": 4770 }, { "epoch": 1.5933333333333333, "grad_norm": 10.125, "learning_rate": 8e-05, "loss": 0.811, "step": 4780 }, { "epoch": 1.5966666666666667, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 0.6258, "step": 4790 }, { "epoch": 1.6, "grad_norm": 6.125, "learning_rate": 8e-05, "loss": 0.6296, "step": 4800 }, { "epoch": 1.6033333333333335, "grad_norm": 17.125, "learning_rate": 8e-05, "loss": 1.187, "step": 4810 }, { "epoch": 1.6066666666666667, "grad_norm": 5.75, "learning_rate": 8e-05, "loss": 0.8847, "step": 4820 }, { "epoch": 1.6099999999999999, "grad_norm": 5.625, "learning_rate": 8e-05, "loss": 0.8844, "step": 4830 }, { "epoch": 1.6133333333333333, "grad_norm": 6.28125, "learning_rate": 8e-05, "loss": 0.8376, "step": 4840 }, { "epoch": 1.6166666666666667, "grad_norm": 8.125, "learning_rate": 8e-05, "loss": 0.9426, "step": 4850 }, { "epoch": 1.62, "grad_norm": 15.25, "learning_rate": 8e-05, "loss": 0.8989, "step": 4860 }, { "epoch": 1.6233333333333333, "grad_norm": 11.0625, "learning_rate": 8e-05, "loss": 0.9158, "step": 4870 }, { "epoch": 1.6266666666666667, "grad_norm": 4.875, "learning_rate": 8e-05, "loss": 0.8376, "step": 4880 }, { "epoch": 1.63, "grad_norm": 12.4375, "learning_rate": 8e-05, "loss": 1.0749, "step": 4890 }, { "epoch": 1.6333333333333333, "grad_norm": 7.5, "learning_rate": 8e-05, "loss": 0.9205, "step": 4900 }, { "epoch": 1.6366666666666667, "grad_norm": 8.75, "learning_rate": 8e-05, "loss": 1.0431, "step": 4910 }, { "epoch": 1.6400000000000001, "grad_norm": 13.0, "learning_rate": 8e-05, "loss": 0.8251, "step": 4920 }, { "epoch": 1.6433333333333333, "grad_norm": 10.3125, "learning_rate": 8e-05, "loss": 1.0441, "step": 4930 }, { "epoch": 1.6466666666666665, "grad_norm": 8.8125, "learning_rate": 8e-05, "loss": 0.7812, "step": 4940 }, { "epoch": 1.65, "grad_norm": 9.0625, "learning_rate": 8e-05, "loss": 0.6304, "step": 4950 }, { "epoch": 1.6533333333333333, "grad_norm": 5.375, "learning_rate": 8e-05, "loss": 0.8142, "step": 4960 }, { "epoch": 1.6566666666666667, "grad_norm": 11.9375, "learning_rate": 8e-05, "loss": 0.9602, "step": 4970 }, { "epoch": 1.6600000000000001, "grad_norm": 10.375, "learning_rate": 8e-05, "loss": 0.5319, "step": 4980 }, { "epoch": 1.6633333333333333, "grad_norm": 8.375, "learning_rate": 8e-05, "loss": 1.0824, "step": 4990 }, { "epoch": 1.6666666666666665, "grad_norm": 12.75, "learning_rate": 8e-05, "loss": 1.0395, "step": 5000 }, { "epoch": 1.6666666666666665, "eval_loss": 1.3757331371307373, "eval_runtime": 1.4881, "eval_samples_per_second": 67.201, "eval_steps_per_second": 67.201, "step": 5000 }, { "epoch": 1.67, "grad_norm": 9.5625, "learning_rate": 8e-05, "loss": 0.5506, "step": 5010 }, { "epoch": 1.6733333333333333, "grad_norm": 10.0, "learning_rate": 8e-05, "loss": 0.8105, "step": 5020 }, { "epoch": 1.6766666666666667, "grad_norm": 8.75, "learning_rate": 8e-05, "loss": 0.7754, "step": 5030 }, { "epoch": 1.6800000000000002, "grad_norm": 5.6875, "learning_rate": 8e-05, "loss": 0.6683, "step": 5040 }, { "epoch": 1.6833333333333333, "grad_norm": 7.875, "learning_rate": 8e-05, "loss": 0.8269, "step": 5050 }, { "epoch": 1.6866666666666665, "grad_norm": 6.8125, "learning_rate": 8e-05, "loss": 1.0235, "step": 5060 }, { "epoch": 1.69, "grad_norm": 10.9375, "learning_rate": 8e-05, "loss": 0.7771, "step": 5070 }, { "epoch": 1.6933333333333334, "grad_norm": 8.3125, "learning_rate": 8e-05, "loss": 0.6871, "step": 5080 }, { "epoch": 1.6966666666666668, "grad_norm": 10.5625, "learning_rate": 8e-05, "loss": 0.7671, "step": 5090 }, { "epoch": 1.7, "grad_norm": 8.4375, "learning_rate": 8e-05, "loss": 0.8296, "step": 5100 }, { "epoch": 1.7033333333333334, "grad_norm": 8.5625, "learning_rate": 8e-05, "loss": 0.7887, "step": 5110 }, { "epoch": 1.7066666666666666, "grad_norm": 7.9375, "learning_rate": 8e-05, "loss": 1.019, "step": 5120 }, { "epoch": 1.71, "grad_norm": 6.5, "learning_rate": 8e-05, "loss": 0.7246, "step": 5130 }, { "epoch": 1.7133333333333334, "grad_norm": 10.625, "learning_rate": 8e-05, "loss": 0.7407, "step": 5140 }, { "epoch": 1.7166666666666668, "grad_norm": 9.0625, "learning_rate": 8e-05, "loss": 0.8178, "step": 5150 }, { "epoch": 1.72, "grad_norm": 12.75, "learning_rate": 8e-05, "loss": 1.088, "step": 5160 }, { "epoch": 1.7233333333333334, "grad_norm": 14.375, "learning_rate": 8e-05, "loss": 0.7856, "step": 5170 }, { "epoch": 1.7266666666666666, "grad_norm": 10.3125, "learning_rate": 8e-05, "loss": 0.8207, "step": 5180 }, { "epoch": 1.73, "grad_norm": 7.625, "learning_rate": 8e-05, "loss": 0.8045, "step": 5190 }, { "epoch": 1.7333333333333334, "grad_norm": 4.96875, "learning_rate": 8e-05, "loss": 0.9247, "step": 5200 }, { "epoch": 1.7366666666666668, "grad_norm": 4.875, "learning_rate": 8e-05, "loss": 0.9863, "step": 5210 }, { "epoch": 1.74, "grad_norm": 6.9375, "learning_rate": 8e-05, "loss": 0.733, "step": 5220 }, { "epoch": 1.7433333333333332, "grad_norm": 5.78125, "learning_rate": 8e-05, "loss": 1.1817, "step": 5230 }, { "epoch": 1.7466666666666666, "grad_norm": 6.8125, "learning_rate": 8e-05, "loss": 0.7971, "step": 5240 }, { "epoch": 1.75, "grad_norm": 4.9375, "learning_rate": 8e-05, "loss": 1.0004, "step": 5250 }, { "epoch": 1.7533333333333334, "grad_norm": 5.25, "learning_rate": 8e-05, "loss": 0.5812, "step": 5260 }, { "epoch": 1.7566666666666668, "grad_norm": 8.9375, "learning_rate": 8e-05, "loss": 0.6109, "step": 5270 }, { "epoch": 1.76, "grad_norm": 15.25, "learning_rate": 8e-05, "loss": 0.9819, "step": 5280 }, { "epoch": 1.7633333333333332, "grad_norm": 9.8125, "learning_rate": 8e-05, "loss": 1.1918, "step": 5290 }, { "epoch": 1.7666666666666666, "grad_norm": 8.25, "learning_rate": 8e-05, "loss": 0.7268, "step": 5300 }, { "epoch": 1.77, "grad_norm": 15.125, "learning_rate": 8e-05, "loss": 0.8006, "step": 5310 }, { "epoch": 1.7733333333333334, "grad_norm": 8.6875, "learning_rate": 8e-05, "loss": 1.0006, "step": 5320 }, { "epoch": 1.7766666666666666, "grad_norm": 8.5625, "learning_rate": 8e-05, "loss": 0.9145, "step": 5330 }, { "epoch": 1.78, "grad_norm": 10.0, "learning_rate": 8e-05, "loss": 0.8083, "step": 5340 }, { "epoch": 1.7833333333333332, "grad_norm": 9.5, "learning_rate": 8e-05, "loss": 1.0911, "step": 5350 }, { "epoch": 1.7866666666666666, "grad_norm": 16.75, "learning_rate": 8e-05, "loss": 1.1058, "step": 5360 }, { "epoch": 1.79, "grad_norm": 5.875, "learning_rate": 8e-05, "loss": 0.8683, "step": 5370 }, { "epoch": 1.7933333333333334, "grad_norm": 8.6875, "learning_rate": 8e-05, "loss": 0.9138, "step": 5380 }, { "epoch": 1.7966666666666666, "grad_norm": 8.5, "learning_rate": 8e-05, "loss": 0.9268, "step": 5390 }, { "epoch": 1.8, "grad_norm": 7.4375, "learning_rate": 8e-05, "loss": 0.6563, "step": 5400 }, { "epoch": 1.8033333333333332, "grad_norm": 7.9375, "learning_rate": 8e-05, "loss": 1.0088, "step": 5410 }, { "epoch": 1.8066666666666666, "grad_norm": 8.75, "learning_rate": 8e-05, "loss": 1.0201, "step": 5420 }, { "epoch": 1.81, "grad_norm": 6.34375, "learning_rate": 8e-05, "loss": 0.8984, "step": 5430 }, { "epoch": 1.8133333333333335, "grad_norm": 18.125, "learning_rate": 8e-05, "loss": 1.0949, "step": 5440 }, { "epoch": 1.8166666666666667, "grad_norm": 9.375, "learning_rate": 8e-05, "loss": 0.702, "step": 5450 }, { "epoch": 1.8199999999999998, "grad_norm": 8.8125, "learning_rate": 8e-05, "loss": 1.009, "step": 5460 }, { "epoch": 1.8233333333333333, "grad_norm": 9.9375, "learning_rate": 8e-05, "loss": 0.7565, "step": 5470 }, { "epoch": 1.8266666666666667, "grad_norm": 3.859375, "learning_rate": 8e-05, "loss": 0.8057, "step": 5480 }, { "epoch": 1.83, "grad_norm": 14.0, "learning_rate": 8e-05, "loss": 0.7567, "step": 5490 }, { "epoch": 1.8333333333333335, "grad_norm": 7.78125, "learning_rate": 8e-05, "loss": 0.9078, "step": 5500 }, { "epoch": 1.8333333333333335, "eval_loss": 1.4543490409851074, "eval_runtime": 1.4799, "eval_samples_per_second": 67.571, "eval_steps_per_second": 67.571, "step": 5500 } ], "logging_steps": 10, "max_steps": 6000, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 250, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1790774192996352.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }