| { |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 1.6029922522041145, |
| "global_step": 3000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.01, |
| "learning_rate": 0.009966666666666667, |
| "loss": 4.0887, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.01, |
| "learning_rate": 0.009933333333333334, |
| "loss": 3.4007, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.02, |
| "learning_rate": 0.0099, |
| "loss": 3.1167, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.02, |
| "learning_rate": 0.009866666666666668, |
| "loss": 3.1554, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.03, |
| "learning_rate": 0.009833333333333333, |
| "loss": 3.1095, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.03, |
| "learning_rate": 0.0098, |
| "loss": 3.0915, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.04, |
| "learning_rate": 0.009766666666666667, |
| "loss": 2.982, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.04, |
| "learning_rate": 0.009733333333333333, |
| "loss": 2.9944, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.05, |
| "learning_rate": 0.0097, |
| "loss": 3.1368, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.05, |
| "learning_rate": 0.009666666666666667, |
| "loss": 3.1288, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.06, |
| "learning_rate": 0.009633333333333334, |
| "loss": 2.9818, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.06, |
| "learning_rate": 0.0096, |
| "loss": 3.0066, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.07, |
| "learning_rate": 0.009566666666666666, |
| "loss": 3.0357, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.07, |
| "learning_rate": 0.009533333333333335, |
| "loss": 3.0504, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.08, |
| "learning_rate": 0.0095, |
| "loss": 2.9895, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.09, |
| "learning_rate": 0.009466666666666667, |
| "loss": 3.0137, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.09, |
| "learning_rate": 0.009433333333333334, |
| "loss": 2.9836, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.1, |
| "learning_rate": 0.0094, |
| "loss": 3.0618, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.1, |
| "learning_rate": 0.009366666666666667, |
| "loss": 3.0484, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.11, |
| "learning_rate": 0.009333333333333334, |
| "loss": 3.0454, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.11, |
| "learning_rate": 0.009300000000000001, |
| "loss": 3.0356, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.12, |
| "learning_rate": 0.009266666666666666, |
| "loss": 3.0633, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.12, |
| "learning_rate": 0.009233333333333333, |
| "loss": 3.1764, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.13, |
| "learning_rate": 0.0092, |
| "loss": 2.9706, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.13, |
| "learning_rate": 0.009166666666666667, |
| "loss": 2.9756, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.14, |
| "learning_rate": 0.009133333333333334, |
| "loss": 3.0229, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.14, |
| "learning_rate": 0.0091, |
| "loss": 3.0316, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.15, |
| "learning_rate": 0.009066666666666666, |
| "loss": 3.0794, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.15, |
| "learning_rate": 0.009033333333333334, |
| "loss": 2.8561, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.16, |
| "learning_rate": 0.009000000000000001, |
| "loss": 2.8994, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.17, |
| "learning_rate": 0.008966666666666666, |
| "loss": 3.0197, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.17, |
| "learning_rate": 0.008933333333333333, |
| "loss": 2.9631, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.18, |
| "learning_rate": 0.0089, |
| "loss": 2.9059, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.18, |
| "learning_rate": 0.008866666666666667, |
| "loss": 2.9527, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.19, |
| "learning_rate": 0.008833333333333334, |
| "loss": 2.8575, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.19, |
| "learning_rate": 0.0088, |
| "loss": 2.9363, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.2, |
| "learning_rate": 0.008766666666666667, |
| "loss": 3.0735, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.2, |
| "learning_rate": 0.008733333333333333, |
| "loss": 2.9766, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.21, |
| "learning_rate": 0.0087, |
| "loss": 3.0783, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.21, |
| "learning_rate": 0.008666666666666668, |
| "loss": 2.9696, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.22, |
| "learning_rate": 0.008633333333333333, |
| "loss": 2.9803, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.22, |
| "learning_rate": 0.0086, |
| "loss": 3.0466, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.23, |
| "learning_rate": 0.008566666666666667, |
| "loss": 2.9929, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.24, |
| "learning_rate": 0.008533333333333334, |
| "loss": 2.9688, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.24, |
| "learning_rate": 0.0085, |
| "loss": 2.9774, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.25, |
| "learning_rate": 0.008466666666666667, |
| "loss": 2.891, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.25, |
| "learning_rate": 0.008433333333333334, |
| "loss": 2.9403, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.26, |
| "learning_rate": 0.0084, |
| "loss": 2.995, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.26, |
| "learning_rate": 0.008366666666666666, |
| "loss": 3.0767, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.27, |
| "learning_rate": 0.008333333333333333, |
| "loss": 3.0292, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.27, |
| "learning_rate": 0.0083, |
| "loss": 2.977, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.28, |
| "learning_rate": 0.008266666666666667, |
| "loss": 2.9253, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.28, |
| "learning_rate": 0.008233333333333334, |
| "loss": 2.9523, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.29, |
| "learning_rate": 0.008199999999999999, |
| "loss": 3.0647, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.29, |
| "learning_rate": 0.008166666666666666, |
| "loss": 2.92, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.3, |
| "learning_rate": 0.008133333333333334, |
| "loss": 2.8838, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.3, |
| "learning_rate": 0.008100000000000001, |
| "loss": 2.9555, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.31, |
| "learning_rate": 0.008066666666666666, |
| "loss": 3.0833, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.32, |
| "learning_rate": 0.008033333333333333, |
| "loss": 3.0882, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.32, |
| "learning_rate": 0.008, |
| "loss": 2.9753, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.33, |
| "learning_rate": 0.007966666666666667, |
| "loss": 3.0302, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.33, |
| "learning_rate": 0.007933333333333334, |
| "loss": 2.9204, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.34, |
| "learning_rate": 0.0079, |
| "loss": 3.009, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.34, |
| "learning_rate": 0.007866666666666666, |
| "loss": 2.9843, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.35, |
| "learning_rate": 0.007833333333333333, |
| "loss": 2.977, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.35, |
| "learning_rate": 0.0078000000000000005, |
| "loss": 3.0556, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.36, |
| "learning_rate": 0.0077666666666666665, |
| "loss": 2.8938, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.36, |
| "learning_rate": 0.007733333333333333, |
| "loss": 2.9768, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.37, |
| "learning_rate": 0.0077, |
| "loss": 3.0236, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.37, |
| "learning_rate": 0.007666666666666667, |
| "loss": 2.9083, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.38, |
| "learning_rate": 0.007633333333333333, |
| "loss": 2.9196, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.38, |
| "learning_rate": 0.0076, |
| "loss": 2.8527, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.39, |
| "learning_rate": 0.007566666666666667, |
| "loss": 2.9551, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.4, |
| "learning_rate": 0.007533333333333333, |
| "loss": 3.0219, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.4, |
| "learning_rate": 0.0075, |
| "loss": 2.9648, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.41, |
| "learning_rate": 0.0074666666666666675, |
| "loss": 2.9104, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.41, |
| "learning_rate": 0.0074333333333333335, |
| "loss": 3.0018, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.42, |
| "learning_rate": 0.0074, |
| "loss": 2.8262, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.42, |
| "learning_rate": 0.007366666666666667, |
| "loss": 2.8603, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.43, |
| "learning_rate": 0.007333333333333333, |
| "loss": 2.9395, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.43, |
| "learning_rate": 0.0073, |
| "loss": 3.0424, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.44, |
| "learning_rate": 0.007266666666666667, |
| "loss": 3.0356, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.44, |
| "learning_rate": 0.007233333333333334, |
| "loss": 2.9415, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.45, |
| "learning_rate": 0.0072, |
| "loss": 2.9299, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.45, |
| "learning_rate": 0.007166666666666667, |
| "loss": 2.9333, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.46, |
| "learning_rate": 0.0071333333333333335, |
| "loss": 2.8684, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.46, |
| "learning_rate": 0.0070999999999999995, |
| "loss": 3.0278, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.47, |
| "learning_rate": 0.007066666666666666, |
| "loss": 2.9266, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.48, |
| "learning_rate": 0.007033333333333334, |
| "loss": 2.8282, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.48, |
| "learning_rate": 0.006999999999999999, |
| "loss": 2.9939, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.49, |
| "learning_rate": 0.006966666666666667, |
| "loss": 3.0281, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.49, |
| "learning_rate": 0.006933333333333334, |
| "loss": 2.8782, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.5, |
| "learning_rate": 0.0069, |
| "loss": 2.9878, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.5, |
| "learning_rate": 0.006866666666666667, |
| "loss": 2.8329, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.51, |
| "learning_rate": 0.006833333333333334, |
| "loss": 2.9321, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.51, |
| "learning_rate": 0.0068000000000000005, |
| "loss": 2.8503, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.52, |
| "learning_rate": 0.0067666666666666665, |
| "loss": 2.9154, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.52, |
| "learning_rate": 0.006733333333333333, |
| "loss": 2.9163, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.53, |
| "learning_rate": 0.0067, |
| "loss": 2.8998, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.53, |
| "learning_rate": 0.006666666666666666, |
| "loss": 2.9344, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.54, |
| "learning_rate": 0.006633333333333333, |
| "loss": 3.0409, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.55, |
| "learning_rate": 0.006600000000000001, |
| "loss": 2.9749, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.55, |
| "learning_rate": 0.006566666666666666, |
| "loss": 2.7688, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.56, |
| "learning_rate": 0.006533333333333334, |
| "loss": 2.952, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.56, |
| "learning_rate": 0.006500000000000001, |
| "loss": 2.9117, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.57, |
| "learning_rate": 0.006466666666666667, |
| "loss": 3.0269, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.57, |
| "learning_rate": 0.0064333333333333334, |
| "loss": 3.0253, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.58, |
| "learning_rate": 0.0064, |
| "loss": 2.8005, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.58, |
| "learning_rate": 0.006366666666666667, |
| "loss": 3.0853, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.59, |
| "learning_rate": 0.006333333333333333, |
| "loss": 2.8968, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.59, |
| "learning_rate": 0.0063, |
| "loss": 2.95, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.6, |
| "learning_rate": 0.006266666666666667, |
| "loss": 2.9189, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.6, |
| "learning_rate": 0.006233333333333333, |
| "loss": 2.8623, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.61, |
| "learning_rate": 0.0062, |
| "loss": 2.902, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.61, |
| "learning_rate": 0.0061666666666666675, |
| "loss": 2.8977, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.62, |
| "learning_rate": 0.006133333333333333, |
| "loss": 2.8396, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.63, |
| "learning_rate": 0.0061, |
| "loss": 2.894, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.63, |
| "learning_rate": 0.006066666666666667, |
| "loss": 2.9556, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.64, |
| "learning_rate": 0.006033333333333334, |
| "loss": 2.9222, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.64, |
| "learning_rate": 0.006, |
| "loss": 2.9178, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.65, |
| "learning_rate": 0.005966666666666667, |
| "loss": 2.8163, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.65, |
| "learning_rate": 0.005933333333333334, |
| "loss": 2.884, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.66, |
| "learning_rate": 0.0059, |
| "loss": 2.8649, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.66, |
| "learning_rate": 0.005866666666666667, |
| "loss": 2.9421, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.67, |
| "learning_rate": 0.005833333333333334, |
| "loss": 2.849, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.67, |
| "learning_rate": 0.0058, |
| "loss": 2.9116, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.68, |
| "learning_rate": 0.0057666666666666665, |
| "loss": 2.8607, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.68, |
| "learning_rate": 0.005733333333333333, |
| "loss": 2.7439, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.69, |
| "learning_rate": 0.005699999999999999, |
| "loss": 2.7979, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.69, |
| "learning_rate": 0.005666666666666666, |
| "loss": 2.8251, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.7, |
| "learning_rate": 0.005633333333333334, |
| "loss": 2.8146, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.71, |
| "learning_rate": 0.005600000000000001, |
| "loss": 2.7919, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.71, |
| "learning_rate": 0.005566666666666667, |
| "loss": 2.8605, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.72, |
| "learning_rate": 0.005533333333333334, |
| "loss": 2.8675, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.72, |
| "learning_rate": 0.0055000000000000005, |
| "loss": 2.8249, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.73, |
| "learning_rate": 0.0054666666666666665, |
| "loss": 2.9331, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.73, |
| "learning_rate": 0.005433333333333333, |
| "loss": 2.9039, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.74, |
| "learning_rate": 0.0054, |
| "loss": 2.8516, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.74, |
| "learning_rate": 0.005366666666666666, |
| "loss": 2.8574, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.75, |
| "learning_rate": 0.005333333333333333, |
| "loss": 2.9919, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.75, |
| "learning_rate": 0.0053, |
| "loss": 2.873, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.76, |
| "learning_rate": 0.005266666666666666, |
| "loss": 2.8407, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.76, |
| "learning_rate": 0.005233333333333333, |
| "loss": 2.8594, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.77, |
| "learning_rate": 0.005200000000000001, |
| "loss": 2.9165, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.77, |
| "learning_rate": 0.0051666666666666675, |
| "loss": 2.8918, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.78, |
| "learning_rate": 0.0051333333333333335, |
| "loss": 3.0013, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.79, |
| "learning_rate": 0.0051, |
| "loss": 2.8998, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.79, |
| "learning_rate": 0.005066666666666667, |
| "loss": 2.7544, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.8, |
| "learning_rate": 0.005033333333333333, |
| "loss": 2.9723, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.8, |
| "learning_rate": 0.005, |
| "loss": 2.8145, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.81, |
| "learning_rate": 0.004966666666666667, |
| "loss": 2.818, |
| "step": 1510 |
| }, |
| { |
| "epoch": 0.81, |
| "learning_rate": 0.004933333333333334, |
| "loss": 2.8831, |
| "step": 1520 |
| }, |
| { |
| "epoch": 0.82, |
| "learning_rate": 0.0049, |
| "loss": 2.8453, |
| "step": 1530 |
| }, |
| { |
| "epoch": 0.82, |
| "learning_rate": 0.004866666666666667, |
| "loss": 2.8491, |
| "step": 1540 |
| }, |
| { |
| "epoch": 0.83, |
| "learning_rate": 0.004833333333333334, |
| "loss": 2.8245, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.83, |
| "learning_rate": 0.0048, |
| "loss": 2.8585, |
| "step": 1560 |
| }, |
| { |
| "epoch": 0.84, |
| "learning_rate": 0.004766666666666667, |
| "loss": 2.833, |
| "step": 1570 |
| }, |
| { |
| "epoch": 0.84, |
| "learning_rate": 0.004733333333333333, |
| "loss": 2.8379, |
| "step": 1580 |
| }, |
| { |
| "epoch": 0.85, |
| "learning_rate": 0.0047, |
| "loss": 2.8753, |
| "step": 1590 |
| }, |
| { |
| "epoch": 0.85, |
| "learning_rate": 0.004666666666666667, |
| "loss": 2.8465, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.86, |
| "learning_rate": 0.004633333333333333, |
| "loss": 2.9163, |
| "step": 1610 |
| }, |
| { |
| "epoch": 0.87, |
| "learning_rate": 0.0046, |
| "loss": 2.8788, |
| "step": 1620 |
| }, |
| { |
| "epoch": 0.87, |
| "learning_rate": 0.004566666666666667, |
| "loss": 2.8636, |
| "step": 1630 |
| }, |
| { |
| "epoch": 0.88, |
| "learning_rate": 0.004533333333333333, |
| "loss": 2.8465, |
| "step": 1640 |
| }, |
| { |
| "epoch": 0.88, |
| "learning_rate": 0.0045000000000000005, |
| "loss": 2.7802, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.89, |
| "learning_rate": 0.0044666666666666665, |
| "loss": 2.8533, |
| "step": 1660 |
| }, |
| { |
| "epoch": 0.89, |
| "learning_rate": 0.004433333333333333, |
| "loss": 2.9001, |
| "step": 1670 |
| }, |
| { |
| "epoch": 0.9, |
| "learning_rate": 0.0044, |
| "loss": 2.8818, |
| "step": 1680 |
| }, |
| { |
| "epoch": 0.9, |
| "learning_rate": 0.004366666666666666, |
| "loss": 2.8498, |
| "step": 1690 |
| }, |
| { |
| "epoch": 0.91, |
| "learning_rate": 0.004333333333333334, |
| "loss": 2.8629, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.91, |
| "learning_rate": 0.0043, |
| "loss": 2.769, |
| "step": 1710 |
| }, |
| { |
| "epoch": 0.92, |
| "learning_rate": 0.004266666666666667, |
| "loss": 2.8826, |
| "step": 1720 |
| }, |
| { |
| "epoch": 0.92, |
| "learning_rate": 0.004233333333333334, |
| "loss": 2.867, |
| "step": 1730 |
| }, |
| { |
| "epoch": 0.93, |
| "learning_rate": 0.0042, |
| "loss": 2.9155, |
| "step": 1740 |
| }, |
| { |
| "epoch": 0.94, |
| "learning_rate": 0.004166666666666667, |
| "loss": 2.9031, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.94, |
| "learning_rate": 0.0041333333333333335, |
| "loss": 2.9666, |
| "step": 1760 |
| }, |
| { |
| "epoch": 0.95, |
| "learning_rate": 0.0040999999999999995, |
| "loss": 2.8097, |
| "step": 1770 |
| }, |
| { |
| "epoch": 0.95, |
| "learning_rate": 0.004066666666666667, |
| "loss": 2.9457, |
| "step": 1780 |
| }, |
| { |
| "epoch": 0.96, |
| "learning_rate": 0.004033333333333333, |
| "loss": 2.8746, |
| "step": 1790 |
| }, |
| { |
| "epoch": 0.96, |
| "learning_rate": 0.004, |
| "loss": 2.9243, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.97, |
| "learning_rate": 0.003966666666666667, |
| "loss": 2.7506, |
| "step": 1810 |
| }, |
| { |
| "epoch": 0.97, |
| "learning_rate": 0.003933333333333333, |
| "loss": 2.9817, |
| "step": 1820 |
| }, |
| { |
| "epoch": 0.98, |
| "learning_rate": 0.0039000000000000003, |
| "loss": 2.9476, |
| "step": 1830 |
| }, |
| { |
| "epoch": 0.98, |
| "learning_rate": 0.0038666666666666667, |
| "loss": 2.9803, |
| "step": 1840 |
| }, |
| { |
| "epoch": 0.99, |
| "learning_rate": 0.0038333333333333336, |
| "loss": 2.8027, |
| "step": 1850 |
| }, |
| { |
| "epoch": 0.99, |
| "learning_rate": 0.0038, |
| "loss": 2.8793, |
| "step": 1860 |
| }, |
| { |
| "epoch": 1.0, |
| "learning_rate": 0.0037666666666666664, |
| "loss": 2.9018, |
| "step": 1870 |
| }, |
| { |
| "epoch": 1.0, |
| "learning_rate": 0.0037333333333333337, |
| "loss": 2.7221, |
| "step": 1880 |
| }, |
| { |
| "epoch": 1.01, |
| "learning_rate": 0.0037, |
| "loss": 2.6557, |
| "step": 1890 |
| }, |
| { |
| "epoch": 1.02, |
| "learning_rate": 0.0036666666666666666, |
| "loss": 2.7212, |
| "step": 1900 |
| }, |
| { |
| "epoch": 1.02, |
| "learning_rate": 0.0036333333333333335, |
| "loss": 2.759, |
| "step": 1910 |
| }, |
| { |
| "epoch": 1.03, |
| "learning_rate": 0.0036, |
| "loss": 2.7565, |
| "step": 1920 |
| }, |
| { |
| "epoch": 1.03, |
| "learning_rate": 0.0035666666666666668, |
| "loss": 2.7665, |
| "step": 1930 |
| }, |
| { |
| "epoch": 1.04, |
| "learning_rate": 0.003533333333333333, |
| "loss": 2.6326, |
| "step": 1940 |
| }, |
| { |
| "epoch": 1.04, |
| "learning_rate": 0.0034999999999999996, |
| "loss": 2.7236, |
| "step": 1950 |
| }, |
| { |
| "epoch": 1.05, |
| "learning_rate": 0.003466666666666667, |
| "loss": 2.7307, |
| "step": 1960 |
| }, |
| { |
| "epoch": 1.05, |
| "learning_rate": 0.0034333333333333334, |
| "loss": 2.8281, |
| "step": 1970 |
| }, |
| { |
| "epoch": 1.06, |
| "learning_rate": 0.0034000000000000002, |
| "loss": 2.8165, |
| "step": 1980 |
| }, |
| { |
| "epoch": 1.06, |
| "learning_rate": 0.0033666666666666667, |
| "loss": 2.7946, |
| "step": 1990 |
| }, |
| { |
| "epoch": 1.07, |
| "learning_rate": 0.003333333333333333, |
| "loss": 2.6679, |
| "step": 2000 |
| }, |
| { |
| "epoch": 1.07, |
| "learning_rate": 0.0033000000000000004, |
| "loss": 2.7616, |
| "step": 2010 |
| }, |
| { |
| "epoch": 1.08, |
| "learning_rate": 0.003266666666666667, |
| "loss": 2.706, |
| "step": 2020 |
| }, |
| { |
| "epoch": 1.08, |
| "learning_rate": 0.0032333333333333333, |
| "loss": 2.8121, |
| "step": 2030 |
| }, |
| { |
| "epoch": 1.09, |
| "learning_rate": 0.0032, |
| "loss": 2.6763, |
| "step": 2040 |
| }, |
| { |
| "epoch": 1.1, |
| "learning_rate": 0.0031666666666666666, |
| "loss": 2.6566, |
| "step": 2050 |
| }, |
| { |
| "epoch": 1.1, |
| "learning_rate": 0.0031333333333333335, |
| "loss": 2.7536, |
| "step": 2060 |
| }, |
| { |
| "epoch": 1.11, |
| "learning_rate": 0.0031, |
| "loss": 2.7246, |
| "step": 2070 |
| }, |
| { |
| "epoch": 1.11, |
| "learning_rate": 0.0030666666666666663, |
| "loss": 2.6712, |
| "step": 2080 |
| }, |
| { |
| "epoch": 1.12, |
| "learning_rate": 0.0030333333333333336, |
| "loss": 2.6933, |
| "step": 2090 |
| }, |
| { |
| "epoch": 1.12, |
| "learning_rate": 0.003, |
| "loss": 2.7509, |
| "step": 2100 |
| }, |
| { |
| "epoch": 1.13, |
| "learning_rate": 0.002966666666666667, |
| "loss": 2.7758, |
| "step": 2110 |
| }, |
| { |
| "epoch": 1.13, |
| "learning_rate": 0.0029333333333333334, |
| "loss": 2.7221, |
| "step": 2120 |
| }, |
| { |
| "epoch": 1.14, |
| "learning_rate": 0.0029, |
| "loss": 2.7005, |
| "step": 2130 |
| }, |
| { |
| "epoch": 1.14, |
| "learning_rate": 0.0028666666666666667, |
| "loss": 2.7714, |
| "step": 2140 |
| }, |
| { |
| "epoch": 1.15, |
| "learning_rate": 0.002833333333333333, |
| "loss": 2.7245, |
| "step": 2150 |
| }, |
| { |
| "epoch": 1.15, |
| "learning_rate": 0.0028000000000000004, |
| "loss": 2.6423, |
| "step": 2160 |
| }, |
| { |
| "epoch": 1.16, |
| "learning_rate": 0.002766666666666667, |
| "loss": 2.7222, |
| "step": 2170 |
| }, |
| { |
| "epoch": 1.16, |
| "learning_rate": 0.0027333333333333333, |
| "loss": 2.78, |
| "step": 2180 |
| }, |
| { |
| "epoch": 1.17, |
| "learning_rate": 0.0027, |
| "loss": 2.6494, |
| "step": 2190 |
| }, |
| { |
| "epoch": 1.18, |
| "learning_rate": 0.0026666666666666666, |
| "loss": 2.611, |
| "step": 2200 |
| }, |
| { |
| "epoch": 1.18, |
| "learning_rate": 0.002633333333333333, |
| "loss": 2.6051, |
| "step": 2210 |
| }, |
| { |
| "epoch": 1.19, |
| "learning_rate": 0.0026000000000000003, |
| "loss": 2.5935, |
| "step": 2220 |
| }, |
| { |
| "epoch": 1.19, |
| "learning_rate": 0.0025666666666666667, |
| "loss": 2.7753, |
| "step": 2230 |
| }, |
| { |
| "epoch": 1.2, |
| "learning_rate": 0.0025333333333333336, |
| "loss": 2.6946, |
| "step": 2240 |
| }, |
| { |
| "epoch": 1.2, |
| "learning_rate": 0.0025, |
| "loss": 2.7819, |
| "step": 2250 |
| }, |
| { |
| "epoch": 1.21, |
| "learning_rate": 0.002466666666666667, |
| "loss": 2.6382, |
| "step": 2260 |
| }, |
| { |
| "epoch": 1.21, |
| "learning_rate": 0.0024333333333333334, |
| "loss": 2.7982, |
| "step": 2270 |
| }, |
| { |
| "epoch": 1.22, |
| "learning_rate": 0.0024, |
| "loss": 2.7398, |
| "step": 2280 |
| }, |
| { |
| "epoch": 1.22, |
| "learning_rate": 0.0023666666666666667, |
| "loss": 2.6662, |
| "step": 2290 |
| }, |
| { |
| "epoch": 1.23, |
| "learning_rate": 0.0023333333333333335, |
| "loss": 2.7676, |
| "step": 2300 |
| }, |
| { |
| "epoch": 1.23, |
| "learning_rate": 0.0023, |
| "loss": 2.8121, |
| "step": 2310 |
| }, |
| { |
| "epoch": 1.24, |
| "learning_rate": 0.0022666666666666664, |
| "loss": 2.7563, |
| "step": 2320 |
| }, |
| { |
| "epoch": 1.24, |
| "learning_rate": 0.0022333333333333333, |
| "loss": 2.7693, |
| "step": 2330 |
| }, |
| { |
| "epoch": 1.25, |
| "learning_rate": 0.0022, |
| "loss": 2.6918, |
| "step": 2340 |
| }, |
| { |
| "epoch": 1.26, |
| "learning_rate": 0.002166666666666667, |
| "loss": 2.6115, |
| "step": 2350 |
| }, |
| { |
| "epoch": 1.26, |
| "learning_rate": 0.0021333333333333334, |
| "loss": 2.8079, |
| "step": 2360 |
| }, |
| { |
| "epoch": 1.27, |
| "learning_rate": 0.0021, |
| "loss": 2.7315, |
| "step": 2370 |
| }, |
| { |
| "epoch": 1.27, |
| "learning_rate": 0.0020666666666666667, |
| "loss": 2.6514, |
| "step": 2380 |
| }, |
| { |
| "epoch": 1.28, |
| "learning_rate": 0.0020333333333333336, |
| "loss": 2.7606, |
| "step": 2390 |
| }, |
| { |
| "epoch": 1.28, |
| "learning_rate": 0.002, |
| "loss": 2.6995, |
| "step": 2400 |
| }, |
| { |
| "epoch": 1.29, |
| "learning_rate": 0.0019666666666666665, |
| "loss": 2.887, |
| "step": 2410 |
| }, |
| { |
| "epoch": 1.29, |
| "learning_rate": 0.0019333333333333333, |
| "loss": 2.7945, |
| "step": 2420 |
| }, |
| { |
| "epoch": 1.3, |
| "learning_rate": 0.0019, |
| "loss": 2.7942, |
| "step": 2430 |
| }, |
| { |
| "epoch": 1.3, |
| "learning_rate": 0.0018666666666666669, |
| "loss": 2.7315, |
| "step": 2440 |
| }, |
| { |
| "epoch": 1.31, |
| "learning_rate": 0.0018333333333333333, |
| "loss": 2.7457, |
| "step": 2450 |
| }, |
| { |
| "epoch": 1.31, |
| "learning_rate": 0.0018, |
| "loss": 2.7568, |
| "step": 2460 |
| }, |
| { |
| "epoch": 1.32, |
| "learning_rate": 0.0017666666666666666, |
| "loss": 2.7882, |
| "step": 2470 |
| }, |
| { |
| "epoch": 1.33, |
| "learning_rate": 0.0017333333333333335, |
| "loss": 2.7582, |
| "step": 2480 |
| }, |
| { |
| "epoch": 1.33, |
| "learning_rate": 0.0017000000000000001, |
| "loss": 2.6868, |
| "step": 2490 |
| }, |
| { |
| "epoch": 1.34, |
| "learning_rate": 0.0016666666666666666, |
| "loss": 2.7358, |
| "step": 2500 |
| }, |
| { |
| "epoch": 1.34, |
| "learning_rate": 0.0016333333333333334, |
| "loss": 2.7422, |
| "step": 2510 |
| }, |
| { |
| "epoch": 1.35, |
| "learning_rate": 0.0016, |
| "loss": 2.6889, |
| "step": 2520 |
| }, |
| { |
| "epoch": 1.35, |
| "learning_rate": 0.0015666666666666667, |
| "loss": 2.864, |
| "step": 2530 |
| }, |
| { |
| "epoch": 1.36, |
| "learning_rate": 0.0015333333333333332, |
| "loss": 2.7862, |
| "step": 2540 |
| }, |
| { |
| "epoch": 1.36, |
| "learning_rate": 0.0015, |
| "loss": 2.7896, |
| "step": 2550 |
| }, |
| { |
| "epoch": 1.37, |
| "learning_rate": 0.0014666666666666667, |
| "loss": 2.6343, |
| "step": 2560 |
| }, |
| { |
| "epoch": 1.37, |
| "learning_rate": 0.0014333333333333333, |
| "loss": 2.7965, |
| "step": 2570 |
| }, |
| { |
| "epoch": 1.38, |
| "learning_rate": 0.0014000000000000002, |
| "loss": 2.7699, |
| "step": 2580 |
| }, |
| { |
| "epoch": 1.38, |
| "learning_rate": 0.0013666666666666666, |
| "loss": 2.7487, |
| "step": 2590 |
| }, |
| { |
| "epoch": 1.39, |
| "learning_rate": 0.0013333333333333333, |
| "loss": 2.7581, |
| "step": 2600 |
| }, |
| { |
| "epoch": 1.39, |
| "learning_rate": 0.0013000000000000002, |
| "loss": 2.7833, |
| "step": 2610 |
| }, |
| { |
| "epoch": 1.4, |
| "learning_rate": 0.0012666666666666668, |
| "loss": 2.5927, |
| "step": 2620 |
| }, |
| { |
| "epoch": 1.41, |
| "learning_rate": 0.0012333333333333335, |
| "loss": 2.6962, |
| "step": 2630 |
| }, |
| { |
| "epoch": 1.41, |
| "learning_rate": 0.0012, |
| "loss": 2.741, |
| "step": 2640 |
| }, |
| { |
| "epoch": 1.42, |
| "learning_rate": 0.0011666666666666668, |
| "loss": 2.6084, |
| "step": 2650 |
| }, |
| { |
| "epoch": 1.42, |
| "learning_rate": 0.0011333333333333332, |
| "loss": 2.6298, |
| "step": 2660 |
| }, |
| { |
| "epoch": 1.43, |
| "learning_rate": 0.0011, |
| "loss": 2.7852, |
| "step": 2670 |
| }, |
| { |
| "epoch": 1.43, |
| "learning_rate": 0.0010666666666666667, |
| "loss": 2.6882, |
| "step": 2680 |
| }, |
| { |
| "epoch": 1.44, |
| "learning_rate": 0.0010333333333333334, |
| "loss": 2.71, |
| "step": 2690 |
| }, |
| { |
| "epoch": 1.44, |
| "learning_rate": 0.001, |
| "loss": 2.7664, |
| "step": 2700 |
| }, |
| { |
| "epoch": 1.45, |
| "learning_rate": 0.0009666666666666667, |
| "loss": 2.6978, |
| "step": 2710 |
| }, |
| { |
| "epoch": 1.45, |
| "learning_rate": 0.0009333333333333334, |
| "loss": 2.695, |
| "step": 2720 |
| }, |
| { |
| "epoch": 1.46, |
| "learning_rate": 0.0009, |
| "loss": 2.7348, |
| "step": 2730 |
| }, |
| { |
| "epoch": 1.46, |
| "learning_rate": 0.0008666666666666667, |
| "loss": 2.8213, |
| "step": 2740 |
| }, |
| { |
| "epoch": 1.47, |
| "learning_rate": 0.0008333333333333333, |
| "loss": 2.779, |
| "step": 2750 |
| }, |
| { |
| "epoch": 1.47, |
| "learning_rate": 0.0008, |
| "loss": 2.7319, |
| "step": 2760 |
| }, |
| { |
| "epoch": 1.48, |
| "learning_rate": 0.0007666666666666666, |
| "loss": 2.6866, |
| "step": 2770 |
| }, |
| { |
| "epoch": 1.49, |
| "learning_rate": 0.0007333333333333333, |
| "loss": 2.6938, |
| "step": 2780 |
| }, |
| { |
| "epoch": 1.49, |
| "learning_rate": 0.0007000000000000001, |
| "loss": 2.754, |
| "step": 2790 |
| }, |
| { |
| "epoch": 1.5, |
| "learning_rate": 0.0006666666666666666, |
| "loss": 2.6859, |
| "step": 2800 |
| }, |
| { |
| "epoch": 1.5, |
| "learning_rate": 0.0006333333333333334, |
| "loss": 2.6479, |
| "step": 2810 |
| }, |
| { |
| "epoch": 1.51, |
| "learning_rate": 0.0006, |
| "loss": 2.6387, |
| "step": 2820 |
| }, |
| { |
| "epoch": 1.51, |
| "learning_rate": 0.0005666666666666666, |
| "loss": 2.735, |
| "step": 2830 |
| }, |
| { |
| "epoch": 1.52, |
| "learning_rate": 0.0005333333333333334, |
| "loss": 2.7169, |
| "step": 2840 |
| }, |
| { |
| "epoch": 1.52, |
| "learning_rate": 0.0005, |
| "loss": 2.819, |
| "step": 2850 |
| }, |
| { |
| "epoch": 1.53, |
| "learning_rate": 0.0004666666666666667, |
| "loss": 2.8069, |
| "step": 2860 |
| }, |
| { |
| "epoch": 1.53, |
| "learning_rate": 0.00043333333333333337, |
| "loss": 2.7443, |
| "step": 2870 |
| }, |
| { |
| "epoch": 1.54, |
| "learning_rate": 0.0004, |
| "loss": 2.6086, |
| "step": 2880 |
| }, |
| { |
| "epoch": 1.54, |
| "learning_rate": 0.00036666666666666667, |
| "loss": 2.6786, |
| "step": 2890 |
| }, |
| { |
| "epoch": 1.55, |
| "learning_rate": 0.0003333333333333333, |
| "loss": 2.7616, |
| "step": 2900 |
| }, |
| { |
| "epoch": 1.55, |
| "learning_rate": 0.0003, |
| "loss": 2.6671, |
| "step": 2910 |
| }, |
| { |
| "epoch": 1.56, |
| "learning_rate": 0.0002666666666666667, |
| "loss": 2.7724, |
| "step": 2920 |
| }, |
| { |
| "epoch": 1.57, |
| "learning_rate": 0.00023333333333333336, |
| "loss": 2.7793, |
| "step": 2930 |
| }, |
| { |
| "epoch": 1.57, |
| "learning_rate": 0.0002, |
| "loss": 2.7742, |
| "step": 2940 |
| }, |
| { |
| "epoch": 1.58, |
| "learning_rate": 0.00016666666666666666, |
| "loss": 2.7251, |
| "step": 2950 |
| }, |
| { |
| "epoch": 1.58, |
| "learning_rate": 0.00013333333333333334, |
| "loss": 2.7658, |
| "step": 2960 |
| }, |
| { |
| "epoch": 1.59, |
| "learning_rate": 0.0001, |
| "loss": 2.7, |
| "step": 2970 |
| }, |
| { |
| "epoch": 1.59, |
| "learning_rate": 6.666666666666667e-05, |
| "loss": 2.7616, |
| "step": 2980 |
| }, |
| { |
| "epoch": 1.6, |
| "learning_rate": 3.3333333333333335e-05, |
| "loss": 2.8097, |
| "step": 2990 |
| }, |
| { |
| "epoch": 1.6, |
| "learning_rate": 0.0, |
| "loss": 2.8904, |
| "step": 3000 |
| } |
| ], |
| "max_steps": 3000, |
| "num_train_epochs": 2, |
| "total_flos": 4.159713219402793e+17, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|