| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 20.833333333333332, | |
| "eval_steps": 500, | |
| "global_step": 10000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.020833333333333332, | |
| "grad_norm": 0.5712802410125732, | |
| "learning_rate": 2.0000000000000003e-06, | |
| "loss": 1.2353, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 0.4432624280452728, | |
| "learning_rate": 4.000000000000001e-06, | |
| "loss": 1.3046, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.0625, | |
| "grad_norm": 0.40406811237335205, | |
| "learning_rate": 6e-06, | |
| "loss": 1.3525, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.5075733661651611, | |
| "learning_rate": 8.000000000000001e-06, | |
| "loss": 1.2482, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.10416666666666667, | |
| "grad_norm": 0.543536365032196, | |
| "learning_rate": 1e-05, | |
| "loss": 1.1572, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.125, | |
| "grad_norm": 0.49635010957717896, | |
| "learning_rate": 1.2e-05, | |
| "loss": 1.2206, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.14583333333333334, | |
| "grad_norm": 0.5479629039764404, | |
| "learning_rate": 1.4000000000000001e-05, | |
| "loss": 0.9868, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 0.4761858284473419, | |
| "learning_rate": 1.6000000000000003e-05, | |
| "loss": 0.9651, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.1875, | |
| "grad_norm": 0.5013508796691895, | |
| "learning_rate": 1.8e-05, | |
| "loss": 0.7967, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 0.5219478011131287, | |
| "learning_rate": 2e-05, | |
| "loss": 0.6818, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.22916666666666666, | |
| "grad_norm": 0.38396820425987244, | |
| "learning_rate": 2.2000000000000003e-05, | |
| "loss": 0.5786, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 0.4274996519088745, | |
| "learning_rate": 2.4e-05, | |
| "loss": 0.4518, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.2708333333333333, | |
| "grad_norm": 0.3955512046813965, | |
| "learning_rate": 2.6000000000000002e-05, | |
| "loss": 0.4033, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.2916666666666667, | |
| "grad_norm": 0.3096176087856293, | |
| "learning_rate": 2.8000000000000003e-05, | |
| "loss": 0.3677, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.3125, | |
| "grad_norm": 0.30808889865875244, | |
| "learning_rate": 3e-05, | |
| "loss": 0.3219, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.2835131287574768, | |
| "learning_rate": 3.2000000000000005e-05, | |
| "loss": 0.3306, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.3541666666666667, | |
| "grad_norm": 0.39547616243362427, | |
| "learning_rate": 3.4000000000000007e-05, | |
| "loss": 0.3294, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.375, | |
| "grad_norm": 0.3801705539226532, | |
| "learning_rate": 3.6e-05, | |
| "loss": 0.3112, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.3958333333333333, | |
| "grad_norm": 0.3237359821796417, | |
| "learning_rate": 3.8e-05, | |
| "loss": 0.2771, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 0.32737982273101807, | |
| "learning_rate": 4e-05, | |
| "loss": 0.2887, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.4375, | |
| "grad_norm": 0.2855188846588135, | |
| "learning_rate": 4.2e-05, | |
| "loss": 0.2602, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.4583333333333333, | |
| "grad_norm": 0.3789673447608948, | |
| "learning_rate": 4.4000000000000006e-05, | |
| "loss": 0.2551, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.4791666666666667, | |
| "grad_norm": 0.3325900137424469, | |
| "learning_rate": 4.600000000000001e-05, | |
| "loss": 0.2406, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.3865416944026947, | |
| "learning_rate": 4.8e-05, | |
| "loss": 0.2361, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.5208333333333334, | |
| "grad_norm": 0.33023643493652344, | |
| "learning_rate": 5e-05, | |
| "loss": 0.2349, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.5416666666666666, | |
| "grad_norm": 0.35536086559295654, | |
| "learning_rate": 5.2000000000000004e-05, | |
| "loss": 0.2205, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.5625, | |
| "grad_norm": 0.4194355905056, | |
| "learning_rate": 5.4000000000000005e-05, | |
| "loss": 0.2352, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 0.4418402314186096, | |
| "learning_rate": 5.6000000000000006e-05, | |
| "loss": 0.1984, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.6041666666666666, | |
| "grad_norm": 0.6294600367546082, | |
| "learning_rate": 5.8e-05, | |
| "loss": 0.2294, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.625, | |
| "grad_norm": 0.38821548223495483, | |
| "learning_rate": 6e-05, | |
| "loss": 0.2027, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.6458333333333334, | |
| "grad_norm": 0.34604135155677795, | |
| "learning_rate": 6.2e-05, | |
| "loss": 0.2091, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.34750574827194214, | |
| "learning_rate": 6.400000000000001e-05, | |
| "loss": 0.1956, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.6875, | |
| "grad_norm": 0.36665627360343933, | |
| "learning_rate": 6.6e-05, | |
| "loss": 0.1946, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.7083333333333334, | |
| "grad_norm": 0.2869899570941925, | |
| "learning_rate": 6.800000000000001e-05, | |
| "loss": 0.1686, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.7291666666666666, | |
| "grad_norm": 0.2892889976501465, | |
| "learning_rate": 7e-05, | |
| "loss": 0.1807, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 0.43622446060180664, | |
| "learning_rate": 7.2e-05, | |
| "loss": 0.1788, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.7708333333333334, | |
| "grad_norm": 0.3504660427570343, | |
| "learning_rate": 7.4e-05, | |
| "loss": 0.1614, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.7916666666666666, | |
| "grad_norm": 0.49165523052215576, | |
| "learning_rate": 7.6e-05, | |
| "loss": 0.1664, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.8125, | |
| "grad_norm": 0.524911105632782, | |
| "learning_rate": 7.800000000000001e-05, | |
| "loss": 0.1643, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 0.3354795277118683, | |
| "learning_rate": 8e-05, | |
| "loss": 0.1559, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.8541666666666666, | |
| "grad_norm": 0.36271512508392334, | |
| "learning_rate": 8.2e-05, | |
| "loss": 0.1603, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.875, | |
| "grad_norm": 0.3612838387489319, | |
| "learning_rate": 8.4e-05, | |
| "loss": 0.1604, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.8958333333333334, | |
| "grad_norm": 0.3812621831893921, | |
| "learning_rate": 8.6e-05, | |
| "loss": 0.1513, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.9166666666666666, | |
| "grad_norm": 0.4501417577266693, | |
| "learning_rate": 8.800000000000001e-05, | |
| "loss": 0.1506, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.9375, | |
| "grad_norm": 0.3173256516456604, | |
| "learning_rate": 9e-05, | |
| "loss": 0.1503, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.9583333333333334, | |
| "grad_norm": 0.36029666662216187, | |
| "learning_rate": 9.200000000000001e-05, | |
| "loss": 0.156, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.9791666666666666, | |
| "grad_norm": 0.39666202664375305, | |
| "learning_rate": 9.4e-05, | |
| "loss": 0.1519, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.5281791687011719, | |
| "learning_rate": 9.6e-05, | |
| "loss": 0.1446, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 1.0208333333333333, | |
| "grad_norm": 0.3308173418045044, | |
| "learning_rate": 9.8e-05, | |
| "loss": 0.1366, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 1.0416666666666667, | |
| "grad_norm": 0.30894652009010315, | |
| "learning_rate": 0.0001, | |
| "loss": 0.1328, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 1.0625, | |
| "grad_norm": 0.4123728275299072, | |
| "learning_rate": 9.999972660400536e-05, | |
| "loss": 0.1373, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 1.0833333333333333, | |
| "grad_norm": 0.26810720562934875, | |
| "learning_rate": 9.999890641901125e-05, | |
| "loss": 0.1228, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 1.1041666666666667, | |
| "grad_norm": 0.42416492104530334, | |
| "learning_rate": 9.999753945398704e-05, | |
| "loss": 0.1402, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 1.125, | |
| "grad_norm": 0.3639088273048401, | |
| "learning_rate": 9.99956257238817e-05, | |
| "loss": 0.1249, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 1.1458333333333333, | |
| "grad_norm": 0.2935086190700531, | |
| "learning_rate": 9.999316524962345e-05, | |
| "loss": 0.1342, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 0.29809266328811646, | |
| "learning_rate": 9.999015805811965e-05, | |
| "loss": 0.1193, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 1.1875, | |
| "grad_norm": 0.3292215168476105, | |
| "learning_rate": 9.998660418225645e-05, | |
| "loss": 0.1066, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 1.2083333333333333, | |
| "grad_norm": 0.3413059413433075, | |
| "learning_rate": 9.998250366089848e-05, | |
| "loss": 0.1219, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 1.2291666666666667, | |
| "grad_norm": 0.3150234818458557, | |
| "learning_rate": 9.997785653888835e-05, | |
| "loss": 0.1226, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 0.3413054645061493, | |
| "learning_rate": 9.997266286704631e-05, | |
| "loss": 0.1202, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 1.2708333333333333, | |
| "grad_norm": 0.412722647190094, | |
| "learning_rate": 9.996692270216947e-05, | |
| "loss": 0.1222, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 1.2916666666666667, | |
| "grad_norm": 0.2636623978614807, | |
| "learning_rate": 9.996063610703137e-05, | |
| "loss": 0.1123, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 1.3125, | |
| "grad_norm": 0.3020671606063843, | |
| "learning_rate": 9.995380315038119e-05, | |
| "loss": 0.1128, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 0.3055395483970642, | |
| "learning_rate": 9.994642390694308e-05, | |
| "loss": 0.1091, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 1.3541666666666667, | |
| "grad_norm": 0.3779659569263458, | |
| "learning_rate": 9.993849845741524e-05, | |
| "loss": 0.1208, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 1.375, | |
| "grad_norm": 0.4711195230484009, | |
| "learning_rate": 9.993002688846913e-05, | |
| "loss": 0.1165, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 1.3958333333333333, | |
| "grad_norm": 0.256693571805954, | |
| "learning_rate": 9.992100929274846e-05, | |
| "loss": 0.1185, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 1.4166666666666667, | |
| "grad_norm": 0.38072532415390015, | |
| "learning_rate": 9.991144576886823e-05, | |
| "loss": 0.1142, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 1.4375, | |
| "grad_norm": 0.31933581829071045, | |
| "learning_rate": 9.990133642141359e-05, | |
| "loss": 0.1083, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 1.4583333333333333, | |
| "grad_norm": 0.3114969730377197, | |
| "learning_rate": 9.989068136093873e-05, | |
| "loss": 0.1075, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 1.4791666666666667, | |
| "grad_norm": 0.3455674648284912, | |
| "learning_rate": 9.987948070396571e-05, | |
| "loss": 0.1189, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.33146438002586365, | |
| "learning_rate": 9.986773457298311e-05, | |
| "loss": 0.1054, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 1.5208333333333335, | |
| "grad_norm": 0.3065161108970642, | |
| "learning_rate": 9.985544309644475e-05, | |
| "loss": 0.1032, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 1.5416666666666665, | |
| "grad_norm": 0.38725510239601135, | |
| "learning_rate": 9.984260640876821e-05, | |
| "loss": 0.097, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 1.5625, | |
| "grad_norm": 0.32791706919670105, | |
| "learning_rate": 9.98292246503335e-05, | |
| "loss": 0.1008, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 1.5833333333333335, | |
| "grad_norm": 0.34981703758239746, | |
| "learning_rate": 9.981529796748134e-05, | |
| "loss": 0.0956, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 1.6041666666666665, | |
| "grad_norm": 0.3093942701816559, | |
| "learning_rate": 9.980082651251175e-05, | |
| "loss": 0.1054, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 1.625, | |
| "grad_norm": 0.30290845036506653, | |
| "learning_rate": 9.97858104436822e-05, | |
| "loss": 0.1079, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 1.6458333333333335, | |
| "grad_norm": 0.3575012981891632, | |
| "learning_rate": 9.977024992520602e-05, | |
| "loss": 0.1037, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.2697035074234009, | |
| "learning_rate": 9.975414512725057e-05, | |
| "loss": 0.0998, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 1.6875, | |
| "grad_norm": 0.3098699152469635, | |
| "learning_rate": 9.973749622593534e-05, | |
| "loss": 0.102, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 1.7083333333333335, | |
| "grad_norm": 0.43280744552612305, | |
| "learning_rate": 9.972030340333001e-05, | |
| "loss": 0.1022, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 1.7291666666666665, | |
| "grad_norm": 0.4108767807483673, | |
| "learning_rate": 9.970256684745258e-05, | |
| "loss": 0.101, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "grad_norm": 0.34355419874191284, | |
| "learning_rate": 9.968428675226714e-05, | |
| "loss": 0.0943, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 1.7708333333333335, | |
| "grad_norm": 0.33007073402404785, | |
| "learning_rate": 9.966546331768191e-05, | |
| "loss": 0.1124, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 1.7916666666666665, | |
| "grad_norm": 0.2797167897224426, | |
| "learning_rate": 9.964609674954696e-05, | |
| "loss": 0.0945, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 1.8125, | |
| "grad_norm": 0.3793611526489258, | |
| "learning_rate": 9.962618725965196e-05, | |
| "loss": 0.093, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 0.35163822770118713, | |
| "learning_rate": 9.96057350657239e-05, | |
| "loss": 0.0967, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 1.8541666666666665, | |
| "grad_norm": 0.28550562262535095, | |
| "learning_rate": 9.95847403914247e-05, | |
| "loss": 0.0961, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 1.875, | |
| "grad_norm": 0.2862968146800995, | |
| "learning_rate": 9.956320346634876e-05, | |
| "loss": 0.1006, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 1.8958333333333335, | |
| "grad_norm": 0.29589930176734924, | |
| "learning_rate": 9.954112452602045e-05, | |
| "loss": 0.0844, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 1.9166666666666665, | |
| "grad_norm": 0.35761862993240356, | |
| "learning_rate": 9.95185038118915e-05, | |
| "loss": 0.089, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 1.9375, | |
| "grad_norm": 0.21639415621757507, | |
| "learning_rate": 9.949534157133844e-05, | |
| "loss": 0.0873, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 1.9583333333333335, | |
| "grad_norm": 0.22971071302890778, | |
| "learning_rate": 9.94716380576598e-05, | |
| "loss": 0.0859, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 1.9791666666666665, | |
| "grad_norm": 0.42926573753356934, | |
| "learning_rate": 9.944739353007344e-05, | |
| "loss": 0.0901, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.38621583580970764, | |
| "learning_rate": 9.942260825371358e-05, | |
| "loss": 0.0852, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 2.0208333333333335, | |
| "grad_norm": 0.18208271265029907, | |
| "learning_rate": 9.939728249962807e-05, | |
| "loss": 0.0866, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 2.0416666666666665, | |
| "grad_norm": 0.4486900568008423, | |
| "learning_rate": 9.937141654477528e-05, | |
| "loss": 0.0962, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 2.0625, | |
| "grad_norm": 0.37927910685539246, | |
| "learning_rate": 9.934501067202117e-05, | |
| "loss": 0.0907, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "grad_norm": 0.3539460301399231, | |
| "learning_rate": 9.931806517013612e-05, | |
| "loss": 0.0881, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 2.1041666666666665, | |
| "grad_norm": 0.2473289519548416, | |
| "learning_rate": 9.929058033379181e-05, | |
| "loss": 0.0819, | |
| "step": 1010 | |
| }, | |
| { | |
| "epoch": 2.125, | |
| "grad_norm": 0.322482168674469, | |
| "learning_rate": 9.926255646355804e-05, | |
| "loss": 0.0806, | |
| "step": 1020 | |
| }, | |
| { | |
| "epoch": 2.1458333333333335, | |
| "grad_norm": 0.28534042835235596, | |
| "learning_rate": 9.923399386589933e-05, | |
| "loss": 0.0865, | |
| "step": 1030 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 0.3318226635456085, | |
| "learning_rate": 9.92048928531717e-05, | |
| "loss": 0.0913, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 2.1875, | |
| "grad_norm": 0.29245731234550476, | |
| "learning_rate": 9.917525374361912e-05, | |
| "loss": 0.0807, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 2.2083333333333335, | |
| "grad_norm": 0.3240273892879486, | |
| "learning_rate": 9.914507686137019e-05, | |
| "loss": 0.0901, | |
| "step": 1060 | |
| }, | |
| { | |
| "epoch": 2.2291666666666665, | |
| "grad_norm": 0.2937006950378418, | |
| "learning_rate": 9.911436253643445e-05, | |
| "loss": 0.0929, | |
| "step": 1070 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "grad_norm": 0.19473260641098022, | |
| "learning_rate": 9.90831111046988e-05, | |
| "loss": 0.0877, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 2.2708333333333335, | |
| "grad_norm": 0.23158523440361023, | |
| "learning_rate": 9.905132290792394e-05, | |
| "loss": 0.0785, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 2.2916666666666665, | |
| "grad_norm": 0.39173424243927, | |
| "learning_rate": 9.901899829374047e-05, | |
| "loss": 0.0799, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 2.3125, | |
| "grad_norm": 0.2652515172958374, | |
| "learning_rate": 9.89861376156452e-05, | |
| "loss": 0.0873, | |
| "step": 1110 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 0.2860721945762634, | |
| "learning_rate": 9.895274123299723e-05, | |
| "loss": 0.085, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 2.3541666666666665, | |
| "grad_norm": 0.2780362367630005, | |
| "learning_rate": 9.891880951101407e-05, | |
| "loss": 0.0888, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 2.375, | |
| "grad_norm": 0.16782543063163757, | |
| "learning_rate": 9.888434282076758e-05, | |
| "loss": 0.0838, | |
| "step": 1140 | |
| }, | |
| { | |
| "epoch": 2.3958333333333335, | |
| "grad_norm": 0.2574249505996704, | |
| "learning_rate": 9.884934153917997e-05, | |
| "loss": 0.0911, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 2.4166666666666665, | |
| "grad_norm": 0.43154850602149963, | |
| "learning_rate": 9.881380604901964e-05, | |
| "loss": 0.0853, | |
| "step": 1160 | |
| }, | |
| { | |
| "epoch": 2.4375, | |
| "grad_norm": 0.36470529437065125, | |
| "learning_rate": 9.877773673889701e-05, | |
| "loss": 0.0795, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 2.4583333333333335, | |
| "grad_norm": 0.37350448966026306, | |
| "learning_rate": 9.87411340032603e-05, | |
| "loss": 0.0826, | |
| "step": 1180 | |
| }, | |
| { | |
| "epoch": 2.4791666666666665, | |
| "grad_norm": 0.21771150827407837, | |
| "learning_rate": 9.870399824239117e-05, | |
| "loss": 0.0769, | |
| "step": 1190 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.30865246057510376, | |
| "learning_rate": 9.86663298624003e-05, | |
| "loss": 0.0835, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 2.5208333333333335, | |
| "grad_norm": 0.252465158700943, | |
| "learning_rate": 9.862812927522309e-05, | |
| "loss": 0.0857, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 2.5416666666666665, | |
| "grad_norm": 0.2315169870853424, | |
| "learning_rate": 9.858939689861506e-05, | |
| "loss": 0.0777, | |
| "step": 1220 | |
| }, | |
| { | |
| "epoch": 2.5625, | |
| "grad_norm": 0.31083425879478455, | |
| "learning_rate": 9.855013315614725e-05, | |
| "loss": 0.0957, | |
| "step": 1230 | |
| }, | |
| { | |
| "epoch": 2.5833333333333335, | |
| "grad_norm": 0.2780759036540985, | |
| "learning_rate": 9.851033847720166e-05, | |
| "loss": 0.077, | |
| "step": 1240 | |
| }, | |
| { | |
| "epoch": 2.6041666666666665, | |
| "grad_norm": 0.20363084971904755, | |
| "learning_rate": 9.847001329696653e-05, | |
| "loss": 0.0836, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 2.625, | |
| "grad_norm": 0.2512096166610718, | |
| "learning_rate": 9.842915805643155e-05, | |
| "loss": 0.0735, | |
| "step": 1260 | |
| }, | |
| { | |
| "epoch": 2.6458333333333335, | |
| "grad_norm": 0.23748940229415894, | |
| "learning_rate": 9.838777320238312e-05, | |
| "loss": 0.0825, | |
| "step": 1270 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 0.253743439912796, | |
| "learning_rate": 9.834585918739936e-05, | |
| "loss": 0.0807, | |
| "step": 1280 | |
| }, | |
| { | |
| "epoch": 2.6875, | |
| "grad_norm": 0.28816473484039307, | |
| "learning_rate": 9.830341646984521e-05, | |
| "loss": 0.0879, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 2.7083333333333335, | |
| "grad_norm": 0.19456538558006287, | |
| "learning_rate": 9.826044551386744e-05, | |
| "loss": 0.0757, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 2.7291666666666665, | |
| "grad_norm": 0.3038620054721832, | |
| "learning_rate": 9.821694678938953e-05, | |
| "loss": 0.079, | |
| "step": 1310 | |
| }, | |
| { | |
| "epoch": 2.75, | |
| "grad_norm": 0.2352106273174286, | |
| "learning_rate": 9.817292077210659e-05, | |
| "loss": 0.0823, | |
| "step": 1320 | |
| }, | |
| { | |
| "epoch": 2.7708333333333335, | |
| "grad_norm": 0.26719608902931213, | |
| "learning_rate": 9.812836794348004e-05, | |
| "loss": 0.0714, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 2.7916666666666665, | |
| "grad_norm": 0.34651756286621094, | |
| "learning_rate": 9.808328879073251e-05, | |
| "loss": 0.0777, | |
| "step": 1340 | |
| }, | |
| { | |
| "epoch": 2.8125, | |
| "grad_norm": 0.4574543237686157, | |
| "learning_rate": 9.803768380684242e-05, | |
| "loss": 0.0782, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 0.3922979533672333, | |
| "learning_rate": 9.799155349053851e-05, | |
| "loss": 0.0743, | |
| "step": 1360 | |
| }, | |
| { | |
| "epoch": 2.8541666666666665, | |
| "grad_norm": 0.5270682573318481, | |
| "learning_rate": 9.794489834629455e-05, | |
| "loss": 0.0792, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 2.875, | |
| "grad_norm": 0.32153066992759705, | |
| "learning_rate": 9.789771888432375e-05, | |
| "loss": 0.0807, | |
| "step": 1380 | |
| }, | |
| { | |
| "epoch": 2.8958333333333335, | |
| "grad_norm": 0.22497066855430603, | |
| "learning_rate": 9.785001562057309e-05, | |
| "loss": 0.0725, | |
| "step": 1390 | |
| }, | |
| { | |
| "epoch": 2.9166666666666665, | |
| "grad_norm": 0.34180617332458496, | |
| "learning_rate": 9.780178907671789e-05, | |
| "loss": 0.0743, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 2.9375, | |
| "grad_norm": 0.31628838181495667, | |
| "learning_rate": 9.775303978015585e-05, | |
| "loss": 0.072, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 2.9583333333333335, | |
| "grad_norm": 0.2934205234050751, | |
| "learning_rate": 9.77037682640015e-05, | |
| "loss": 0.0808, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 2.9791666666666665, | |
| "grad_norm": 0.41258537769317627, | |
| "learning_rate": 9.765397506708023e-05, | |
| "loss": 0.0713, | |
| "step": 1430 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.40045008063316345, | |
| "learning_rate": 9.760366073392246e-05, | |
| "loss": 0.0684, | |
| "step": 1440 | |
| }, | |
| { | |
| "epoch": 3.0208333333333335, | |
| "grad_norm": 0.26449063420295715, | |
| "learning_rate": 9.755282581475769e-05, | |
| "loss": 0.0801, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 3.0416666666666665, | |
| "grad_norm": 0.37949052453041077, | |
| "learning_rate": 9.750147086550844e-05, | |
| "loss": 0.0738, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 3.0625, | |
| "grad_norm": 0.3161103129386902, | |
| "learning_rate": 9.744959644778422e-05, | |
| "loss": 0.072, | |
| "step": 1470 | |
| }, | |
| { | |
| "epoch": 3.0833333333333335, | |
| "grad_norm": 0.20324279367923737, | |
| "learning_rate": 9.739720312887535e-05, | |
| "loss": 0.08, | |
| "step": 1480 | |
| }, | |
| { | |
| "epoch": 3.1041666666666665, | |
| "grad_norm": 0.29232558608055115, | |
| "learning_rate": 9.734429148174675e-05, | |
| "loss": 0.0644, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 3.125, | |
| "grad_norm": 0.28713753819465637, | |
| "learning_rate": 9.729086208503174e-05, | |
| "loss": 0.0859, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 3.1458333333333335, | |
| "grad_norm": 0.25465258955955505, | |
| "learning_rate": 9.723691552302562e-05, | |
| "loss": 0.078, | |
| "step": 1510 | |
| }, | |
| { | |
| "epoch": 3.1666666666666665, | |
| "grad_norm": 0.20603123307228088, | |
| "learning_rate": 9.718245238567939e-05, | |
| "loss": 0.0731, | |
| "step": 1520 | |
| }, | |
| { | |
| "epoch": 3.1875, | |
| "grad_norm": 0.3969944417476654, | |
| "learning_rate": 9.712747326859315e-05, | |
| "loss": 0.0797, | |
| "step": 1530 | |
| }, | |
| { | |
| "epoch": 3.2083333333333335, | |
| "grad_norm": 0.29579344391822815, | |
| "learning_rate": 9.707197877300974e-05, | |
| "loss": 0.082, | |
| "step": 1540 | |
| }, | |
| { | |
| "epoch": 3.2291666666666665, | |
| "grad_norm": 0.3256957232952118, | |
| "learning_rate": 9.701596950580806e-05, | |
| "loss": 0.0781, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 3.25, | |
| "grad_norm": 0.2633601725101471, | |
| "learning_rate": 9.695944607949649e-05, | |
| "loss": 0.065, | |
| "step": 1560 | |
| }, | |
| { | |
| "epoch": 3.2708333333333335, | |
| "grad_norm": 0.17696920037269592, | |
| "learning_rate": 9.690240911220618e-05, | |
| "loss": 0.075, | |
| "step": 1570 | |
| }, | |
| { | |
| "epoch": 3.2916666666666665, | |
| "grad_norm": 0.3057501018047333, | |
| "learning_rate": 9.684485922768422e-05, | |
| "loss": 0.0704, | |
| "step": 1580 | |
| }, | |
| { | |
| "epoch": 3.3125, | |
| "grad_norm": 0.25194841623306274, | |
| "learning_rate": 9.6786797055287e-05, | |
| "loss": 0.0736, | |
| "step": 1590 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 0.3173382878303528, | |
| "learning_rate": 9.672822322997305e-05, | |
| "loss": 0.0689, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 3.3541666666666665, | |
| "grad_norm": 0.22837477922439575, | |
| "learning_rate": 9.66691383922964e-05, | |
| "loss": 0.0753, | |
| "step": 1610 | |
| }, | |
| { | |
| "epoch": 3.375, | |
| "grad_norm": 0.26070430874824524, | |
| "learning_rate": 9.660954318839933e-05, | |
| "loss": 0.069, | |
| "step": 1620 | |
| }, | |
| { | |
| "epoch": 3.3958333333333335, | |
| "grad_norm": 0.29458069801330566, | |
| "learning_rate": 9.654943827000548e-05, | |
| "loss": 0.0716, | |
| "step": 1630 | |
| }, | |
| { | |
| "epoch": 3.4166666666666665, | |
| "grad_norm": 0.19707809388637543, | |
| "learning_rate": 9.648882429441257e-05, | |
| "loss": 0.0644, | |
| "step": 1640 | |
| }, | |
| { | |
| "epoch": 3.4375, | |
| "grad_norm": 0.33838847279548645, | |
| "learning_rate": 9.642770192448536e-05, | |
| "loss": 0.0759, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 3.4583333333333335, | |
| "grad_norm": 0.2788403034210205, | |
| "learning_rate": 9.636607182864827e-05, | |
| "loss": 0.0682, | |
| "step": 1660 | |
| }, | |
| { | |
| "epoch": 3.4791666666666665, | |
| "grad_norm": 0.22954313457012177, | |
| "learning_rate": 9.630393468087818e-05, | |
| "loss": 0.0645, | |
| "step": 1670 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "grad_norm": 0.24135327339172363, | |
| "learning_rate": 9.624129116069694e-05, | |
| "loss": 0.0744, | |
| "step": 1680 | |
| }, | |
| { | |
| "epoch": 3.5208333333333335, | |
| "grad_norm": 0.22705936431884766, | |
| "learning_rate": 9.617814195316411e-05, | |
| "loss": 0.0728, | |
| "step": 1690 | |
| }, | |
| { | |
| "epoch": 3.5416666666666665, | |
| "grad_norm": 0.2939307987689972, | |
| "learning_rate": 9.611448774886924e-05, | |
| "loss": 0.0646, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 3.5625, | |
| "grad_norm": 0.31456202268600464, | |
| "learning_rate": 9.605032924392457e-05, | |
| "loss": 0.0684, | |
| "step": 1710 | |
| }, | |
| { | |
| "epoch": 3.5833333333333335, | |
| "grad_norm": 0.23306606709957123, | |
| "learning_rate": 9.598566713995718e-05, | |
| "loss": 0.0704, | |
| "step": 1720 | |
| }, | |
| { | |
| "epoch": 3.6041666666666665, | |
| "grad_norm": 0.29421374201774597, | |
| "learning_rate": 9.59205021441015e-05, | |
| "loss": 0.0731, | |
| "step": 1730 | |
| }, | |
| { | |
| "epoch": 3.625, | |
| "grad_norm": 0.27085545659065247, | |
| "learning_rate": 9.58548349689915e-05, | |
| "loss": 0.0738, | |
| "step": 1740 | |
| }, | |
| { | |
| "epoch": 3.6458333333333335, | |
| "grad_norm": 0.3011757433414459, | |
| "learning_rate": 9.578866633275288e-05, | |
| "loss": 0.0699, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 3.6666666666666665, | |
| "grad_norm": 0.1997743397951126, | |
| "learning_rate": 9.572199695899522e-05, | |
| "loss": 0.075, | |
| "step": 1760 | |
| }, | |
| { | |
| "epoch": 3.6875, | |
| "grad_norm": 0.246592178940773, | |
| "learning_rate": 9.565482757680415e-05, | |
| "loss": 0.0705, | |
| "step": 1770 | |
| }, | |
| { | |
| "epoch": 3.7083333333333335, | |
| "grad_norm": 0.20437225699424744, | |
| "learning_rate": 9.558715892073323e-05, | |
| "loss": 0.0748, | |
| "step": 1780 | |
| }, | |
| { | |
| "epoch": 3.7291666666666665, | |
| "grad_norm": 0.3391262888908386, | |
| "learning_rate": 9.551899173079607e-05, | |
| "loss": 0.077, | |
| "step": 1790 | |
| }, | |
| { | |
| "epoch": 3.75, | |
| "grad_norm": 0.281211256980896, | |
| "learning_rate": 9.545032675245813e-05, | |
| "loss": 0.0705, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 3.7708333333333335, | |
| "grad_norm": 0.3593650758266449, | |
| "learning_rate": 9.538116473662861e-05, | |
| "loss": 0.0668, | |
| "step": 1810 | |
| }, | |
| { | |
| "epoch": 3.7916666666666665, | |
| "grad_norm": 0.1879791021347046, | |
| "learning_rate": 9.531150643965223e-05, | |
| "loss": 0.0676, | |
| "step": 1820 | |
| }, | |
| { | |
| "epoch": 3.8125, | |
| "grad_norm": 0.21219395101070404, | |
| "learning_rate": 9.524135262330098e-05, | |
| "loss": 0.0647, | |
| "step": 1830 | |
| }, | |
| { | |
| "epoch": 3.8333333333333335, | |
| "grad_norm": 0.3183116316795349, | |
| "learning_rate": 9.517070405476575e-05, | |
| "loss": 0.0634, | |
| "step": 1840 | |
| }, | |
| { | |
| "epoch": 3.8541666666666665, | |
| "grad_norm": 0.28682222962379456, | |
| "learning_rate": 9.509956150664796e-05, | |
| "loss": 0.0646, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 3.875, | |
| "grad_norm": 0.24012918770313263, | |
| "learning_rate": 9.502792575695112e-05, | |
| "loss": 0.0707, | |
| "step": 1860 | |
| }, | |
| { | |
| "epoch": 3.8958333333333335, | |
| "grad_norm": 0.30853742361068726, | |
| "learning_rate": 9.49557975890723e-05, | |
| "loss": 0.065, | |
| "step": 1870 | |
| }, | |
| { | |
| "epoch": 3.9166666666666665, | |
| "grad_norm": 0.195424884557724, | |
| "learning_rate": 9.488317779179361e-05, | |
| "loss": 0.0608, | |
| "step": 1880 | |
| }, | |
| { | |
| "epoch": 3.9375, | |
| "grad_norm": 0.21382686495780945, | |
| "learning_rate": 9.481006715927351e-05, | |
| "loss": 0.0624, | |
| "step": 1890 | |
| }, | |
| { | |
| "epoch": 3.9583333333333335, | |
| "grad_norm": 0.3102688789367676, | |
| "learning_rate": 9.473646649103818e-05, | |
| "loss": 0.0709, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 3.9791666666666665, | |
| "grad_norm": 0.2577802538871765, | |
| "learning_rate": 9.46623765919727e-05, | |
| "loss": 0.0727, | |
| "step": 1910 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 0.3073917031288147, | |
| "learning_rate": 9.458779827231237e-05, | |
| "loss": 0.0702, | |
| "step": 1920 | |
| }, | |
| { | |
| "epoch": 4.020833333333333, | |
| "grad_norm": 0.26779404282569885, | |
| "learning_rate": 9.451273234763371e-05, | |
| "loss": 0.0659, | |
| "step": 1930 | |
| }, | |
| { | |
| "epoch": 4.041666666666667, | |
| "grad_norm": 0.24666723608970642, | |
| "learning_rate": 9.443717963884569e-05, | |
| "loss": 0.0741, | |
| "step": 1940 | |
| }, | |
| { | |
| "epoch": 4.0625, | |
| "grad_norm": 0.2598995864391327, | |
| "learning_rate": 9.43611409721806e-05, | |
| "loss": 0.0639, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 4.083333333333333, | |
| "grad_norm": 0.2048502266407013, | |
| "learning_rate": 9.428461717918511e-05, | |
| "loss": 0.058, | |
| "step": 1960 | |
| }, | |
| { | |
| "epoch": 4.104166666666667, | |
| "grad_norm": 0.30026310682296753, | |
| "learning_rate": 9.420760909671118e-05, | |
| "loss": 0.0644, | |
| "step": 1970 | |
| }, | |
| { | |
| "epoch": 4.125, | |
| "grad_norm": 0.2254793345928192, | |
| "learning_rate": 9.413011756690685e-05, | |
| "loss": 0.0695, | |
| "step": 1980 | |
| }, | |
| { | |
| "epoch": 4.145833333333333, | |
| "grad_norm": 0.2455112487077713, | |
| "learning_rate": 9.405214343720707e-05, | |
| "loss": 0.0712, | |
| "step": 1990 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 0.24452751874923706, | |
| "learning_rate": 9.397368756032445e-05, | |
| "loss": 0.0575, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 4.1875, | |
| "grad_norm": 0.271490216255188, | |
| "learning_rate": 9.389475079423988e-05, | |
| "loss": 0.0576, | |
| "step": 2010 | |
| }, | |
| { | |
| "epoch": 4.208333333333333, | |
| "grad_norm": 0.20718179643154144, | |
| "learning_rate": 9.381533400219318e-05, | |
| "loss": 0.0598, | |
| "step": 2020 | |
| }, | |
| { | |
| "epoch": 4.229166666666667, | |
| "grad_norm": 0.26649123430252075, | |
| "learning_rate": 9.373543805267368e-05, | |
| "loss": 0.0675, | |
| "step": 2030 | |
| }, | |
| { | |
| "epoch": 4.25, | |
| "grad_norm": 0.2887789309024811, | |
| "learning_rate": 9.365506381941066e-05, | |
| "loss": 0.0697, | |
| "step": 2040 | |
| }, | |
| { | |
| "epoch": 4.270833333333333, | |
| "grad_norm": 0.379747599363327, | |
| "learning_rate": 9.357421218136386e-05, | |
| "loss": 0.0671, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 4.291666666666667, | |
| "grad_norm": 0.24359039962291718, | |
| "learning_rate": 9.349288402271388e-05, | |
| "loss": 0.0634, | |
| "step": 2060 | |
| }, | |
| { | |
| "epoch": 4.3125, | |
| "grad_norm": 0.26673591136932373, | |
| "learning_rate": 9.341108023285238e-05, | |
| "loss": 0.0631, | |
| "step": 2070 | |
| }, | |
| { | |
| "epoch": 4.333333333333333, | |
| "grad_norm": 0.2317454218864441, | |
| "learning_rate": 9.332880170637252e-05, | |
| "loss": 0.0631, | |
| "step": 2080 | |
| }, | |
| { | |
| "epoch": 4.354166666666667, | |
| "grad_norm": 0.3269646465778351, | |
| "learning_rate": 9.32460493430591e-05, | |
| "loss": 0.0558, | |
| "step": 2090 | |
| }, | |
| { | |
| "epoch": 4.375, | |
| "grad_norm": 0.22670741379261017, | |
| "learning_rate": 9.316282404787871e-05, | |
| "loss": 0.059, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 4.395833333333333, | |
| "grad_norm": 0.27039453387260437, | |
| "learning_rate": 9.30791267309698e-05, | |
| "loss": 0.0542, | |
| "step": 2110 | |
| }, | |
| { | |
| "epoch": 4.416666666666667, | |
| "grad_norm": 0.3565439283847809, | |
| "learning_rate": 9.299495830763286e-05, | |
| "loss": 0.0618, | |
| "step": 2120 | |
| }, | |
| { | |
| "epoch": 4.4375, | |
| "grad_norm": 0.22678254544734955, | |
| "learning_rate": 9.291031969832026e-05, | |
| "loss": 0.0633, | |
| "step": 2130 | |
| }, | |
| { | |
| "epoch": 4.458333333333333, | |
| "grad_norm": 0.2625988721847534, | |
| "learning_rate": 9.282521182862629e-05, | |
| "loss": 0.0615, | |
| "step": 2140 | |
| }, | |
| { | |
| "epoch": 4.479166666666667, | |
| "grad_norm": 0.30497926473617554, | |
| "learning_rate": 9.273963562927695e-05, | |
| "loss": 0.0778, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 4.5, | |
| "grad_norm": 0.22760331630706787, | |
| "learning_rate": 9.265359203611987e-05, | |
| "loss": 0.0575, | |
| "step": 2160 | |
| }, | |
| { | |
| "epoch": 4.520833333333333, | |
| "grad_norm": 0.2656308710575104, | |
| "learning_rate": 9.256708199011401e-05, | |
| "loss": 0.0638, | |
| "step": 2170 | |
| }, | |
| { | |
| "epoch": 4.541666666666667, | |
| "grad_norm": 0.2067960649728775, | |
| "learning_rate": 9.248010643731935e-05, | |
| "loss": 0.0562, | |
| "step": 2180 | |
| }, | |
| { | |
| "epoch": 4.5625, | |
| "grad_norm": 0.21887032687664032, | |
| "learning_rate": 9.239266632888659e-05, | |
| "loss": 0.0657, | |
| "step": 2190 | |
| }, | |
| { | |
| "epoch": 4.583333333333333, | |
| "grad_norm": 0.305982768535614, | |
| "learning_rate": 9.230476262104677e-05, | |
| "loss": 0.0634, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 4.604166666666667, | |
| "grad_norm": 0.25816601514816284, | |
| "learning_rate": 9.221639627510076e-05, | |
| "loss": 0.0559, | |
| "step": 2210 | |
| }, | |
| { | |
| "epoch": 4.625, | |
| "grad_norm": 0.3034866452217102, | |
| "learning_rate": 9.212756825740873e-05, | |
| "loss": 0.0629, | |
| "step": 2220 | |
| }, | |
| { | |
| "epoch": 4.645833333333333, | |
| "grad_norm": 0.225479394197464, | |
| "learning_rate": 9.20382795393797e-05, | |
| "loss": 0.0601, | |
| "step": 2230 | |
| }, | |
| { | |
| "epoch": 4.666666666666667, | |
| "grad_norm": 0.3092559576034546, | |
| "learning_rate": 9.194853109746074e-05, | |
| "loss": 0.0588, | |
| "step": 2240 | |
| }, | |
| { | |
| "epoch": 4.6875, | |
| "grad_norm": 0.25218334794044495, | |
| "learning_rate": 9.185832391312644e-05, | |
| "loss": 0.0624, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 4.708333333333333, | |
| "grad_norm": 0.2973797917366028, | |
| "learning_rate": 9.176765897286813e-05, | |
| "loss": 0.0601, | |
| "step": 2260 | |
| }, | |
| { | |
| "epoch": 4.729166666666667, | |
| "grad_norm": 0.2519341707229614, | |
| "learning_rate": 9.167653726818305e-05, | |
| "loss": 0.0564, | |
| "step": 2270 | |
| }, | |
| { | |
| "epoch": 4.75, | |
| "grad_norm": 0.2949662208557129, | |
| "learning_rate": 9.158495979556358e-05, | |
| "loss": 0.0687, | |
| "step": 2280 | |
| }, | |
| { | |
| "epoch": 4.770833333333333, | |
| "grad_norm": 0.17965540289878845, | |
| "learning_rate": 9.14929275564863e-05, | |
| "loss": 0.0641, | |
| "step": 2290 | |
| }, | |
| { | |
| "epoch": 4.791666666666667, | |
| "grad_norm": 0.23875364661216736, | |
| "learning_rate": 9.140044155740101e-05, | |
| "loss": 0.0524, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 4.8125, | |
| "grad_norm": 0.28078049421310425, | |
| "learning_rate": 9.130750280971978e-05, | |
| "loss": 0.0662, | |
| "step": 2310 | |
| }, | |
| { | |
| "epoch": 4.833333333333333, | |
| "grad_norm": 0.25002536177635193, | |
| "learning_rate": 9.121411232980588e-05, | |
| "loss": 0.0521, | |
| "step": 2320 | |
| }, | |
| { | |
| "epoch": 4.854166666666667, | |
| "grad_norm": 0.19856375455856323, | |
| "learning_rate": 9.112027113896262e-05, | |
| "loss": 0.0662, | |
| "step": 2330 | |
| }, | |
| { | |
| "epoch": 4.875, | |
| "grad_norm": 0.20989863574504852, | |
| "learning_rate": 9.102598026342222e-05, | |
| "loss": 0.0642, | |
| "step": 2340 | |
| }, | |
| { | |
| "epoch": 4.895833333333333, | |
| "grad_norm": 0.2387610673904419, | |
| "learning_rate": 9.093124073433463e-05, | |
| "loss": 0.063, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 4.916666666666667, | |
| "grad_norm": 0.32933273911476135, | |
| "learning_rate": 9.083605358775612e-05, | |
| "loss": 0.0627, | |
| "step": 2360 | |
| }, | |
| { | |
| "epoch": 4.9375, | |
| "grad_norm": 0.38782161474227905, | |
| "learning_rate": 9.074041986463808e-05, | |
| "loss": 0.0613, | |
| "step": 2370 | |
| }, | |
| { | |
| "epoch": 4.958333333333333, | |
| "grad_norm": 0.20130065083503723, | |
| "learning_rate": 9.064434061081562e-05, | |
| "loss": 0.054, | |
| "step": 2380 | |
| }, | |
| { | |
| "epoch": 4.979166666666667, | |
| "grad_norm": 0.17160147428512573, | |
| "learning_rate": 9.0547816876996e-05, | |
| "loss": 0.0654, | |
| "step": 2390 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 0.35171496868133545, | |
| "learning_rate": 9.045084971874738e-05, | |
| "loss": 0.0658, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 5.020833333333333, | |
| "grad_norm": 0.16831085085868835, | |
| "learning_rate": 9.035344019648702e-05, | |
| "loss": 0.0508, | |
| "step": 2410 | |
| }, | |
| { | |
| "epoch": 5.041666666666667, | |
| "grad_norm": 0.17995953559875488, | |
| "learning_rate": 9.025558937546988e-05, | |
| "loss": 0.0571, | |
| "step": 2420 | |
| }, | |
| { | |
| "epoch": 5.0625, | |
| "grad_norm": 0.19575315713882446, | |
| "learning_rate": 9.015729832577681e-05, | |
| "loss": 0.0596, | |
| "step": 2430 | |
| }, | |
| { | |
| "epoch": 5.083333333333333, | |
| "grad_norm": 0.1493072807788849, | |
| "learning_rate": 9.005856812230304e-05, | |
| "loss": 0.0541, | |
| "step": 2440 | |
| }, | |
| { | |
| "epoch": 5.104166666666667, | |
| "grad_norm": 0.22525647282600403, | |
| "learning_rate": 8.995939984474624e-05, | |
| "loss": 0.0572, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 5.125, | |
| "grad_norm": 0.3696461319923401, | |
| "learning_rate": 8.98597945775948e-05, | |
| "loss": 0.0571, | |
| "step": 2460 | |
| }, | |
| { | |
| "epoch": 5.145833333333333, | |
| "grad_norm": 0.2887597978115082, | |
| "learning_rate": 8.975975341011596e-05, | |
| "loss": 0.0518, | |
| "step": 2470 | |
| }, | |
| { | |
| "epoch": 5.166666666666667, | |
| "grad_norm": 0.20684699714183807, | |
| "learning_rate": 8.965927743634391e-05, | |
| "loss": 0.059, | |
| "step": 2480 | |
| }, | |
| { | |
| "epoch": 5.1875, | |
| "grad_norm": 0.31182733178138733, | |
| "learning_rate": 8.955836775506776e-05, | |
| "loss": 0.0516, | |
| "step": 2490 | |
| }, | |
| { | |
| "epoch": 5.208333333333333, | |
| "grad_norm": 0.2731056809425354, | |
| "learning_rate": 8.945702546981969e-05, | |
| "loss": 0.057, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 5.229166666666667, | |
| "grad_norm": 0.36009490489959717, | |
| "learning_rate": 8.935525168886262e-05, | |
| "loss": 0.056, | |
| "step": 2510 | |
| }, | |
| { | |
| "epoch": 5.25, | |
| "grad_norm": 0.3038497865200043, | |
| "learning_rate": 8.92530475251784e-05, | |
| "loss": 0.0543, | |
| "step": 2520 | |
| }, | |
| { | |
| "epoch": 5.270833333333333, | |
| "grad_norm": 0.1461966633796692, | |
| "learning_rate": 8.91504140964553e-05, | |
| "loss": 0.0566, | |
| "step": 2530 | |
| }, | |
| { | |
| "epoch": 5.291666666666667, | |
| "grad_norm": 0.22562798857688904, | |
| "learning_rate": 8.90473525250761e-05, | |
| "loss": 0.0608, | |
| "step": 2540 | |
| }, | |
| { | |
| "epoch": 5.3125, | |
| "grad_norm": 0.30006659030914307, | |
| "learning_rate": 8.894386393810563e-05, | |
| "loss": 0.0675, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 5.333333333333333, | |
| "grad_norm": 0.16184063255786896, | |
| "learning_rate": 8.883994946727849e-05, | |
| "loss": 0.0553, | |
| "step": 2560 | |
| }, | |
| { | |
| "epoch": 5.354166666666667, | |
| "grad_norm": 0.2308872491121292, | |
| "learning_rate": 8.873561024898668e-05, | |
| "loss": 0.0566, | |
| "step": 2570 | |
| }, | |
| { | |
| "epoch": 5.375, | |
| "grad_norm": 0.33821049332618713, | |
| "learning_rate": 8.863084742426719e-05, | |
| "loss": 0.0562, | |
| "step": 2580 | |
| }, | |
| { | |
| "epoch": 5.395833333333333, | |
| "grad_norm": 0.29942095279693604, | |
| "learning_rate": 8.852566213878947e-05, | |
| "loss": 0.0658, | |
| "step": 2590 | |
| }, | |
| { | |
| "epoch": 5.416666666666667, | |
| "grad_norm": 0.1915530562400818, | |
| "learning_rate": 8.842005554284296e-05, | |
| "loss": 0.0549, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 5.4375, | |
| "grad_norm": 0.257016122341156, | |
| "learning_rate": 8.831402879132446e-05, | |
| "loss": 0.0571, | |
| "step": 2610 | |
| }, | |
| { | |
| "epoch": 5.458333333333333, | |
| "grad_norm": 0.2739509642124176, | |
| "learning_rate": 8.820758304372557e-05, | |
| "loss": 0.0559, | |
| "step": 2620 | |
| }, | |
| { | |
| "epoch": 5.479166666666667, | |
| "grad_norm": 0.3152376711368561, | |
| "learning_rate": 8.810071946411989e-05, | |
| "loss": 0.0486, | |
| "step": 2630 | |
| }, | |
| { | |
| "epoch": 5.5, | |
| "grad_norm": 0.23179279267787933, | |
| "learning_rate": 8.799343922115044e-05, | |
| "loss": 0.0502, | |
| "step": 2640 | |
| }, | |
| { | |
| "epoch": 5.520833333333333, | |
| "grad_norm": 0.25594186782836914, | |
| "learning_rate": 8.788574348801675e-05, | |
| "loss": 0.057, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 5.541666666666667, | |
| "grad_norm": 0.2627776861190796, | |
| "learning_rate": 8.77776334424621e-05, | |
| "loss": 0.0669, | |
| "step": 2660 | |
| }, | |
| { | |
| "epoch": 5.5625, | |
| "grad_norm": 0.1960115134716034, | |
| "learning_rate": 8.766911026676064e-05, | |
| "loss": 0.0613, | |
| "step": 2670 | |
| }, | |
| { | |
| "epoch": 5.583333333333333, | |
| "grad_norm": 0.17280827462673187, | |
| "learning_rate": 8.756017514770443e-05, | |
| "loss": 0.0598, | |
| "step": 2680 | |
| }, | |
| { | |
| "epoch": 5.604166666666667, | |
| "grad_norm": 0.27976927161216736, | |
| "learning_rate": 8.745082927659047e-05, | |
| "loss": 0.0477, | |
| "step": 2690 | |
| }, | |
| { | |
| "epoch": 5.625, | |
| "grad_norm": 0.20411022007465363, | |
| "learning_rate": 8.73410738492077e-05, | |
| "loss": 0.0644, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 5.645833333333333, | |
| "grad_norm": 0.2056054323911667, | |
| "learning_rate": 8.723091006582389e-05, | |
| "loss": 0.0558, | |
| "step": 2710 | |
| }, | |
| { | |
| "epoch": 5.666666666666667, | |
| "grad_norm": 0.1785743236541748, | |
| "learning_rate": 8.71203391311725e-05, | |
| "loss": 0.0596, | |
| "step": 2720 | |
| }, | |
| { | |
| "epoch": 5.6875, | |
| "grad_norm": 0.162923201918602, | |
| "learning_rate": 8.700936225443959e-05, | |
| "loss": 0.0537, | |
| "step": 2730 | |
| }, | |
| { | |
| "epoch": 5.708333333333333, | |
| "grad_norm": 0.31077900528907776, | |
| "learning_rate": 8.689798064925049e-05, | |
| "loss": 0.061, | |
| "step": 2740 | |
| }, | |
| { | |
| "epoch": 5.729166666666667, | |
| "grad_norm": 0.19991479814052582, | |
| "learning_rate": 8.678619553365659e-05, | |
| "loss": 0.0497, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 5.75, | |
| "grad_norm": 0.2934041917324066, | |
| "learning_rate": 8.6674008130122e-05, | |
| "loss": 0.0578, | |
| "step": 2760 | |
| }, | |
| { | |
| "epoch": 5.770833333333333, | |
| "grad_norm": 0.19904303550720215, | |
| "learning_rate": 8.656141966551019e-05, | |
| "loss": 0.0568, | |
| "step": 2770 | |
| }, | |
| { | |
| "epoch": 5.791666666666667, | |
| "grad_norm": 0.2990000247955322, | |
| "learning_rate": 8.644843137107059e-05, | |
| "loss": 0.0526, | |
| "step": 2780 | |
| }, | |
| { | |
| "epoch": 5.8125, | |
| "grad_norm": 0.15075786411762238, | |
| "learning_rate": 8.633504448242505e-05, | |
| "loss": 0.0515, | |
| "step": 2790 | |
| }, | |
| { | |
| "epoch": 5.833333333333333, | |
| "grad_norm": 0.21086309850215912, | |
| "learning_rate": 8.622126023955446e-05, | |
| "loss": 0.0533, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 5.854166666666667, | |
| "grad_norm": 0.2507677972316742, | |
| "learning_rate": 8.610707988678503e-05, | |
| "loss": 0.0542, | |
| "step": 2810 | |
| }, | |
| { | |
| "epoch": 5.875, | |
| "grad_norm": 0.16625888645648956, | |
| "learning_rate": 8.599250467277483e-05, | |
| "loss": 0.0533, | |
| "step": 2820 | |
| }, | |
| { | |
| "epoch": 5.895833333333333, | |
| "grad_norm": 0.24702179431915283, | |
| "learning_rate": 8.587753585050004e-05, | |
| "loss": 0.0534, | |
| "step": 2830 | |
| }, | |
| { | |
| "epoch": 5.916666666666667, | |
| "grad_norm": 0.20405326783657074, | |
| "learning_rate": 8.576217467724128e-05, | |
| "loss": 0.0564, | |
| "step": 2840 | |
| }, | |
| { | |
| "epoch": 5.9375, | |
| "grad_norm": 0.22098389267921448, | |
| "learning_rate": 8.564642241456986e-05, | |
| "loss": 0.0589, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 5.958333333333333, | |
| "grad_norm": 0.2992077171802521, | |
| "learning_rate": 8.553028032833397e-05, | |
| "loss": 0.051, | |
| "step": 2860 | |
| }, | |
| { | |
| "epoch": 5.979166666666667, | |
| "grad_norm": 0.22971950471401215, | |
| "learning_rate": 8.541374968864487e-05, | |
| "loss": 0.05, | |
| "step": 2870 | |
| }, | |
| { | |
| "epoch": 6.0, | |
| "grad_norm": 0.19986356794834137, | |
| "learning_rate": 8.529683176986295e-05, | |
| "loss": 0.0488, | |
| "step": 2880 | |
| }, | |
| { | |
| "epoch": 6.020833333333333, | |
| "grad_norm": 0.18404853343963623, | |
| "learning_rate": 8.517952785058385e-05, | |
| "loss": 0.0496, | |
| "step": 2890 | |
| }, | |
| { | |
| "epoch": 6.041666666666667, | |
| "grad_norm": 0.22865642607212067, | |
| "learning_rate": 8.506183921362443e-05, | |
| "loss": 0.0551, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 6.0625, | |
| "grad_norm": 0.33640816807746887, | |
| "learning_rate": 8.494376714600878e-05, | |
| "loss": 0.0631, | |
| "step": 2910 | |
| }, | |
| { | |
| "epoch": 6.083333333333333, | |
| "grad_norm": 0.27387309074401855, | |
| "learning_rate": 8.482531293895412e-05, | |
| "loss": 0.0478, | |
| "step": 2920 | |
| }, | |
| { | |
| "epoch": 6.104166666666667, | |
| "grad_norm": 0.27359068393707275, | |
| "learning_rate": 8.470647788785665e-05, | |
| "loss": 0.0502, | |
| "step": 2930 | |
| }, | |
| { | |
| "epoch": 6.125, | |
| "grad_norm": 0.2842683494091034, | |
| "learning_rate": 8.458726329227747e-05, | |
| "loss": 0.057, | |
| "step": 2940 | |
| }, | |
| { | |
| "epoch": 6.145833333333333, | |
| "grad_norm": 0.26530441641807556, | |
| "learning_rate": 8.44676704559283e-05, | |
| "loss": 0.0507, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 6.166666666666667, | |
| "grad_norm": 0.2461036890745163, | |
| "learning_rate": 8.434770068665723e-05, | |
| "loss": 0.06, | |
| "step": 2960 | |
| }, | |
| { | |
| "epoch": 6.1875, | |
| "grad_norm": 0.15848632156848907, | |
| "learning_rate": 8.422735529643444e-05, | |
| "loss": 0.0528, | |
| "step": 2970 | |
| }, | |
| { | |
| "epoch": 6.208333333333333, | |
| "grad_norm": 0.31197741627693176, | |
| "learning_rate": 8.410663560133784e-05, | |
| "loss": 0.0585, | |
| "step": 2980 | |
| }, | |
| { | |
| "epoch": 6.229166666666667, | |
| "grad_norm": 0.24464961886405945, | |
| "learning_rate": 8.398554292153866e-05, | |
| "loss": 0.0519, | |
| "step": 2990 | |
| }, | |
| { | |
| "epoch": 6.25, | |
| "grad_norm": 0.2479836791753769, | |
| "learning_rate": 8.386407858128706e-05, | |
| "loss": 0.054, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 6.270833333333333, | |
| "grad_norm": 0.2722799777984619, | |
| "learning_rate": 8.37422439088976e-05, | |
| "loss": 0.0556, | |
| "step": 3010 | |
| }, | |
| { | |
| "epoch": 6.291666666666667, | |
| "grad_norm": 0.21395736932754517, | |
| "learning_rate": 8.362004023673474e-05, | |
| "loss": 0.0623, | |
| "step": 3020 | |
| }, | |
| { | |
| "epoch": 6.3125, | |
| "grad_norm": 0.18791121244430542, | |
| "learning_rate": 8.349746890119826e-05, | |
| "loss": 0.0498, | |
| "step": 3030 | |
| }, | |
| { | |
| "epoch": 6.333333333333333, | |
| "grad_norm": 0.19878436625003815, | |
| "learning_rate": 8.337453124270863e-05, | |
| "loss": 0.051, | |
| "step": 3040 | |
| }, | |
| { | |
| "epoch": 6.354166666666667, | |
| "grad_norm": 0.20424553751945496, | |
| "learning_rate": 8.32512286056924e-05, | |
| "loss": 0.0458, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 6.375, | |
| "grad_norm": 0.2852227985858917, | |
| "learning_rate": 8.31275623385675e-05, | |
| "loss": 0.0592, | |
| "step": 3060 | |
| }, | |
| { | |
| "epoch": 6.395833333333333, | |
| "grad_norm": 0.19160036742687225, | |
| "learning_rate": 8.300353379372834e-05, | |
| "loss": 0.0588, | |
| "step": 3070 | |
| }, | |
| { | |
| "epoch": 6.416666666666667, | |
| "grad_norm": 0.22774095833301544, | |
| "learning_rate": 8.287914432753123e-05, | |
| "loss": 0.0545, | |
| "step": 3080 | |
| }, | |
| { | |
| "epoch": 6.4375, | |
| "grad_norm": 0.38672950863838196, | |
| "learning_rate": 8.275439530027948e-05, | |
| "loss": 0.0556, | |
| "step": 3090 | |
| }, | |
| { | |
| "epoch": 6.458333333333333, | |
| "grad_norm": 0.28046780824661255, | |
| "learning_rate": 8.262928807620843e-05, | |
| "loss": 0.0587, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 6.479166666666667, | |
| "grad_norm": 0.2667509913444519, | |
| "learning_rate": 8.250382402347065e-05, | |
| "loss": 0.0588, | |
| "step": 3110 | |
| }, | |
| { | |
| "epoch": 6.5, | |
| "grad_norm": 0.33412522077560425, | |
| "learning_rate": 8.237800451412095e-05, | |
| "loss": 0.0599, | |
| "step": 3120 | |
| }, | |
| { | |
| "epoch": 6.520833333333333, | |
| "grad_norm": 0.1729501336812973, | |
| "learning_rate": 8.225183092410128e-05, | |
| "loss": 0.052, | |
| "step": 3130 | |
| }, | |
| { | |
| "epoch": 6.541666666666667, | |
| "grad_norm": 0.13118429481983185, | |
| "learning_rate": 8.212530463322583e-05, | |
| "loss": 0.0564, | |
| "step": 3140 | |
| }, | |
| { | |
| "epoch": 6.5625, | |
| "grad_norm": 0.19928762316703796, | |
| "learning_rate": 8.199842702516583e-05, | |
| "loss": 0.0551, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 6.583333333333333, | |
| "grad_norm": 0.1139163076877594, | |
| "learning_rate": 8.18711994874345e-05, | |
| "loss": 0.05, | |
| "step": 3160 | |
| }, | |
| { | |
| "epoch": 6.604166666666667, | |
| "grad_norm": 0.18016424775123596, | |
| "learning_rate": 8.174362341137177e-05, | |
| "loss": 0.0512, | |
| "step": 3170 | |
| }, | |
| { | |
| "epoch": 6.625, | |
| "grad_norm": 0.2455376386642456, | |
| "learning_rate": 8.161570019212921e-05, | |
| "loss": 0.0535, | |
| "step": 3180 | |
| }, | |
| { | |
| "epoch": 6.645833333333333, | |
| "grad_norm": 0.2456337809562683, | |
| "learning_rate": 8.148743122865463e-05, | |
| "loss": 0.0494, | |
| "step": 3190 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "grad_norm": 0.19081375002861023, | |
| "learning_rate": 8.135881792367686e-05, | |
| "loss": 0.0642, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 6.6875, | |
| "grad_norm": 0.18129488825798035, | |
| "learning_rate": 8.12298616836904e-05, | |
| "loss": 0.0581, | |
| "step": 3210 | |
| }, | |
| { | |
| "epoch": 6.708333333333333, | |
| "grad_norm": 0.21184127032756805, | |
| "learning_rate": 8.110056391894005e-05, | |
| "loss": 0.0504, | |
| "step": 3220 | |
| }, | |
| { | |
| "epoch": 6.729166666666667, | |
| "grad_norm": 0.42624956369400024, | |
| "learning_rate": 8.097092604340542e-05, | |
| "loss": 0.0566, | |
| "step": 3230 | |
| }, | |
| { | |
| "epoch": 6.75, | |
| "grad_norm": 0.13590912520885468, | |
| "learning_rate": 8.084094947478556e-05, | |
| "loss": 0.0448, | |
| "step": 3240 | |
| }, | |
| { | |
| "epoch": 6.770833333333333, | |
| "grad_norm": 0.26878491044044495, | |
| "learning_rate": 8.07106356344834e-05, | |
| "loss": 0.0486, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 6.791666666666667, | |
| "grad_norm": 0.2239430993795395, | |
| "learning_rate": 8.057998594759022e-05, | |
| "loss": 0.057, | |
| "step": 3260 | |
| }, | |
| { | |
| "epoch": 6.8125, | |
| "grad_norm": 0.26898056268692017, | |
| "learning_rate": 8.044900184287007e-05, | |
| "loss": 0.0515, | |
| "step": 3270 | |
| }, | |
| { | |
| "epoch": 6.833333333333333, | |
| "grad_norm": 0.2961832582950592, | |
| "learning_rate": 8.031768475274413e-05, | |
| "loss": 0.0499, | |
| "step": 3280 | |
| }, | |
| { | |
| "epoch": 6.854166666666667, | |
| "grad_norm": 0.32980307936668396, | |
| "learning_rate": 8.018603611327504e-05, | |
| "loss": 0.052, | |
| "step": 3290 | |
| }, | |
| { | |
| "epoch": 6.875, | |
| "grad_norm": 0.1965520977973938, | |
| "learning_rate": 8.005405736415126e-05, | |
| "loss": 0.0434, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 6.895833333333333, | |
| "grad_norm": 0.23696592450141907, | |
| "learning_rate": 7.992174994867123e-05, | |
| "loss": 0.0416, | |
| "step": 3310 | |
| }, | |
| { | |
| "epoch": 6.916666666666667, | |
| "grad_norm": 0.19276441633701324, | |
| "learning_rate": 7.978911531372765e-05, | |
| "loss": 0.0512, | |
| "step": 3320 | |
| }, | |
| { | |
| "epoch": 6.9375, | |
| "grad_norm": 0.347258985042572, | |
| "learning_rate": 7.965615490979163e-05, | |
| "loss": 0.0481, | |
| "step": 3330 | |
| }, | |
| { | |
| "epoch": 6.958333333333333, | |
| "grad_norm": 0.27975815534591675, | |
| "learning_rate": 7.952287019089685e-05, | |
| "loss": 0.0486, | |
| "step": 3340 | |
| }, | |
| { | |
| "epoch": 6.979166666666667, | |
| "grad_norm": 0.2909054458141327, | |
| "learning_rate": 7.938926261462366e-05, | |
| "loss": 0.0516, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 7.0, | |
| "grad_norm": 0.35416579246520996, | |
| "learning_rate": 7.925533364208309e-05, | |
| "loss": 0.052, | |
| "step": 3360 | |
| }, | |
| { | |
| "epoch": 7.020833333333333, | |
| "grad_norm": 0.23169547319412231, | |
| "learning_rate": 7.912108473790092e-05, | |
| "loss": 0.0572, | |
| "step": 3370 | |
| }, | |
| { | |
| "epoch": 7.041666666666667, | |
| "grad_norm": 0.15997090935707092, | |
| "learning_rate": 7.898651737020166e-05, | |
| "loss": 0.0484, | |
| "step": 3380 | |
| }, | |
| { | |
| "epoch": 7.0625, | |
| "grad_norm": 0.1840064525604248, | |
| "learning_rate": 7.88516330105925e-05, | |
| "loss": 0.0557, | |
| "step": 3390 | |
| }, | |
| { | |
| "epoch": 7.083333333333333, | |
| "grad_norm": 0.20743203163146973, | |
| "learning_rate": 7.871643313414718e-05, | |
| "loss": 0.0464, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 7.104166666666667, | |
| "grad_norm": 0.1931951940059662, | |
| "learning_rate": 7.858091921938988e-05, | |
| "loss": 0.0584, | |
| "step": 3410 | |
| }, | |
| { | |
| "epoch": 7.125, | |
| "grad_norm": 0.1620691567659378, | |
| "learning_rate": 7.844509274827907e-05, | |
| "loss": 0.0526, | |
| "step": 3420 | |
| }, | |
| { | |
| "epoch": 7.145833333333333, | |
| "grad_norm": 0.19966144859790802, | |
| "learning_rate": 7.830895520619128e-05, | |
| "loss": 0.0497, | |
| "step": 3430 | |
| }, | |
| { | |
| "epoch": 7.166666666666667, | |
| "grad_norm": 0.33056026697158813, | |
| "learning_rate": 7.817250808190483e-05, | |
| "loss": 0.0454, | |
| "step": 3440 | |
| }, | |
| { | |
| "epoch": 7.1875, | |
| "grad_norm": 0.17656965553760529, | |
| "learning_rate": 7.803575286758364e-05, | |
| "loss": 0.0479, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 7.208333333333333, | |
| "grad_norm": 0.2836000621318817, | |
| "learning_rate": 7.789869105876083e-05, | |
| "loss": 0.0528, | |
| "step": 3460 | |
| }, | |
| { | |
| "epoch": 7.229166666666667, | |
| "grad_norm": 0.26270195841789246, | |
| "learning_rate": 7.776132415432234e-05, | |
| "loss": 0.0486, | |
| "step": 3470 | |
| }, | |
| { | |
| "epoch": 7.25, | |
| "grad_norm": 0.22928914427757263, | |
| "learning_rate": 7.762365365649067e-05, | |
| "loss": 0.0441, | |
| "step": 3480 | |
| }, | |
| { | |
| "epoch": 7.270833333333333, | |
| "grad_norm": 0.2707754075527191, | |
| "learning_rate": 7.748568107080832e-05, | |
| "loss": 0.0509, | |
| "step": 3490 | |
| }, | |
| { | |
| "epoch": 7.291666666666667, | |
| "grad_norm": 0.24163918197155, | |
| "learning_rate": 7.734740790612136e-05, | |
| "loss": 0.058, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 7.3125, | |
| "grad_norm": 0.2887519598007202, | |
| "learning_rate": 7.720883567456298e-05, | |
| "loss": 0.0532, | |
| "step": 3510 | |
| }, | |
| { | |
| "epoch": 7.333333333333333, | |
| "grad_norm": 0.17884305119514465, | |
| "learning_rate": 7.70699658915369e-05, | |
| "loss": 0.0457, | |
| "step": 3520 | |
| }, | |
| { | |
| "epoch": 7.354166666666667, | |
| "grad_norm": 0.21325179934501648, | |
| "learning_rate": 7.693080007570084e-05, | |
| "loss": 0.0434, | |
| "step": 3530 | |
| }, | |
| { | |
| "epoch": 7.375, | |
| "grad_norm": 0.18805336952209473, | |
| "learning_rate": 7.679133974894983e-05, | |
| "loss": 0.0492, | |
| "step": 3540 | |
| }, | |
| { | |
| "epoch": 7.395833333333333, | |
| "grad_norm": 0.2082250714302063, | |
| "learning_rate": 7.66515864363997e-05, | |
| "loss": 0.054, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 7.416666666666667, | |
| "grad_norm": 0.23594920337200165, | |
| "learning_rate": 7.651154166637025e-05, | |
| "loss": 0.0519, | |
| "step": 3560 | |
| }, | |
| { | |
| "epoch": 7.4375, | |
| "grad_norm": 0.30293792486190796, | |
| "learning_rate": 7.637120697036866e-05, | |
| "loss": 0.0515, | |
| "step": 3570 | |
| }, | |
| { | |
| "epoch": 7.458333333333333, | |
| "grad_norm": 0.22353586554527283, | |
| "learning_rate": 7.623058388307269e-05, | |
| "loss": 0.0492, | |
| "step": 3580 | |
| }, | |
| { | |
| "epoch": 7.479166666666667, | |
| "grad_norm": 0.17080843448638916, | |
| "learning_rate": 7.608967394231387e-05, | |
| "loss": 0.0532, | |
| "step": 3590 | |
| }, | |
| { | |
| "epoch": 7.5, | |
| "grad_norm": 0.20430722832679749, | |
| "learning_rate": 7.594847868906076e-05, | |
| "loss": 0.046, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 7.520833333333333, | |
| "grad_norm": 0.2533716857433319, | |
| "learning_rate": 7.580699966740201e-05, | |
| "loss": 0.0506, | |
| "step": 3610 | |
| }, | |
| { | |
| "epoch": 7.541666666666667, | |
| "grad_norm": 0.27399206161499023, | |
| "learning_rate": 7.566523842452958e-05, | |
| "loss": 0.0506, | |
| "step": 3620 | |
| }, | |
| { | |
| "epoch": 7.5625, | |
| "grad_norm": 0.22438126802444458, | |
| "learning_rate": 7.552319651072164e-05, | |
| "loss": 0.051, | |
| "step": 3630 | |
| }, | |
| { | |
| "epoch": 7.583333333333333, | |
| "grad_norm": 0.12401247769594193, | |
| "learning_rate": 7.538087547932585e-05, | |
| "loss": 0.0482, | |
| "step": 3640 | |
| }, | |
| { | |
| "epoch": 7.604166666666667, | |
| "grad_norm": 0.17836348712444305, | |
| "learning_rate": 7.52382768867422e-05, | |
| "loss": 0.0479, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 7.625, | |
| "grad_norm": 0.1784362494945526, | |
| "learning_rate": 7.509540229240601e-05, | |
| "loss": 0.0472, | |
| "step": 3660 | |
| }, | |
| { | |
| "epoch": 7.645833333333333, | |
| "grad_norm": 0.2113669365644455, | |
| "learning_rate": 7.495225325877103e-05, | |
| "loss": 0.0494, | |
| "step": 3670 | |
| }, | |
| { | |
| "epoch": 7.666666666666667, | |
| "grad_norm": 0.21031108498573303, | |
| "learning_rate": 7.480883135129211e-05, | |
| "loss": 0.0462, | |
| "step": 3680 | |
| }, | |
| { | |
| "epoch": 7.6875, | |
| "grad_norm": 0.20441193878650665, | |
| "learning_rate": 7.466513813840825e-05, | |
| "loss": 0.0508, | |
| "step": 3690 | |
| }, | |
| { | |
| "epoch": 7.708333333333333, | |
| "grad_norm": 0.22074037790298462, | |
| "learning_rate": 7.452117519152542e-05, | |
| "loss": 0.05, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 7.729166666666667, | |
| "grad_norm": 0.2839852273464203, | |
| "learning_rate": 7.437694408499933e-05, | |
| "loss": 0.0501, | |
| "step": 3710 | |
| }, | |
| { | |
| "epoch": 7.75, | |
| "grad_norm": 0.2460620403289795, | |
| "learning_rate": 7.423244639611826e-05, | |
| "loss": 0.0527, | |
| "step": 3720 | |
| }, | |
| { | |
| "epoch": 7.770833333333333, | |
| "grad_norm": 0.2610677182674408, | |
| "learning_rate": 7.408768370508576e-05, | |
| "loss": 0.0451, | |
| "step": 3730 | |
| }, | |
| { | |
| "epoch": 7.791666666666667, | |
| "grad_norm": 0.21664959192276, | |
| "learning_rate": 7.394265759500348e-05, | |
| "loss": 0.051, | |
| "step": 3740 | |
| }, | |
| { | |
| "epoch": 7.8125, | |
| "grad_norm": 0.17678774893283844, | |
| "learning_rate": 7.379736965185368e-05, | |
| "loss": 0.0509, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 7.833333333333333, | |
| "grad_norm": 0.2611595690250397, | |
| "learning_rate": 7.365182146448205e-05, | |
| "loss": 0.0418, | |
| "step": 3760 | |
| }, | |
| { | |
| "epoch": 7.854166666666667, | |
| "grad_norm": 0.2205267995595932, | |
| "learning_rate": 7.350601462458024e-05, | |
| "loss": 0.0532, | |
| "step": 3770 | |
| }, | |
| { | |
| "epoch": 7.875, | |
| "grad_norm": 0.21233738958835602, | |
| "learning_rate": 7.335995072666848e-05, | |
| "loss": 0.0489, | |
| "step": 3780 | |
| }, | |
| { | |
| "epoch": 7.895833333333333, | |
| "grad_norm": 0.22973224520683289, | |
| "learning_rate": 7.32136313680782e-05, | |
| "loss": 0.045, | |
| "step": 3790 | |
| }, | |
| { | |
| "epoch": 7.916666666666667, | |
| "grad_norm": 0.2883082330226898, | |
| "learning_rate": 7.30670581489344e-05, | |
| "loss": 0.0447, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 7.9375, | |
| "grad_norm": 0.26208218932151794, | |
| "learning_rate": 7.292023267213835e-05, | |
| "loss": 0.047, | |
| "step": 3810 | |
| }, | |
| { | |
| "epoch": 7.958333333333333, | |
| "grad_norm": 0.21999841928482056, | |
| "learning_rate": 7.277315654334997e-05, | |
| "loss": 0.0507, | |
| "step": 3820 | |
| }, | |
| { | |
| "epoch": 7.979166666666667, | |
| "grad_norm": 0.3113929033279419, | |
| "learning_rate": 7.262583137097018e-05, | |
| "loss": 0.0505, | |
| "step": 3830 | |
| }, | |
| { | |
| "epoch": 8.0, | |
| "grad_norm": 0.30518674850463867, | |
| "learning_rate": 7.247825876612353e-05, | |
| "loss": 0.0479, | |
| "step": 3840 | |
| }, | |
| { | |
| "epoch": 8.020833333333334, | |
| "grad_norm": 0.18710266053676605, | |
| "learning_rate": 7.233044034264034e-05, | |
| "loss": 0.0483, | |
| "step": 3850 | |
| }, | |
| { | |
| "epoch": 8.041666666666666, | |
| "grad_norm": 0.26212358474731445, | |
| "learning_rate": 7.218237771703921e-05, | |
| "loss": 0.0517, | |
| "step": 3860 | |
| }, | |
| { | |
| "epoch": 8.0625, | |
| "grad_norm": 0.23527061939239502, | |
| "learning_rate": 7.203407250850928e-05, | |
| "loss": 0.0531, | |
| "step": 3870 | |
| }, | |
| { | |
| "epoch": 8.083333333333334, | |
| "grad_norm": 0.19504660367965698, | |
| "learning_rate": 7.188552633889259e-05, | |
| "loss": 0.0493, | |
| "step": 3880 | |
| }, | |
| { | |
| "epoch": 8.104166666666666, | |
| "grad_norm": 0.1593329906463623, | |
| "learning_rate": 7.173674083266624e-05, | |
| "loss": 0.0442, | |
| "step": 3890 | |
| }, | |
| { | |
| "epoch": 8.125, | |
| "grad_norm": 0.270129531621933, | |
| "learning_rate": 7.158771761692464e-05, | |
| "loss": 0.0538, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 8.145833333333334, | |
| "grad_norm": 0.22113825380802155, | |
| "learning_rate": 7.143845832136188e-05, | |
| "loss": 0.0518, | |
| "step": 3910 | |
| }, | |
| { | |
| "epoch": 8.166666666666666, | |
| "grad_norm": 0.25669917464256287, | |
| "learning_rate": 7.128896457825364e-05, | |
| "loss": 0.0468, | |
| "step": 3920 | |
| }, | |
| { | |
| "epoch": 8.1875, | |
| "grad_norm": 0.24919012188911438, | |
| "learning_rate": 7.113923802243957e-05, | |
| "loss": 0.0449, | |
| "step": 3930 | |
| }, | |
| { | |
| "epoch": 8.208333333333334, | |
| "grad_norm": 0.22066769003868103, | |
| "learning_rate": 7.09892802913053e-05, | |
| "loss": 0.0488, | |
| "step": 3940 | |
| }, | |
| { | |
| "epoch": 8.229166666666666, | |
| "grad_norm": 0.14869259297847748, | |
| "learning_rate": 7.083909302476453e-05, | |
| "loss": 0.0501, | |
| "step": 3950 | |
| }, | |
| { | |
| "epoch": 8.25, | |
| "grad_norm": 0.24340423941612244, | |
| "learning_rate": 7.068867786524116e-05, | |
| "loss": 0.0495, | |
| "step": 3960 | |
| }, | |
| { | |
| "epoch": 8.270833333333334, | |
| "grad_norm": 0.26488855481147766, | |
| "learning_rate": 7.053803645765128e-05, | |
| "loss": 0.0436, | |
| "step": 3970 | |
| }, | |
| { | |
| "epoch": 8.291666666666666, | |
| "grad_norm": 0.1781073361635208, | |
| "learning_rate": 7.038717044938519e-05, | |
| "loss": 0.0482, | |
| "step": 3980 | |
| }, | |
| { | |
| "epoch": 8.3125, | |
| "grad_norm": 0.21294355392456055, | |
| "learning_rate": 7.023608149028937e-05, | |
| "loss": 0.0436, | |
| "step": 3990 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "grad_norm": 0.26423192024230957, | |
| "learning_rate": 7.008477123264848e-05, | |
| "loss": 0.0489, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 8.354166666666666, | |
| "grad_norm": 0.31145504117012024, | |
| "learning_rate": 6.993324133116726e-05, | |
| "loss": 0.0474, | |
| "step": 4010 | |
| }, | |
| { | |
| "epoch": 8.375, | |
| "grad_norm": 0.18576444685459137, | |
| "learning_rate": 6.978149344295242e-05, | |
| "loss": 0.0456, | |
| "step": 4020 | |
| }, | |
| { | |
| "epoch": 8.395833333333334, | |
| "grad_norm": 0.1888401359319687, | |
| "learning_rate": 6.962952922749457e-05, | |
| "loss": 0.0479, | |
| "step": 4030 | |
| }, | |
| { | |
| "epoch": 8.416666666666666, | |
| "grad_norm": 0.20155051350593567, | |
| "learning_rate": 6.947735034665002e-05, | |
| "loss": 0.0492, | |
| "step": 4040 | |
| }, | |
| { | |
| "epoch": 8.4375, | |
| "grad_norm": 0.19216452538967133, | |
| "learning_rate": 6.932495846462261e-05, | |
| "loss": 0.0467, | |
| "step": 4050 | |
| }, | |
| { | |
| "epoch": 8.458333333333334, | |
| "grad_norm": 0.18663518130779266, | |
| "learning_rate": 6.917235524794558e-05, | |
| "loss": 0.0471, | |
| "step": 4060 | |
| }, | |
| { | |
| "epoch": 8.479166666666666, | |
| "grad_norm": 0.285762757062912, | |
| "learning_rate": 6.901954236546323e-05, | |
| "loss": 0.0526, | |
| "step": 4070 | |
| }, | |
| { | |
| "epoch": 8.5, | |
| "grad_norm": 0.12023583799600601, | |
| "learning_rate": 6.886652148831279e-05, | |
| "loss": 0.0418, | |
| "step": 4080 | |
| }, | |
| { | |
| "epoch": 8.520833333333334, | |
| "grad_norm": 0.2189977616071701, | |
| "learning_rate": 6.871329428990602e-05, | |
| "loss": 0.0482, | |
| "step": 4090 | |
| }, | |
| { | |
| "epoch": 8.541666666666666, | |
| "grad_norm": 0.259148508310318, | |
| "learning_rate": 6.855986244591104e-05, | |
| "loss": 0.0487, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 8.5625, | |
| "grad_norm": 0.3006899058818817, | |
| "learning_rate": 6.840622763423391e-05, | |
| "loss": 0.0462, | |
| "step": 4110 | |
| }, | |
| { | |
| "epoch": 8.583333333333334, | |
| "grad_norm": 0.17823457717895508, | |
| "learning_rate": 6.825239153500029e-05, | |
| "loss": 0.0446, | |
| "step": 4120 | |
| }, | |
| { | |
| "epoch": 8.604166666666666, | |
| "grad_norm": 0.2890760600566864, | |
| "learning_rate": 6.809835583053715e-05, | |
| "loss": 0.0483, | |
| "step": 4130 | |
| }, | |
| { | |
| "epoch": 8.625, | |
| "grad_norm": 0.2661435306072235, | |
| "learning_rate": 6.794412220535426e-05, | |
| "loss": 0.0451, | |
| "step": 4140 | |
| }, | |
| { | |
| "epoch": 8.645833333333334, | |
| "grad_norm": 0.20998653769493103, | |
| "learning_rate": 6.778969234612584e-05, | |
| "loss": 0.0508, | |
| "step": 4150 | |
| }, | |
| { | |
| "epoch": 8.666666666666666, | |
| "grad_norm": 0.23018722236156464, | |
| "learning_rate": 6.763506794167208e-05, | |
| "loss": 0.0383, | |
| "step": 4160 | |
| }, | |
| { | |
| "epoch": 8.6875, | |
| "grad_norm": 0.2272096574306488, | |
| "learning_rate": 6.748025068294067e-05, | |
| "loss": 0.0454, | |
| "step": 4170 | |
| }, | |
| { | |
| "epoch": 8.708333333333334, | |
| "grad_norm": 0.16684843599796295, | |
| "learning_rate": 6.732524226298841e-05, | |
| "loss": 0.0533, | |
| "step": 4180 | |
| }, | |
| { | |
| "epoch": 8.729166666666666, | |
| "grad_norm": 0.19425426423549652, | |
| "learning_rate": 6.71700443769625e-05, | |
| "loss": 0.0492, | |
| "step": 4190 | |
| }, | |
| { | |
| "epoch": 8.75, | |
| "grad_norm": 0.23464734852313995, | |
| "learning_rate": 6.701465872208216e-05, | |
| "loss": 0.0514, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 8.770833333333334, | |
| "grad_norm": 0.24427248537540436, | |
| "learning_rate": 6.685908699762002e-05, | |
| "loss": 0.0455, | |
| "step": 4210 | |
| }, | |
| { | |
| "epoch": 8.791666666666666, | |
| "grad_norm": 0.19908004999160767, | |
| "learning_rate": 6.670333090488356e-05, | |
| "loss": 0.0451, | |
| "step": 4220 | |
| }, | |
| { | |
| "epoch": 8.8125, | |
| "grad_norm": 0.1977444887161255, | |
| "learning_rate": 6.654739214719641e-05, | |
| "loss": 0.0444, | |
| "step": 4230 | |
| }, | |
| { | |
| "epoch": 8.833333333333334, | |
| "grad_norm": 0.1939217746257782, | |
| "learning_rate": 6.639127242987988e-05, | |
| "loss": 0.0472, | |
| "step": 4240 | |
| }, | |
| { | |
| "epoch": 8.854166666666666, | |
| "grad_norm": 0.23702214658260345, | |
| "learning_rate": 6.623497346023418e-05, | |
| "loss": 0.0479, | |
| "step": 4250 | |
| }, | |
| { | |
| "epoch": 8.875, | |
| "grad_norm": 0.24079830944538116, | |
| "learning_rate": 6.607849694751977e-05, | |
| "loss": 0.0516, | |
| "step": 4260 | |
| }, | |
| { | |
| "epoch": 8.895833333333334, | |
| "grad_norm": 0.14849868416786194, | |
| "learning_rate": 6.592184460293877e-05, | |
| "loss": 0.0429, | |
| "step": 4270 | |
| }, | |
| { | |
| "epoch": 8.916666666666666, | |
| "grad_norm": 0.14669269323349, | |
| "learning_rate": 6.576501813961609e-05, | |
| "loss": 0.0464, | |
| "step": 4280 | |
| }, | |
| { | |
| "epoch": 8.9375, | |
| "grad_norm": 0.1892845332622528, | |
| "learning_rate": 6.56080192725808e-05, | |
| "loss": 0.0448, | |
| "step": 4290 | |
| }, | |
| { | |
| "epoch": 8.958333333333334, | |
| "grad_norm": 0.2720951735973358, | |
| "learning_rate": 6.545084971874738e-05, | |
| "loss": 0.0469, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 8.979166666666666, | |
| "grad_norm": 0.42531394958496094, | |
| "learning_rate": 6.529351119689688e-05, | |
| "loss": 0.0421, | |
| "step": 4310 | |
| }, | |
| { | |
| "epoch": 9.0, | |
| "grad_norm": 0.263864666223526, | |
| "learning_rate": 6.513600542765817e-05, | |
| "loss": 0.0466, | |
| "step": 4320 | |
| }, | |
| { | |
| "epoch": 9.020833333333334, | |
| "grad_norm": 0.26266640424728394, | |
| "learning_rate": 6.497833413348909e-05, | |
| "loss": 0.0422, | |
| "step": 4330 | |
| }, | |
| { | |
| "epoch": 9.041666666666666, | |
| "grad_norm": 0.20382165908813477, | |
| "learning_rate": 6.48204990386577e-05, | |
| "loss": 0.0357, | |
| "step": 4340 | |
| }, | |
| { | |
| "epoch": 9.0625, | |
| "grad_norm": 0.23681896924972534, | |
| "learning_rate": 6.466250186922325e-05, | |
| "loss": 0.0485, | |
| "step": 4350 | |
| }, | |
| { | |
| "epoch": 9.083333333333334, | |
| "grad_norm": 0.24817602336406708, | |
| "learning_rate": 6.450434435301751e-05, | |
| "loss": 0.0406, | |
| "step": 4360 | |
| }, | |
| { | |
| "epoch": 9.104166666666666, | |
| "grad_norm": 0.2470203936100006, | |
| "learning_rate": 6.43460282196257e-05, | |
| "loss": 0.0455, | |
| "step": 4370 | |
| }, | |
| { | |
| "epoch": 9.125, | |
| "grad_norm": 0.16725751757621765, | |
| "learning_rate": 6.418755520036775e-05, | |
| "loss": 0.0418, | |
| "step": 4380 | |
| }, | |
| { | |
| "epoch": 9.145833333333334, | |
| "grad_norm": 0.17291924357414246, | |
| "learning_rate": 6.402892702827916e-05, | |
| "loss": 0.044, | |
| "step": 4390 | |
| }, | |
| { | |
| "epoch": 9.166666666666666, | |
| "grad_norm": 0.2706625163555145, | |
| "learning_rate": 6.387014543809223e-05, | |
| "loss": 0.0543, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 9.1875, | |
| "grad_norm": 0.2189723700284958, | |
| "learning_rate": 6.371121216621698e-05, | |
| "loss": 0.0487, | |
| "step": 4410 | |
| }, | |
| { | |
| "epoch": 9.208333333333334, | |
| "grad_norm": 0.23476912081241608, | |
| "learning_rate": 6.355212895072223e-05, | |
| "loss": 0.0484, | |
| "step": 4420 | |
| }, | |
| { | |
| "epoch": 9.229166666666666, | |
| "grad_norm": 0.18557274341583252, | |
| "learning_rate": 6.339289753131649e-05, | |
| "loss": 0.0459, | |
| "step": 4430 | |
| }, | |
| { | |
| "epoch": 9.25, | |
| "grad_norm": 0.20507971942424774, | |
| "learning_rate": 6.323351964932908e-05, | |
| "loss": 0.043, | |
| "step": 4440 | |
| }, | |
| { | |
| "epoch": 9.270833333333334, | |
| "grad_norm": 0.20149551331996918, | |
| "learning_rate": 6.307399704769099e-05, | |
| "loss": 0.0505, | |
| "step": 4450 | |
| }, | |
| { | |
| "epoch": 9.291666666666666, | |
| "grad_norm": 0.16381600499153137, | |
| "learning_rate": 6.291433147091583e-05, | |
| "loss": 0.0436, | |
| "step": 4460 | |
| }, | |
| { | |
| "epoch": 9.3125, | |
| "grad_norm": 0.24549932777881622, | |
| "learning_rate": 6.275452466508077e-05, | |
| "loss": 0.0438, | |
| "step": 4470 | |
| }, | |
| { | |
| "epoch": 9.333333333333334, | |
| "grad_norm": 0.15507693588733673, | |
| "learning_rate": 6.259457837780742e-05, | |
| "loss": 0.0433, | |
| "step": 4480 | |
| }, | |
| { | |
| "epoch": 9.354166666666666, | |
| "grad_norm": 0.199483722448349, | |
| "learning_rate": 6.243449435824276e-05, | |
| "loss": 0.041, | |
| "step": 4490 | |
| }, | |
| { | |
| "epoch": 9.375, | |
| "grad_norm": 0.17188148200511932, | |
| "learning_rate": 6.227427435703997e-05, | |
| "loss": 0.0504, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 9.395833333333334, | |
| "grad_norm": 0.23068276047706604, | |
| "learning_rate": 6.211392012633932e-05, | |
| "loss": 0.0464, | |
| "step": 4510 | |
| }, | |
| { | |
| "epoch": 9.416666666666666, | |
| "grad_norm": 0.21441690623760223, | |
| "learning_rate": 6.195343341974899e-05, | |
| "loss": 0.0484, | |
| "step": 4520 | |
| }, | |
| { | |
| "epoch": 9.4375, | |
| "grad_norm": 0.13120320439338684, | |
| "learning_rate": 6.179281599232591e-05, | |
| "loss": 0.0395, | |
| "step": 4530 | |
| }, | |
| { | |
| "epoch": 9.458333333333334, | |
| "grad_norm": 0.19601130485534668, | |
| "learning_rate": 6.163206960055651e-05, | |
| "loss": 0.0405, | |
| "step": 4540 | |
| }, | |
| { | |
| "epoch": 9.479166666666666, | |
| "grad_norm": 0.26348334550857544, | |
| "learning_rate": 6.147119600233758e-05, | |
| "loss": 0.0409, | |
| "step": 4550 | |
| }, | |
| { | |
| "epoch": 9.5, | |
| "grad_norm": 0.1722290962934494, | |
| "learning_rate": 6.131019695695702e-05, | |
| "loss": 0.0392, | |
| "step": 4560 | |
| }, | |
| { | |
| "epoch": 9.520833333333334, | |
| "grad_norm": 0.19188344478607178, | |
| "learning_rate": 6.11490742250746e-05, | |
| "loss": 0.0423, | |
| "step": 4570 | |
| }, | |
| { | |
| "epoch": 9.541666666666666, | |
| "grad_norm": 0.15979404747486115, | |
| "learning_rate": 6.0987829568702656e-05, | |
| "loss": 0.0416, | |
| "step": 4580 | |
| }, | |
| { | |
| "epoch": 9.5625, | |
| "grad_norm": 0.1957653909921646, | |
| "learning_rate": 6.0826464751186994e-05, | |
| "loss": 0.0457, | |
| "step": 4590 | |
| }, | |
| { | |
| "epoch": 9.583333333333334, | |
| "grad_norm": 0.1783294528722763, | |
| "learning_rate": 6.066498153718735e-05, | |
| "loss": 0.0449, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 9.604166666666666, | |
| "grad_norm": 0.28254982829093933, | |
| "learning_rate": 6.05033816926583e-05, | |
| "loss": 0.0446, | |
| "step": 4610 | |
| }, | |
| { | |
| "epoch": 9.625, | |
| "grad_norm": 0.29281267523765564, | |
| "learning_rate": 6.034166698482984e-05, | |
| "loss": 0.0395, | |
| "step": 4620 | |
| }, | |
| { | |
| "epoch": 9.645833333333334, | |
| "grad_norm": 0.18072371184825897, | |
| "learning_rate": 6.017983918218812e-05, | |
| "loss": 0.0481, | |
| "step": 4630 | |
| }, | |
| { | |
| "epoch": 9.666666666666666, | |
| "grad_norm": 0.18428587913513184, | |
| "learning_rate": 6.001790005445607e-05, | |
| "loss": 0.0402, | |
| "step": 4640 | |
| }, | |
| { | |
| "epoch": 9.6875, | |
| "grad_norm": 0.17016282677650452, | |
| "learning_rate": 5.985585137257401e-05, | |
| "loss": 0.0477, | |
| "step": 4650 | |
| }, | |
| { | |
| "epoch": 9.708333333333334, | |
| "grad_norm": 0.17313967645168304, | |
| "learning_rate": 5.969369490868042e-05, | |
| "loss": 0.0492, | |
| "step": 4660 | |
| }, | |
| { | |
| "epoch": 9.729166666666666, | |
| "grad_norm": 0.3263380229473114, | |
| "learning_rate": 5.953143243609235e-05, | |
| "loss": 0.0511, | |
| "step": 4670 | |
| }, | |
| { | |
| "epoch": 9.75, | |
| "grad_norm": 0.23494060337543488, | |
| "learning_rate": 5.9369065729286245e-05, | |
| "loss": 0.0441, | |
| "step": 4680 | |
| }, | |
| { | |
| "epoch": 9.770833333333334, | |
| "grad_norm": 0.17909765243530273, | |
| "learning_rate": 5.9206596563878357e-05, | |
| "loss": 0.0443, | |
| "step": 4690 | |
| }, | |
| { | |
| "epoch": 9.791666666666666, | |
| "grad_norm": 0.25222522020339966, | |
| "learning_rate": 5.90440267166055e-05, | |
| "loss": 0.0478, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 9.8125, | |
| "grad_norm": 0.23123560845851898, | |
| "learning_rate": 5.888135796530544e-05, | |
| "loss": 0.0417, | |
| "step": 4710 | |
| }, | |
| { | |
| "epoch": 9.833333333333334, | |
| "grad_norm": 0.2341155707836151, | |
| "learning_rate": 5.871859208889759e-05, | |
| "loss": 0.046, | |
| "step": 4720 | |
| }, | |
| { | |
| "epoch": 9.854166666666666, | |
| "grad_norm": 0.2579653859138489, | |
| "learning_rate": 5.85557308673635e-05, | |
| "loss": 0.0469, | |
| "step": 4730 | |
| }, | |
| { | |
| "epoch": 9.875, | |
| "grad_norm": 0.17647035419940948, | |
| "learning_rate": 5.8392776081727385e-05, | |
| "loss": 0.0403, | |
| "step": 4740 | |
| }, | |
| { | |
| "epoch": 9.895833333333334, | |
| "grad_norm": 0.1749514639377594, | |
| "learning_rate": 5.8229729514036705e-05, | |
| "loss": 0.0439, | |
| "step": 4750 | |
| }, | |
| { | |
| "epoch": 9.916666666666666, | |
| "grad_norm": 0.23397527635097504, | |
| "learning_rate": 5.8066592947342555e-05, | |
| "loss": 0.0437, | |
| "step": 4760 | |
| }, | |
| { | |
| "epoch": 9.9375, | |
| "grad_norm": 0.18928822875022888, | |
| "learning_rate": 5.7903368165680327e-05, | |
| "loss": 0.0443, | |
| "step": 4770 | |
| }, | |
| { | |
| "epoch": 9.958333333333334, | |
| "grad_norm": 0.1895478218793869, | |
| "learning_rate": 5.7740056954050084e-05, | |
| "loss": 0.0468, | |
| "step": 4780 | |
| }, | |
| { | |
| "epoch": 9.979166666666666, | |
| "grad_norm": 0.17620734870433807, | |
| "learning_rate": 5.757666109839702e-05, | |
| "loss": 0.0491, | |
| "step": 4790 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "grad_norm": 0.19584999978542328, | |
| "learning_rate": 5.74131823855921e-05, | |
| "loss": 0.0376, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 10.020833333333334, | |
| "grad_norm": 0.17567752301692963, | |
| "learning_rate": 5.72496226034123e-05, | |
| "loss": 0.046, | |
| "step": 4810 | |
| }, | |
| { | |
| "epoch": 10.041666666666666, | |
| "grad_norm": 0.2471524477005005, | |
| "learning_rate": 5.7085983540521216e-05, | |
| "loss": 0.0456, | |
| "step": 4820 | |
| }, | |
| { | |
| "epoch": 10.0625, | |
| "grad_norm": 0.22308869659900665, | |
| "learning_rate": 5.692226698644938e-05, | |
| "loss": 0.0456, | |
| "step": 4830 | |
| }, | |
| { | |
| "epoch": 10.083333333333334, | |
| "grad_norm": 0.28350821137428284, | |
| "learning_rate": 5.675847473157485e-05, | |
| "loss": 0.0515, | |
| "step": 4840 | |
| }, | |
| { | |
| "epoch": 10.104166666666666, | |
| "grad_norm": 0.19321610033512115, | |
| "learning_rate": 5.6594608567103456e-05, | |
| "loss": 0.0458, | |
| "step": 4850 | |
| }, | |
| { | |
| "epoch": 10.125, | |
| "grad_norm": 0.2354840636253357, | |
| "learning_rate": 5.6430670285049314e-05, | |
| "loss": 0.0395, | |
| "step": 4860 | |
| }, | |
| { | |
| "epoch": 10.145833333333334, | |
| "grad_norm": 0.2242346554994583, | |
| "learning_rate": 5.6266661678215216e-05, | |
| "loss": 0.0452, | |
| "step": 4870 | |
| }, | |
| { | |
| "epoch": 10.166666666666666, | |
| "grad_norm": 0.19859901070594788, | |
| "learning_rate": 5.6102584540173006e-05, | |
| "loss": 0.0427, | |
| "step": 4880 | |
| }, | |
| { | |
| "epoch": 10.1875, | |
| "grad_norm": 0.2990339696407318, | |
| "learning_rate": 5.5938440665244006e-05, | |
| "loss": 0.0443, | |
| "step": 4890 | |
| }, | |
| { | |
| "epoch": 10.208333333333334, | |
| "grad_norm": 0.17451122403144836, | |
| "learning_rate": 5.577423184847932e-05, | |
| "loss": 0.0464, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 10.229166666666666, | |
| "grad_norm": 0.27011385560035706, | |
| "learning_rate": 5.560995988564023e-05, | |
| "loss": 0.0432, | |
| "step": 4910 | |
| }, | |
| { | |
| "epoch": 10.25, | |
| "grad_norm": 0.20278741419315338, | |
| "learning_rate": 5.544562657317863e-05, | |
| "loss": 0.041, | |
| "step": 4920 | |
| }, | |
| { | |
| "epoch": 10.270833333333334, | |
| "grad_norm": 0.19786055386066437, | |
| "learning_rate": 5.52812337082173e-05, | |
| "loss": 0.0448, | |
| "step": 4930 | |
| }, | |
| { | |
| "epoch": 10.291666666666666, | |
| "grad_norm": 0.19475369155406952, | |
| "learning_rate": 5.511678308853026e-05, | |
| "loss": 0.0407, | |
| "step": 4940 | |
| }, | |
| { | |
| "epoch": 10.3125, | |
| "grad_norm": 0.18051603436470032, | |
| "learning_rate": 5.495227651252315e-05, | |
| "loss": 0.0402, | |
| "step": 4950 | |
| }, | |
| { | |
| "epoch": 10.333333333333334, | |
| "grad_norm": 0.2484702616930008, | |
| "learning_rate": 5.478771577921351e-05, | |
| "loss": 0.0438, | |
| "step": 4960 | |
| }, | |
| { | |
| "epoch": 10.354166666666666, | |
| "grad_norm": 0.22432544827461243, | |
| "learning_rate": 5.462310268821118e-05, | |
| "loss": 0.0461, | |
| "step": 4970 | |
| }, | |
| { | |
| "epoch": 10.375, | |
| "grad_norm": 0.18664902448654175, | |
| "learning_rate": 5.445843903969854e-05, | |
| "loss": 0.0488, | |
| "step": 4980 | |
| }, | |
| { | |
| "epoch": 10.395833333333334, | |
| "grad_norm": 0.15875597298145294, | |
| "learning_rate": 5.4293726634410855e-05, | |
| "loss": 0.0453, | |
| "step": 4990 | |
| }, | |
| { | |
| "epoch": 10.416666666666666, | |
| "grad_norm": 0.241317018866539, | |
| "learning_rate": 5.4128967273616625e-05, | |
| "loss": 0.0426, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 10.4375, | |
| "grad_norm": 0.25186699628829956, | |
| "learning_rate": 5.396416275909779e-05, | |
| "loss": 0.0422, | |
| "step": 5010 | |
| }, | |
| { | |
| "epoch": 10.458333333333334, | |
| "grad_norm": 0.210428386926651, | |
| "learning_rate": 5.379931489313016e-05, | |
| "loss": 0.0447, | |
| "step": 5020 | |
| }, | |
| { | |
| "epoch": 10.479166666666666, | |
| "grad_norm": 0.18129436671733856, | |
| "learning_rate": 5.363442547846356e-05, | |
| "loss": 0.0486, | |
| "step": 5030 | |
| }, | |
| { | |
| "epoch": 10.5, | |
| "grad_norm": 0.1484909951686859, | |
| "learning_rate": 5.3469496318302204e-05, | |
| "loss": 0.0379, | |
| "step": 5040 | |
| }, | |
| { | |
| "epoch": 10.520833333333334, | |
| "grad_norm": 0.20055051147937775, | |
| "learning_rate": 5.330452921628497e-05, | |
| "loss": 0.0458, | |
| "step": 5050 | |
| }, | |
| { | |
| "epoch": 10.541666666666666, | |
| "grad_norm": 0.1339893490076065, | |
| "learning_rate": 5.313952597646568e-05, | |
| "loss": 0.0393, | |
| "step": 5060 | |
| }, | |
| { | |
| "epoch": 10.5625, | |
| "grad_norm": 0.20396846532821655, | |
| "learning_rate": 5.297448840329329e-05, | |
| "loss": 0.0397, | |
| "step": 5070 | |
| }, | |
| { | |
| "epoch": 10.583333333333334, | |
| "grad_norm": 0.13719069957733154, | |
| "learning_rate": 5.280941830159227e-05, | |
| "loss": 0.0399, | |
| "step": 5080 | |
| }, | |
| { | |
| "epoch": 10.604166666666666, | |
| "grad_norm": 0.19255420565605164, | |
| "learning_rate": 5.264431747654284e-05, | |
| "loss": 0.0405, | |
| "step": 5090 | |
| }, | |
| { | |
| "epoch": 10.625, | |
| "grad_norm": 0.22163689136505127, | |
| "learning_rate": 5.247918773366112e-05, | |
| "loss": 0.0473, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 10.645833333333334, | |
| "grad_norm": 0.23657256364822388, | |
| "learning_rate": 5.231403087877955e-05, | |
| "loss": 0.0426, | |
| "step": 5110 | |
| }, | |
| { | |
| "epoch": 10.666666666666666, | |
| "grad_norm": 0.2585020363330841, | |
| "learning_rate": 5.214884871802703e-05, | |
| "loss": 0.0487, | |
| "step": 5120 | |
| }, | |
| { | |
| "epoch": 10.6875, | |
| "grad_norm": 0.17085853219032288, | |
| "learning_rate": 5.198364305780922e-05, | |
| "loss": 0.0407, | |
| "step": 5130 | |
| }, | |
| { | |
| "epoch": 10.708333333333334, | |
| "grad_norm": 0.1590132862329483, | |
| "learning_rate": 5.1818415704788725e-05, | |
| "loss": 0.0368, | |
| "step": 5140 | |
| }, | |
| { | |
| "epoch": 10.729166666666666, | |
| "grad_norm": 0.15811192989349365, | |
| "learning_rate": 5.165316846586541e-05, | |
| "loss": 0.0412, | |
| "step": 5150 | |
| }, | |
| { | |
| "epoch": 10.75, | |
| "grad_norm": 0.20628100633621216, | |
| "learning_rate": 5.148790314815663e-05, | |
| "loss": 0.0429, | |
| "step": 5160 | |
| }, | |
| { | |
| "epoch": 10.770833333333334, | |
| "grad_norm": 0.18603432178497314, | |
| "learning_rate": 5.132262155897739e-05, | |
| "loss": 0.0379, | |
| "step": 5170 | |
| }, | |
| { | |
| "epoch": 10.791666666666666, | |
| "grad_norm": 0.27321115136146545, | |
| "learning_rate": 5.1157325505820694e-05, | |
| "loss": 0.0395, | |
| "step": 5180 | |
| }, | |
| { | |
| "epoch": 10.8125, | |
| "grad_norm": 0.22894440591335297, | |
| "learning_rate": 5.0992016796337686e-05, | |
| "loss": 0.0424, | |
| "step": 5190 | |
| }, | |
| { | |
| "epoch": 10.833333333333334, | |
| "grad_norm": 0.12385181337594986, | |
| "learning_rate": 5.0826697238317935e-05, | |
| "loss": 0.0461, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 10.854166666666666, | |
| "grad_norm": 0.2319619506597519, | |
| "learning_rate": 5.066136863966963e-05, | |
| "loss": 0.043, | |
| "step": 5210 | |
| }, | |
| { | |
| "epoch": 10.875, | |
| "grad_norm": 0.28764697909355164, | |
| "learning_rate": 5.0496032808399815e-05, | |
| "loss": 0.0408, | |
| "step": 5220 | |
| }, | |
| { | |
| "epoch": 10.895833333333334, | |
| "grad_norm": 0.21275018155574799, | |
| "learning_rate": 5.033069155259471e-05, | |
| "loss": 0.044, | |
| "step": 5230 | |
| }, | |
| { | |
| "epoch": 10.916666666666666, | |
| "grad_norm": 0.22453029453754425, | |
| "learning_rate": 5.016534668039976e-05, | |
| "loss": 0.0399, | |
| "step": 5240 | |
| }, | |
| { | |
| "epoch": 10.9375, | |
| "grad_norm": 0.1953059583902359, | |
| "learning_rate": 5e-05, | |
| "loss": 0.0409, | |
| "step": 5250 | |
| }, | |
| { | |
| "epoch": 10.958333333333334, | |
| "grad_norm": 0.14878690242767334, | |
| "learning_rate": 4.9834653319600246e-05, | |
| "loss": 0.0398, | |
| "step": 5260 | |
| }, | |
| { | |
| "epoch": 10.979166666666666, | |
| "grad_norm": 0.2492102086544037, | |
| "learning_rate": 4.96693084474053e-05, | |
| "loss": 0.0499, | |
| "step": 5270 | |
| }, | |
| { | |
| "epoch": 11.0, | |
| "grad_norm": 0.3848576247692108, | |
| "learning_rate": 4.950396719160018e-05, | |
| "loss": 0.0419, | |
| "step": 5280 | |
| }, | |
| { | |
| "epoch": 11.020833333333334, | |
| "grad_norm": 0.18382327258586884, | |
| "learning_rate": 4.93386313603304e-05, | |
| "loss": 0.0432, | |
| "step": 5290 | |
| }, | |
| { | |
| "epoch": 11.041666666666666, | |
| "grad_norm": 0.25166767835617065, | |
| "learning_rate": 4.917330276168208e-05, | |
| "loss": 0.0411, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 11.0625, | |
| "grad_norm": 0.14504221081733704, | |
| "learning_rate": 4.9007983203662326e-05, | |
| "loss": 0.0386, | |
| "step": 5310 | |
| }, | |
| { | |
| "epoch": 11.083333333333334, | |
| "grad_norm": 0.15644173324108124, | |
| "learning_rate": 4.884267449417931e-05, | |
| "loss": 0.046, | |
| "step": 5320 | |
| }, | |
| { | |
| "epoch": 11.104166666666666, | |
| "grad_norm": 0.17497499287128448, | |
| "learning_rate": 4.867737844102261e-05, | |
| "loss": 0.0367, | |
| "step": 5330 | |
| }, | |
| { | |
| "epoch": 11.125, | |
| "grad_norm": 0.12207230180501938, | |
| "learning_rate": 4.851209685184338e-05, | |
| "loss": 0.041, | |
| "step": 5340 | |
| }, | |
| { | |
| "epoch": 11.145833333333334, | |
| "grad_norm": 0.19345144927501678, | |
| "learning_rate": 4.834683153413459e-05, | |
| "loss": 0.0407, | |
| "step": 5350 | |
| }, | |
| { | |
| "epoch": 11.166666666666666, | |
| "grad_norm": 0.1600380539894104, | |
| "learning_rate": 4.818158429521129e-05, | |
| "loss": 0.043, | |
| "step": 5360 | |
| }, | |
| { | |
| "epoch": 11.1875, | |
| "grad_norm": 0.20394577085971832, | |
| "learning_rate": 4.801635694219079e-05, | |
| "loss": 0.0428, | |
| "step": 5370 | |
| }, | |
| { | |
| "epoch": 11.208333333333334, | |
| "grad_norm": 0.21752101182937622, | |
| "learning_rate": 4.785115128197298e-05, | |
| "loss": 0.0413, | |
| "step": 5380 | |
| }, | |
| { | |
| "epoch": 11.229166666666666, | |
| "grad_norm": 0.1963369995355606, | |
| "learning_rate": 4.7685969121220456e-05, | |
| "loss": 0.04, | |
| "step": 5390 | |
| }, | |
| { | |
| "epoch": 11.25, | |
| "grad_norm": 0.2457231879234314, | |
| "learning_rate": 4.7520812266338885e-05, | |
| "loss": 0.0394, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 11.270833333333334, | |
| "grad_norm": 0.26521575450897217, | |
| "learning_rate": 4.735568252345718e-05, | |
| "loss": 0.046, | |
| "step": 5410 | |
| }, | |
| { | |
| "epoch": 11.291666666666666, | |
| "grad_norm": 0.24490521848201752, | |
| "learning_rate": 4.7190581698407725e-05, | |
| "loss": 0.0389, | |
| "step": 5420 | |
| }, | |
| { | |
| "epoch": 11.3125, | |
| "grad_norm": 0.19071172177791595, | |
| "learning_rate": 4.702551159670672e-05, | |
| "loss": 0.0379, | |
| "step": 5430 | |
| }, | |
| { | |
| "epoch": 11.333333333333334, | |
| "grad_norm": 0.1720157265663147, | |
| "learning_rate": 4.6860474023534335e-05, | |
| "loss": 0.0358, | |
| "step": 5440 | |
| }, | |
| { | |
| "epoch": 11.354166666666666, | |
| "grad_norm": 0.1971021145582199, | |
| "learning_rate": 4.669547078371504e-05, | |
| "loss": 0.0425, | |
| "step": 5450 | |
| }, | |
| { | |
| "epoch": 11.375, | |
| "grad_norm": 0.16216221451759338, | |
| "learning_rate": 4.65305036816978e-05, | |
| "loss": 0.0398, | |
| "step": 5460 | |
| }, | |
| { | |
| "epoch": 11.395833333333334, | |
| "grad_norm": 0.3896409869194031, | |
| "learning_rate": 4.6365574521536445e-05, | |
| "loss": 0.0443, | |
| "step": 5470 | |
| }, | |
| { | |
| "epoch": 11.416666666666666, | |
| "grad_norm": 0.2199966162443161, | |
| "learning_rate": 4.620068510686985e-05, | |
| "loss": 0.0381, | |
| "step": 5480 | |
| }, | |
| { | |
| "epoch": 11.4375, | |
| "grad_norm": 0.1703164428472519, | |
| "learning_rate": 4.60358372409022e-05, | |
| "loss": 0.0388, | |
| "step": 5490 | |
| }, | |
| { | |
| "epoch": 11.458333333333334, | |
| "grad_norm": 0.1450280249118805, | |
| "learning_rate": 4.5871032726383386e-05, | |
| "loss": 0.035, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 11.479166666666666, | |
| "grad_norm": 0.2720458209514618, | |
| "learning_rate": 4.570627336558915e-05, | |
| "loss": 0.0386, | |
| "step": 5510 | |
| }, | |
| { | |
| "epoch": 11.5, | |
| "grad_norm": 0.1641550362110138, | |
| "learning_rate": 4.554156096030149e-05, | |
| "loss": 0.0427, | |
| "step": 5520 | |
| }, | |
| { | |
| "epoch": 11.520833333333334, | |
| "grad_norm": 0.22372999787330627, | |
| "learning_rate": 4.537689731178883e-05, | |
| "loss": 0.0379, | |
| "step": 5530 | |
| }, | |
| { | |
| "epoch": 11.541666666666666, | |
| "grad_norm": 0.2067866027355194, | |
| "learning_rate": 4.5212284220786494e-05, | |
| "loss": 0.0475, | |
| "step": 5540 | |
| }, | |
| { | |
| "epoch": 11.5625, | |
| "grad_norm": 0.1630556732416153, | |
| "learning_rate": 4.504772348747687e-05, | |
| "loss": 0.0429, | |
| "step": 5550 | |
| }, | |
| { | |
| "epoch": 11.583333333333334, | |
| "grad_norm": 0.16432788968086243, | |
| "learning_rate": 4.488321691146975e-05, | |
| "loss": 0.0393, | |
| "step": 5560 | |
| }, | |
| { | |
| "epoch": 11.604166666666666, | |
| "grad_norm": 0.17831680178642273, | |
| "learning_rate": 4.471876629178273e-05, | |
| "loss": 0.0366, | |
| "step": 5570 | |
| }, | |
| { | |
| "epoch": 11.625, | |
| "grad_norm": 0.2123539000749588, | |
| "learning_rate": 4.4554373426821374e-05, | |
| "loss": 0.0412, | |
| "step": 5580 | |
| }, | |
| { | |
| "epoch": 11.645833333333334, | |
| "grad_norm": 0.2609133720397949, | |
| "learning_rate": 4.439004011435979e-05, | |
| "loss": 0.0427, | |
| "step": 5590 | |
| }, | |
| { | |
| "epoch": 11.666666666666666, | |
| "grad_norm": 0.25508642196655273, | |
| "learning_rate": 4.4225768151520694e-05, | |
| "loss": 0.042, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 11.6875, | |
| "grad_norm": 0.21042585372924805, | |
| "learning_rate": 4.406155933475599e-05, | |
| "loss": 0.0436, | |
| "step": 5610 | |
| }, | |
| { | |
| "epoch": 11.708333333333334, | |
| "grad_norm": 0.18732571601867676, | |
| "learning_rate": 4.3897415459827e-05, | |
| "loss": 0.037, | |
| "step": 5620 | |
| }, | |
| { | |
| "epoch": 11.729166666666666, | |
| "grad_norm": 0.18312667310237885, | |
| "learning_rate": 4.373333832178478e-05, | |
| "loss": 0.0407, | |
| "step": 5630 | |
| }, | |
| { | |
| "epoch": 11.75, | |
| "grad_norm": 0.16135013103485107, | |
| "learning_rate": 4.3569329714950704e-05, | |
| "loss": 0.0354, | |
| "step": 5640 | |
| }, | |
| { | |
| "epoch": 11.770833333333334, | |
| "grad_norm": 0.13367682695388794, | |
| "learning_rate": 4.3405391432896555e-05, | |
| "loss": 0.044, | |
| "step": 5650 | |
| }, | |
| { | |
| "epoch": 11.791666666666666, | |
| "grad_norm": 0.18768717348575592, | |
| "learning_rate": 4.324152526842517e-05, | |
| "loss": 0.0369, | |
| "step": 5660 | |
| }, | |
| { | |
| "epoch": 11.8125, | |
| "grad_norm": 0.1540452241897583, | |
| "learning_rate": 4.307773301355062e-05, | |
| "loss": 0.0394, | |
| "step": 5670 | |
| }, | |
| { | |
| "epoch": 11.833333333333334, | |
| "grad_norm": 0.2887902855873108, | |
| "learning_rate": 4.291401645947879e-05, | |
| "loss": 0.0397, | |
| "step": 5680 | |
| }, | |
| { | |
| "epoch": 11.854166666666666, | |
| "grad_norm": 0.37716343998908997, | |
| "learning_rate": 4.275037739658771e-05, | |
| "loss": 0.0427, | |
| "step": 5690 | |
| }, | |
| { | |
| "epoch": 11.875, | |
| "grad_norm": 0.23013059794902802, | |
| "learning_rate": 4.2586817614407895e-05, | |
| "loss": 0.0429, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 11.895833333333334, | |
| "grad_norm": 0.1979239135980606, | |
| "learning_rate": 4.2423338901602985e-05, | |
| "loss": 0.0388, | |
| "step": 5710 | |
| }, | |
| { | |
| "epoch": 11.916666666666666, | |
| "grad_norm": 0.16653117537498474, | |
| "learning_rate": 4.2259943045949934e-05, | |
| "loss": 0.0492, | |
| "step": 5720 | |
| }, | |
| { | |
| "epoch": 11.9375, | |
| "grad_norm": 0.2162189930677414, | |
| "learning_rate": 4.209663183431969e-05, | |
| "loss": 0.0442, | |
| "step": 5730 | |
| }, | |
| { | |
| "epoch": 11.958333333333334, | |
| "grad_norm": 0.19394119083881378, | |
| "learning_rate": 4.1933407052657456e-05, | |
| "loss": 0.0431, | |
| "step": 5740 | |
| }, | |
| { | |
| "epoch": 11.979166666666666, | |
| "grad_norm": 0.25315889716148376, | |
| "learning_rate": 4.17702704859633e-05, | |
| "loss": 0.0399, | |
| "step": 5750 | |
| }, | |
| { | |
| "epoch": 12.0, | |
| "grad_norm": 0.33700859546661377, | |
| "learning_rate": 4.160722391827262e-05, | |
| "loss": 0.0408, | |
| "step": 5760 | |
| }, | |
| { | |
| "epoch": 12.020833333333334, | |
| "grad_norm": 0.20825780928134918, | |
| "learning_rate": 4.14442691326365e-05, | |
| "loss": 0.0395, | |
| "step": 5770 | |
| }, | |
| { | |
| "epoch": 12.041666666666666, | |
| "grad_norm": 0.1547510176897049, | |
| "learning_rate": 4.1281407911102425e-05, | |
| "loss": 0.0354, | |
| "step": 5780 | |
| }, | |
| { | |
| "epoch": 12.0625, | |
| "grad_norm": 0.18649132549762726, | |
| "learning_rate": 4.111864203469457e-05, | |
| "loss": 0.0397, | |
| "step": 5790 | |
| }, | |
| { | |
| "epoch": 12.083333333333334, | |
| "grad_norm": 0.17303578555583954, | |
| "learning_rate": 4.095597328339452e-05, | |
| "loss": 0.0386, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 12.104166666666666, | |
| "grad_norm": 0.22204063832759857, | |
| "learning_rate": 4.079340343612165e-05, | |
| "loss": 0.0378, | |
| "step": 5810 | |
| }, | |
| { | |
| "epoch": 12.125, | |
| "grad_norm": 0.17748937010765076, | |
| "learning_rate": 4.063093427071376e-05, | |
| "loss": 0.0396, | |
| "step": 5820 | |
| }, | |
| { | |
| "epoch": 12.145833333333334, | |
| "grad_norm": 0.13429847359657288, | |
| "learning_rate": 4.046856756390767e-05, | |
| "loss": 0.039, | |
| "step": 5830 | |
| }, | |
| { | |
| "epoch": 12.166666666666666, | |
| "grad_norm": 0.18121349811553955, | |
| "learning_rate": 4.0306305091319595e-05, | |
| "loss": 0.0421, | |
| "step": 5840 | |
| }, | |
| { | |
| "epoch": 12.1875, | |
| "grad_norm": 0.20254682004451752, | |
| "learning_rate": 4.0144148627425993e-05, | |
| "loss": 0.0406, | |
| "step": 5850 | |
| }, | |
| { | |
| "epoch": 12.208333333333334, | |
| "grad_norm": 0.13965128362178802, | |
| "learning_rate": 3.9982099945543945e-05, | |
| "loss": 0.0426, | |
| "step": 5860 | |
| }, | |
| { | |
| "epoch": 12.229166666666666, | |
| "grad_norm": 0.23334594070911407, | |
| "learning_rate": 3.982016081781189e-05, | |
| "loss": 0.0401, | |
| "step": 5870 | |
| }, | |
| { | |
| "epoch": 12.25, | |
| "grad_norm": 0.29574814438819885, | |
| "learning_rate": 3.965833301517017e-05, | |
| "loss": 0.0368, | |
| "step": 5880 | |
| }, | |
| { | |
| "epoch": 12.270833333333334, | |
| "grad_norm": 0.15830658376216888, | |
| "learning_rate": 3.949661830734172e-05, | |
| "loss": 0.0498, | |
| "step": 5890 | |
| }, | |
| { | |
| "epoch": 12.291666666666666, | |
| "grad_norm": 0.11797461658716202, | |
| "learning_rate": 3.933501846281267e-05, | |
| "loss": 0.034, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 12.3125, | |
| "grad_norm": 0.17256031930446625, | |
| "learning_rate": 3.917353524881302e-05, | |
| "loss": 0.0473, | |
| "step": 5910 | |
| }, | |
| { | |
| "epoch": 12.333333333333334, | |
| "grad_norm": 0.1115083396434784, | |
| "learning_rate": 3.901217043129735e-05, | |
| "loss": 0.0356, | |
| "step": 5920 | |
| }, | |
| { | |
| "epoch": 12.354166666666666, | |
| "grad_norm": 0.24546393752098083, | |
| "learning_rate": 3.8850925774925425e-05, | |
| "loss": 0.0363, | |
| "step": 5930 | |
| }, | |
| { | |
| "epoch": 12.375, | |
| "grad_norm": 0.16720516979694366, | |
| "learning_rate": 3.8689803043043e-05, | |
| "loss": 0.0369, | |
| "step": 5940 | |
| }, | |
| { | |
| "epoch": 12.395833333333334, | |
| "grad_norm": 0.1878960281610489, | |
| "learning_rate": 3.852880399766243e-05, | |
| "loss": 0.0385, | |
| "step": 5950 | |
| }, | |
| { | |
| "epoch": 12.416666666666666, | |
| "grad_norm": 0.2697995901107788, | |
| "learning_rate": 3.836793039944349e-05, | |
| "loss": 0.0372, | |
| "step": 5960 | |
| }, | |
| { | |
| "epoch": 12.4375, | |
| "grad_norm": 0.2137763500213623, | |
| "learning_rate": 3.820718400767409e-05, | |
| "loss": 0.0352, | |
| "step": 5970 | |
| }, | |
| { | |
| "epoch": 12.458333333333334, | |
| "grad_norm": 0.12412809580564499, | |
| "learning_rate": 3.8046566580251e-05, | |
| "loss": 0.0385, | |
| "step": 5980 | |
| }, | |
| { | |
| "epoch": 12.479166666666666, | |
| "grad_norm": 0.16106805205345154, | |
| "learning_rate": 3.788607987366069e-05, | |
| "loss": 0.0374, | |
| "step": 5990 | |
| }, | |
| { | |
| "epoch": 12.5, | |
| "grad_norm": 0.20143009722232819, | |
| "learning_rate": 3.772572564296005e-05, | |
| "loss": 0.0399, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 12.520833333333334, | |
| "grad_norm": 0.2611088454723358, | |
| "learning_rate": 3.756550564175727e-05, | |
| "loss": 0.0378, | |
| "step": 6010 | |
| }, | |
| { | |
| "epoch": 12.541666666666666, | |
| "grad_norm": 0.19968561828136444, | |
| "learning_rate": 3.74054216221926e-05, | |
| "loss": 0.0336, | |
| "step": 6020 | |
| }, | |
| { | |
| "epoch": 12.5625, | |
| "grad_norm": 0.2946498394012451, | |
| "learning_rate": 3.7245475334919246e-05, | |
| "loss": 0.0419, | |
| "step": 6030 | |
| }, | |
| { | |
| "epoch": 12.583333333333334, | |
| "grad_norm": 0.24810166656970978, | |
| "learning_rate": 3.7085668529084184e-05, | |
| "loss": 0.0369, | |
| "step": 6040 | |
| }, | |
| { | |
| "epoch": 12.604166666666666, | |
| "grad_norm": 0.17250268161296844, | |
| "learning_rate": 3.6926002952309016e-05, | |
| "loss": 0.0389, | |
| "step": 6050 | |
| }, | |
| { | |
| "epoch": 12.625, | |
| "grad_norm": 0.18926459550857544, | |
| "learning_rate": 3.676648035067093e-05, | |
| "loss": 0.0381, | |
| "step": 6060 | |
| }, | |
| { | |
| "epoch": 12.645833333333334, | |
| "grad_norm": 0.16701489686965942, | |
| "learning_rate": 3.6607102468683526e-05, | |
| "loss": 0.0372, | |
| "step": 6070 | |
| }, | |
| { | |
| "epoch": 12.666666666666666, | |
| "grad_norm": 0.27794161438941956, | |
| "learning_rate": 3.6447871049277796e-05, | |
| "loss": 0.0476, | |
| "step": 6080 | |
| }, | |
| { | |
| "epoch": 12.6875, | |
| "grad_norm": 0.15059830248355865, | |
| "learning_rate": 3.628878783378302e-05, | |
| "loss": 0.0365, | |
| "step": 6090 | |
| }, | |
| { | |
| "epoch": 12.708333333333334, | |
| "grad_norm": 0.18658536672592163, | |
| "learning_rate": 3.612985456190778e-05, | |
| "loss": 0.0409, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 12.729166666666666, | |
| "grad_norm": 0.20055310428142548, | |
| "learning_rate": 3.597107297172084e-05, | |
| "loss": 0.0309, | |
| "step": 6110 | |
| }, | |
| { | |
| "epoch": 12.75, | |
| "grad_norm": 0.1511124223470688, | |
| "learning_rate": 3.581244479963225e-05, | |
| "loss": 0.0389, | |
| "step": 6120 | |
| }, | |
| { | |
| "epoch": 12.770833333333334, | |
| "grad_norm": 0.19505897164344788, | |
| "learning_rate": 3.5653971780374295e-05, | |
| "loss": 0.0376, | |
| "step": 6130 | |
| }, | |
| { | |
| "epoch": 12.791666666666666, | |
| "grad_norm": 0.26128458976745605, | |
| "learning_rate": 3.5495655646982505e-05, | |
| "loss": 0.0436, | |
| "step": 6140 | |
| }, | |
| { | |
| "epoch": 12.8125, | |
| "grad_norm": 0.19015803933143616, | |
| "learning_rate": 3.533749813077677e-05, | |
| "loss": 0.0337, | |
| "step": 6150 | |
| }, | |
| { | |
| "epoch": 12.833333333333334, | |
| "grad_norm": 0.18475806713104248, | |
| "learning_rate": 3.517950096134232e-05, | |
| "loss": 0.0394, | |
| "step": 6160 | |
| }, | |
| { | |
| "epoch": 12.854166666666666, | |
| "grad_norm": 0.199330672621727, | |
| "learning_rate": 3.5021665866510925e-05, | |
| "loss": 0.0393, | |
| "step": 6170 | |
| }, | |
| { | |
| "epoch": 12.875, | |
| "grad_norm": 0.1968792825937271, | |
| "learning_rate": 3.4863994572341843e-05, | |
| "loss": 0.0428, | |
| "step": 6180 | |
| }, | |
| { | |
| "epoch": 12.895833333333334, | |
| "grad_norm": 0.2163507491350174, | |
| "learning_rate": 3.470648880310313e-05, | |
| "loss": 0.0396, | |
| "step": 6190 | |
| }, | |
| { | |
| "epoch": 12.916666666666666, | |
| "grad_norm": 0.1362553834915161, | |
| "learning_rate": 3.4549150281252636e-05, | |
| "loss": 0.0415, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 12.9375, | |
| "grad_norm": 0.15272819995880127, | |
| "learning_rate": 3.439198072741921e-05, | |
| "loss": 0.0371, | |
| "step": 6210 | |
| }, | |
| { | |
| "epoch": 12.958333333333334, | |
| "grad_norm": 0.1750105768442154, | |
| "learning_rate": 3.423498186038393e-05, | |
| "loss": 0.0391, | |
| "step": 6220 | |
| }, | |
| { | |
| "epoch": 12.979166666666666, | |
| "grad_norm": 0.17547383904457092, | |
| "learning_rate": 3.407815539706124e-05, | |
| "loss": 0.036, | |
| "step": 6230 | |
| }, | |
| { | |
| "epoch": 13.0, | |
| "grad_norm": 0.2598505914211273, | |
| "learning_rate": 3.392150305248024e-05, | |
| "loss": 0.038, | |
| "step": 6240 | |
| }, | |
| { | |
| "epoch": 13.020833333333334, | |
| "grad_norm": 0.2553529739379883, | |
| "learning_rate": 3.3765026539765834e-05, | |
| "loss": 0.0387, | |
| "step": 6250 | |
| }, | |
| { | |
| "epoch": 13.041666666666666, | |
| "grad_norm": 0.17663992941379547, | |
| "learning_rate": 3.360872757012011e-05, | |
| "loss": 0.0389, | |
| "step": 6260 | |
| }, | |
| { | |
| "epoch": 13.0625, | |
| "grad_norm": 0.2314099818468094, | |
| "learning_rate": 3.3452607852803584e-05, | |
| "loss": 0.0434, | |
| "step": 6270 | |
| }, | |
| { | |
| "epoch": 13.083333333333334, | |
| "grad_norm": 0.17751750349998474, | |
| "learning_rate": 3.329666909511645e-05, | |
| "loss": 0.0383, | |
| "step": 6280 | |
| }, | |
| { | |
| "epoch": 13.104166666666666, | |
| "grad_norm": 0.1711682230234146, | |
| "learning_rate": 3.3140913002379995e-05, | |
| "loss": 0.0441, | |
| "step": 6290 | |
| }, | |
| { | |
| "epoch": 13.125, | |
| "grad_norm": 0.1765744388103485, | |
| "learning_rate": 3.298534127791785e-05, | |
| "loss": 0.0361, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 13.145833333333334, | |
| "grad_norm": 0.14884302020072937, | |
| "learning_rate": 3.282995562303754e-05, | |
| "loss": 0.0392, | |
| "step": 6310 | |
| }, | |
| { | |
| "epoch": 13.166666666666666, | |
| "grad_norm": 0.23284494876861572, | |
| "learning_rate": 3.267475773701161e-05, | |
| "loss": 0.0414, | |
| "step": 6320 | |
| }, | |
| { | |
| "epoch": 13.1875, | |
| "grad_norm": 0.21358659863471985, | |
| "learning_rate": 3.251974931705933e-05, | |
| "loss": 0.0389, | |
| "step": 6330 | |
| }, | |
| { | |
| "epoch": 13.208333333333334, | |
| "grad_norm": 0.2136419266462326, | |
| "learning_rate": 3.236493205832795e-05, | |
| "loss": 0.0394, | |
| "step": 6340 | |
| }, | |
| { | |
| "epoch": 13.229166666666666, | |
| "grad_norm": 0.17444035410881042, | |
| "learning_rate": 3.221030765387417e-05, | |
| "loss": 0.0335, | |
| "step": 6350 | |
| }, | |
| { | |
| "epoch": 13.25, | |
| "grad_norm": 0.12927989661693573, | |
| "learning_rate": 3.205587779464576e-05, | |
| "loss": 0.0297, | |
| "step": 6360 | |
| }, | |
| { | |
| "epoch": 13.270833333333334, | |
| "grad_norm": 0.20504234731197357, | |
| "learning_rate": 3.190164416946285e-05, | |
| "loss": 0.0398, | |
| "step": 6370 | |
| }, | |
| { | |
| "epoch": 13.291666666666666, | |
| "grad_norm": 0.1620664894580841, | |
| "learning_rate": 3.1747608464999725e-05, | |
| "loss": 0.0357, | |
| "step": 6380 | |
| }, | |
| { | |
| "epoch": 13.3125, | |
| "grad_norm": 0.18466980755329132, | |
| "learning_rate": 3.1593772365766105e-05, | |
| "loss": 0.0384, | |
| "step": 6390 | |
| }, | |
| { | |
| "epoch": 13.333333333333334, | |
| "grad_norm": 0.19365406036376953, | |
| "learning_rate": 3.144013755408895e-05, | |
| "loss": 0.0379, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 13.354166666666666, | |
| "grad_norm": 0.22242169082164764, | |
| "learning_rate": 3.128670571009399e-05, | |
| "loss": 0.0378, | |
| "step": 6410 | |
| }, | |
| { | |
| "epoch": 13.375, | |
| "grad_norm": 0.19277265667915344, | |
| "learning_rate": 3.113347851168721e-05, | |
| "loss": 0.0394, | |
| "step": 6420 | |
| }, | |
| { | |
| "epoch": 13.395833333333334, | |
| "grad_norm": 0.15475115180015564, | |
| "learning_rate": 3.098045763453678e-05, | |
| "loss": 0.0341, | |
| "step": 6430 | |
| }, | |
| { | |
| "epoch": 13.416666666666666, | |
| "grad_norm": 0.24574577808380127, | |
| "learning_rate": 3.082764475205442e-05, | |
| "loss": 0.036, | |
| "step": 6440 | |
| }, | |
| { | |
| "epoch": 13.4375, | |
| "grad_norm": 0.1253107488155365, | |
| "learning_rate": 3.0675041535377405e-05, | |
| "loss": 0.0354, | |
| "step": 6450 | |
| }, | |
| { | |
| "epoch": 13.458333333333334, | |
| "grad_norm": 0.19683432579040527, | |
| "learning_rate": 3.052264965335e-05, | |
| "loss": 0.0333, | |
| "step": 6460 | |
| }, | |
| { | |
| "epoch": 13.479166666666666, | |
| "grad_norm": 0.2121218889951706, | |
| "learning_rate": 3.0370470772505433e-05, | |
| "loss": 0.0363, | |
| "step": 6470 | |
| }, | |
| { | |
| "epoch": 13.5, | |
| "grad_norm": 0.14255274832248688, | |
| "learning_rate": 3.0218506557047598e-05, | |
| "loss": 0.0425, | |
| "step": 6480 | |
| }, | |
| { | |
| "epoch": 13.520833333333334, | |
| "grad_norm": 0.14524437487125397, | |
| "learning_rate": 3.006675866883275e-05, | |
| "loss": 0.035, | |
| "step": 6490 | |
| }, | |
| { | |
| "epoch": 13.541666666666666, | |
| "grad_norm": 0.17796678841114044, | |
| "learning_rate": 2.991522876735154e-05, | |
| "loss": 0.0369, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 13.5625, | |
| "grad_norm": 0.276693731546402, | |
| "learning_rate": 2.976391850971065e-05, | |
| "loss": 0.0405, | |
| "step": 6510 | |
| }, | |
| { | |
| "epoch": 13.583333333333334, | |
| "grad_norm": 0.1899837702512741, | |
| "learning_rate": 2.9612829550614836e-05, | |
| "loss": 0.0391, | |
| "step": 6520 | |
| }, | |
| { | |
| "epoch": 13.604166666666666, | |
| "grad_norm": 0.17294272780418396, | |
| "learning_rate": 2.9461963542348737e-05, | |
| "loss": 0.0433, | |
| "step": 6530 | |
| }, | |
| { | |
| "epoch": 13.625, | |
| "grad_norm": 0.17909543216228485, | |
| "learning_rate": 2.931132213475884e-05, | |
| "loss": 0.0326, | |
| "step": 6540 | |
| }, | |
| { | |
| "epoch": 13.645833333333334, | |
| "grad_norm": 0.14403104782104492, | |
| "learning_rate": 2.916090697523549e-05, | |
| "loss": 0.0357, | |
| "step": 6550 | |
| }, | |
| { | |
| "epoch": 13.666666666666666, | |
| "grad_norm": 0.2349185347557068, | |
| "learning_rate": 2.9010719708694722e-05, | |
| "loss": 0.04, | |
| "step": 6560 | |
| }, | |
| { | |
| "epoch": 13.6875, | |
| "grad_norm": 0.23521877825260162, | |
| "learning_rate": 2.8860761977560436e-05, | |
| "loss": 0.0384, | |
| "step": 6570 | |
| }, | |
| { | |
| "epoch": 13.708333333333334, | |
| "grad_norm": 0.16321514546871185, | |
| "learning_rate": 2.8711035421746367e-05, | |
| "loss": 0.0465, | |
| "step": 6580 | |
| }, | |
| { | |
| "epoch": 13.729166666666666, | |
| "grad_norm": 0.1888456791639328, | |
| "learning_rate": 2.8561541678638142e-05, | |
| "loss": 0.0389, | |
| "step": 6590 | |
| }, | |
| { | |
| "epoch": 13.75, | |
| "grad_norm": 0.12604469060897827, | |
| "learning_rate": 2.8412282383075363e-05, | |
| "loss": 0.0377, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 13.770833333333334, | |
| "grad_norm": 0.13205738365650177, | |
| "learning_rate": 2.8263259167333777e-05, | |
| "loss": 0.0353, | |
| "step": 6610 | |
| }, | |
| { | |
| "epoch": 13.791666666666666, | |
| "grad_norm": 0.13578617572784424, | |
| "learning_rate": 2.811447366110741e-05, | |
| "loss": 0.0353, | |
| "step": 6620 | |
| }, | |
| { | |
| "epoch": 13.8125, | |
| "grad_norm": 0.20386967062950134, | |
| "learning_rate": 2.7965927491490705e-05, | |
| "loss": 0.0356, | |
| "step": 6630 | |
| }, | |
| { | |
| "epoch": 13.833333333333334, | |
| "grad_norm": 0.18563248217105865, | |
| "learning_rate": 2.7817622282960815e-05, | |
| "loss": 0.0422, | |
| "step": 6640 | |
| }, | |
| { | |
| "epoch": 13.854166666666666, | |
| "grad_norm": 0.13876503705978394, | |
| "learning_rate": 2.766955965735968e-05, | |
| "loss": 0.0372, | |
| "step": 6650 | |
| }, | |
| { | |
| "epoch": 13.875, | |
| "grad_norm": 0.1998944729566574, | |
| "learning_rate": 2.7521741233876496e-05, | |
| "loss": 0.0345, | |
| "step": 6660 | |
| }, | |
| { | |
| "epoch": 13.895833333333334, | |
| "grad_norm": 0.09204313904047012, | |
| "learning_rate": 2.7374168629029813e-05, | |
| "loss": 0.0333, | |
| "step": 6670 | |
| }, | |
| { | |
| "epoch": 13.916666666666666, | |
| "grad_norm": 0.21691344678401947, | |
| "learning_rate": 2.7226843456650037e-05, | |
| "loss": 0.0377, | |
| "step": 6680 | |
| }, | |
| { | |
| "epoch": 13.9375, | |
| "grad_norm": 0.1491704136133194, | |
| "learning_rate": 2.707976732786166e-05, | |
| "loss": 0.0389, | |
| "step": 6690 | |
| }, | |
| { | |
| "epoch": 13.958333333333334, | |
| "grad_norm": 0.17232492566108704, | |
| "learning_rate": 2.693294185106562e-05, | |
| "loss": 0.0389, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 13.979166666666666, | |
| "grad_norm": 0.2585275173187256, | |
| "learning_rate": 2.6786368631921836e-05, | |
| "loss": 0.0324, | |
| "step": 6710 | |
| }, | |
| { | |
| "epoch": 14.0, | |
| "grad_norm": 0.31349268555641174, | |
| "learning_rate": 2.6640049273331515e-05, | |
| "loss": 0.0379, | |
| "step": 6720 | |
| }, | |
| { | |
| "epoch": 14.020833333333334, | |
| "grad_norm": 0.21207097172737122, | |
| "learning_rate": 2.6493985375419778e-05, | |
| "loss": 0.0331, | |
| "step": 6730 | |
| }, | |
| { | |
| "epoch": 14.041666666666666, | |
| "grad_norm": 0.2716270089149475, | |
| "learning_rate": 2.6348178535517966e-05, | |
| "loss": 0.0399, | |
| "step": 6740 | |
| }, | |
| { | |
| "epoch": 14.0625, | |
| "grad_norm": 0.22059811651706696, | |
| "learning_rate": 2.6202630348146324e-05, | |
| "loss": 0.0412, | |
| "step": 6750 | |
| }, | |
| { | |
| "epoch": 14.083333333333334, | |
| "grad_norm": 0.15869638323783875, | |
| "learning_rate": 2.6057342404996522e-05, | |
| "loss": 0.0328, | |
| "step": 6760 | |
| }, | |
| { | |
| "epoch": 14.104166666666666, | |
| "grad_norm": 0.19988775253295898, | |
| "learning_rate": 2.591231629491423e-05, | |
| "loss": 0.0359, | |
| "step": 6770 | |
| }, | |
| { | |
| "epoch": 14.125, | |
| "grad_norm": 0.1618472784757614, | |
| "learning_rate": 2.5767553603881767e-05, | |
| "loss": 0.0306, | |
| "step": 6780 | |
| }, | |
| { | |
| "epoch": 14.145833333333334, | |
| "grad_norm": 0.2341802716255188, | |
| "learning_rate": 2.562305591500069e-05, | |
| "loss": 0.0363, | |
| "step": 6790 | |
| }, | |
| { | |
| "epoch": 14.166666666666666, | |
| "grad_norm": 0.22032411396503448, | |
| "learning_rate": 2.547882480847461e-05, | |
| "loss": 0.0374, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 14.1875, | |
| "grad_norm": 0.2002587914466858, | |
| "learning_rate": 2.5334861861591753e-05, | |
| "loss": 0.0417, | |
| "step": 6810 | |
| }, | |
| { | |
| "epoch": 14.208333333333334, | |
| "grad_norm": 0.1493261754512787, | |
| "learning_rate": 2.5191168648707887e-05, | |
| "loss": 0.038, | |
| "step": 6820 | |
| }, | |
| { | |
| "epoch": 14.229166666666666, | |
| "grad_norm": 0.12463536113500595, | |
| "learning_rate": 2.5047746741228978e-05, | |
| "loss": 0.0306, | |
| "step": 6830 | |
| }, | |
| { | |
| "epoch": 14.25, | |
| "grad_norm": 0.1263580024242401, | |
| "learning_rate": 2.490459770759398e-05, | |
| "loss": 0.0303, | |
| "step": 6840 | |
| }, | |
| { | |
| "epoch": 14.270833333333334, | |
| "grad_norm": 0.11605334281921387, | |
| "learning_rate": 2.476172311325783e-05, | |
| "loss": 0.035, | |
| "step": 6850 | |
| }, | |
| { | |
| "epoch": 14.291666666666666, | |
| "grad_norm": 0.14916780591011047, | |
| "learning_rate": 2.4619124520674146e-05, | |
| "loss": 0.0306, | |
| "step": 6860 | |
| }, | |
| { | |
| "epoch": 14.3125, | |
| "grad_norm": 0.11922206729650497, | |
| "learning_rate": 2.447680348927837e-05, | |
| "loss": 0.0387, | |
| "step": 6870 | |
| }, | |
| { | |
| "epoch": 14.333333333333334, | |
| "grad_norm": 0.2507418692111969, | |
| "learning_rate": 2.433476157547044e-05, | |
| "loss": 0.0377, | |
| "step": 6880 | |
| }, | |
| { | |
| "epoch": 14.354166666666666, | |
| "grad_norm": 0.22429078817367554, | |
| "learning_rate": 2.419300033259798e-05, | |
| "loss": 0.0474, | |
| "step": 6890 | |
| }, | |
| { | |
| "epoch": 14.375, | |
| "grad_norm": 0.24157516658306122, | |
| "learning_rate": 2.405152131093926e-05, | |
| "loss": 0.0363, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 14.395833333333334, | |
| "grad_norm": 0.38413891196250916, | |
| "learning_rate": 2.3910326057686127e-05, | |
| "loss": 0.0411, | |
| "step": 6910 | |
| }, | |
| { | |
| "epoch": 14.416666666666666, | |
| "grad_norm": 0.22351625561714172, | |
| "learning_rate": 2.3769416116927335e-05, | |
| "loss": 0.0401, | |
| "step": 6920 | |
| }, | |
| { | |
| "epoch": 14.4375, | |
| "grad_norm": 0.18442459404468536, | |
| "learning_rate": 2.362879302963135e-05, | |
| "loss": 0.0404, | |
| "step": 6930 | |
| }, | |
| { | |
| "epoch": 14.458333333333334, | |
| "grad_norm": 0.4082157611846924, | |
| "learning_rate": 2.3488458333629777e-05, | |
| "loss": 0.0329, | |
| "step": 6940 | |
| }, | |
| { | |
| "epoch": 14.479166666666666, | |
| "grad_norm": 0.21980011463165283, | |
| "learning_rate": 2.3348413563600325e-05, | |
| "loss": 0.0366, | |
| "step": 6950 | |
| }, | |
| { | |
| "epoch": 14.5, | |
| "grad_norm": 0.17586643993854523, | |
| "learning_rate": 2.3208660251050158e-05, | |
| "loss": 0.0387, | |
| "step": 6960 | |
| }, | |
| { | |
| "epoch": 14.520833333333334, | |
| "grad_norm": 0.15730033814907074, | |
| "learning_rate": 2.3069199924299174e-05, | |
| "loss": 0.0336, | |
| "step": 6970 | |
| }, | |
| { | |
| "epoch": 14.541666666666666, | |
| "grad_norm": 0.19087393581867218, | |
| "learning_rate": 2.29300341084631e-05, | |
| "loss": 0.035, | |
| "step": 6980 | |
| }, | |
| { | |
| "epoch": 14.5625, | |
| "grad_norm": 0.18095408380031586, | |
| "learning_rate": 2.279116432543705e-05, | |
| "loss": 0.0355, | |
| "step": 6990 | |
| }, | |
| { | |
| "epoch": 14.583333333333334, | |
| "grad_norm": 0.2578522562980652, | |
| "learning_rate": 2.2652592093878666e-05, | |
| "loss": 0.0345, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 14.604166666666666, | |
| "grad_norm": 0.20171664655208588, | |
| "learning_rate": 2.251431892919171e-05, | |
| "loss": 0.0356, | |
| "step": 7010 | |
| }, | |
| { | |
| "epoch": 14.625, | |
| "grad_norm": 0.3004615902900696, | |
| "learning_rate": 2.237634634350934e-05, | |
| "loss": 0.0368, | |
| "step": 7020 | |
| }, | |
| { | |
| "epoch": 14.645833333333334, | |
| "grad_norm": 0.16451160609722137, | |
| "learning_rate": 2.2238675845677663e-05, | |
| "loss": 0.0319, | |
| "step": 7030 | |
| }, | |
| { | |
| "epoch": 14.666666666666666, | |
| "grad_norm": 0.27891501784324646, | |
| "learning_rate": 2.2101308941239203e-05, | |
| "loss": 0.0361, | |
| "step": 7040 | |
| }, | |
| { | |
| "epoch": 14.6875, | |
| "grad_norm": 0.10866022855043411, | |
| "learning_rate": 2.196424713241637e-05, | |
| "loss": 0.0356, | |
| "step": 7050 | |
| }, | |
| { | |
| "epoch": 14.708333333333334, | |
| "grad_norm": 0.15736782550811768, | |
| "learning_rate": 2.182749191809518e-05, | |
| "loss": 0.0449, | |
| "step": 7060 | |
| }, | |
| { | |
| "epoch": 14.729166666666666, | |
| "grad_norm": 0.14991992712020874, | |
| "learning_rate": 2.1691044793808734e-05, | |
| "loss": 0.0336, | |
| "step": 7070 | |
| }, | |
| { | |
| "epoch": 14.75, | |
| "grad_norm": 0.23279936611652374, | |
| "learning_rate": 2.1554907251720945e-05, | |
| "loss": 0.0327, | |
| "step": 7080 | |
| }, | |
| { | |
| "epoch": 14.770833333333334, | |
| "grad_norm": 0.19482247531414032, | |
| "learning_rate": 2.1419080780610123e-05, | |
| "loss": 0.035, | |
| "step": 7090 | |
| }, | |
| { | |
| "epoch": 14.791666666666666, | |
| "grad_norm": 0.16053085029125214, | |
| "learning_rate": 2.128356686585282e-05, | |
| "loss": 0.0322, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 14.8125, | |
| "grad_norm": 0.17333699762821198, | |
| "learning_rate": 2.1148366989407496e-05, | |
| "loss": 0.0348, | |
| "step": 7110 | |
| }, | |
| { | |
| "epoch": 14.833333333333334, | |
| "grad_norm": 0.20065756142139435, | |
| "learning_rate": 2.1013482629798333e-05, | |
| "loss": 0.0344, | |
| "step": 7120 | |
| }, | |
| { | |
| "epoch": 14.854166666666666, | |
| "grad_norm": 0.2283259928226471, | |
| "learning_rate": 2.0878915262099098e-05, | |
| "loss": 0.0332, | |
| "step": 7130 | |
| }, | |
| { | |
| "epoch": 14.875, | |
| "grad_norm": 0.19784249365329742, | |
| "learning_rate": 2.0744666357916925e-05, | |
| "loss": 0.0374, | |
| "step": 7140 | |
| }, | |
| { | |
| "epoch": 14.895833333333334, | |
| "grad_norm": 0.1944170594215393, | |
| "learning_rate": 2.061073738537635e-05, | |
| "loss": 0.0379, | |
| "step": 7150 | |
| }, | |
| { | |
| "epoch": 14.916666666666666, | |
| "grad_norm": 0.15928591787815094, | |
| "learning_rate": 2.0477129809103147e-05, | |
| "loss": 0.0408, | |
| "step": 7160 | |
| }, | |
| { | |
| "epoch": 14.9375, | |
| "grad_norm": 0.21307940781116486, | |
| "learning_rate": 2.0343845090208368e-05, | |
| "loss": 0.0385, | |
| "step": 7170 | |
| }, | |
| { | |
| "epoch": 14.958333333333334, | |
| "grad_norm": 0.1387159526348114, | |
| "learning_rate": 2.0210884686272368e-05, | |
| "loss": 0.0327, | |
| "step": 7180 | |
| }, | |
| { | |
| "epoch": 14.979166666666666, | |
| "grad_norm": 0.21682381629943848, | |
| "learning_rate": 2.0078250051328784e-05, | |
| "loss": 0.0436, | |
| "step": 7190 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "grad_norm": 0.3708045482635498, | |
| "learning_rate": 1.9945942635848748e-05, | |
| "loss": 0.034, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 15.020833333333334, | |
| "grad_norm": 0.17879103124141693, | |
| "learning_rate": 1.981396388672496e-05, | |
| "loss": 0.0314, | |
| "step": 7210 | |
| }, | |
| { | |
| "epoch": 15.041666666666666, | |
| "grad_norm": 0.21308660507202148, | |
| "learning_rate": 1.9682315247255894e-05, | |
| "loss": 0.0338, | |
| "step": 7220 | |
| }, | |
| { | |
| "epoch": 15.0625, | |
| "grad_norm": 0.17053188383579254, | |
| "learning_rate": 1.9550998157129946e-05, | |
| "loss": 0.036, | |
| "step": 7230 | |
| }, | |
| { | |
| "epoch": 15.083333333333334, | |
| "grad_norm": 0.1819431036710739, | |
| "learning_rate": 1.942001405240979e-05, | |
| "loss": 0.0336, | |
| "step": 7240 | |
| }, | |
| { | |
| "epoch": 15.104166666666666, | |
| "grad_norm": 0.14159807562828064, | |
| "learning_rate": 1.928936436551661e-05, | |
| "loss": 0.0366, | |
| "step": 7250 | |
| }, | |
| { | |
| "epoch": 15.125, | |
| "grad_norm": 0.23496906459331512, | |
| "learning_rate": 1.9159050525214452e-05, | |
| "loss": 0.0363, | |
| "step": 7260 | |
| }, | |
| { | |
| "epoch": 15.145833333333334, | |
| "grad_norm": 0.21902140974998474, | |
| "learning_rate": 1.9029073956594606e-05, | |
| "loss": 0.0359, | |
| "step": 7270 | |
| }, | |
| { | |
| "epoch": 15.166666666666666, | |
| "grad_norm": 0.1490468978881836, | |
| "learning_rate": 1.8899436081059975e-05, | |
| "loss": 0.0336, | |
| "step": 7280 | |
| }, | |
| { | |
| "epoch": 15.1875, | |
| "grad_norm": 0.1414002925157547, | |
| "learning_rate": 1.877013831630961e-05, | |
| "loss": 0.0281, | |
| "step": 7290 | |
| }, | |
| { | |
| "epoch": 15.208333333333334, | |
| "grad_norm": 0.30052894353866577, | |
| "learning_rate": 1.8641182076323148e-05, | |
| "loss": 0.0375, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 15.229166666666666, | |
| "grad_norm": 0.2560082972049713, | |
| "learning_rate": 1.851256877134538e-05, | |
| "loss": 0.0355, | |
| "step": 7310 | |
| }, | |
| { | |
| "epoch": 15.25, | |
| "grad_norm": 0.13596679270267487, | |
| "learning_rate": 1.838429980787081e-05, | |
| "loss": 0.0371, | |
| "step": 7320 | |
| }, | |
| { | |
| "epoch": 15.270833333333334, | |
| "grad_norm": 0.15120552480220795, | |
| "learning_rate": 1.8256376588628238e-05, | |
| "loss": 0.0335, | |
| "step": 7330 | |
| }, | |
| { | |
| "epoch": 15.291666666666666, | |
| "grad_norm": 0.19444897770881653, | |
| "learning_rate": 1.8128800512565513e-05, | |
| "loss": 0.0365, | |
| "step": 7340 | |
| }, | |
| { | |
| "epoch": 15.3125, | |
| "grad_norm": 0.1597200185060501, | |
| "learning_rate": 1.800157297483417e-05, | |
| "loss": 0.0333, | |
| "step": 7350 | |
| }, | |
| { | |
| "epoch": 15.333333333333334, | |
| "grad_norm": 0.15598775446414948, | |
| "learning_rate": 1.787469536677419e-05, | |
| "loss": 0.0332, | |
| "step": 7360 | |
| }, | |
| { | |
| "epoch": 15.354166666666666, | |
| "grad_norm": 0.17735296487808228, | |
| "learning_rate": 1.774816907589873e-05, | |
| "loss": 0.0358, | |
| "step": 7370 | |
| }, | |
| { | |
| "epoch": 15.375, | |
| "grad_norm": 0.1667356789112091, | |
| "learning_rate": 1.7621995485879062e-05, | |
| "loss": 0.0324, | |
| "step": 7380 | |
| }, | |
| { | |
| "epoch": 15.395833333333334, | |
| "grad_norm": 0.17198875546455383, | |
| "learning_rate": 1.749617597652934e-05, | |
| "loss": 0.0342, | |
| "step": 7390 | |
| }, | |
| { | |
| "epoch": 15.416666666666666, | |
| "grad_norm": 0.13327492773532867, | |
| "learning_rate": 1.7370711923791567e-05, | |
| "loss": 0.0381, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 15.4375, | |
| "grad_norm": 0.14324255287647247, | |
| "learning_rate": 1.7245604699720535e-05, | |
| "loss": 0.0363, | |
| "step": 7410 | |
| }, | |
| { | |
| "epoch": 15.458333333333334, | |
| "grad_norm": 0.12375563383102417, | |
| "learning_rate": 1.712085567246878e-05, | |
| "loss": 0.0293, | |
| "step": 7420 | |
| }, | |
| { | |
| "epoch": 15.479166666666666, | |
| "grad_norm": 0.18987584114074707, | |
| "learning_rate": 1.699646620627168e-05, | |
| "loss": 0.0379, | |
| "step": 7430 | |
| }, | |
| { | |
| "epoch": 15.5, | |
| "grad_norm": 0.29758167266845703, | |
| "learning_rate": 1.6872437661432517e-05, | |
| "loss": 0.037, | |
| "step": 7440 | |
| }, | |
| { | |
| "epoch": 15.520833333333334, | |
| "grad_norm": 0.17801667749881744, | |
| "learning_rate": 1.6748771394307585e-05, | |
| "loss": 0.033, | |
| "step": 7450 | |
| }, | |
| { | |
| "epoch": 15.541666666666666, | |
| "grad_norm": 0.18180030584335327, | |
| "learning_rate": 1.662546875729138e-05, | |
| "loss": 0.0312, | |
| "step": 7460 | |
| }, | |
| { | |
| "epoch": 15.5625, | |
| "grad_norm": 0.14685310423374176, | |
| "learning_rate": 1.6502531098801753e-05, | |
| "loss": 0.0385, | |
| "step": 7470 | |
| }, | |
| { | |
| "epoch": 15.583333333333334, | |
| "grad_norm": 0.2291467934846878, | |
| "learning_rate": 1.637995976326527e-05, | |
| "loss": 0.0325, | |
| "step": 7480 | |
| }, | |
| { | |
| "epoch": 15.604166666666666, | |
| "grad_norm": 0.1897166520357132, | |
| "learning_rate": 1.62577560911024e-05, | |
| "loss": 0.0389, | |
| "step": 7490 | |
| }, | |
| { | |
| "epoch": 15.625, | |
| "grad_norm": 0.1944008767604828, | |
| "learning_rate": 1.6135921418712956e-05, | |
| "loss": 0.0335, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 15.645833333333334, | |
| "grad_norm": 0.27378949522972107, | |
| "learning_rate": 1.6014457078461353e-05, | |
| "loss": 0.038, | |
| "step": 7510 | |
| }, | |
| { | |
| "epoch": 15.666666666666666, | |
| "grad_norm": 0.25739747285842896, | |
| "learning_rate": 1.5893364398662176e-05, | |
| "loss": 0.0315, | |
| "step": 7520 | |
| }, | |
| { | |
| "epoch": 15.6875, | |
| "grad_norm": 0.14477567374706268, | |
| "learning_rate": 1.5772644703565565e-05, | |
| "loss": 0.0361, | |
| "step": 7530 | |
| }, | |
| { | |
| "epoch": 15.708333333333334, | |
| "grad_norm": 0.142717182636261, | |
| "learning_rate": 1.5652299313342773e-05, | |
| "loss": 0.034, | |
| "step": 7540 | |
| }, | |
| { | |
| "epoch": 15.729166666666666, | |
| "grad_norm": 0.1424303650856018, | |
| "learning_rate": 1.553232954407171e-05, | |
| "loss": 0.0316, | |
| "step": 7550 | |
| }, | |
| { | |
| "epoch": 15.75, | |
| "grad_norm": 0.18298421800136566, | |
| "learning_rate": 1.5412736707722537e-05, | |
| "loss": 0.0333, | |
| "step": 7560 | |
| }, | |
| { | |
| "epoch": 15.770833333333334, | |
| "grad_norm": 0.12771207094192505, | |
| "learning_rate": 1.5293522112143373e-05, | |
| "loss": 0.0337, | |
| "step": 7570 | |
| }, | |
| { | |
| "epoch": 15.791666666666666, | |
| "grad_norm": 0.3018227219581604, | |
| "learning_rate": 1.517468706104589e-05, | |
| "loss": 0.0372, | |
| "step": 7580 | |
| }, | |
| { | |
| "epoch": 15.8125, | |
| "grad_norm": 0.21921075880527496, | |
| "learning_rate": 1.5056232853991209e-05, | |
| "loss": 0.0382, | |
| "step": 7590 | |
| }, | |
| { | |
| "epoch": 15.833333333333334, | |
| "grad_norm": 0.1828688681125641, | |
| "learning_rate": 1.4938160786375572e-05, | |
| "loss": 0.0352, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 15.854166666666666, | |
| "grad_norm": 0.18489907681941986, | |
| "learning_rate": 1.4820472149416154e-05, | |
| "loss": 0.0339, | |
| "step": 7610 | |
| }, | |
| { | |
| "epoch": 15.875, | |
| "grad_norm": 0.14749230444431305, | |
| "learning_rate": 1.470316823013707e-05, | |
| "loss": 0.0338, | |
| "step": 7620 | |
| }, | |
| { | |
| "epoch": 15.895833333333334, | |
| "grad_norm": 0.17167989909648895, | |
| "learning_rate": 1.4586250311355132e-05, | |
| "loss": 0.0352, | |
| "step": 7630 | |
| }, | |
| { | |
| "epoch": 15.916666666666666, | |
| "grad_norm": 0.1753416210412979, | |
| "learning_rate": 1.4469719671666043e-05, | |
| "loss": 0.0338, | |
| "step": 7640 | |
| }, | |
| { | |
| "epoch": 15.9375, | |
| "grad_norm": 0.11780905723571777, | |
| "learning_rate": 1.435357758543015e-05, | |
| "loss": 0.0371, | |
| "step": 7650 | |
| }, | |
| { | |
| "epoch": 15.958333333333334, | |
| "grad_norm": 0.14981669187545776, | |
| "learning_rate": 1.4237825322758736e-05, | |
| "loss": 0.0331, | |
| "step": 7660 | |
| }, | |
| { | |
| "epoch": 15.979166666666666, | |
| "grad_norm": 0.19261877238750458, | |
| "learning_rate": 1.412246414949997e-05, | |
| "loss": 0.0336, | |
| "step": 7670 | |
| }, | |
| { | |
| "epoch": 16.0, | |
| "grad_norm": 0.29280322790145874, | |
| "learning_rate": 1.4007495327225162e-05, | |
| "loss": 0.0348, | |
| "step": 7680 | |
| }, | |
| { | |
| "epoch": 16.020833333333332, | |
| "grad_norm": 0.17434559762477875, | |
| "learning_rate": 1.389292011321498e-05, | |
| "loss": 0.0316, | |
| "step": 7690 | |
| }, | |
| { | |
| "epoch": 16.041666666666668, | |
| "grad_norm": 0.18764066696166992, | |
| "learning_rate": 1.3778739760445552e-05, | |
| "loss": 0.0337, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 16.0625, | |
| "grad_norm": 0.2059665024280548, | |
| "learning_rate": 1.3664955517574968e-05, | |
| "loss": 0.0348, | |
| "step": 7710 | |
| }, | |
| { | |
| "epoch": 16.083333333333332, | |
| "grad_norm": 0.15280863642692566, | |
| "learning_rate": 1.3551568628929434e-05, | |
| "loss": 0.0323, | |
| "step": 7720 | |
| }, | |
| { | |
| "epoch": 16.104166666666668, | |
| "grad_norm": 0.1486819088459015, | |
| "learning_rate": 1.343858033448982e-05, | |
| "loss": 0.0347, | |
| "step": 7730 | |
| }, | |
| { | |
| "epoch": 16.125, | |
| "grad_norm": 0.1927894651889801, | |
| "learning_rate": 1.3325991869878013e-05, | |
| "loss": 0.035, | |
| "step": 7740 | |
| }, | |
| { | |
| "epoch": 16.145833333333332, | |
| "grad_norm": 0.11955563724040985, | |
| "learning_rate": 1.3213804466343421e-05, | |
| "loss": 0.0329, | |
| "step": 7750 | |
| }, | |
| { | |
| "epoch": 16.166666666666668, | |
| "grad_norm": 0.16345830261707306, | |
| "learning_rate": 1.3102019350749528e-05, | |
| "loss": 0.0359, | |
| "step": 7760 | |
| }, | |
| { | |
| "epoch": 16.1875, | |
| "grad_norm": 0.2789859175682068, | |
| "learning_rate": 1.299063774556042e-05, | |
| "loss": 0.0328, | |
| "step": 7770 | |
| }, | |
| { | |
| "epoch": 16.208333333333332, | |
| "grad_norm": 0.21761833131313324, | |
| "learning_rate": 1.2879660868827508e-05, | |
| "loss": 0.0301, | |
| "step": 7780 | |
| }, | |
| { | |
| "epoch": 16.229166666666668, | |
| "grad_norm": 0.14734092354774475, | |
| "learning_rate": 1.2769089934176126e-05, | |
| "loss": 0.0322, | |
| "step": 7790 | |
| }, | |
| { | |
| "epoch": 16.25, | |
| "grad_norm": 0.2599899470806122, | |
| "learning_rate": 1.2658926150792322e-05, | |
| "loss": 0.0313, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 16.270833333333332, | |
| "grad_norm": 0.1787201315164566, | |
| "learning_rate": 1.2549170723409549e-05, | |
| "loss": 0.0339, | |
| "step": 7810 | |
| }, | |
| { | |
| "epoch": 16.291666666666668, | |
| "grad_norm": 0.16388441622257233, | |
| "learning_rate": 1.243982485229559e-05, | |
| "loss": 0.0346, | |
| "step": 7820 | |
| }, | |
| { | |
| "epoch": 16.3125, | |
| "grad_norm": 0.18000830709934235, | |
| "learning_rate": 1.233088973323937e-05, | |
| "loss": 0.04, | |
| "step": 7830 | |
| }, | |
| { | |
| "epoch": 16.333333333333332, | |
| "grad_norm": 0.17897577583789825, | |
| "learning_rate": 1.2222366557537911e-05, | |
| "loss": 0.0399, | |
| "step": 7840 | |
| }, | |
| { | |
| "epoch": 16.354166666666668, | |
| "grad_norm": 0.22064079344272614, | |
| "learning_rate": 1.2114256511983274e-05, | |
| "loss": 0.0318, | |
| "step": 7850 | |
| }, | |
| { | |
| "epoch": 16.375, | |
| "grad_norm": 0.18616275489330292, | |
| "learning_rate": 1.2006560778849578e-05, | |
| "loss": 0.0304, | |
| "step": 7860 | |
| }, | |
| { | |
| "epoch": 16.395833333333332, | |
| "grad_norm": 0.13920727372169495, | |
| "learning_rate": 1.1899280535880119e-05, | |
| "loss": 0.0316, | |
| "step": 7870 | |
| }, | |
| { | |
| "epoch": 16.416666666666668, | |
| "grad_norm": 0.23855414986610413, | |
| "learning_rate": 1.1792416956274444e-05, | |
| "loss": 0.0315, | |
| "step": 7880 | |
| }, | |
| { | |
| "epoch": 16.4375, | |
| "grad_norm": 0.20827260613441467, | |
| "learning_rate": 1.1685971208675539e-05, | |
| "loss": 0.0325, | |
| "step": 7890 | |
| }, | |
| { | |
| "epoch": 16.458333333333332, | |
| "grad_norm": 0.19448751211166382, | |
| "learning_rate": 1.157994445715706e-05, | |
| "loss": 0.0354, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 16.479166666666668, | |
| "grad_norm": 0.14408908784389496, | |
| "learning_rate": 1.1474337861210543e-05, | |
| "loss": 0.0339, | |
| "step": 7910 | |
| }, | |
| { | |
| "epoch": 16.5, | |
| "grad_norm": 0.2209048867225647, | |
| "learning_rate": 1.1369152575732822e-05, | |
| "loss": 0.036, | |
| "step": 7920 | |
| }, | |
| { | |
| "epoch": 16.520833333333332, | |
| "grad_norm": 0.1276281476020813, | |
| "learning_rate": 1.1264389751013326e-05, | |
| "loss": 0.0338, | |
| "step": 7930 | |
| }, | |
| { | |
| "epoch": 16.541666666666668, | |
| "grad_norm": 0.16983328759670258, | |
| "learning_rate": 1.1160050532721528e-05, | |
| "loss": 0.0356, | |
| "step": 7940 | |
| }, | |
| { | |
| "epoch": 16.5625, | |
| "grad_norm": 0.224867045879364, | |
| "learning_rate": 1.1056136061894384e-05, | |
| "loss": 0.0363, | |
| "step": 7950 | |
| }, | |
| { | |
| "epoch": 16.583333333333332, | |
| "grad_norm": 0.19840490818023682, | |
| "learning_rate": 1.095264747492391e-05, | |
| "loss": 0.0412, | |
| "step": 7960 | |
| }, | |
| { | |
| "epoch": 16.604166666666668, | |
| "grad_norm": 0.15883027017116547, | |
| "learning_rate": 1.0849585903544706e-05, | |
| "loss": 0.0415, | |
| "step": 7970 | |
| }, | |
| { | |
| "epoch": 16.625, | |
| "grad_norm": 0.14518824219703674, | |
| "learning_rate": 1.0746952474821614e-05, | |
| "loss": 0.0352, | |
| "step": 7980 | |
| }, | |
| { | |
| "epoch": 16.645833333333332, | |
| "grad_norm": 0.18514308333396912, | |
| "learning_rate": 1.0644748311137376e-05, | |
| "loss": 0.0433, | |
| "step": 7990 | |
| }, | |
| { | |
| "epoch": 16.666666666666668, | |
| "grad_norm": 0.1748477965593338, | |
| "learning_rate": 1.0542974530180327e-05, | |
| "loss": 0.0378, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 16.6875, | |
| "grad_norm": 0.17043419182300568, | |
| "learning_rate": 1.0441632244932237e-05, | |
| "loss": 0.0332, | |
| "step": 8010 | |
| }, | |
| { | |
| "epoch": 16.708333333333332, | |
| "grad_norm": 0.24716496467590332, | |
| "learning_rate": 1.0340722563656107e-05, | |
| "loss": 0.0349, | |
| "step": 8020 | |
| }, | |
| { | |
| "epoch": 16.729166666666668, | |
| "grad_norm": 0.1788455843925476, | |
| "learning_rate": 1.0240246589884044e-05, | |
| "loss": 0.0339, | |
| "step": 8030 | |
| }, | |
| { | |
| "epoch": 16.75, | |
| "grad_norm": 0.21836072206497192, | |
| "learning_rate": 1.0140205422405214e-05, | |
| "loss": 0.0399, | |
| "step": 8040 | |
| }, | |
| { | |
| "epoch": 16.770833333333332, | |
| "grad_norm": 0.13819825649261475, | |
| "learning_rate": 1.0040600155253765e-05, | |
| "loss": 0.032, | |
| "step": 8050 | |
| }, | |
| { | |
| "epoch": 16.791666666666668, | |
| "grad_norm": 0.14727181196212769, | |
| "learning_rate": 9.941431877696955e-06, | |
| "loss": 0.033, | |
| "step": 8060 | |
| }, | |
| { | |
| "epoch": 16.8125, | |
| "grad_norm": 0.3028770685195923, | |
| "learning_rate": 9.842701674223187e-06, | |
| "loss": 0.0348, | |
| "step": 8070 | |
| }, | |
| { | |
| "epoch": 16.833333333333332, | |
| "grad_norm": 0.1468600183725357, | |
| "learning_rate": 9.744410624530148e-06, | |
| "loss": 0.0296, | |
| "step": 8080 | |
| }, | |
| { | |
| "epoch": 16.854166666666668, | |
| "grad_norm": 0.14955639839172363, | |
| "learning_rate": 9.646559803512994e-06, | |
| "loss": 0.0335, | |
| "step": 8090 | |
| }, | |
| { | |
| "epoch": 16.875, | |
| "grad_norm": 0.3067767024040222, | |
| "learning_rate": 9.549150281252633e-06, | |
| "loss": 0.0311, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 16.895833333333332, | |
| "grad_norm": 0.1653410643339157, | |
| "learning_rate": 9.452183123004e-06, | |
| "loss": 0.0322, | |
| "step": 8110 | |
| }, | |
| { | |
| "epoch": 16.916666666666668, | |
| "grad_norm": 0.38487905263900757, | |
| "learning_rate": 9.355659389184396e-06, | |
| "loss": 0.0324, | |
| "step": 8120 | |
| }, | |
| { | |
| "epoch": 16.9375, | |
| "grad_norm": 0.1474359631538391, | |
| "learning_rate": 9.259580135361929e-06, | |
| "loss": 0.0306, | |
| "step": 8130 | |
| }, | |
| { | |
| "epoch": 16.958333333333332, | |
| "grad_norm": 0.1430114060640335, | |
| "learning_rate": 9.163946412243896e-06, | |
| "loss": 0.0306, | |
| "step": 8140 | |
| }, | |
| { | |
| "epoch": 16.979166666666668, | |
| "grad_norm": 0.17467962205410004, | |
| "learning_rate": 9.068759265665384e-06, | |
| "loss": 0.0376, | |
| "step": 8150 | |
| }, | |
| { | |
| "epoch": 17.0, | |
| "grad_norm": 0.16724301874637604, | |
| "learning_rate": 8.974019736577777e-06, | |
| "loss": 0.0348, | |
| "step": 8160 | |
| }, | |
| { | |
| "epoch": 17.020833333333332, | |
| "grad_norm": 0.14975309371948242, | |
| "learning_rate": 8.879728861037384e-06, | |
| "loss": 0.0306, | |
| "step": 8170 | |
| }, | |
| { | |
| "epoch": 17.041666666666668, | |
| "grad_norm": 0.17851698398590088, | |
| "learning_rate": 8.785887670194138e-06, | |
| "loss": 0.0322, | |
| "step": 8180 | |
| }, | |
| { | |
| "epoch": 17.0625, | |
| "grad_norm": 0.1703353375196457, | |
| "learning_rate": 8.692497190280224e-06, | |
| "loss": 0.0324, | |
| "step": 8190 | |
| }, | |
| { | |
| "epoch": 17.083333333333332, | |
| "grad_norm": 0.2298639714717865, | |
| "learning_rate": 8.599558442598998e-06, | |
| "loss": 0.0352, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 17.104166666666668, | |
| "grad_norm": 0.15811441838741302, | |
| "learning_rate": 8.507072443513702e-06, | |
| "loss": 0.0317, | |
| "step": 8210 | |
| }, | |
| { | |
| "epoch": 17.125, | |
| "grad_norm": 0.21073931455612183, | |
| "learning_rate": 8.415040204436426e-06, | |
| "loss": 0.0341, | |
| "step": 8220 | |
| }, | |
| { | |
| "epoch": 17.145833333333332, | |
| "grad_norm": 0.15325315296649933, | |
| "learning_rate": 8.323462731816961e-06, | |
| "loss": 0.0331, | |
| "step": 8230 | |
| }, | |
| { | |
| "epoch": 17.166666666666668, | |
| "grad_norm": 0.14133264124393463, | |
| "learning_rate": 8.232341027131885e-06, | |
| "loss": 0.0373, | |
| "step": 8240 | |
| }, | |
| { | |
| "epoch": 17.1875, | |
| "grad_norm": 0.2085970789194107, | |
| "learning_rate": 8.141676086873572e-06, | |
| "loss": 0.031, | |
| "step": 8250 | |
| }, | |
| { | |
| "epoch": 17.208333333333332, | |
| "grad_norm": 0.18166519701480865, | |
| "learning_rate": 8.051468902539272e-06, | |
| "loss": 0.0321, | |
| "step": 8260 | |
| }, | |
| { | |
| "epoch": 17.229166666666668, | |
| "grad_norm": 0.17954124510288239, | |
| "learning_rate": 7.96172046062032e-06, | |
| "loss": 0.0313, | |
| "step": 8270 | |
| }, | |
| { | |
| "epoch": 17.25, | |
| "grad_norm": 0.1591859608888626, | |
| "learning_rate": 7.872431742591268e-06, | |
| "loss": 0.0423, | |
| "step": 8280 | |
| }, | |
| { | |
| "epoch": 17.270833333333332, | |
| "grad_norm": 0.19576288759708405, | |
| "learning_rate": 7.783603724899257e-06, | |
| "loss": 0.034, | |
| "step": 8290 | |
| }, | |
| { | |
| "epoch": 17.291666666666668, | |
| "grad_norm": 0.16259166598320007, | |
| "learning_rate": 7.695237378953223e-06, | |
| "loss": 0.031, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 17.3125, | |
| "grad_norm": 0.2567852735519409, | |
| "learning_rate": 7.607333671113409e-06, | |
| "loss": 0.0319, | |
| "step": 8310 | |
| }, | |
| { | |
| "epoch": 17.333333333333332, | |
| "grad_norm": 0.1433526873588562, | |
| "learning_rate": 7.519893562680663e-06, | |
| "loss": 0.0387, | |
| "step": 8320 | |
| }, | |
| { | |
| "epoch": 17.354166666666668, | |
| "grad_norm": 0.12833265960216522, | |
| "learning_rate": 7.432918009885997e-06, | |
| "loss": 0.0356, | |
| "step": 8330 | |
| }, | |
| { | |
| "epoch": 17.375, | |
| "grad_norm": 0.18633872270584106, | |
| "learning_rate": 7.3464079638801365e-06, | |
| "loss": 0.0372, | |
| "step": 8340 | |
| }, | |
| { | |
| "epoch": 17.395833333333332, | |
| "grad_norm": 0.19157272577285767, | |
| "learning_rate": 7.260364370723044e-06, | |
| "loss": 0.0328, | |
| "step": 8350 | |
| }, | |
| { | |
| "epoch": 17.416666666666668, | |
| "grad_norm": 0.14308947324752808, | |
| "learning_rate": 7.174788171373731e-06, | |
| "loss": 0.034, | |
| "step": 8360 | |
| }, | |
| { | |
| "epoch": 17.4375, | |
| "grad_norm": 0.15091511607170105, | |
| "learning_rate": 7.089680301679752e-06, | |
| "loss": 0.032, | |
| "step": 8370 | |
| }, | |
| { | |
| "epoch": 17.458333333333332, | |
| "grad_norm": 0.17052793502807617, | |
| "learning_rate": 7.005041692367154e-06, | |
| "loss": 0.0269, | |
| "step": 8380 | |
| }, | |
| { | |
| "epoch": 17.479166666666668, | |
| "grad_norm": 0.1326158493757248, | |
| "learning_rate": 6.92087326903022e-06, | |
| "loss": 0.0353, | |
| "step": 8390 | |
| }, | |
| { | |
| "epoch": 17.5, | |
| "grad_norm": 0.1644575148820877, | |
| "learning_rate": 6.837175952121306e-06, | |
| "loss": 0.0314, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 17.520833333333332, | |
| "grad_norm": 0.1430823653936386, | |
| "learning_rate": 6.753950656940905e-06, | |
| "loss": 0.0254, | |
| "step": 8410 | |
| }, | |
| { | |
| "epoch": 17.541666666666668, | |
| "grad_norm": 0.20929637551307678, | |
| "learning_rate": 6.671198293627479e-06, | |
| "loss": 0.0329, | |
| "step": 8420 | |
| }, | |
| { | |
| "epoch": 17.5625, | |
| "grad_norm": 0.16513291001319885, | |
| "learning_rate": 6.588919767147639e-06, | |
| "loss": 0.0295, | |
| "step": 8430 | |
| }, | |
| { | |
| "epoch": 17.583333333333332, | |
| "grad_norm": 0.2245665341615677, | |
| "learning_rate": 6.5071159772861436e-06, | |
| "loss": 0.0324, | |
| "step": 8440 | |
| }, | |
| { | |
| "epoch": 17.604166666666668, | |
| "grad_norm": 0.16559205949306488, | |
| "learning_rate": 6.425787818636131e-06, | |
| "loss": 0.0301, | |
| "step": 8450 | |
| }, | |
| { | |
| "epoch": 17.625, | |
| "grad_norm": 0.19494593143463135, | |
| "learning_rate": 6.344936180589351e-06, | |
| "loss": 0.0319, | |
| "step": 8460 | |
| }, | |
| { | |
| "epoch": 17.645833333333332, | |
| "grad_norm": 0.22981615364551544, | |
| "learning_rate": 6.264561947326331e-06, | |
| "loss": 0.0301, | |
| "step": 8470 | |
| }, | |
| { | |
| "epoch": 17.666666666666668, | |
| "grad_norm": 0.107606902718544, | |
| "learning_rate": 6.184665997806832e-06, | |
| "loss": 0.032, | |
| "step": 8480 | |
| }, | |
| { | |
| "epoch": 17.6875, | |
| "grad_norm": 0.21070224046707153, | |
| "learning_rate": 6.1052492057601275e-06, | |
| "loss": 0.0412, | |
| "step": 8490 | |
| }, | |
| { | |
| "epoch": 17.708333333333332, | |
| "grad_norm": 0.19031378626823425, | |
| "learning_rate": 6.026312439675552e-06, | |
| "loss": 0.0358, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 17.729166666666668, | |
| "grad_norm": 0.19321215152740479, | |
| "learning_rate": 5.947856562792925e-06, | |
| "loss": 0.0292, | |
| "step": 8510 | |
| }, | |
| { | |
| "epoch": 17.75, | |
| "grad_norm": 0.16616252064704895, | |
| "learning_rate": 5.869882433093155e-06, | |
| "loss": 0.0356, | |
| "step": 8520 | |
| }, | |
| { | |
| "epoch": 17.770833333333332, | |
| "grad_norm": 0.15638171136379242, | |
| "learning_rate": 5.79239090328883e-06, | |
| "loss": 0.0312, | |
| "step": 8530 | |
| }, | |
| { | |
| "epoch": 17.791666666666668, | |
| "grad_norm": 0.2161197066307068, | |
| "learning_rate": 5.715382820814885e-06, | |
| "loss": 0.0315, | |
| "step": 8540 | |
| }, | |
| { | |
| "epoch": 17.8125, | |
| "grad_norm": 0.18795347213745117, | |
| "learning_rate": 5.6388590278194096e-06, | |
| "loss": 0.0317, | |
| "step": 8550 | |
| }, | |
| { | |
| "epoch": 17.833333333333332, | |
| "grad_norm": 0.15534399449825287, | |
| "learning_rate": 5.562820361154314e-06, | |
| "loss": 0.0332, | |
| "step": 8560 | |
| }, | |
| { | |
| "epoch": 17.854166666666668, | |
| "grad_norm": 0.16690361499786377, | |
| "learning_rate": 5.48726765236629e-06, | |
| "loss": 0.0314, | |
| "step": 8570 | |
| }, | |
| { | |
| "epoch": 17.875, | |
| "grad_norm": 0.26291123032569885, | |
| "learning_rate": 5.412201727687644e-06, | |
| "loss": 0.0379, | |
| "step": 8580 | |
| }, | |
| { | |
| "epoch": 17.895833333333332, | |
| "grad_norm": 0.18499770760536194, | |
| "learning_rate": 5.337623408027293e-06, | |
| "loss": 0.0293, | |
| "step": 8590 | |
| }, | |
| { | |
| "epoch": 17.916666666666668, | |
| "grad_norm": 0.18224544823169708, | |
| "learning_rate": 5.263533508961827e-06, | |
| "loss": 0.0331, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 17.9375, | |
| "grad_norm": 0.1336999535560608, | |
| "learning_rate": 5.1899328407264855e-06, | |
| "loss": 0.0371, | |
| "step": 8610 | |
| }, | |
| { | |
| "epoch": 17.958333333333332, | |
| "grad_norm": 0.2066693902015686, | |
| "learning_rate": 5.116822208206396e-06, | |
| "loss": 0.036, | |
| "step": 8620 | |
| }, | |
| { | |
| "epoch": 17.979166666666668, | |
| "grad_norm": 0.27295708656311035, | |
| "learning_rate": 5.044202410927706e-06, | |
| "loss": 0.0332, | |
| "step": 8630 | |
| }, | |
| { | |
| "epoch": 18.0, | |
| "grad_norm": 0.3093808889389038, | |
| "learning_rate": 4.972074243048897e-06, | |
| "loss": 0.0364, | |
| "step": 8640 | |
| }, | |
| { | |
| "epoch": 18.020833333333332, | |
| "grad_norm": 0.13390128314495087, | |
| "learning_rate": 4.900438493352055e-06, | |
| "loss": 0.0307, | |
| "step": 8650 | |
| }, | |
| { | |
| "epoch": 18.041666666666668, | |
| "grad_norm": 0.20206564664840698, | |
| "learning_rate": 4.829295945234258e-06, | |
| "loss": 0.0354, | |
| "step": 8660 | |
| }, | |
| { | |
| "epoch": 18.0625, | |
| "grad_norm": 0.1990128606557846, | |
| "learning_rate": 4.758647376699032e-06, | |
| "loss": 0.0303, | |
| "step": 8670 | |
| }, | |
| { | |
| "epoch": 18.083333333333332, | |
| "grad_norm": 0.31685084104537964, | |
| "learning_rate": 4.688493560347773e-06, | |
| "loss": 0.0328, | |
| "step": 8680 | |
| }, | |
| { | |
| "epoch": 18.104166666666668, | |
| "grad_norm": 0.16394484043121338, | |
| "learning_rate": 4.618835263371396e-06, | |
| "loss": 0.0367, | |
| "step": 8690 | |
| }, | |
| { | |
| "epoch": 18.125, | |
| "grad_norm": 0.24125359952449799, | |
| "learning_rate": 4.549673247541875e-06, | |
| "loss": 0.0298, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 18.145833333333332, | |
| "grad_norm": 0.17618513107299805, | |
| "learning_rate": 4.48100826920394e-06, | |
| "loss": 0.0318, | |
| "step": 8710 | |
| }, | |
| { | |
| "epoch": 18.166666666666668, | |
| "grad_norm": 0.13456808030605316, | |
| "learning_rate": 4.412841079266777e-06, | |
| "loss": 0.027, | |
| "step": 8720 | |
| }, | |
| { | |
| "epoch": 18.1875, | |
| "grad_norm": 0.20114630460739136, | |
| "learning_rate": 4.3451724231958644e-06, | |
| "loss": 0.0336, | |
| "step": 8730 | |
| }, | |
| { | |
| "epoch": 18.208333333333332, | |
| "grad_norm": 0.19448570907115936, | |
| "learning_rate": 4.27800304100478e-06, | |
| "loss": 0.0333, | |
| "step": 8740 | |
| }, | |
| { | |
| "epoch": 18.229166666666668, | |
| "grad_norm": 0.22494345903396606, | |
| "learning_rate": 4.2113336672471245e-06, | |
| "loss": 0.037, | |
| "step": 8750 | |
| }, | |
| { | |
| "epoch": 18.25, | |
| "grad_norm": 0.19884195923805237, | |
| "learning_rate": 4.145165031008508e-06, | |
| "loss": 0.0302, | |
| "step": 8760 | |
| }, | |
| { | |
| "epoch": 18.270833333333332, | |
| "grad_norm": 0.21482793986797333, | |
| "learning_rate": 4.079497855898501e-06, | |
| "loss": 0.035, | |
| "step": 8770 | |
| }, | |
| { | |
| "epoch": 18.291666666666668, | |
| "grad_norm": 0.18211424350738525, | |
| "learning_rate": 4.01433286004283e-06, | |
| "loss": 0.0325, | |
| "step": 8780 | |
| }, | |
| { | |
| "epoch": 18.3125, | |
| "grad_norm": 0.18658918142318726, | |
| "learning_rate": 3.949670756075447e-06, | |
| "loss": 0.0338, | |
| "step": 8790 | |
| }, | |
| { | |
| "epoch": 18.333333333333332, | |
| "grad_norm": 0.14777681231498718, | |
| "learning_rate": 3.885512251130763e-06, | |
| "loss": 0.0343, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 18.354166666666668, | |
| "grad_norm": 0.18653449416160583, | |
| "learning_rate": 3.821858046835913e-06, | |
| "loss": 0.0348, | |
| "step": 8810 | |
| }, | |
| { | |
| "epoch": 18.375, | |
| "grad_norm": 0.14548705518245697, | |
| "learning_rate": 3.75870883930306e-06, | |
| "loss": 0.0301, | |
| "step": 8820 | |
| }, | |
| { | |
| "epoch": 18.395833333333332, | |
| "grad_norm": 0.20936094224452972, | |
| "learning_rate": 3.696065319121833e-06, | |
| "loss": 0.0325, | |
| "step": 8830 | |
| }, | |
| { | |
| "epoch": 18.416666666666668, | |
| "grad_norm": 0.21354569494724274, | |
| "learning_rate": 3.6339281713517303e-06, | |
| "loss": 0.0375, | |
| "step": 8840 | |
| }, | |
| { | |
| "epoch": 18.4375, | |
| "grad_norm": 0.1711226850748062, | |
| "learning_rate": 3.5722980755146517e-06, | |
| "loss": 0.0322, | |
| "step": 8850 | |
| }, | |
| { | |
| "epoch": 18.458333333333332, | |
| "grad_norm": 0.11110875010490417, | |
| "learning_rate": 3.511175705587433e-06, | |
| "loss": 0.0364, | |
| "step": 8860 | |
| }, | |
| { | |
| "epoch": 18.479166666666668, | |
| "grad_norm": 0.25910326838493347, | |
| "learning_rate": 3.4505617299945336e-06, | |
| "loss": 0.0357, | |
| "step": 8870 | |
| }, | |
| { | |
| "epoch": 18.5, | |
| "grad_norm": 0.24128733575344086, | |
| "learning_rate": 3.390456811600673e-06, | |
| "loss": 0.0306, | |
| "step": 8880 | |
| }, | |
| { | |
| "epoch": 18.520833333333332, | |
| "grad_norm": 0.15856292843818665, | |
| "learning_rate": 3.3308616077036115e-06, | |
| "loss": 0.032, | |
| "step": 8890 | |
| }, | |
| { | |
| "epoch": 18.541666666666668, | |
| "grad_norm": 0.24794311821460724, | |
| "learning_rate": 3.271776770026963e-06, | |
| "loss": 0.0295, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 18.5625, | |
| "grad_norm": 0.2193899005651474, | |
| "learning_rate": 3.213202944713023e-06, | |
| "loss": 0.0345, | |
| "step": 8910 | |
| }, | |
| { | |
| "epoch": 18.583333333333332, | |
| "grad_norm": 0.1675347238779068, | |
| "learning_rate": 3.155140772315773e-06, | |
| "loss": 0.0313, | |
| "step": 8920 | |
| }, | |
| { | |
| "epoch": 18.604166666666668, | |
| "grad_norm": 0.17640578746795654, | |
| "learning_rate": 3.0975908877938277e-06, | |
| "loss": 0.0325, | |
| "step": 8930 | |
| }, | |
| { | |
| "epoch": 18.625, | |
| "grad_norm": 0.16503232717514038, | |
| "learning_rate": 3.040553920503503e-06, | |
| "loss": 0.0305, | |
| "step": 8940 | |
| }, | |
| { | |
| "epoch": 18.645833333333332, | |
| "grad_norm": 0.22779154777526855, | |
| "learning_rate": 2.9840304941919415e-06, | |
| "loss": 0.0311, | |
| "step": 8950 | |
| }, | |
| { | |
| "epoch": 18.666666666666668, | |
| "grad_norm": 0.20752200484275818, | |
| "learning_rate": 2.928021226990263e-06, | |
| "loss": 0.0379, | |
| "step": 8960 | |
| }, | |
| { | |
| "epoch": 18.6875, | |
| "grad_norm": 0.25029054284095764, | |
| "learning_rate": 2.8725267314068495e-06, | |
| "loss": 0.0313, | |
| "step": 8970 | |
| }, | |
| { | |
| "epoch": 18.708333333333332, | |
| "grad_norm": 0.1501133143901825, | |
| "learning_rate": 2.817547614320615e-06, | |
| "loss": 0.0306, | |
| "step": 8980 | |
| }, | |
| { | |
| "epoch": 18.729166666666668, | |
| "grad_norm": 0.14609061181545258, | |
| "learning_rate": 2.7630844769743757e-06, | |
| "loss": 0.0348, | |
| "step": 8990 | |
| }, | |
| { | |
| "epoch": 18.75, | |
| "grad_norm": 0.17063935101032257, | |
| "learning_rate": 2.7091379149682685e-06, | |
| "loss": 0.0356, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 18.770833333333332, | |
| "grad_norm": 0.15772214531898499, | |
| "learning_rate": 2.6557085182532582e-06, | |
| "loss": 0.037, | |
| "step": 9010 | |
| }, | |
| { | |
| "epoch": 18.791666666666668, | |
| "grad_norm": 0.17870227992534637, | |
| "learning_rate": 2.602796871124663e-06, | |
| "loss": 0.0306, | |
| "step": 9020 | |
| }, | |
| { | |
| "epoch": 18.8125, | |
| "grad_norm": 0.1352458894252777, | |
| "learning_rate": 2.5504035522157854e-06, | |
| "loss": 0.0269, | |
| "step": 9030 | |
| }, | |
| { | |
| "epoch": 18.833333333333332, | |
| "grad_norm": 0.13433943688869476, | |
| "learning_rate": 2.4985291344915674e-06, | |
| "loss": 0.0336, | |
| "step": 9040 | |
| }, | |
| { | |
| "epoch": 18.854166666666668, | |
| "grad_norm": 0.13748623430728912, | |
| "learning_rate": 2.4471741852423237e-06, | |
| "loss": 0.031, | |
| "step": 9050 | |
| }, | |
| { | |
| "epoch": 18.875, | |
| "grad_norm": 0.14584968984127045, | |
| "learning_rate": 2.3963392660775575e-06, | |
| "loss": 0.034, | |
| "step": 9060 | |
| }, | |
| { | |
| "epoch": 18.895833333333332, | |
| "grad_norm": 0.17508484423160553, | |
| "learning_rate": 2.3460249329197824e-06, | |
| "loss": 0.034, | |
| "step": 9070 | |
| }, | |
| { | |
| "epoch": 18.916666666666668, | |
| "grad_norm": 0.29237616062164307, | |
| "learning_rate": 2.296231735998511e-06, | |
| "loss": 0.0356, | |
| "step": 9080 | |
| }, | |
| { | |
| "epoch": 18.9375, | |
| "grad_norm": 0.19162213802337646, | |
| "learning_rate": 2.2469602198441573e-06, | |
| "loss": 0.0281, | |
| "step": 9090 | |
| }, | |
| { | |
| "epoch": 18.958333333333332, | |
| "grad_norm": 0.147079199552536, | |
| "learning_rate": 2.1982109232821178e-06, | |
| "loss": 0.0313, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 18.979166666666668, | |
| "grad_norm": 0.13137395679950714, | |
| "learning_rate": 2.149984379426906e-06, | |
| "loss": 0.0399, | |
| "step": 9110 | |
| }, | |
| { | |
| "epoch": 19.0, | |
| "grad_norm": 0.4080326557159424, | |
| "learning_rate": 2.102281115676258e-06, | |
| "loss": 0.038, | |
| "step": 9120 | |
| }, | |
| { | |
| "epoch": 19.020833333333332, | |
| "grad_norm": 0.13633409142494202, | |
| "learning_rate": 2.0551016537054493e-06, | |
| "loss": 0.0331, | |
| "step": 9130 | |
| }, | |
| { | |
| "epoch": 19.041666666666668, | |
| "grad_norm": 0.13765296339988708, | |
| "learning_rate": 2.008446509461498e-06, | |
| "loss": 0.0263, | |
| "step": 9140 | |
| }, | |
| { | |
| "epoch": 19.0625, | |
| "grad_norm": 0.23236972093582153, | |
| "learning_rate": 1.962316193157593e-06, | |
| "loss": 0.0328, | |
| "step": 9150 | |
| }, | |
| { | |
| "epoch": 19.083333333333332, | |
| "grad_norm": 0.15789905190467834, | |
| "learning_rate": 1.91671120926748e-06, | |
| "loss": 0.0367, | |
| "step": 9160 | |
| }, | |
| { | |
| "epoch": 19.104166666666668, | |
| "grad_norm": 0.13010896742343903, | |
| "learning_rate": 1.8716320565199618e-06, | |
| "loss": 0.0297, | |
| "step": 9170 | |
| }, | |
| { | |
| "epoch": 19.125, | |
| "grad_norm": 0.15396663546562195, | |
| "learning_rate": 1.8270792278934302e-06, | |
| "loss": 0.0383, | |
| "step": 9180 | |
| }, | |
| { | |
| "epoch": 19.145833333333332, | |
| "grad_norm": 0.18995301425457, | |
| "learning_rate": 1.7830532106104747e-06, | |
| "loss": 0.0325, | |
| "step": 9190 | |
| }, | |
| { | |
| "epoch": 19.166666666666668, | |
| "grad_norm": 0.18019302189350128, | |
| "learning_rate": 1.7395544861325718e-06, | |
| "loss": 0.0284, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 19.1875, | |
| "grad_norm": 0.18761536478996277, | |
| "learning_rate": 1.696583530154794e-06, | |
| "loss": 0.0338, | |
| "step": 9210 | |
| }, | |
| { | |
| "epoch": 19.208333333333332, | |
| "grad_norm": 0.2118709832429886, | |
| "learning_rate": 1.6541408126006463e-06, | |
| "loss": 0.03, | |
| "step": 9220 | |
| }, | |
| { | |
| "epoch": 19.229166666666668, | |
| "grad_norm": 0.1725333034992218, | |
| "learning_rate": 1.6122267976168781e-06, | |
| "loss": 0.0372, | |
| "step": 9230 | |
| }, | |
| { | |
| "epoch": 19.25, | |
| "grad_norm": 0.18301089107990265, | |
| "learning_rate": 1.5708419435684462e-06, | |
| "loss": 0.0324, | |
| "step": 9240 | |
| }, | |
| { | |
| "epoch": 19.270833333333332, | |
| "grad_norm": 0.11558585613965988, | |
| "learning_rate": 1.5299867030334814e-06, | |
| "loss": 0.0328, | |
| "step": 9250 | |
| }, | |
| { | |
| "epoch": 19.291666666666668, | |
| "grad_norm": 0.1680075079202652, | |
| "learning_rate": 1.4896615227983468e-06, | |
| "loss": 0.0323, | |
| "step": 9260 | |
| }, | |
| { | |
| "epoch": 19.3125, | |
| "grad_norm": 0.13936129212379456, | |
| "learning_rate": 1.4498668438527597e-06, | |
| "loss": 0.0317, | |
| "step": 9270 | |
| }, | |
| { | |
| "epoch": 19.333333333333332, | |
| "grad_norm": 0.24704353511333466, | |
| "learning_rate": 1.4106031013849496e-06, | |
| "loss": 0.0335, | |
| "step": 9280 | |
| }, | |
| { | |
| "epoch": 19.354166666666668, | |
| "grad_norm": 0.11719508469104767, | |
| "learning_rate": 1.3718707247769135e-06, | |
| "loss": 0.0275, | |
| "step": 9290 | |
| }, | |
| { | |
| "epoch": 19.375, | |
| "grad_norm": 0.18378089368343353, | |
| "learning_rate": 1.333670137599713e-06, | |
| "loss": 0.0291, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 19.395833333333332, | |
| "grad_norm": 0.30711549520492554, | |
| "learning_rate": 1.2960017576088446e-06, | |
| "loss": 0.0365, | |
| "step": 9310 | |
| }, | |
| { | |
| "epoch": 19.416666666666668, | |
| "grad_norm": 0.41542425751686096, | |
| "learning_rate": 1.2588659967397e-06, | |
| "loss": 0.0317, | |
| "step": 9320 | |
| }, | |
| { | |
| "epoch": 19.4375, | |
| "grad_norm": 0.16232679784297943, | |
| "learning_rate": 1.222263261102985e-06, | |
| "loss": 0.0314, | |
| "step": 9330 | |
| }, | |
| { | |
| "epoch": 19.458333333333332, | |
| "grad_norm": 0.22481182217597961, | |
| "learning_rate": 1.1861939509803687e-06, | |
| "loss": 0.0347, | |
| "step": 9340 | |
| }, | |
| { | |
| "epoch": 19.479166666666668, | |
| "grad_norm": 0.1459631323814392, | |
| "learning_rate": 1.1506584608200367e-06, | |
| "loss": 0.0317, | |
| "step": 9350 | |
| }, | |
| { | |
| "epoch": 19.5, | |
| "grad_norm": 0.2111710160970688, | |
| "learning_rate": 1.1156571792324211e-06, | |
| "loss": 0.0293, | |
| "step": 9360 | |
| }, | |
| { | |
| "epoch": 19.520833333333332, | |
| "grad_norm": 0.1639842689037323, | |
| "learning_rate": 1.0811904889859336e-06, | |
| "loss": 0.0318, | |
| "step": 9370 | |
| }, | |
| { | |
| "epoch": 19.541666666666668, | |
| "grad_norm": 0.14058507978916168, | |
| "learning_rate": 1.0472587670027678e-06, | |
| "loss": 0.0401, | |
| "step": 9380 | |
| }, | |
| { | |
| "epoch": 19.5625, | |
| "grad_norm": 0.17518417537212372, | |
| "learning_rate": 1.0138623843548078e-06, | |
| "loss": 0.0349, | |
| "step": 9390 | |
| }, | |
| { | |
| "epoch": 19.583333333333332, | |
| "grad_norm": 0.15717728435993195, | |
| "learning_rate": 9.810017062595322e-07, | |
| "loss": 0.0319, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 19.604166666666668, | |
| "grad_norm": 0.23628921806812286, | |
| "learning_rate": 9.486770920760668e-07, | |
| "loss": 0.0327, | |
| "step": 9410 | |
| }, | |
| { | |
| "epoch": 19.625, | |
| "grad_norm": 0.16475990414619446, | |
| "learning_rate": 9.168888953011989e-07, | |
| "loss": 0.0282, | |
| "step": 9420 | |
| }, | |
| { | |
| "epoch": 19.645833333333332, | |
| "grad_norm": 0.13366751372814178, | |
| "learning_rate": 8.856374635655695e-07, | |
| "loss": 0.0315, | |
| "step": 9430 | |
| }, | |
| { | |
| "epoch": 19.666666666666668, | |
| "grad_norm": 0.2342182844877243, | |
| "learning_rate": 8.549231386298151e-07, | |
| "loss": 0.0303, | |
| "step": 9440 | |
| }, | |
| { | |
| "epoch": 19.6875, | |
| "grad_norm": 0.17857497930526733, | |
| "learning_rate": 8.247462563808817e-07, | |
| "loss": 0.0376, | |
| "step": 9450 | |
| }, | |
| { | |
| "epoch": 19.708333333333332, | |
| "grad_norm": 0.09750518202781677, | |
| "learning_rate": 7.951071468283167e-07, | |
| "loss": 0.0326, | |
| "step": 9460 | |
| }, | |
| { | |
| "epoch": 19.729166666666668, | |
| "grad_norm": 0.14700888097286224, | |
| "learning_rate": 7.66006134100672e-07, | |
| "loss": 0.0338, | |
| "step": 9470 | |
| }, | |
| { | |
| "epoch": 19.75, | |
| "grad_norm": 0.19283577799797058, | |
| "learning_rate": 7.374435364419674e-07, | |
| "loss": 0.0297, | |
| "step": 9480 | |
| }, | |
| { | |
| "epoch": 19.770833333333332, | |
| "grad_norm": 0.17570871114730835, | |
| "learning_rate": 7.094196662081831e-07, | |
| "loss": 0.0298, | |
| "step": 9490 | |
| }, | |
| { | |
| "epoch": 19.791666666666668, | |
| "grad_norm": 0.15083159506320953, | |
| "learning_rate": 6.819348298638839e-07, | |
| "loss": 0.0337, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 19.8125, | |
| "grad_norm": 0.21180565655231476, | |
| "learning_rate": 6.549893279788277e-07, | |
| "loss": 0.0362, | |
| "step": 9510 | |
| }, | |
| { | |
| "epoch": 19.833333333333332, | |
| "grad_norm": 0.1290484517812729, | |
| "learning_rate": 6.285834552247128e-07, | |
| "loss": 0.0288, | |
| "step": 9520 | |
| }, | |
| { | |
| "epoch": 19.854166666666668, | |
| "grad_norm": 0.20939485728740692, | |
| "learning_rate": 6.027175003719354e-07, | |
| "loss": 0.0394, | |
| "step": 9530 | |
| }, | |
| { | |
| "epoch": 19.875, | |
| "grad_norm": 0.20585738122463226, | |
| "learning_rate": 5.773917462864264e-07, | |
| "loss": 0.034, | |
| "step": 9540 | |
| }, | |
| { | |
| "epoch": 19.895833333333332, | |
| "grad_norm": 0.1653178483247757, | |
| "learning_rate": 5.526064699265753e-07, | |
| "loss": 0.035, | |
| "step": 9550 | |
| }, | |
| { | |
| "epoch": 19.916666666666668, | |
| "grad_norm": 0.19663727283477783, | |
| "learning_rate": 5.283619423401998e-07, | |
| "loss": 0.0333, | |
| "step": 9560 | |
| }, | |
| { | |
| "epoch": 19.9375, | |
| "grad_norm": 0.1678989678621292, | |
| "learning_rate": 5.046584286615697e-07, | |
| "loss": 0.0369, | |
| "step": 9570 | |
| }, | |
| { | |
| "epoch": 19.958333333333332, | |
| "grad_norm": 0.28280648589134216, | |
| "learning_rate": 4.814961881085045e-07, | |
| "loss": 0.0337, | |
| "step": 9580 | |
| }, | |
| { | |
| "epoch": 19.979166666666668, | |
| "grad_norm": 0.199066624045372, | |
| "learning_rate": 4.5887547397955864e-07, | |
| "loss": 0.0348, | |
| "step": 9590 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "grad_norm": 0.24922700226306915, | |
| "learning_rate": 4.367965336512403e-07, | |
| "loss": 0.0276, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 20.020833333333332, | |
| "grad_norm": 0.16354601085186005, | |
| "learning_rate": 4.1525960857530243e-07, | |
| "loss": 0.0308, | |
| "step": 9610 | |
| }, | |
| { | |
| "epoch": 20.041666666666668, | |
| "grad_norm": 0.24178677797317505, | |
| "learning_rate": 3.9426493427611177e-07, | |
| "loss": 0.0371, | |
| "step": 9620 | |
| }, | |
| { | |
| "epoch": 20.0625, | |
| "grad_norm": 0.18796806037425995, | |
| "learning_rate": 3.738127403480507e-07, | |
| "loss": 0.0388, | |
| "step": 9630 | |
| }, | |
| { | |
| "epoch": 20.083333333333332, | |
| "grad_norm": 0.20693808794021606, | |
| "learning_rate": 3.5390325045304706e-07, | |
| "loss": 0.0333, | |
| "step": 9640 | |
| }, | |
| { | |
| "epoch": 20.104166666666668, | |
| "grad_norm": 0.18679924309253693, | |
| "learning_rate": 3.3453668231809286e-07, | |
| "loss": 0.031, | |
| "step": 9650 | |
| }, | |
| { | |
| "epoch": 20.125, | |
| "grad_norm": 0.10266103595495224, | |
| "learning_rate": 3.157132477328628e-07, | |
| "loss": 0.0299, | |
| "step": 9660 | |
| }, | |
| { | |
| "epoch": 20.145833333333332, | |
| "grad_norm": 0.18884888291358948, | |
| "learning_rate": 2.9743315254743833e-07, | |
| "loss": 0.0364, | |
| "step": 9670 | |
| }, | |
| { | |
| "epoch": 20.166666666666668, | |
| "grad_norm": 0.20858243107795715, | |
| "learning_rate": 2.796965966699927e-07, | |
| "loss": 0.0353, | |
| "step": 9680 | |
| }, | |
| { | |
| "epoch": 20.1875, | |
| "grad_norm": 0.2836136817932129, | |
| "learning_rate": 2.625037740646763e-07, | |
| "loss": 0.0339, | |
| "step": 9690 | |
| }, | |
| { | |
| "epoch": 20.208333333333332, | |
| "grad_norm": 0.1977325975894928, | |
| "learning_rate": 2.458548727494292e-07, | |
| "loss": 0.029, | |
| "step": 9700 | |
| }, | |
| { | |
| "epoch": 20.229166666666668, | |
| "grad_norm": 0.21082016825675964, | |
| "learning_rate": 2.2975007479397738e-07, | |
| "loss": 0.0312, | |
| "step": 9710 | |
| }, | |
| { | |
| "epoch": 20.25, | |
| "grad_norm": 0.22530245780944824, | |
| "learning_rate": 2.1418955631781202e-07, | |
| "loss": 0.0361, | |
| "step": 9720 | |
| }, | |
| { | |
| "epoch": 20.270833333333332, | |
| "grad_norm": 0.11725817620754242, | |
| "learning_rate": 1.9917348748826335e-07, | |
| "loss": 0.0309, | |
| "step": 9730 | |
| }, | |
| { | |
| "epoch": 20.291666666666668, | |
| "grad_norm": 0.23259659111499786, | |
| "learning_rate": 1.847020325186577e-07, | |
| "loss": 0.0356, | |
| "step": 9740 | |
| }, | |
| { | |
| "epoch": 20.3125, | |
| "grad_norm": 0.25922563672065735, | |
| "learning_rate": 1.7077534966650766e-07, | |
| "loss": 0.0352, | |
| "step": 9750 | |
| }, | |
| { | |
| "epoch": 20.333333333333332, | |
| "grad_norm": 0.160082146525383, | |
| "learning_rate": 1.5739359123178587e-07, | |
| "loss": 0.0315, | |
| "step": 9760 | |
| }, | |
| { | |
| "epoch": 20.354166666666668, | |
| "grad_norm": 0.1723332554101944, | |
| "learning_rate": 1.4455690355525964e-07, | |
| "loss": 0.03, | |
| "step": 9770 | |
| }, | |
| { | |
| "epoch": 20.375, | |
| "grad_norm": 0.39016783237457275, | |
| "learning_rate": 1.3226542701689215e-07, | |
| "loss": 0.0333, | |
| "step": 9780 | |
| }, | |
| { | |
| "epoch": 20.395833333333332, | |
| "grad_norm": 0.17745746672153473, | |
| "learning_rate": 1.2051929603428825e-07, | |
| "loss": 0.0335, | |
| "step": 9790 | |
| }, | |
| { | |
| "epoch": 20.416666666666668, | |
| "grad_norm": 0.19119124114513397, | |
| "learning_rate": 1.0931863906127327e-07, | |
| "loss": 0.0371, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 20.4375, | |
| "grad_norm": 0.19665691256523132, | |
| "learning_rate": 9.866357858642205e-08, | |
| "loss": 0.0301, | |
| "step": 9810 | |
| }, | |
| { | |
| "epoch": 20.458333333333332, | |
| "grad_norm": 0.2378683239221573, | |
| "learning_rate": 8.855423113177664e-08, | |
| "loss": 0.0339, | |
| "step": 9820 | |
| }, | |
| { | |
| "epoch": 20.479166666666668, | |
| "grad_norm": 0.21455919742584229, | |
| "learning_rate": 7.899070725153613e-08, | |
| "loss": 0.0301, | |
| "step": 9830 | |
| }, | |
| { | |
| "epoch": 20.5, | |
| "grad_norm": 0.1403769999742508, | |
| "learning_rate": 6.997311153086883e-08, | |
| "loss": 0.0348, | |
| "step": 9840 | |
| }, | |
| { | |
| "epoch": 20.520833333333332, | |
| "grad_norm": 0.1677563339471817, | |
| "learning_rate": 6.150154258476315e-08, | |
| "loss": 0.0294, | |
| "step": 9850 | |
| }, | |
| { | |
| "epoch": 20.541666666666668, | |
| "grad_norm": 0.22757263481616974, | |
| "learning_rate": 5.3576093056922906e-08, | |
| "loss": 0.0371, | |
| "step": 9860 | |
| }, | |
| { | |
| "epoch": 20.5625, | |
| "grad_norm": 0.14663146436214447, | |
| "learning_rate": 4.619684961881254e-08, | |
| "loss": 0.0344, | |
| "step": 9870 | |
| }, | |
| { | |
| "epoch": 20.583333333333332, | |
| "grad_norm": 0.205908864736557, | |
| "learning_rate": 3.936389296864129e-08, | |
| "loss": 0.0275, | |
| "step": 9880 | |
| }, | |
| { | |
| "epoch": 20.604166666666668, | |
| "grad_norm": 0.12263581156730652, | |
| "learning_rate": 3.3077297830541584e-08, | |
| "loss": 0.0306, | |
| "step": 9890 | |
| }, | |
| { | |
| "epoch": 20.625, | |
| "grad_norm": 0.24407680332660675, | |
| "learning_rate": 2.7337132953697554e-08, | |
| "loss": 0.0353, | |
| "step": 9900 | |
| }, | |
| { | |
| "epoch": 20.645833333333332, | |
| "grad_norm": 0.17561787366867065, | |
| "learning_rate": 2.214346111164556e-08, | |
| "loss": 0.0343, | |
| "step": 9910 | |
| }, | |
| { | |
| "epoch": 20.666666666666668, | |
| "grad_norm": 0.28819283843040466, | |
| "learning_rate": 1.749633910153592e-08, | |
| "loss": 0.0353, | |
| "step": 9920 | |
| }, | |
| { | |
| "epoch": 20.6875, | |
| "grad_norm": 0.12137261778116226, | |
| "learning_rate": 1.3395817743561134e-08, | |
| "loss": 0.0355, | |
| "step": 9930 | |
| }, | |
| { | |
| "epoch": 20.708333333333332, | |
| "grad_norm": 0.15780037641525269, | |
| "learning_rate": 9.841941880361916e-09, | |
| "loss": 0.0292, | |
| "step": 9940 | |
| }, | |
| { | |
| "epoch": 20.729166666666668, | |
| "grad_norm": 0.15066218376159668, | |
| "learning_rate": 6.834750376549792e-09, | |
| "loss": 0.0332, | |
| "step": 9950 | |
| }, | |
| { | |
| "epoch": 20.75, | |
| "grad_norm": 0.17980065941810608, | |
| "learning_rate": 4.3742761183018784e-09, | |
| "loss": 0.0339, | |
| "step": 9960 | |
| }, | |
| { | |
| "epoch": 20.770833333333332, | |
| "grad_norm": 0.18489395081996918, | |
| "learning_rate": 2.4605460129556445e-09, | |
| "loss": 0.0353, | |
| "step": 9970 | |
| }, | |
| { | |
| "epoch": 20.791666666666668, | |
| "grad_norm": 0.16273553669452667, | |
| "learning_rate": 1.0935809887702154e-09, | |
| "loss": 0.0326, | |
| "step": 9980 | |
| }, | |
| { | |
| "epoch": 20.8125, | |
| "grad_norm": 0.21852363646030426, | |
| "learning_rate": 2.7339599464326627e-10, | |
| "loss": 0.0297, | |
| "step": 9990 | |
| }, | |
| { | |
| "epoch": 20.833333333333332, | |
| "grad_norm": 0.09543376415967941, | |
| "learning_rate": 0.0, | |
| "loss": 0.0322, | |
| "step": 10000 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 10000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 21, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 7.191112056860797e+17, | |
| "train_batch_size": 32, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |