{ "best_metric": null, "best_model_checkpoint": null, "epoch": 20.833333333333332, "eval_steps": 500, "global_step": 10000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.020833333333333332, "grad_norm": 0.5712802410125732, "learning_rate": 2.0000000000000003e-06, "loss": 1.2353, "step": 10 }, { "epoch": 0.041666666666666664, "grad_norm": 0.4432624280452728, "learning_rate": 4.000000000000001e-06, "loss": 1.3046, "step": 20 }, { "epoch": 0.0625, "grad_norm": 0.40406811237335205, "learning_rate": 6e-06, "loss": 1.3525, "step": 30 }, { "epoch": 0.08333333333333333, "grad_norm": 0.5075733661651611, "learning_rate": 8.000000000000001e-06, "loss": 1.2482, "step": 40 }, { "epoch": 0.10416666666666667, "grad_norm": 0.543536365032196, "learning_rate": 1e-05, "loss": 1.1572, "step": 50 }, { "epoch": 0.125, "grad_norm": 0.49635010957717896, "learning_rate": 1.2e-05, "loss": 1.2206, "step": 60 }, { "epoch": 0.14583333333333334, "grad_norm": 0.5479629039764404, "learning_rate": 1.4000000000000001e-05, "loss": 0.9868, "step": 70 }, { "epoch": 0.16666666666666666, "grad_norm": 0.4761858284473419, "learning_rate": 1.6000000000000003e-05, "loss": 0.9651, "step": 80 }, { "epoch": 0.1875, "grad_norm": 0.5013508796691895, "learning_rate": 1.8e-05, "loss": 0.7967, "step": 90 }, { "epoch": 0.20833333333333334, "grad_norm": 0.5219478011131287, "learning_rate": 2e-05, "loss": 0.6818, "step": 100 }, { "epoch": 0.22916666666666666, "grad_norm": 0.38396820425987244, "learning_rate": 2.2000000000000003e-05, "loss": 0.5786, "step": 110 }, { "epoch": 0.25, "grad_norm": 0.4274996519088745, "learning_rate": 2.4e-05, "loss": 0.4518, "step": 120 }, { "epoch": 0.2708333333333333, "grad_norm": 0.3955512046813965, "learning_rate": 2.6000000000000002e-05, "loss": 0.4033, "step": 130 }, { "epoch": 0.2916666666666667, "grad_norm": 0.3096176087856293, "learning_rate": 2.8000000000000003e-05, "loss": 0.3677, "step": 140 }, { "epoch": 0.3125, "grad_norm": 0.30808889865875244, "learning_rate": 3e-05, "loss": 0.3219, "step": 150 }, { "epoch": 0.3333333333333333, "grad_norm": 0.2835131287574768, "learning_rate": 3.2000000000000005e-05, "loss": 0.3306, "step": 160 }, { "epoch": 0.3541666666666667, "grad_norm": 0.39547616243362427, "learning_rate": 3.4000000000000007e-05, "loss": 0.3294, "step": 170 }, { "epoch": 0.375, "grad_norm": 0.3801705539226532, "learning_rate": 3.6e-05, "loss": 0.3112, "step": 180 }, { "epoch": 0.3958333333333333, "grad_norm": 0.3237359821796417, "learning_rate": 3.8e-05, "loss": 0.2771, "step": 190 }, { "epoch": 0.4166666666666667, "grad_norm": 0.32737982273101807, "learning_rate": 4e-05, "loss": 0.2887, "step": 200 }, { "epoch": 0.4375, "grad_norm": 0.2855188846588135, "learning_rate": 4.2e-05, "loss": 0.2602, "step": 210 }, { "epoch": 0.4583333333333333, "grad_norm": 0.3789673447608948, "learning_rate": 4.4000000000000006e-05, "loss": 0.2551, "step": 220 }, { "epoch": 0.4791666666666667, "grad_norm": 0.3325900137424469, "learning_rate": 4.600000000000001e-05, "loss": 0.2406, "step": 230 }, { "epoch": 0.5, "grad_norm": 0.3865416944026947, "learning_rate": 4.8e-05, "loss": 0.2361, "step": 240 }, { "epoch": 0.5208333333333334, "grad_norm": 0.33023643493652344, "learning_rate": 5e-05, "loss": 0.2349, "step": 250 }, { "epoch": 0.5416666666666666, "grad_norm": 0.35536086559295654, "learning_rate": 5.2000000000000004e-05, "loss": 0.2205, "step": 260 }, { "epoch": 0.5625, "grad_norm": 0.4194355905056, "learning_rate": 5.4000000000000005e-05, "loss": 0.2352, "step": 270 }, { "epoch": 0.5833333333333334, "grad_norm": 0.4418402314186096, "learning_rate": 5.6000000000000006e-05, "loss": 0.1984, "step": 280 }, { "epoch": 0.6041666666666666, "grad_norm": 0.6294600367546082, "learning_rate": 5.8e-05, "loss": 0.2294, "step": 290 }, { "epoch": 0.625, "grad_norm": 0.38821548223495483, "learning_rate": 6e-05, "loss": 0.2027, "step": 300 }, { "epoch": 0.6458333333333334, "grad_norm": 0.34604135155677795, "learning_rate": 6.2e-05, "loss": 0.2091, "step": 310 }, { "epoch": 0.6666666666666666, "grad_norm": 0.34750574827194214, "learning_rate": 6.400000000000001e-05, "loss": 0.1956, "step": 320 }, { "epoch": 0.6875, "grad_norm": 0.36665627360343933, "learning_rate": 6.6e-05, "loss": 0.1946, "step": 330 }, { "epoch": 0.7083333333333334, "grad_norm": 0.2869899570941925, "learning_rate": 6.800000000000001e-05, "loss": 0.1686, "step": 340 }, { "epoch": 0.7291666666666666, "grad_norm": 0.2892889976501465, "learning_rate": 7e-05, "loss": 0.1807, "step": 350 }, { "epoch": 0.75, "grad_norm": 0.43622446060180664, "learning_rate": 7.2e-05, "loss": 0.1788, "step": 360 }, { "epoch": 0.7708333333333334, "grad_norm": 0.3504660427570343, "learning_rate": 7.4e-05, "loss": 0.1614, "step": 370 }, { "epoch": 0.7916666666666666, "grad_norm": 0.49165523052215576, "learning_rate": 7.6e-05, "loss": 0.1664, "step": 380 }, { "epoch": 0.8125, "grad_norm": 0.524911105632782, "learning_rate": 7.800000000000001e-05, "loss": 0.1643, "step": 390 }, { "epoch": 0.8333333333333334, "grad_norm": 0.3354795277118683, "learning_rate": 8e-05, "loss": 0.1559, "step": 400 }, { "epoch": 0.8541666666666666, "grad_norm": 0.36271512508392334, "learning_rate": 8.2e-05, "loss": 0.1603, "step": 410 }, { "epoch": 0.875, "grad_norm": 0.3612838387489319, "learning_rate": 8.4e-05, "loss": 0.1604, "step": 420 }, { "epoch": 0.8958333333333334, "grad_norm": 0.3812621831893921, "learning_rate": 8.6e-05, "loss": 0.1513, "step": 430 }, { "epoch": 0.9166666666666666, "grad_norm": 0.4501417577266693, "learning_rate": 8.800000000000001e-05, "loss": 0.1506, "step": 440 }, { "epoch": 0.9375, "grad_norm": 0.3173256516456604, "learning_rate": 9e-05, "loss": 0.1503, "step": 450 }, { "epoch": 0.9583333333333334, "grad_norm": 0.36029666662216187, "learning_rate": 9.200000000000001e-05, "loss": 0.156, "step": 460 }, { "epoch": 0.9791666666666666, "grad_norm": 0.39666202664375305, "learning_rate": 9.4e-05, "loss": 0.1519, "step": 470 }, { "epoch": 1.0, "grad_norm": 0.5281791687011719, "learning_rate": 9.6e-05, "loss": 0.1446, "step": 480 }, { "epoch": 1.0208333333333333, "grad_norm": 0.3308173418045044, "learning_rate": 9.8e-05, "loss": 0.1366, "step": 490 }, { "epoch": 1.0416666666666667, "grad_norm": 0.30894652009010315, "learning_rate": 0.0001, "loss": 0.1328, "step": 500 }, { "epoch": 1.0625, "grad_norm": 0.4123728275299072, "learning_rate": 9.999972660400536e-05, "loss": 0.1373, "step": 510 }, { "epoch": 1.0833333333333333, "grad_norm": 0.26810720562934875, "learning_rate": 9.999890641901125e-05, "loss": 0.1228, "step": 520 }, { "epoch": 1.1041666666666667, "grad_norm": 0.42416492104530334, "learning_rate": 9.999753945398704e-05, "loss": 0.1402, "step": 530 }, { "epoch": 1.125, "grad_norm": 0.3639088273048401, "learning_rate": 9.99956257238817e-05, "loss": 0.1249, "step": 540 }, { "epoch": 1.1458333333333333, "grad_norm": 0.2935086190700531, "learning_rate": 9.999316524962345e-05, "loss": 0.1342, "step": 550 }, { "epoch": 1.1666666666666667, "grad_norm": 0.29809266328811646, "learning_rate": 9.999015805811965e-05, "loss": 0.1193, "step": 560 }, { "epoch": 1.1875, "grad_norm": 0.3292215168476105, "learning_rate": 9.998660418225645e-05, "loss": 0.1066, "step": 570 }, { "epoch": 1.2083333333333333, "grad_norm": 0.3413059413433075, "learning_rate": 9.998250366089848e-05, "loss": 0.1219, "step": 580 }, { "epoch": 1.2291666666666667, "grad_norm": 0.3150234818458557, "learning_rate": 9.997785653888835e-05, "loss": 0.1226, "step": 590 }, { "epoch": 1.25, "grad_norm": 0.3413054645061493, "learning_rate": 9.997266286704631e-05, "loss": 0.1202, "step": 600 }, { "epoch": 1.2708333333333333, "grad_norm": 0.412722647190094, "learning_rate": 9.996692270216947e-05, "loss": 0.1222, "step": 610 }, { "epoch": 1.2916666666666667, "grad_norm": 0.2636623978614807, "learning_rate": 9.996063610703137e-05, "loss": 0.1123, "step": 620 }, { "epoch": 1.3125, "grad_norm": 0.3020671606063843, "learning_rate": 9.995380315038119e-05, "loss": 0.1128, "step": 630 }, { "epoch": 1.3333333333333333, "grad_norm": 0.3055395483970642, "learning_rate": 9.994642390694308e-05, "loss": 0.1091, "step": 640 }, { "epoch": 1.3541666666666667, "grad_norm": 0.3779659569263458, "learning_rate": 9.993849845741524e-05, "loss": 0.1208, "step": 650 }, { "epoch": 1.375, "grad_norm": 0.4711195230484009, "learning_rate": 9.993002688846913e-05, "loss": 0.1165, "step": 660 }, { "epoch": 1.3958333333333333, "grad_norm": 0.256693571805954, "learning_rate": 9.992100929274846e-05, "loss": 0.1185, "step": 670 }, { "epoch": 1.4166666666666667, "grad_norm": 0.38072532415390015, "learning_rate": 9.991144576886823e-05, "loss": 0.1142, "step": 680 }, { "epoch": 1.4375, "grad_norm": 0.31933581829071045, "learning_rate": 9.990133642141359e-05, "loss": 0.1083, "step": 690 }, { "epoch": 1.4583333333333333, "grad_norm": 0.3114969730377197, "learning_rate": 9.989068136093873e-05, "loss": 0.1075, "step": 700 }, { "epoch": 1.4791666666666667, "grad_norm": 0.3455674648284912, "learning_rate": 9.987948070396571e-05, "loss": 0.1189, "step": 710 }, { "epoch": 1.5, "grad_norm": 0.33146438002586365, "learning_rate": 9.986773457298311e-05, "loss": 0.1054, "step": 720 }, { "epoch": 1.5208333333333335, "grad_norm": 0.3065161108970642, "learning_rate": 9.985544309644475e-05, "loss": 0.1032, "step": 730 }, { "epoch": 1.5416666666666665, "grad_norm": 0.38725510239601135, "learning_rate": 9.984260640876821e-05, "loss": 0.097, "step": 740 }, { "epoch": 1.5625, "grad_norm": 0.32791706919670105, "learning_rate": 9.98292246503335e-05, "loss": 0.1008, "step": 750 }, { "epoch": 1.5833333333333335, "grad_norm": 0.34981703758239746, "learning_rate": 9.981529796748134e-05, "loss": 0.0956, "step": 760 }, { "epoch": 1.6041666666666665, "grad_norm": 0.3093942701816559, "learning_rate": 9.980082651251175e-05, "loss": 0.1054, "step": 770 }, { "epoch": 1.625, "grad_norm": 0.30290845036506653, "learning_rate": 9.97858104436822e-05, "loss": 0.1079, "step": 780 }, { "epoch": 1.6458333333333335, "grad_norm": 0.3575012981891632, "learning_rate": 9.977024992520602e-05, "loss": 0.1037, "step": 790 }, { "epoch": 1.6666666666666665, "grad_norm": 0.2697035074234009, "learning_rate": 9.975414512725057e-05, "loss": 0.0998, "step": 800 }, { "epoch": 1.6875, "grad_norm": 0.3098699152469635, "learning_rate": 9.973749622593534e-05, "loss": 0.102, "step": 810 }, { "epoch": 1.7083333333333335, "grad_norm": 0.43280744552612305, "learning_rate": 9.972030340333001e-05, "loss": 0.1022, "step": 820 }, { "epoch": 1.7291666666666665, "grad_norm": 0.4108767807483673, "learning_rate": 9.970256684745258e-05, "loss": 0.101, "step": 830 }, { "epoch": 1.75, "grad_norm": 0.34355419874191284, "learning_rate": 9.968428675226714e-05, "loss": 0.0943, "step": 840 }, { "epoch": 1.7708333333333335, "grad_norm": 0.33007073402404785, "learning_rate": 9.966546331768191e-05, "loss": 0.1124, "step": 850 }, { "epoch": 1.7916666666666665, "grad_norm": 0.2797167897224426, "learning_rate": 9.964609674954696e-05, "loss": 0.0945, "step": 860 }, { "epoch": 1.8125, "grad_norm": 0.3793611526489258, "learning_rate": 9.962618725965196e-05, "loss": 0.093, "step": 870 }, { "epoch": 1.8333333333333335, "grad_norm": 0.35163822770118713, "learning_rate": 9.96057350657239e-05, "loss": 0.0967, "step": 880 }, { "epoch": 1.8541666666666665, "grad_norm": 0.28550562262535095, "learning_rate": 9.95847403914247e-05, "loss": 0.0961, "step": 890 }, { "epoch": 1.875, "grad_norm": 0.2862968146800995, "learning_rate": 9.956320346634876e-05, "loss": 0.1006, "step": 900 }, { "epoch": 1.8958333333333335, "grad_norm": 0.29589930176734924, "learning_rate": 9.954112452602045e-05, "loss": 0.0844, "step": 910 }, { "epoch": 1.9166666666666665, "grad_norm": 0.35761862993240356, "learning_rate": 9.95185038118915e-05, "loss": 0.089, "step": 920 }, { "epoch": 1.9375, "grad_norm": 0.21639415621757507, "learning_rate": 9.949534157133844e-05, "loss": 0.0873, "step": 930 }, { "epoch": 1.9583333333333335, "grad_norm": 0.22971071302890778, "learning_rate": 9.94716380576598e-05, "loss": 0.0859, "step": 940 }, { "epoch": 1.9791666666666665, "grad_norm": 0.42926573753356934, "learning_rate": 9.944739353007344e-05, "loss": 0.0901, "step": 950 }, { "epoch": 2.0, "grad_norm": 0.38621583580970764, "learning_rate": 9.942260825371358e-05, "loss": 0.0852, "step": 960 }, { "epoch": 2.0208333333333335, "grad_norm": 0.18208271265029907, "learning_rate": 9.939728249962807e-05, "loss": 0.0866, "step": 970 }, { "epoch": 2.0416666666666665, "grad_norm": 0.4486900568008423, "learning_rate": 9.937141654477528e-05, "loss": 0.0962, "step": 980 }, { "epoch": 2.0625, "grad_norm": 0.37927910685539246, "learning_rate": 9.934501067202117e-05, "loss": 0.0907, "step": 990 }, { "epoch": 2.0833333333333335, "grad_norm": 0.3539460301399231, "learning_rate": 9.931806517013612e-05, "loss": 0.0881, "step": 1000 }, { "epoch": 2.1041666666666665, "grad_norm": 0.2473289519548416, "learning_rate": 9.929058033379181e-05, "loss": 0.0819, "step": 1010 }, { "epoch": 2.125, "grad_norm": 0.322482168674469, "learning_rate": 9.926255646355804e-05, "loss": 0.0806, "step": 1020 }, { "epoch": 2.1458333333333335, "grad_norm": 0.28534042835235596, "learning_rate": 9.923399386589933e-05, "loss": 0.0865, "step": 1030 }, { "epoch": 2.1666666666666665, "grad_norm": 0.3318226635456085, "learning_rate": 9.92048928531717e-05, "loss": 0.0913, "step": 1040 }, { "epoch": 2.1875, "grad_norm": 0.29245731234550476, "learning_rate": 9.917525374361912e-05, "loss": 0.0807, "step": 1050 }, { "epoch": 2.2083333333333335, "grad_norm": 0.3240273892879486, "learning_rate": 9.914507686137019e-05, "loss": 0.0901, "step": 1060 }, { "epoch": 2.2291666666666665, "grad_norm": 0.2937006950378418, "learning_rate": 9.911436253643445e-05, "loss": 0.0929, "step": 1070 }, { "epoch": 2.25, "grad_norm": 0.19473260641098022, "learning_rate": 9.90831111046988e-05, "loss": 0.0877, "step": 1080 }, { "epoch": 2.2708333333333335, "grad_norm": 0.23158523440361023, "learning_rate": 9.905132290792394e-05, "loss": 0.0785, "step": 1090 }, { "epoch": 2.2916666666666665, "grad_norm": 0.39173424243927, "learning_rate": 9.901899829374047e-05, "loss": 0.0799, "step": 1100 }, { "epoch": 2.3125, "grad_norm": 0.2652515172958374, "learning_rate": 9.89861376156452e-05, "loss": 0.0873, "step": 1110 }, { "epoch": 2.3333333333333335, "grad_norm": 0.2860721945762634, "learning_rate": 9.895274123299723e-05, "loss": 0.085, "step": 1120 }, { "epoch": 2.3541666666666665, "grad_norm": 0.2780362367630005, "learning_rate": 9.891880951101407e-05, "loss": 0.0888, "step": 1130 }, { "epoch": 2.375, "grad_norm": 0.16782543063163757, "learning_rate": 9.888434282076758e-05, "loss": 0.0838, "step": 1140 }, { "epoch": 2.3958333333333335, "grad_norm": 0.2574249505996704, "learning_rate": 9.884934153917997e-05, "loss": 0.0911, "step": 1150 }, { "epoch": 2.4166666666666665, "grad_norm": 0.43154850602149963, "learning_rate": 9.881380604901964e-05, "loss": 0.0853, "step": 1160 }, { "epoch": 2.4375, "grad_norm": 0.36470529437065125, "learning_rate": 9.877773673889701e-05, "loss": 0.0795, "step": 1170 }, { "epoch": 2.4583333333333335, "grad_norm": 0.37350448966026306, "learning_rate": 9.87411340032603e-05, "loss": 0.0826, "step": 1180 }, { "epoch": 2.4791666666666665, "grad_norm": 0.21771150827407837, "learning_rate": 9.870399824239117e-05, "loss": 0.0769, "step": 1190 }, { "epoch": 2.5, "grad_norm": 0.30865246057510376, "learning_rate": 9.86663298624003e-05, "loss": 0.0835, "step": 1200 }, { "epoch": 2.5208333333333335, "grad_norm": 0.252465158700943, "learning_rate": 9.862812927522309e-05, "loss": 0.0857, "step": 1210 }, { "epoch": 2.5416666666666665, "grad_norm": 0.2315169870853424, "learning_rate": 9.858939689861506e-05, "loss": 0.0777, "step": 1220 }, { "epoch": 2.5625, "grad_norm": 0.31083425879478455, "learning_rate": 9.855013315614725e-05, "loss": 0.0957, "step": 1230 }, { "epoch": 2.5833333333333335, "grad_norm": 0.2780759036540985, "learning_rate": 9.851033847720166e-05, "loss": 0.077, "step": 1240 }, { "epoch": 2.6041666666666665, "grad_norm": 0.20363084971904755, "learning_rate": 9.847001329696653e-05, "loss": 0.0836, "step": 1250 }, { "epoch": 2.625, "grad_norm": 0.2512096166610718, "learning_rate": 9.842915805643155e-05, "loss": 0.0735, "step": 1260 }, { "epoch": 2.6458333333333335, "grad_norm": 0.23748940229415894, "learning_rate": 9.838777320238312e-05, "loss": 0.0825, "step": 1270 }, { "epoch": 2.6666666666666665, "grad_norm": 0.253743439912796, "learning_rate": 9.834585918739936e-05, "loss": 0.0807, "step": 1280 }, { "epoch": 2.6875, "grad_norm": 0.28816473484039307, "learning_rate": 9.830341646984521e-05, "loss": 0.0879, "step": 1290 }, { "epoch": 2.7083333333333335, "grad_norm": 0.19456538558006287, "learning_rate": 9.826044551386744e-05, "loss": 0.0757, "step": 1300 }, { "epoch": 2.7291666666666665, "grad_norm": 0.3038620054721832, "learning_rate": 9.821694678938953e-05, "loss": 0.079, "step": 1310 }, { "epoch": 2.75, "grad_norm": 0.2352106273174286, "learning_rate": 9.817292077210659e-05, "loss": 0.0823, "step": 1320 }, { "epoch": 2.7708333333333335, "grad_norm": 0.26719608902931213, "learning_rate": 9.812836794348004e-05, "loss": 0.0714, "step": 1330 }, { "epoch": 2.7916666666666665, "grad_norm": 0.34651756286621094, "learning_rate": 9.808328879073251e-05, "loss": 0.0777, "step": 1340 }, { "epoch": 2.8125, "grad_norm": 0.4574543237686157, "learning_rate": 9.803768380684242e-05, "loss": 0.0782, "step": 1350 }, { "epoch": 2.8333333333333335, "grad_norm": 0.3922979533672333, "learning_rate": 9.799155349053851e-05, "loss": 0.0743, "step": 1360 }, { "epoch": 2.8541666666666665, "grad_norm": 0.5270682573318481, "learning_rate": 9.794489834629455e-05, "loss": 0.0792, "step": 1370 }, { "epoch": 2.875, "grad_norm": 0.32153066992759705, "learning_rate": 9.789771888432375e-05, "loss": 0.0807, "step": 1380 }, { "epoch": 2.8958333333333335, "grad_norm": 0.22497066855430603, "learning_rate": 9.785001562057309e-05, "loss": 0.0725, "step": 1390 }, { "epoch": 2.9166666666666665, "grad_norm": 0.34180617332458496, "learning_rate": 9.780178907671789e-05, "loss": 0.0743, "step": 1400 }, { "epoch": 2.9375, "grad_norm": 0.31628838181495667, "learning_rate": 9.775303978015585e-05, "loss": 0.072, "step": 1410 }, { "epoch": 2.9583333333333335, "grad_norm": 0.2934205234050751, "learning_rate": 9.77037682640015e-05, "loss": 0.0808, "step": 1420 }, { "epoch": 2.9791666666666665, "grad_norm": 0.41258537769317627, "learning_rate": 9.765397506708023e-05, "loss": 0.0713, "step": 1430 }, { "epoch": 3.0, "grad_norm": 0.40045008063316345, "learning_rate": 9.760366073392246e-05, "loss": 0.0684, "step": 1440 }, { "epoch": 3.0208333333333335, "grad_norm": 0.26449063420295715, "learning_rate": 9.755282581475769e-05, "loss": 0.0801, "step": 1450 }, { "epoch": 3.0416666666666665, "grad_norm": 0.37949052453041077, "learning_rate": 9.750147086550844e-05, "loss": 0.0738, "step": 1460 }, { "epoch": 3.0625, "grad_norm": 0.3161103129386902, "learning_rate": 9.744959644778422e-05, "loss": 0.072, "step": 1470 }, { "epoch": 3.0833333333333335, "grad_norm": 0.20324279367923737, "learning_rate": 9.739720312887535e-05, "loss": 0.08, "step": 1480 }, { "epoch": 3.1041666666666665, "grad_norm": 0.29232558608055115, "learning_rate": 9.734429148174675e-05, "loss": 0.0644, "step": 1490 }, { "epoch": 3.125, "grad_norm": 0.28713753819465637, "learning_rate": 9.729086208503174e-05, "loss": 0.0859, "step": 1500 }, { "epoch": 3.1458333333333335, "grad_norm": 0.25465258955955505, "learning_rate": 9.723691552302562e-05, "loss": 0.078, "step": 1510 }, { "epoch": 3.1666666666666665, "grad_norm": 0.20603123307228088, "learning_rate": 9.718245238567939e-05, "loss": 0.0731, "step": 1520 }, { "epoch": 3.1875, "grad_norm": 0.3969944417476654, "learning_rate": 9.712747326859315e-05, "loss": 0.0797, "step": 1530 }, { "epoch": 3.2083333333333335, "grad_norm": 0.29579344391822815, "learning_rate": 9.707197877300974e-05, "loss": 0.082, "step": 1540 }, { "epoch": 3.2291666666666665, "grad_norm": 0.3256957232952118, "learning_rate": 9.701596950580806e-05, "loss": 0.0781, "step": 1550 }, { "epoch": 3.25, "grad_norm": 0.2633601725101471, "learning_rate": 9.695944607949649e-05, "loss": 0.065, "step": 1560 }, { "epoch": 3.2708333333333335, "grad_norm": 0.17696920037269592, "learning_rate": 9.690240911220618e-05, "loss": 0.075, "step": 1570 }, { "epoch": 3.2916666666666665, "grad_norm": 0.3057501018047333, "learning_rate": 9.684485922768422e-05, "loss": 0.0704, "step": 1580 }, { "epoch": 3.3125, "grad_norm": 0.25194841623306274, "learning_rate": 9.6786797055287e-05, "loss": 0.0736, "step": 1590 }, { "epoch": 3.3333333333333335, "grad_norm": 0.3173382878303528, "learning_rate": 9.672822322997305e-05, "loss": 0.0689, "step": 1600 }, { "epoch": 3.3541666666666665, "grad_norm": 0.22837477922439575, "learning_rate": 9.66691383922964e-05, "loss": 0.0753, "step": 1610 }, { "epoch": 3.375, "grad_norm": 0.26070430874824524, "learning_rate": 9.660954318839933e-05, "loss": 0.069, "step": 1620 }, { "epoch": 3.3958333333333335, "grad_norm": 0.29458069801330566, "learning_rate": 9.654943827000548e-05, "loss": 0.0716, "step": 1630 }, { "epoch": 3.4166666666666665, "grad_norm": 0.19707809388637543, "learning_rate": 9.648882429441257e-05, "loss": 0.0644, "step": 1640 }, { "epoch": 3.4375, "grad_norm": 0.33838847279548645, "learning_rate": 9.642770192448536e-05, "loss": 0.0759, "step": 1650 }, { "epoch": 3.4583333333333335, "grad_norm": 0.2788403034210205, "learning_rate": 9.636607182864827e-05, "loss": 0.0682, "step": 1660 }, { "epoch": 3.4791666666666665, "grad_norm": 0.22954313457012177, "learning_rate": 9.630393468087818e-05, "loss": 0.0645, "step": 1670 }, { "epoch": 3.5, "grad_norm": 0.24135327339172363, "learning_rate": 9.624129116069694e-05, "loss": 0.0744, "step": 1680 }, { "epoch": 3.5208333333333335, "grad_norm": 0.22705936431884766, "learning_rate": 9.617814195316411e-05, "loss": 0.0728, "step": 1690 }, { "epoch": 3.5416666666666665, "grad_norm": 0.2939307987689972, "learning_rate": 9.611448774886924e-05, "loss": 0.0646, "step": 1700 }, { "epoch": 3.5625, "grad_norm": 0.31456202268600464, "learning_rate": 9.605032924392457e-05, "loss": 0.0684, "step": 1710 }, { "epoch": 3.5833333333333335, "grad_norm": 0.23306606709957123, "learning_rate": 9.598566713995718e-05, "loss": 0.0704, "step": 1720 }, { "epoch": 3.6041666666666665, "grad_norm": 0.29421374201774597, "learning_rate": 9.59205021441015e-05, "loss": 0.0731, "step": 1730 }, { "epoch": 3.625, "grad_norm": 0.27085545659065247, "learning_rate": 9.58548349689915e-05, "loss": 0.0738, "step": 1740 }, { "epoch": 3.6458333333333335, "grad_norm": 0.3011757433414459, "learning_rate": 9.578866633275288e-05, "loss": 0.0699, "step": 1750 }, { "epoch": 3.6666666666666665, "grad_norm": 0.1997743397951126, "learning_rate": 9.572199695899522e-05, "loss": 0.075, "step": 1760 }, { "epoch": 3.6875, "grad_norm": 0.246592178940773, "learning_rate": 9.565482757680415e-05, "loss": 0.0705, "step": 1770 }, { "epoch": 3.7083333333333335, "grad_norm": 0.20437225699424744, "learning_rate": 9.558715892073323e-05, "loss": 0.0748, "step": 1780 }, { "epoch": 3.7291666666666665, "grad_norm": 0.3391262888908386, "learning_rate": 9.551899173079607e-05, "loss": 0.077, "step": 1790 }, { "epoch": 3.75, "grad_norm": 0.281211256980896, "learning_rate": 9.545032675245813e-05, "loss": 0.0705, "step": 1800 }, { "epoch": 3.7708333333333335, "grad_norm": 0.3593650758266449, "learning_rate": 9.538116473662861e-05, "loss": 0.0668, "step": 1810 }, { "epoch": 3.7916666666666665, "grad_norm": 0.1879791021347046, "learning_rate": 9.531150643965223e-05, "loss": 0.0676, "step": 1820 }, { "epoch": 3.8125, "grad_norm": 0.21219395101070404, "learning_rate": 9.524135262330098e-05, "loss": 0.0647, "step": 1830 }, { "epoch": 3.8333333333333335, "grad_norm": 0.3183116316795349, "learning_rate": 9.517070405476575e-05, "loss": 0.0634, "step": 1840 }, { "epoch": 3.8541666666666665, "grad_norm": 0.28682222962379456, "learning_rate": 9.509956150664796e-05, "loss": 0.0646, "step": 1850 }, { "epoch": 3.875, "grad_norm": 0.24012918770313263, "learning_rate": 9.502792575695112e-05, "loss": 0.0707, "step": 1860 }, { "epoch": 3.8958333333333335, "grad_norm": 0.30853742361068726, "learning_rate": 9.49557975890723e-05, "loss": 0.065, "step": 1870 }, { "epoch": 3.9166666666666665, "grad_norm": 0.195424884557724, "learning_rate": 9.488317779179361e-05, "loss": 0.0608, "step": 1880 }, { "epoch": 3.9375, "grad_norm": 0.21382686495780945, "learning_rate": 9.481006715927351e-05, "loss": 0.0624, "step": 1890 }, { "epoch": 3.9583333333333335, "grad_norm": 0.3102688789367676, "learning_rate": 9.473646649103818e-05, "loss": 0.0709, "step": 1900 }, { "epoch": 3.9791666666666665, "grad_norm": 0.2577802538871765, "learning_rate": 9.46623765919727e-05, "loss": 0.0727, "step": 1910 }, { "epoch": 4.0, "grad_norm": 0.3073917031288147, "learning_rate": 9.458779827231237e-05, "loss": 0.0702, "step": 1920 }, { "epoch": 4.020833333333333, "grad_norm": 0.26779404282569885, "learning_rate": 9.451273234763371e-05, "loss": 0.0659, "step": 1930 }, { "epoch": 4.041666666666667, "grad_norm": 0.24666723608970642, "learning_rate": 9.443717963884569e-05, "loss": 0.0741, "step": 1940 }, { "epoch": 4.0625, "grad_norm": 0.2598995864391327, "learning_rate": 9.43611409721806e-05, "loss": 0.0639, "step": 1950 }, { "epoch": 4.083333333333333, "grad_norm": 0.2048502266407013, "learning_rate": 9.428461717918511e-05, "loss": 0.058, "step": 1960 }, { "epoch": 4.104166666666667, "grad_norm": 0.30026310682296753, "learning_rate": 9.420760909671118e-05, "loss": 0.0644, "step": 1970 }, { "epoch": 4.125, "grad_norm": 0.2254793345928192, "learning_rate": 9.413011756690685e-05, "loss": 0.0695, "step": 1980 }, { "epoch": 4.145833333333333, "grad_norm": 0.2455112487077713, "learning_rate": 9.405214343720707e-05, "loss": 0.0712, "step": 1990 }, { "epoch": 4.166666666666667, "grad_norm": 0.24452751874923706, "learning_rate": 9.397368756032445e-05, "loss": 0.0575, "step": 2000 }, { "epoch": 4.1875, "grad_norm": 0.271490216255188, "learning_rate": 9.389475079423988e-05, "loss": 0.0576, "step": 2010 }, { "epoch": 4.208333333333333, "grad_norm": 0.20718179643154144, "learning_rate": 9.381533400219318e-05, "loss": 0.0598, "step": 2020 }, { "epoch": 4.229166666666667, "grad_norm": 0.26649123430252075, "learning_rate": 9.373543805267368e-05, "loss": 0.0675, "step": 2030 }, { "epoch": 4.25, "grad_norm": 0.2887789309024811, "learning_rate": 9.365506381941066e-05, "loss": 0.0697, "step": 2040 }, { "epoch": 4.270833333333333, "grad_norm": 0.379747599363327, "learning_rate": 9.357421218136386e-05, "loss": 0.0671, "step": 2050 }, { "epoch": 4.291666666666667, "grad_norm": 0.24359039962291718, "learning_rate": 9.349288402271388e-05, "loss": 0.0634, "step": 2060 }, { "epoch": 4.3125, "grad_norm": 0.26673591136932373, "learning_rate": 9.341108023285238e-05, "loss": 0.0631, "step": 2070 }, { "epoch": 4.333333333333333, "grad_norm": 0.2317454218864441, "learning_rate": 9.332880170637252e-05, "loss": 0.0631, "step": 2080 }, { "epoch": 4.354166666666667, "grad_norm": 0.3269646465778351, "learning_rate": 9.32460493430591e-05, "loss": 0.0558, "step": 2090 }, { "epoch": 4.375, "grad_norm": 0.22670741379261017, "learning_rate": 9.316282404787871e-05, "loss": 0.059, "step": 2100 }, { "epoch": 4.395833333333333, "grad_norm": 0.27039453387260437, "learning_rate": 9.30791267309698e-05, "loss": 0.0542, "step": 2110 }, { "epoch": 4.416666666666667, "grad_norm": 0.3565439283847809, "learning_rate": 9.299495830763286e-05, "loss": 0.0618, "step": 2120 }, { "epoch": 4.4375, "grad_norm": 0.22678254544734955, "learning_rate": 9.291031969832026e-05, "loss": 0.0633, "step": 2130 }, { "epoch": 4.458333333333333, "grad_norm": 0.2625988721847534, "learning_rate": 9.282521182862629e-05, "loss": 0.0615, "step": 2140 }, { "epoch": 4.479166666666667, "grad_norm": 0.30497926473617554, "learning_rate": 9.273963562927695e-05, "loss": 0.0778, "step": 2150 }, { "epoch": 4.5, "grad_norm": 0.22760331630706787, "learning_rate": 9.265359203611987e-05, "loss": 0.0575, "step": 2160 }, { "epoch": 4.520833333333333, "grad_norm": 0.2656308710575104, "learning_rate": 9.256708199011401e-05, "loss": 0.0638, "step": 2170 }, { "epoch": 4.541666666666667, "grad_norm": 0.2067960649728775, "learning_rate": 9.248010643731935e-05, "loss": 0.0562, "step": 2180 }, { "epoch": 4.5625, "grad_norm": 0.21887032687664032, "learning_rate": 9.239266632888659e-05, "loss": 0.0657, "step": 2190 }, { "epoch": 4.583333333333333, "grad_norm": 0.305982768535614, "learning_rate": 9.230476262104677e-05, "loss": 0.0634, "step": 2200 }, { "epoch": 4.604166666666667, "grad_norm": 0.25816601514816284, "learning_rate": 9.221639627510076e-05, "loss": 0.0559, "step": 2210 }, { "epoch": 4.625, "grad_norm": 0.3034866452217102, "learning_rate": 9.212756825740873e-05, "loss": 0.0629, "step": 2220 }, { "epoch": 4.645833333333333, "grad_norm": 0.225479394197464, "learning_rate": 9.20382795393797e-05, "loss": 0.0601, "step": 2230 }, { "epoch": 4.666666666666667, "grad_norm": 0.3092559576034546, "learning_rate": 9.194853109746074e-05, "loss": 0.0588, "step": 2240 }, { "epoch": 4.6875, "grad_norm": 0.25218334794044495, "learning_rate": 9.185832391312644e-05, "loss": 0.0624, "step": 2250 }, { "epoch": 4.708333333333333, "grad_norm": 0.2973797917366028, "learning_rate": 9.176765897286813e-05, "loss": 0.0601, "step": 2260 }, { "epoch": 4.729166666666667, "grad_norm": 0.2519341707229614, "learning_rate": 9.167653726818305e-05, "loss": 0.0564, "step": 2270 }, { "epoch": 4.75, "grad_norm": 0.2949662208557129, "learning_rate": 9.158495979556358e-05, "loss": 0.0687, "step": 2280 }, { "epoch": 4.770833333333333, "grad_norm": 0.17965540289878845, "learning_rate": 9.14929275564863e-05, "loss": 0.0641, "step": 2290 }, { "epoch": 4.791666666666667, "grad_norm": 0.23875364661216736, "learning_rate": 9.140044155740101e-05, "loss": 0.0524, "step": 2300 }, { "epoch": 4.8125, "grad_norm": 0.28078049421310425, "learning_rate": 9.130750280971978e-05, "loss": 0.0662, "step": 2310 }, { "epoch": 4.833333333333333, "grad_norm": 0.25002536177635193, "learning_rate": 9.121411232980588e-05, "loss": 0.0521, "step": 2320 }, { "epoch": 4.854166666666667, "grad_norm": 0.19856375455856323, "learning_rate": 9.112027113896262e-05, "loss": 0.0662, "step": 2330 }, { "epoch": 4.875, "grad_norm": 0.20989863574504852, "learning_rate": 9.102598026342222e-05, "loss": 0.0642, "step": 2340 }, { "epoch": 4.895833333333333, "grad_norm": 0.2387610673904419, "learning_rate": 9.093124073433463e-05, "loss": 0.063, "step": 2350 }, { "epoch": 4.916666666666667, "grad_norm": 0.32933273911476135, "learning_rate": 9.083605358775612e-05, "loss": 0.0627, "step": 2360 }, { "epoch": 4.9375, "grad_norm": 0.38782161474227905, "learning_rate": 9.074041986463808e-05, "loss": 0.0613, "step": 2370 }, { "epoch": 4.958333333333333, "grad_norm": 0.20130065083503723, "learning_rate": 9.064434061081562e-05, "loss": 0.054, "step": 2380 }, { "epoch": 4.979166666666667, "grad_norm": 0.17160147428512573, "learning_rate": 9.0547816876996e-05, "loss": 0.0654, "step": 2390 }, { "epoch": 5.0, "grad_norm": 0.35171496868133545, "learning_rate": 9.045084971874738e-05, "loss": 0.0658, "step": 2400 }, { "epoch": 5.020833333333333, "grad_norm": 0.16831085085868835, "learning_rate": 9.035344019648702e-05, "loss": 0.0508, "step": 2410 }, { "epoch": 5.041666666666667, "grad_norm": 0.17995953559875488, "learning_rate": 9.025558937546988e-05, "loss": 0.0571, "step": 2420 }, { "epoch": 5.0625, "grad_norm": 0.19575315713882446, "learning_rate": 9.015729832577681e-05, "loss": 0.0596, "step": 2430 }, { "epoch": 5.083333333333333, "grad_norm": 0.1493072807788849, "learning_rate": 9.005856812230304e-05, "loss": 0.0541, "step": 2440 }, { "epoch": 5.104166666666667, "grad_norm": 0.22525647282600403, "learning_rate": 8.995939984474624e-05, "loss": 0.0572, "step": 2450 }, { "epoch": 5.125, "grad_norm": 0.3696461319923401, "learning_rate": 8.98597945775948e-05, "loss": 0.0571, "step": 2460 }, { "epoch": 5.145833333333333, "grad_norm": 0.2887597978115082, "learning_rate": 8.975975341011596e-05, "loss": 0.0518, "step": 2470 }, { "epoch": 5.166666666666667, "grad_norm": 0.20684699714183807, "learning_rate": 8.965927743634391e-05, "loss": 0.059, "step": 2480 }, { "epoch": 5.1875, "grad_norm": 0.31182733178138733, "learning_rate": 8.955836775506776e-05, "loss": 0.0516, "step": 2490 }, { "epoch": 5.208333333333333, "grad_norm": 0.2731056809425354, "learning_rate": 8.945702546981969e-05, "loss": 0.057, "step": 2500 }, { "epoch": 5.229166666666667, "grad_norm": 0.36009490489959717, "learning_rate": 8.935525168886262e-05, "loss": 0.056, "step": 2510 }, { "epoch": 5.25, "grad_norm": 0.3038497865200043, "learning_rate": 8.92530475251784e-05, "loss": 0.0543, "step": 2520 }, { "epoch": 5.270833333333333, "grad_norm": 0.1461966633796692, "learning_rate": 8.91504140964553e-05, "loss": 0.0566, "step": 2530 }, { "epoch": 5.291666666666667, "grad_norm": 0.22562798857688904, "learning_rate": 8.90473525250761e-05, "loss": 0.0608, "step": 2540 }, { "epoch": 5.3125, "grad_norm": 0.30006659030914307, "learning_rate": 8.894386393810563e-05, "loss": 0.0675, "step": 2550 }, { "epoch": 5.333333333333333, "grad_norm": 0.16184063255786896, "learning_rate": 8.883994946727849e-05, "loss": 0.0553, "step": 2560 }, { "epoch": 5.354166666666667, "grad_norm": 0.2308872491121292, "learning_rate": 8.873561024898668e-05, "loss": 0.0566, "step": 2570 }, { "epoch": 5.375, "grad_norm": 0.33821049332618713, "learning_rate": 8.863084742426719e-05, "loss": 0.0562, "step": 2580 }, { "epoch": 5.395833333333333, "grad_norm": 0.29942095279693604, "learning_rate": 8.852566213878947e-05, "loss": 0.0658, "step": 2590 }, { "epoch": 5.416666666666667, "grad_norm": 0.1915530562400818, "learning_rate": 8.842005554284296e-05, "loss": 0.0549, "step": 2600 }, { "epoch": 5.4375, "grad_norm": 0.257016122341156, "learning_rate": 8.831402879132446e-05, "loss": 0.0571, "step": 2610 }, { "epoch": 5.458333333333333, "grad_norm": 0.2739509642124176, "learning_rate": 8.820758304372557e-05, "loss": 0.0559, "step": 2620 }, { "epoch": 5.479166666666667, "grad_norm": 0.3152376711368561, "learning_rate": 8.810071946411989e-05, "loss": 0.0486, "step": 2630 }, { "epoch": 5.5, "grad_norm": 0.23179279267787933, "learning_rate": 8.799343922115044e-05, "loss": 0.0502, "step": 2640 }, { "epoch": 5.520833333333333, "grad_norm": 0.25594186782836914, "learning_rate": 8.788574348801675e-05, "loss": 0.057, "step": 2650 }, { "epoch": 5.541666666666667, "grad_norm": 0.2627776861190796, "learning_rate": 8.77776334424621e-05, "loss": 0.0669, "step": 2660 }, { "epoch": 5.5625, "grad_norm": 0.1960115134716034, "learning_rate": 8.766911026676064e-05, "loss": 0.0613, "step": 2670 }, { "epoch": 5.583333333333333, "grad_norm": 0.17280827462673187, "learning_rate": 8.756017514770443e-05, "loss": 0.0598, "step": 2680 }, { "epoch": 5.604166666666667, "grad_norm": 0.27976927161216736, "learning_rate": 8.745082927659047e-05, "loss": 0.0477, "step": 2690 }, { "epoch": 5.625, "grad_norm": 0.20411022007465363, "learning_rate": 8.73410738492077e-05, "loss": 0.0644, "step": 2700 }, { "epoch": 5.645833333333333, "grad_norm": 0.2056054323911667, "learning_rate": 8.723091006582389e-05, "loss": 0.0558, "step": 2710 }, { "epoch": 5.666666666666667, "grad_norm": 0.1785743236541748, "learning_rate": 8.71203391311725e-05, "loss": 0.0596, "step": 2720 }, { "epoch": 5.6875, "grad_norm": 0.162923201918602, "learning_rate": 8.700936225443959e-05, "loss": 0.0537, "step": 2730 }, { "epoch": 5.708333333333333, "grad_norm": 0.31077900528907776, "learning_rate": 8.689798064925049e-05, "loss": 0.061, "step": 2740 }, { "epoch": 5.729166666666667, "grad_norm": 0.19991479814052582, "learning_rate": 8.678619553365659e-05, "loss": 0.0497, "step": 2750 }, { "epoch": 5.75, "grad_norm": 0.2934041917324066, "learning_rate": 8.6674008130122e-05, "loss": 0.0578, "step": 2760 }, { "epoch": 5.770833333333333, "grad_norm": 0.19904303550720215, "learning_rate": 8.656141966551019e-05, "loss": 0.0568, "step": 2770 }, { "epoch": 5.791666666666667, "grad_norm": 0.2990000247955322, "learning_rate": 8.644843137107059e-05, "loss": 0.0526, "step": 2780 }, { "epoch": 5.8125, "grad_norm": 0.15075786411762238, "learning_rate": 8.633504448242505e-05, "loss": 0.0515, "step": 2790 }, { "epoch": 5.833333333333333, "grad_norm": 0.21086309850215912, "learning_rate": 8.622126023955446e-05, "loss": 0.0533, "step": 2800 }, { "epoch": 5.854166666666667, "grad_norm": 0.2507677972316742, "learning_rate": 8.610707988678503e-05, "loss": 0.0542, "step": 2810 }, { "epoch": 5.875, "grad_norm": 0.16625888645648956, "learning_rate": 8.599250467277483e-05, "loss": 0.0533, "step": 2820 }, { "epoch": 5.895833333333333, "grad_norm": 0.24702179431915283, "learning_rate": 8.587753585050004e-05, "loss": 0.0534, "step": 2830 }, { "epoch": 5.916666666666667, "grad_norm": 0.20405326783657074, "learning_rate": 8.576217467724128e-05, "loss": 0.0564, "step": 2840 }, { "epoch": 5.9375, "grad_norm": 0.22098389267921448, "learning_rate": 8.564642241456986e-05, "loss": 0.0589, "step": 2850 }, { "epoch": 5.958333333333333, "grad_norm": 0.2992077171802521, "learning_rate": 8.553028032833397e-05, "loss": 0.051, "step": 2860 }, { "epoch": 5.979166666666667, "grad_norm": 0.22971950471401215, "learning_rate": 8.541374968864487e-05, "loss": 0.05, "step": 2870 }, { "epoch": 6.0, "grad_norm": 0.19986356794834137, "learning_rate": 8.529683176986295e-05, "loss": 0.0488, "step": 2880 }, { "epoch": 6.020833333333333, "grad_norm": 0.18404853343963623, "learning_rate": 8.517952785058385e-05, "loss": 0.0496, "step": 2890 }, { "epoch": 6.041666666666667, "grad_norm": 0.22865642607212067, "learning_rate": 8.506183921362443e-05, "loss": 0.0551, "step": 2900 }, { "epoch": 6.0625, "grad_norm": 0.33640816807746887, "learning_rate": 8.494376714600878e-05, "loss": 0.0631, "step": 2910 }, { "epoch": 6.083333333333333, "grad_norm": 0.27387309074401855, "learning_rate": 8.482531293895412e-05, "loss": 0.0478, "step": 2920 }, { "epoch": 6.104166666666667, "grad_norm": 0.27359068393707275, "learning_rate": 8.470647788785665e-05, "loss": 0.0502, "step": 2930 }, { "epoch": 6.125, "grad_norm": 0.2842683494091034, "learning_rate": 8.458726329227747e-05, "loss": 0.057, "step": 2940 }, { "epoch": 6.145833333333333, "grad_norm": 0.26530441641807556, "learning_rate": 8.44676704559283e-05, "loss": 0.0507, "step": 2950 }, { "epoch": 6.166666666666667, "grad_norm": 0.2461036890745163, "learning_rate": 8.434770068665723e-05, "loss": 0.06, "step": 2960 }, { "epoch": 6.1875, "grad_norm": 0.15848632156848907, "learning_rate": 8.422735529643444e-05, "loss": 0.0528, "step": 2970 }, { "epoch": 6.208333333333333, "grad_norm": 0.31197741627693176, "learning_rate": 8.410663560133784e-05, "loss": 0.0585, "step": 2980 }, { "epoch": 6.229166666666667, "grad_norm": 0.24464961886405945, "learning_rate": 8.398554292153866e-05, "loss": 0.0519, "step": 2990 }, { "epoch": 6.25, "grad_norm": 0.2479836791753769, "learning_rate": 8.386407858128706e-05, "loss": 0.054, "step": 3000 }, { "epoch": 6.270833333333333, "grad_norm": 0.2722799777984619, "learning_rate": 8.37422439088976e-05, "loss": 0.0556, "step": 3010 }, { "epoch": 6.291666666666667, "grad_norm": 0.21395736932754517, "learning_rate": 8.362004023673474e-05, "loss": 0.0623, "step": 3020 }, { "epoch": 6.3125, "grad_norm": 0.18791121244430542, "learning_rate": 8.349746890119826e-05, "loss": 0.0498, "step": 3030 }, { "epoch": 6.333333333333333, "grad_norm": 0.19878436625003815, "learning_rate": 8.337453124270863e-05, "loss": 0.051, "step": 3040 }, { "epoch": 6.354166666666667, "grad_norm": 0.20424553751945496, "learning_rate": 8.32512286056924e-05, "loss": 0.0458, "step": 3050 }, { "epoch": 6.375, "grad_norm": 0.2852227985858917, "learning_rate": 8.31275623385675e-05, "loss": 0.0592, "step": 3060 }, { "epoch": 6.395833333333333, "grad_norm": 0.19160036742687225, "learning_rate": 8.300353379372834e-05, "loss": 0.0588, "step": 3070 }, { "epoch": 6.416666666666667, "grad_norm": 0.22774095833301544, "learning_rate": 8.287914432753123e-05, "loss": 0.0545, "step": 3080 }, { "epoch": 6.4375, "grad_norm": 0.38672950863838196, "learning_rate": 8.275439530027948e-05, "loss": 0.0556, "step": 3090 }, { "epoch": 6.458333333333333, "grad_norm": 0.28046780824661255, "learning_rate": 8.262928807620843e-05, "loss": 0.0587, "step": 3100 }, { "epoch": 6.479166666666667, "grad_norm": 0.2667509913444519, "learning_rate": 8.250382402347065e-05, "loss": 0.0588, "step": 3110 }, { "epoch": 6.5, "grad_norm": 0.33412522077560425, "learning_rate": 8.237800451412095e-05, "loss": 0.0599, "step": 3120 }, { "epoch": 6.520833333333333, "grad_norm": 0.1729501336812973, "learning_rate": 8.225183092410128e-05, "loss": 0.052, "step": 3130 }, { "epoch": 6.541666666666667, "grad_norm": 0.13118429481983185, "learning_rate": 8.212530463322583e-05, "loss": 0.0564, "step": 3140 }, { "epoch": 6.5625, "grad_norm": 0.19928762316703796, "learning_rate": 8.199842702516583e-05, "loss": 0.0551, "step": 3150 }, { "epoch": 6.583333333333333, "grad_norm": 0.1139163076877594, "learning_rate": 8.18711994874345e-05, "loss": 0.05, "step": 3160 }, { "epoch": 6.604166666666667, "grad_norm": 0.18016424775123596, "learning_rate": 8.174362341137177e-05, "loss": 0.0512, "step": 3170 }, { "epoch": 6.625, "grad_norm": 0.2455376386642456, "learning_rate": 8.161570019212921e-05, "loss": 0.0535, "step": 3180 }, { "epoch": 6.645833333333333, "grad_norm": 0.2456337809562683, "learning_rate": 8.148743122865463e-05, "loss": 0.0494, "step": 3190 }, { "epoch": 6.666666666666667, "grad_norm": 0.19081375002861023, "learning_rate": 8.135881792367686e-05, "loss": 0.0642, "step": 3200 }, { "epoch": 6.6875, "grad_norm": 0.18129488825798035, "learning_rate": 8.12298616836904e-05, "loss": 0.0581, "step": 3210 }, { "epoch": 6.708333333333333, "grad_norm": 0.21184127032756805, "learning_rate": 8.110056391894005e-05, "loss": 0.0504, "step": 3220 }, { "epoch": 6.729166666666667, "grad_norm": 0.42624956369400024, "learning_rate": 8.097092604340542e-05, "loss": 0.0566, "step": 3230 }, { "epoch": 6.75, "grad_norm": 0.13590912520885468, "learning_rate": 8.084094947478556e-05, "loss": 0.0448, "step": 3240 }, { "epoch": 6.770833333333333, "grad_norm": 0.26878491044044495, "learning_rate": 8.07106356344834e-05, "loss": 0.0486, "step": 3250 }, { "epoch": 6.791666666666667, "grad_norm": 0.2239430993795395, "learning_rate": 8.057998594759022e-05, "loss": 0.057, "step": 3260 }, { "epoch": 6.8125, "grad_norm": 0.26898056268692017, "learning_rate": 8.044900184287007e-05, "loss": 0.0515, "step": 3270 }, { "epoch": 6.833333333333333, "grad_norm": 0.2961832582950592, "learning_rate": 8.031768475274413e-05, "loss": 0.0499, "step": 3280 }, { "epoch": 6.854166666666667, "grad_norm": 0.32980307936668396, "learning_rate": 8.018603611327504e-05, "loss": 0.052, "step": 3290 }, { "epoch": 6.875, "grad_norm": 0.1965520977973938, "learning_rate": 8.005405736415126e-05, "loss": 0.0434, "step": 3300 }, { "epoch": 6.895833333333333, "grad_norm": 0.23696592450141907, "learning_rate": 7.992174994867123e-05, "loss": 0.0416, "step": 3310 }, { "epoch": 6.916666666666667, "grad_norm": 0.19276441633701324, "learning_rate": 7.978911531372765e-05, "loss": 0.0512, "step": 3320 }, { "epoch": 6.9375, "grad_norm": 0.347258985042572, "learning_rate": 7.965615490979163e-05, "loss": 0.0481, "step": 3330 }, { "epoch": 6.958333333333333, "grad_norm": 0.27975815534591675, "learning_rate": 7.952287019089685e-05, "loss": 0.0486, "step": 3340 }, { "epoch": 6.979166666666667, "grad_norm": 0.2909054458141327, "learning_rate": 7.938926261462366e-05, "loss": 0.0516, "step": 3350 }, { "epoch": 7.0, "grad_norm": 0.35416579246520996, "learning_rate": 7.925533364208309e-05, "loss": 0.052, "step": 3360 }, { "epoch": 7.020833333333333, "grad_norm": 0.23169547319412231, "learning_rate": 7.912108473790092e-05, "loss": 0.0572, "step": 3370 }, { "epoch": 7.041666666666667, "grad_norm": 0.15997090935707092, "learning_rate": 7.898651737020166e-05, "loss": 0.0484, "step": 3380 }, { "epoch": 7.0625, "grad_norm": 0.1840064525604248, "learning_rate": 7.88516330105925e-05, "loss": 0.0557, "step": 3390 }, { "epoch": 7.083333333333333, "grad_norm": 0.20743203163146973, "learning_rate": 7.871643313414718e-05, "loss": 0.0464, "step": 3400 }, { "epoch": 7.104166666666667, "grad_norm": 0.1931951940059662, "learning_rate": 7.858091921938988e-05, "loss": 0.0584, "step": 3410 }, { "epoch": 7.125, "grad_norm": 0.1620691567659378, "learning_rate": 7.844509274827907e-05, "loss": 0.0526, "step": 3420 }, { "epoch": 7.145833333333333, "grad_norm": 0.19966144859790802, "learning_rate": 7.830895520619128e-05, "loss": 0.0497, "step": 3430 }, { "epoch": 7.166666666666667, "grad_norm": 0.33056026697158813, "learning_rate": 7.817250808190483e-05, "loss": 0.0454, "step": 3440 }, { "epoch": 7.1875, "grad_norm": 0.17656965553760529, "learning_rate": 7.803575286758364e-05, "loss": 0.0479, "step": 3450 }, { "epoch": 7.208333333333333, "grad_norm": 0.2836000621318817, "learning_rate": 7.789869105876083e-05, "loss": 0.0528, "step": 3460 }, { "epoch": 7.229166666666667, "grad_norm": 0.26270195841789246, "learning_rate": 7.776132415432234e-05, "loss": 0.0486, "step": 3470 }, { "epoch": 7.25, "grad_norm": 0.22928914427757263, "learning_rate": 7.762365365649067e-05, "loss": 0.0441, "step": 3480 }, { "epoch": 7.270833333333333, "grad_norm": 0.2707754075527191, "learning_rate": 7.748568107080832e-05, "loss": 0.0509, "step": 3490 }, { "epoch": 7.291666666666667, "grad_norm": 0.24163918197155, "learning_rate": 7.734740790612136e-05, "loss": 0.058, "step": 3500 }, { "epoch": 7.3125, "grad_norm": 0.2887519598007202, "learning_rate": 7.720883567456298e-05, "loss": 0.0532, "step": 3510 }, { "epoch": 7.333333333333333, "grad_norm": 0.17884305119514465, "learning_rate": 7.70699658915369e-05, "loss": 0.0457, "step": 3520 }, { "epoch": 7.354166666666667, "grad_norm": 0.21325179934501648, "learning_rate": 7.693080007570084e-05, "loss": 0.0434, "step": 3530 }, { "epoch": 7.375, "grad_norm": 0.18805336952209473, "learning_rate": 7.679133974894983e-05, "loss": 0.0492, "step": 3540 }, { "epoch": 7.395833333333333, "grad_norm": 0.2082250714302063, "learning_rate": 7.66515864363997e-05, "loss": 0.054, "step": 3550 }, { "epoch": 7.416666666666667, "grad_norm": 0.23594920337200165, "learning_rate": 7.651154166637025e-05, "loss": 0.0519, "step": 3560 }, { "epoch": 7.4375, "grad_norm": 0.30293792486190796, "learning_rate": 7.637120697036866e-05, "loss": 0.0515, "step": 3570 }, { "epoch": 7.458333333333333, "grad_norm": 0.22353586554527283, "learning_rate": 7.623058388307269e-05, "loss": 0.0492, "step": 3580 }, { "epoch": 7.479166666666667, "grad_norm": 0.17080843448638916, "learning_rate": 7.608967394231387e-05, "loss": 0.0532, "step": 3590 }, { "epoch": 7.5, "grad_norm": 0.20430722832679749, "learning_rate": 7.594847868906076e-05, "loss": 0.046, "step": 3600 }, { "epoch": 7.520833333333333, "grad_norm": 0.2533716857433319, "learning_rate": 7.580699966740201e-05, "loss": 0.0506, "step": 3610 }, { "epoch": 7.541666666666667, "grad_norm": 0.27399206161499023, "learning_rate": 7.566523842452958e-05, "loss": 0.0506, "step": 3620 }, { "epoch": 7.5625, "grad_norm": 0.22438126802444458, "learning_rate": 7.552319651072164e-05, "loss": 0.051, "step": 3630 }, { "epoch": 7.583333333333333, "grad_norm": 0.12401247769594193, "learning_rate": 7.538087547932585e-05, "loss": 0.0482, "step": 3640 }, { "epoch": 7.604166666666667, "grad_norm": 0.17836348712444305, "learning_rate": 7.52382768867422e-05, "loss": 0.0479, "step": 3650 }, { "epoch": 7.625, "grad_norm": 0.1784362494945526, "learning_rate": 7.509540229240601e-05, "loss": 0.0472, "step": 3660 }, { "epoch": 7.645833333333333, "grad_norm": 0.2113669365644455, "learning_rate": 7.495225325877103e-05, "loss": 0.0494, "step": 3670 }, { "epoch": 7.666666666666667, "grad_norm": 0.21031108498573303, "learning_rate": 7.480883135129211e-05, "loss": 0.0462, "step": 3680 }, { "epoch": 7.6875, "grad_norm": 0.20441193878650665, "learning_rate": 7.466513813840825e-05, "loss": 0.0508, "step": 3690 }, { "epoch": 7.708333333333333, "grad_norm": 0.22074037790298462, "learning_rate": 7.452117519152542e-05, "loss": 0.05, "step": 3700 }, { "epoch": 7.729166666666667, "grad_norm": 0.2839852273464203, "learning_rate": 7.437694408499933e-05, "loss": 0.0501, "step": 3710 }, { "epoch": 7.75, "grad_norm": 0.2460620403289795, "learning_rate": 7.423244639611826e-05, "loss": 0.0527, "step": 3720 }, { "epoch": 7.770833333333333, "grad_norm": 0.2610677182674408, "learning_rate": 7.408768370508576e-05, "loss": 0.0451, "step": 3730 }, { "epoch": 7.791666666666667, "grad_norm": 0.21664959192276, "learning_rate": 7.394265759500348e-05, "loss": 0.051, "step": 3740 }, { "epoch": 7.8125, "grad_norm": 0.17678774893283844, "learning_rate": 7.379736965185368e-05, "loss": 0.0509, "step": 3750 }, { "epoch": 7.833333333333333, "grad_norm": 0.2611595690250397, "learning_rate": 7.365182146448205e-05, "loss": 0.0418, "step": 3760 }, { "epoch": 7.854166666666667, "grad_norm": 0.2205267995595932, "learning_rate": 7.350601462458024e-05, "loss": 0.0532, "step": 3770 }, { "epoch": 7.875, "grad_norm": 0.21233738958835602, "learning_rate": 7.335995072666848e-05, "loss": 0.0489, "step": 3780 }, { "epoch": 7.895833333333333, "grad_norm": 0.22973224520683289, "learning_rate": 7.32136313680782e-05, "loss": 0.045, "step": 3790 }, { "epoch": 7.916666666666667, "grad_norm": 0.2883082330226898, "learning_rate": 7.30670581489344e-05, "loss": 0.0447, "step": 3800 }, { "epoch": 7.9375, "grad_norm": 0.26208218932151794, "learning_rate": 7.292023267213835e-05, "loss": 0.047, "step": 3810 }, { "epoch": 7.958333333333333, "grad_norm": 0.21999841928482056, "learning_rate": 7.277315654334997e-05, "loss": 0.0507, "step": 3820 }, { "epoch": 7.979166666666667, "grad_norm": 0.3113929033279419, "learning_rate": 7.262583137097018e-05, "loss": 0.0505, "step": 3830 }, { "epoch": 8.0, "grad_norm": 0.30518674850463867, "learning_rate": 7.247825876612353e-05, "loss": 0.0479, "step": 3840 }, { "epoch": 8.020833333333334, "grad_norm": 0.18710266053676605, "learning_rate": 7.233044034264034e-05, "loss": 0.0483, "step": 3850 }, { "epoch": 8.041666666666666, "grad_norm": 0.26212358474731445, "learning_rate": 7.218237771703921e-05, "loss": 0.0517, "step": 3860 }, { "epoch": 8.0625, "grad_norm": 0.23527061939239502, "learning_rate": 7.203407250850928e-05, "loss": 0.0531, "step": 3870 }, { "epoch": 8.083333333333334, "grad_norm": 0.19504660367965698, "learning_rate": 7.188552633889259e-05, "loss": 0.0493, "step": 3880 }, { "epoch": 8.104166666666666, "grad_norm": 0.1593329906463623, "learning_rate": 7.173674083266624e-05, "loss": 0.0442, "step": 3890 }, { "epoch": 8.125, "grad_norm": 0.270129531621933, "learning_rate": 7.158771761692464e-05, "loss": 0.0538, "step": 3900 }, { "epoch": 8.145833333333334, "grad_norm": 0.22113825380802155, "learning_rate": 7.143845832136188e-05, "loss": 0.0518, "step": 3910 }, { "epoch": 8.166666666666666, "grad_norm": 0.25669917464256287, "learning_rate": 7.128896457825364e-05, "loss": 0.0468, "step": 3920 }, { "epoch": 8.1875, "grad_norm": 0.24919012188911438, "learning_rate": 7.113923802243957e-05, "loss": 0.0449, "step": 3930 }, { "epoch": 8.208333333333334, "grad_norm": 0.22066769003868103, "learning_rate": 7.09892802913053e-05, "loss": 0.0488, "step": 3940 }, { "epoch": 8.229166666666666, "grad_norm": 0.14869259297847748, "learning_rate": 7.083909302476453e-05, "loss": 0.0501, "step": 3950 }, { "epoch": 8.25, "grad_norm": 0.24340423941612244, "learning_rate": 7.068867786524116e-05, "loss": 0.0495, "step": 3960 }, { "epoch": 8.270833333333334, "grad_norm": 0.26488855481147766, "learning_rate": 7.053803645765128e-05, "loss": 0.0436, "step": 3970 }, { "epoch": 8.291666666666666, "grad_norm": 0.1781073361635208, "learning_rate": 7.038717044938519e-05, "loss": 0.0482, "step": 3980 }, { "epoch": 8.3125, "grad_norm": 0.21294355392456055, "learning_rate": 7.023608149028937e-05, "loss": 0.0436, "step": 3990 }, { "epoch": 8.333333333333334, "grad_norm": 0.26423192024230957, "learning_rate": 7.008477123264848e-05, "loss": 0.0489, "step": 4000 }, { "epoch": 8.354166666666666, "grad_norm": 0.31145504117012024, "learning_rate": 6.993324133116726e-05, "loss": 0.0474, "step": 4010 }, { "epoch": 8.375, "grad_norm": 0.18576444685459137, "learning_rate": 6.978149344295242e-05, "loss": 0.0456, "step": 4020 }, { "epoch": 8.395833333333334, "grad_norm": 0.1888401359319687, "learning_rate": 6.962952922749457e-05, "loss": 0.0479, "step": 4030 }, { "epoch": 8.416666666666666, "grad_norm": 0.20155051350593567, "learning_rate": 6.947735034665002e-05, "loss": 0.0492, "step": 4040 }, { "epoch": 8.4375, "grad_norm": 0.19216452538967133, "learning_rate": 6.932495846462261e-05, "loss": 0.0467, "step": 4050 }, { "epoch": 8.458333333333334, "grad_norm": 0.18663518130779266, "learning_rate": 6.917235524794558e-05, "loss": 0.0471, "step": 4060 }, { "epoch": 8.479166666666666, "grad_norm": 0.285762757062912, "learning_rate": 6.901954236546323e-05, "loss": 0.0526, "step": 4070 }, { "epoch": 8.5, "grad_norm": 0.12023583799600601, "learning_rate": 6.886652148831279e-05, "loss": 0.0418, "step": 4080 }, { "epoch": 8.520833333333334, "grad_norm": 0.2189977616071701, "learning_rate": 6.871329428990602e-05, "loss": 0.0482, "step": 4090 }, { "epoch": 8.541666666666666, "grad_norm": 0.259148508310318, "learning_rate": 6.855986244591104e-05, "loss": 0.0487, "step": 4100 }, { "epoch": 8.5625, "grad_norm": 0.3006899058818817, "learning_rate": 6.840622763423391e-05, "loss": 0.0462, "step": 4110 }, { "epoch": 8.583333333333334, "grad_norm": 0.17823457717895508, "learning_rate": 6.825239153500029e-05, "loss": 0.0446, "step": 4120 }, { "epoch": 8.604166666666666, "grad_norm": 0.2890760600566864, "learning_rate": 6.809835583053715e-05, "loss": 0.0483, "step": 4130 }, { "epoch": 8.625, "grad_norm": 0.2661435306072235, "learning_rate": 6.794412220535426e-05, "loss": 0.0451, "step": 4140 }, { "epoch": 8.645833333333334, "grad_norm": 0.20998653769493103, "learning_rate": 6.778969234612584e-05, "loss": 0.0508, "step": 4150 }, { "epoch": 8.666666666666666, "grad_norm": 0.23018722236156464, "learning_rate": 6.763506794167208e-05, "loss": 0.0383, "step": 4160 }, { "epoch": 8.6875, "grad_norm": 0.2272096574306488, "learning_rate": 6.748025068294067e-05, "loss": 0.0454, "step": 4170 }, { "epoch": 8.708333333333334, "grad_norm": 0.16684843599796295, "learning_rate": 6.732524226298841e-05, "loss": 0.0533, "step": 4180 }, { "epoch": 8.729166666666666, "grad_norm": 0.19425426423549652, "learning_rate": 6.71700443769625e-05, "loss": 0.0492, "step": 4190 }, { "epoch": 8.75, "grad_norm": 0.23464734852313995, "learning_rate": 6.701465872208216e-05, "loss": 0.0514, "step": 4200 }, { "epoch": 8.770833333333334, "grad_norm": 0.24427248537540436, "learning_rate": 6.685908699762002e-05, "loss": 0.0455, "step": 4210 }, { "epoch": 8.791666666666666, "grad_norm": 0.19908004999160767, "learning_rate": 6.670333090488356e-05, "loss": 0.0451, "step": 4220 }, { "epoch": 8.8125, "grad_norm": 0.1977444887161255, "learning_rate": 6.654739214719641e-05, "loss": 0.0444, "step": 4230 }, { "epoch": 8.833333333333334, "grad_norm": 0.1939217746257782, "learning_rate": 6.639127242987988e-05, "loss": 0.0472, "step": 4240 }, { "epoch": 8.854166666666666, "grad_norm": 0.23702214658260345, "learning_rate": 6.623497346023418e-05, "loss": 0.0479, "step": 4250 }, { "epoch": 8.875, "grad_norm": 0.24079830944538116, "learning_rate": 6.607849694751977e-05, "loss": 0.0516, "step": 4260 }, { "epoch": 8.895833333333334, "grad_norm": 0.14849868416786194, "learning_rate": 6.592184460293877e-05, "loss": 0.0429, "step": 4270 }, { "epoch": 8.916666666666666, "grad_norm": 0.14669269323349, "learning_rate": 6.576501813961609e-05, "loss": 0.0464, "step": 4280 }, { "epoch": 8.9375, "grad_norm": 0.1892845332622528, "learning_rate": 6.56080192725808e-05, "loss": 0.0448, "step": 4290 }, { "epoch": 8.958333333333334, "grad_norm": 0.2720951735973358, "learning_rate": 6.545084971874738e-05, "loss": 0.0469, "step": 4300 }, { "epoch": 8.979166666666666, "grad_norm": 0.42531394958496094, "learning_rate": 6.529351119689688e-05, "loss": 0.0421, "step": 4310 }, { "epoch": 9.0, "grad_norm": 0.263864666223526, "learning_rate": 6.513600542765817e-05, "loss": 0.0466, "step": 4320 }, { "epoch": 9.020833333333334, "grad_norm": 0.26266640424728394, "learning_rate": 6.497833413348909e-05, "loss": 0.0422, "step": 4330 }, { "epoch": 9.041666666666666, "grad_norm": 0.20382165908813477, "learning_rate": 6.48204990386577e-05, "loss": 0.0357, "step": 4340 }, { "epoch": 9.0625, "grad_norm": 0.23681896924972534, "learning_rate": 6.466250186922325e-05, "loss": 0.0485, "step": 4350 }, { "epoch": 9.083333333333334, "grad_norm": 0.24817602336406708, "learning_rate": 6.450434435301751e-05, "loss": 0.0406, "step": 4360 }, { "epoch": 9.104166666666666, "grad_norm": 0.2470203936100006, "learning_rate": 6.43460282196257e-05, "loss": 0.0455, "step": 4370 }, { "epoch": 9.125, "grad_norm": 0.16725751757621765, "learning_rate": 6.418755520036775e-05, "loss": 0.0418, "step": 4380 }, { "epoch": 9.145833333333334, "grad_norm": 0.17291924357414246, "learning_rate": 6.402892702827916e-05, "loss": 0.044, "step": 4390 }, { "epoch": 9.166666666666666, "grad_norm": 0.2706625163555145, "learning_rate": 6.387014543809223e-05, "loss": 0.0543, "step": 4400 }, { "epoch": 9.1875, "grad_norm": 0.2189723700284958, "learning_rate": 6.371121216621698e-05, "loss": 0.0487, "step": 4410 }, { "epoch": 9.208333333333334, "grad_norm": 0.23476912081241608, "learning_rate": 6.355212895072223e-05, "loss": 0.0484, "step": 4420 }, { "epoch": 9.229166666666666, "grad_norm": 0.18557274341583252, "learning_rate": 6.339289753131649e-05, "loss": 0.0459, "step": 4430 }, { "epoch": 9.25, "grad_norm": 0.20507971942424774, "learning_rate": 6.323351964932908e-05, "loss": 0.043, "step": 4440 }, { "epoch": 9.270833333333334, "grad_norm": 0.20149551331996918, "learning_rate": 6.307399704769099e-05, "loss": 0.0505, "step": 4450 }, { "epoch": 9.291666666666666, "grad_norm": 0.16381600499153137, "learning_rate": 6.291433147091583e-05, "loss": 0.0436, "step": 4460 }, { "epoch": 9.3125, "grad_norm": 0.24549932777881622, "learning_rate": 6.275452466508077e-05, "loss": 0.0438, "step": 4470 }, { "epoch": 9.333333333333334, "grad_norm": 0.15507693588733673, "learning_rate": 6.259457837780742e-05, "loss": 0.0433, "step": 4480 }, { "epoch": 9.354166666666666, "grad_norm": 0.199483722448349, "learning_rate": 6.243449435824276e-05, "loss": 0.041, "step": 4490 }, { "epoch": 9.375, "grad_norm": 0.17188148200511932, "learning_rate": 6.227427435703997e-05, "loss": 0.0504, "step": 4500 }, { "epoch": 9.395833333333334, "grad_norm": 0.23068276047706604, "learning_rate": 6.211392012633932e-05, "loss": 0.0464, "step": 4510 }, { "epoch": 9.416666666666666, "grad_norm": 0.21441690623760223, "learning_rate": 6.195343341974899e-05, "loss": 0.0484, "step": 4520 }, { "epoch": 9.4375, "grad_norm": 0.13120320439338684, "learning_rate": 6.179281599232591e-05, "loss": 0.0395, "step": 4530 }, { "epoch": 9.458333333333334, "grad_norm": 0.19601130485534668, "learning_rate": 6.163206960055651e-05, "loss": 0.0405, "step": 4540 }, { "epoch": 9.479166666666666, "grad_norm": 0.26348334550857544, "learning_rate": 6.147119600233758e-05, "loss": 0.0409, "step": 4550 }, { "epoch": 9.5, "grad_norm": 0.1722290962934494, "learning_rate": 6.131019695695702e-05, "loss": 0.0392, "step": 4560 }, { "epoch": 9.520833333333334, "grad_norm": 0.19188344478607178, "learning_rate": 6.11490742250746e-05, "loss": 0.0423, "step": 4570 }, { "epoch": 9.541666666666666, "grad_norm": 0.15979404747486115, "learning_rate": 6.0987829568702656e-05, "loss": 0.0416, "step": 4580 }, { "epoch": 9.5625, "grad_norm": 0.1957653909921646, "learning_rate": 6.0826464751186994e-05, "loss": 0.0457, "step": 4590 }, { "epoch": 9.583333333333334, "grad_norm": 0.1783294528722763, "learning_rate": 6.066498153718735e-05, "loss": 0.0449, "step": 4600 }, { "epoch": 9.604166666666666, "grad_norm": 0.28254982829093933, "learning_rate": 6.05033816926583e-05, "loss": 0.0446, "step": 4610 }, { "epoch": 9.625, "grad_norm": 0.29281267523765564, "learning_rate": 6.034166698482984e-05, "loss": 0.0395, "step": 4620 }, { "epoch": 9.645833333333334, "grad_norm": 0.18072371184825897, "learning_rate": 6.017983918218812e-05, "loss": 0.0481, "step": 4630 }, { "epoch": 9.666666666666666, "grad_norm": 0.18428587913513184, "learning_rate": 6.001790005445607e-05, "loss": 0.0402, "step": 4640 }, { "epoch": 9.6875, "grad_norm": 0.17016282677650452, "learning_rate": 5.985585137257401e-05, "loss": 0.0477, "step": 4650 }, { "epoch": 9.708333333333334, "grad_norm": 0.17313967645168304, "learning_rate": 5.969369490868042e-05, "loss": 0.0492, "step": 4660 }, { "epoch": 9.729166666666666, "grad_norm": 0.3263380229473114, "learning_rate": 5.953143243609235e-05, "loss": 0.0511, "step": 4670 }, { "epoch": 9.75, "grad_norm": 0.23494060337543488, "learning_rate": 5.9369065729286245e-05, "loss": 0.0441, "step": 4680 }, { "epoch": 9.770833333333334, "grad_norm": 0.17909765243530273, "learning_rate": 5.9206596563878357e-05, "loss": 0.0443, "step": 4690 }, { "epoch": 9.791666666666666, "grad_norm": 0.25222522020339966, "learning_rate": 5.90440267166055e-05, "loss": 0.0478, "step": 4700 }, { "epoch": 9.8125, "grad_norm": 0.23123560845851898, "learning_rate": 5.888135796530544e-05, "loss": 0.0417, "step": 4710 }, { "epoch": 9.833333333333334, "grad_norm": 0.2341155707836151, "learning_rate": 5.871859208889759e-05, "loss": 0.046, "step": 4720 }, { "epoch": 9.854166666666666, "grad_norm": 0.2579653859138489, "learning_rate": 5.85557308673635e-05, "loss": 0.0469, "step": 4730 }, { "epoch": 9.875, "grad_norm": 0.17647035419940948, "learning_rate": 5.8392776081727385e-05, "loss": 0.0403, "step": 4740 }, { "epoch": 9.895833333333334, "grad_norm": 0.1749514639377594, "learning_rate": 5.8229729514036705e-05, "loss": 0.0439, "step": 4750 }, { "epoch": 9.916666666666666, "grad_norm": 0.23397527635097504, "learning_rate": 5.8066592947342555e-05, "loss": 0.0437, "step": 4760 }, { "epoch": 9.9375, "grad_norm": 0.18928822875022888, "learning_rate": 5.7903368165680327e-05, "loss": 0.0443, "step": 4770 }, { "epoch": 9.958333333333334, "grad_norm": 0.1895478218793869, "learning_rate": 5.7740056954050084e-05, "loss": 0.0468, "step": 4780 }, { "epoch": 9.979166666666666, "grad_norm": 0.17620734870433807, "learning_rate": 5.757666109839702e-05, "loss": 0.0491, "step": 4790 }, { "epoch": 10.0, "grad_norm": 0.19584999978542328, "learning_rate": 5.74131823855921e-05, "loss": 0.0376, "step": 4800 }, { "epoch": 10.020833333333334, "grad_norm": 0.17567752301692963, "learning_rate": 5.72496226034123e-05, "loss": 0.046, "step": 4810 }, { "epoch": 10.041666666666666, "grad_norm": 0.2471524477005005, "learning_rate": 5.7085983540521216e-05, "loss": 0.0456, "step": 4820 }, { "epoch": 10.0625, "grad_norm": 0.22308869659900665, "learning_rate": 5.692226698644938e-05, "loss": 0.0456, "step": 4830 }, { "epoch": 10.083333333333334, "grad_norm": 0.28350821137428284, "learning_rate": 5.675847473157485e-05, "loss": 0.0515, "step": 4840 }, { "epoch": 10.104166666666666, "grad_norm": 0.19321610033512115, "learning_rate": 5.6594608567103456e-05, "loss": 0.0458, "step": 4850 }, { "epoch": 10.125, "grad_norm": 0.2354840636253357, "learning_rate": 5.6430670285049314e-05, "loss": 0.0395, "step": 4860 }, { "epoch": 10.145833333333334, "grad_norm": 0.2242346554994583, "learning_rate": 5.6266661678215216e-05, "loss": 0.0452, "step": 4870 }, { "epoch": 10.166666666666666, "grad_norm": 0.19859901070594788, "learning_rate": 5.6102584540173006e-05, "loss": 0.0427, "step": 4880 }, { "epoch": 10.1875, "grad_norm": 0.2990339696407318, "learning_rate": 5.5938440665244006e-05, "loss": 0.0443, "step": 4890 }, { "epoch": 10.208333333333334, "grad_norm": 0.17451122403144836, "learning_rate": 5.577423184847932e-05, "loss": 0.0464, "step": 4900 }, { "epoch": 10.229166666666666, "grad_norm": 0.27011385560035706, "learning_rate": 5.560995988564023e-05, "loss": 0.0432, "step": 4910 }, { "epoch": 10.25, "grad_norm": 0.20278741419315338, "learning_rate": 5.544562657317863e-05, "loss": 0.041, "step": 4920 }, { "epoch": 10.270833333333334, "grad_norm": 0.19786055386066437, "learning_rate": 5.52812337082173e-05, "loss": 0.0448, "step": 4930 }, { "epoch": 10.291666666666666, "grad_norm": 0.19475369155406952, "learning_rate": 5.511678308853026e-05, "loss": 0.0407, "step": 4940 }, { "epoch": 10.3125, "grad_norm": 0.18051603436470032, "learning_rate": 5.495227651252315e-05, "loss": 0.0402, "step": 4950 }, { "epoch": 10.333333333333334, "grad_norm": 0.2484702616930008, "learning_rate": 5.478771577921351e-05, "loss": 0.0438, "step": 4960 }, { "epoch": 10.354166666666666, "grad_norm": 0.22432544827461243, "learning_rate": 5.462310268821118e-05, "loss": 0.0461, "step": 4970 }, { "epoch": 10.375, "grad_norm": 0.18664902448654175, "learning_rate": 5.445843903969854e-05, "loss": 0.0488, "step": 4980 }, { "epoch": 10.395833333333334, "grad_norm": 0.15875597298145294, "learning_rate": 5.4293726634410855e-05, "loss": 0.0453, "step": 4990 }, { "epoch": 10.416666666666666, "grad_norm": 0.241317018866539, "learning_rate": 5.4128967273616625e-05, "loss": 0.0426, "step": 5000 }, { "epoch": 10.4375, "grad_norm": 0.25186699628829956, "learning_rate": 5.396416275909779e-05, "loss": 0.0422, "step": 5010 }, { "epoch": 10.458333333333334, "grad_norm": 0.210428386926651, "learning_rate": 5.379931489313016e-05, "loss": 0.0447, "step": 5020 }, { "epoch": 10.479166666666666, "grad_norm": 0.18129436671733856, "learning_rate": 5.363442547846356e-05, "loss": 0.0486, "step": 5030 }, { "epoch": 10.5, "grad_norm": 0.1484909951686859, "learning_rate": 5.3469496318302204e-05, "loss": 0.0379, "step": 5040 }, { "epoch": 10.520833333333334, "grad_norm": 0.20055051147937775, "learning_rate": 5.330452921628497e-05, "loss": 0.0458, "step": 5050 }, { "epoch": 10.541666666666666, "grad_norm": 0.1339893490076065, "learning_rate": 5.313952597646568e-05, "loss": 0.0393, "step": 5060 }, { "epoch": 10.5625, "grad_norm": 0.20396846532821655, "learning_rate": 5.297448840329329e-05, "loss": 0.0397, "step": 5070 }, { "epoch": 10.583333333333334, "grad_norm": 0.13719069957733154, "learning_rate": 5.280941830159227e-05, "loss": 0.0399, "step": 5080 }, { "epoch": 10.604166666666666, "grad_norm": 0.19255420565605164, "learning_rate": 5.264431747654284e-05, "loss": 0.0405, "step": 5090 }, { "epoch": 10.625, "grad_norm": 0.22163689136505127, "learning_rate": 5.247918773366112e-05, "loss": 0.0473, "step": 5100 }, { "epoch": 10.645833333333334, "grad_norm": 0.23657256364822388, "learning_rate": 5.231403087877955e-05, "loss": 0.0426, "step": 5110 }, { "epoch": 10.666666666666666, "grad_norm": 0.2585020363330841, "learning_rate": 5.214884871802703e-05, "loss": 0.0487, "step": 5120 }, { "epoch": 10.6875, "grad_norm": 0.17085853219032288, "learning_rate": 5.198364305780922e-05, "loss": 0.0407, "step": 5130 }, { "epoch": 10.708333333333334, "grad_norm": 0.1590132862329483, "learning_rate": 5.1818415704788725e-05, "loss": 0.0368, "step": 5140 }, { "epoch": 10.729166666666666, "grad_norm": 0.15811192989349365, "learning_rate": 5.165316846586541e-05, "loss": 0.0412, "step": 5150 }, { "epoch": 10.75, "grad_norm": 0.20628100633621216, "learning_rate": 5.148790314815663e-05, "loss": 0.0429, "step": 5160 }, { "epoch": 10.770833333333334, "grad_norm": 0.18603432178497314, "learning_rate": 5.132262155897739e-05, "loss": 0.0379, "step": 5170 }, { "epoch": 10.791666666666666, "grad_norm": 0.27321115136146545, "learning_rate": 5.1157325505820694e-05, "loss": 0.0395, "step": 5180 }, { "epoch": 10.8125, "grad_norm": 0.22894440591335297, "learning_rate": 5.0992016796337686e-05, "loss": 0.0424, "step": 5190 }, { "epoch": 10.833333333333334, "grad_norm": 0.12385181337594986, "learning_rate": 5.0826697238317935e-05, "loss": 0.0461, "step": 5200 }, { "epoch": 10.854166666666666, "grad_norm": 0.2319619506597519, "learning_rate": 5.066136863966963e-05, "loss": 0.043, "step": 5210 }, { "epoch": 10.875, "grad_norm": 0.28764697909355164, "learning_rate": 5.0496032808399815e-05, "loss": 0.0408, "step": 5220 }, { "epoch": 10.895833333333334, "grad_norm": 0.21275018155574799, "learning_rate": 5.033069155259471e-05, "loss": 0.044, "step": 5230 }, { "epoch": 10.916666666666666, "grad_norm": 0.22453029453754425, "learning_rate": 5.016534668039976e-05, "loss": 0.0399, "step": 5240 }, { "epoch": 10.9375, "grad_norm": 0.1953059583902359, "learning_rate": 5e-05, "loss": 0.0409, "step": 5250 }, { "epoch": 10.958333333333334, "grad_norm": 0.14878690242767334, "learning_rate": 4.9834653319600246e-05, "loss": 0.0398, "step": 5260 }, { "epoch": 10.979166666666666, "grad_norm": 0.2492102086544037, "learning_rate": 4.96693084474053e-05, "loss": 0.0499, "step": 5270 }, { "epoch": 11.0, "grad_norm": 0.3848576247692108, "learning_rate": 4.950396719160018e-05, "loss": 0.0419, "step": 5280 }, { "epoch": 11.020833333333334, "grad_norm": 0.18382327258586884, "learning_rate": 4.93386313603304e-05, "loss": 0.0432, "step": 5290 }, { "epoch": 11.041666666666666, "grad_norm": 0.25166767835617065, "learning_rate": 4.917330276168208e-05, "loss": 0.0411, "step": 5300 }, { "epoch": 11.0625, "grad_norm": 0.14504221081733704, "learning_rate": 4.9007983203662326e-05, "loss": 0.0386, "step": 5310 }, { "epoch": 11.083333333333334, "grad_norm": 0.15644173324108124, "learning_rate": 4.884267449417931e-05, "loss": 0.046, "step": 5320 }, { "epoch": 11.104166666666666, "grad_norm": 0.17497499287128448, "learning_rate": 4.867737844102261e-05, "loss": 0.0367, "step": 5330 }, { "epoch": 11.125, "grad_norm": 0.12207230180501938, "learning_rate": 4.851209685184338e-05, "loss": 0.041, "step": 5340 }, { "epoch": 11.145833333333334, "grad_norm": 0.19345144927501678, "learning_rate": 4.834683153413459e-05, "loss": 0.0407, "step": 5350 }, { "epoch": 11.166666666666666, "grad_norm": 0.1600380539894104, "learning_rate": 4.818158429521129e-05, "loss": 0.043, "step": 5360 }, { "epoch": 11.1875, "grad_norm": 0.20394577085971832, "learning_rate": 4.801635694219079e-05, "loss": 0.0428, "step": 5370 }, { "epoch": 11.208333333333334, "grad_norm": 0.21752101182937622, "learning_rate": 4.785115128197298e-05, "loss": 0.0413, "step": 5380 }, { "epoch": 11.229166666666666, "grad_norm": 0.1963369995355606, "learning_rate": 4.7685969121220456e-05, "loss": 0.04, "step": 5390 }, { "epoch": 11.25, "grad_norm": 0.2457231879234314, "learning_rate": 4.7520812266338885e-05, "loss": 0.0394, "step": 5400 }, { "epoch": 11.270833333333334, "grad_norm": 0.26521575450897217, "learning_rate": 4.735568252345718e-05, "loss": 0.046, "step": 5410 }, { "epoch": 11.291666666666666, "grad_norm": 0.24490521848201752, "learning_rate": 4.7190581698407725e-05, "loss": 0.0389, "step": 5420 }, { "epoch": 11.3125, "grad_norm": 0.19071172177791595, "learning_rate": 4.702551159670672e-05, "loss": 0.0379, "step": 5430 }, { "epoch": 11.333333333333334, "grad_norm": 0.1720157265663147, "learning_rate": 4.6860474023534335e-05, "loss": 0.0358, "step": 5440 }, { "epoch": 11.354166666666666, "grad_norm": 0.1971021145582199, "learning_rate": 4.669547078371504e-05, "loss": 0.0425, "step": 5450 }, { "epoch": 11.375, "grad_norm": 0.16216221451759338, "learning_rate": 4.65305036816978e-05, "loss": 0.0398, "step": 5460 }, { "epoch": 11.395833333333334, "grad_norm": 0.3896409869194031, "learning_rate": 4.6365574521536445e-05, "loss": 0.0443, "step": 5470 }, { "epoch": 11.416666666666666, "grad_norm": 0.2199966162443161, "learning_rate": 4.620068510686985e-05, "loss": 0.0381, "step": 5480 }, { "epoch": 11.4375, "grad_norm": 0.1703164428472519, "learning_rate": 4.60358372409022e-05, "loss": 0.0388, "step": 5490 }, { "epoch": 11.458333333333334, "grad_norm": 0.1450280249118805, "learning_rate": 4.5871032726383386e-05, "loss": 0.035, "step": 5500 }, { "epoch": 11.479166666666666, "grad_norm": 0.2720458209514618, "learning_rate": 4.570627336558915e-05, "loss": 0.0386, "step": 5510 }, { "epoch": 11.5, "grad_norm": 0.1641550362110138, "learning_rate": 4.554156096030149e-05, "loss": 0.0427, "step": 5520 }, { "epoch": 11.520833333333334, "grad_norm": 0.22372999787330627, "learning_rate": 4.537689731178883e-05, "loss": 0.0379, "step": 5530 }, { "epoch": 11.541666666666666, "grad_norm": 0.2067866027355194, "learning_rate": 4.5212284220786494e-05, "loss": 0.0475, "step": 5540 }, { "epoch": 11.5625, "grad_norm": 0.1630556732416153, "learning_rate": 4.504772348747687e-05, "loss": 0.0429, "step": 5550 }, { "epoch": 11.583333333333334, "grad_norm": 0.16432788968086243, "learning_rate": 4.488321691146975e-05, "loss": 0.0393, "step": 5560 }, { "epoch": 11.604166666666666, "grad_norm": 0.17831680178642273, "learning_rate": 4.471876629178273e-05, "loss": 0.0366, "step": 5570 }, { "epoch": 11.625, "grad_norm": 0.2123539000749588, "learning_rate": 4.4554373426821374e-05, "loss": 0.0412, "step": 5580 }, { "epoch": 11.645833333333334, "grad_norm": 0.2609133720397949, "learning_rate": 4.439004011435979e-05, "loss": 0.0427, "step": 5590 }, { "epoch": 11.666666666666666, "grad_norm": 0.25508642196655273, "learning_rate": 4.4225768151520694e-05, "loss": 0.042, "step": 5600 }, { "epoch": 11.6875, "grad_norm": 0.21042585372924805, "learning_rate": 4.406155933475599e-05, "loss": 0.0436, "step": 5610 }, { "epoch": 11.708333333333334, "grad_norm": 0.18732571601867676, "learning_rate": 4.3897415459827e-05, "loss": 0.037, "step": 5620 }, { "epoch": 11.729166666666666, "grad_norm": 0.18312667310237885, "learning_rate": 4.373333832178478e-05, "loss": 0.0407, "step": 5630 }, { "epoch": 11.75, "grad_norm": 0.16135013103485107, "learning_rate": 4.3569329714950704e-05, "loss": 0.0354, "step": 5640 }, { "epoch": 11.770833333333334, "grad_norm": 0.13367682695388794, "learning_rate": 4.3405391432896555e-05, "loss": 0.044, "step": 5650 }, { "epoch": 11.791666666666666, "grad_norm": 0.18768717348575592, "learning_rate": 4.324152526842517e-05, "loss": 0.0369, "step": 5660 }, { "epoch": 11.8125, "grad_norm": 0.1540452241897583, "learning_rate": 4.307773301355062e-05, "loss": 0.0394, "step": 5670 }, { "epoch": 11.833333333333334, "grad_norm": 0.2887902855873108, "learning_rate": 4.291401645947879e-05, "loss": 0.0397, "step": 5680 }, { "epoch": 11.854166666666666, "grad_norm": 0.37716343998908997, "learning_rate": 4.275037739658771e-05, "loss": 0.0427, "step": 5690 }, { "epoch": 11.875, "grad_norm": 0.23013059794902802, "learning_rate": 4.2586817614407895e-05, "loss": 0.0429, "step": 5700 }, { "epoch": 11.895833333333334, "grad_norm": 0.1979239135980606, "learning_rate": 4.2423338901602985e-05, "loss": 0.0388, "step": 5710 }, { "epoch": 11.916666666666666, "grad_norm": 0.16653117537498474, "learning_rate": 4.2259943045949934e-05, "loss": 0.0492, "step": 5720 }, { "epoch": 11.9375, "grad_norm": 0.2162189930677414, "learning_rate": 4.209663183431969e-05, "loss": 0.0442, "step": 5730 }, { "epoch": 11.958333333333334, "grad_norm": 0.19394119083881378, "learning_rate": 4.1933407052657456e-05, "loss": 0.0431, "step": 5740 }, { "epoch": 11.979166666666666, "grad_norm": 0.25315889716148376, "learning_rate": 4.17702704859633e-05, "loss": 0.0399, "step": 5750 }, { "epoch": 12.0, "grad_norm": 0.33700859546661377, "learning_rate": 4.160722391827262e-05, "loss": 0.0408, "step": 5760 }, { "epoch": 12.020833333333334, "grad_norm": 0.20825780928134918, "learning_rate": 4.14442691326365e-05, "loss": 0.0395, "step": 5770 }, { "epoch": 12.041666666666666, "grad_norm": 0.1547510176897049, "learning_rate": 4.1281407911102425e-05, "loss": 0.0354, "step": 5780 }, { "epoch": 12.0625, "grad_norm": 0.18649132549762726, "learning_rate": 4.111864203469457e-05, "loss": 0.0397, "step": 5790 }, { "epoch": 12.083333333333334, "grad_norm": 0.17303578555583954, "learning_rate": 4.095597328339452e-05, "loss": 0.0386, "step": 5800 }, { "epoch": 12.104166666666666, "grad_norm": 0.22204063832759857, "learning_rate": 4.079340343612165e-05, "loss": 0.0378, "step": 5810 }, { "epoch": 12.125, "grad_norm": 0.17748937010765076, "learning_rate": 4.063093427071376e-05, "loss": 0.0396, "step": 5820 }, { "epoch": 12.145833333333334, "grad_norm": 0.13429847359657288, "learning_rate": 4.046856756390767e-05, "loss": 0.039, "step": 5830 }, { "epoch": 12.166666666666666, "grad_norm": 0.18121349811553955, "learning_rate": 4.0306305091319595e-05, "loss": 0.0421, "step": 5840 }, { "epoch": 12.1875, "grad_norm": 0.20254682004451752, "learning_rate": 4.0144148627425993e-05, "loss": 0.0406, "step": 5850 }, { "epoch": 12.208333333333334, "grad_norm": 0.13965128362178802, "learning_rate": 3.9982099945543945e-05, "loss": 0.0426, "step": 5860 }, { "epoch": 12.229166666666666, "grad_norm": 0.23334594070911407, "learning_rate": 3.982016081781189e-05, "loss": 0.0401, "step": 5870 }, { "epoch": 12.25, "grad_norm": 0.29574814438819885, "learning_rate": 3.965833301517017e-05, "loss": 0.0368, "step": 5880 }, { "epoch": 12.270833333333334, "grad_norm": 0.15830658376216888, "learning_rate": 3.949661830734172e-05, "loss": 0.0498, "step": 5890 }, { "epoch": 12.291666666666666, "grad_norm": 0.11797461658716202, "learning_rate": 3.933501846281267e-05, "loss": 0.034, "step": 5900 }, { "epoch": 12.3125, "grad_norm": 0.17256031930446625, "learning_rate": 3.917353524881302e-05, "loss": 0.0473, "step": 5910 }, { "epoch": 12.333333333333334, "grad_norm": 0.1115083396434784, "learning_rate": 3.901217043129735e-05, "loss": 0.0356, "step": 5920 }, { "epoch": 12.354166666666666, "grad_norm": 0.24546393752098083, "learning_rate": 3.8850925774925425e-05, "loss": 0.0363, "step": 5930 }, { "epoch": 12.375, "grad_norm": 0.16720516979694366, "learning_rate": 3.8689803043043e-05, "loss": 0.0369, "step": 5940 }, { "epoch": 12.395833333333334, "grad_norm": 0.1878960281610489, "learning_rate": 3.852880399766243e-05, "loss": 0.0385, "step": 5950 }, { "epoch": 12.416666666666666, "grad_norm": 0.2697995901107788, "learning_rate": 3.836793039944349e-05, "loss": 0.0372, "step": 5960 }, { "epoch": 12.4375, "grad_norm": 0.2137763500213623, "learning_rate": 3.820718400767409e-05, "loss": 0.0352, "step": 5970 }, { "epoch": 12.458333333333334, "grad_norm": 0.12412809580564499, "learning_rate": 3.8046566580251e-05, "loss": 0.0385, "step": 5980 }, { "epoch": 12.479166666666666, "grad_norm": 0.16106805205345154, "learning_rate": 3.788607987366069e-05, "loss": 0.0374, "step": 5990 }, { "epoch": 12.5, "grad_norm": 0.20143009722232819, "learning_rate": 3.772572564296005e-05, "loss": 0.0399, "step": 6000 }, { "epoch": 12.520833333333334, "grad_norm": 0.2611088454723358, "learning_rate": 3.756550564175727e-05, "loss": 0.0378, "step": 6010 }, { "epoch": 12.541666666666666, "grad_norm": 0.19968561828136444, "learning_rate": 3.74054216221926e-05, "loss": 0.0336, "step": 6020 }, { "epoch": 12.5625, "grad_norm": 0.2946498394012451, "learning_rate": 3.7245475334919246e-05, "loss": 0.0419, "step": 6030 }, { "epoch": 12.583333333333334, "grad_norm": 0.24810166656970978, "learning_rate": 3.7085668529084184e-05, "loss": 0.0369, "step": 6040 }, { "epoch": 12.604166666666666, "grad_norm": 0.17250268161296844, "learning_rate": 3.6926002952309016e-05, "loss": 0.0389, "step": 6050 }, { "epoch": 12.625, "grad_norm": 0.18926459550857544, "learning_rate": 3.676648035067093e-05, "loss": 0.0381, "step": 6060 }, { "epoch": 12.645833333333334, "grad_norm": 0.16701489686965942, "learning_rate": 3.6607102468683526e-05, "loss": 0.0372, "step": 6070 }, { "epoch": 12.666666666666666, "grad_norm": 0.27794161438941956, "learning_rate": 3.6447871049277796e-05, "loss": 0.0476, "step": 6080 }, { "epoch": 12.6875, "grad_norm": 0.15059830248355865, "learning_rate": 3.628878783378302e-05, "loss": 0.0365, "step": 6090 }, { "epoch": 12.708333333333334, "grad_norm": 0.18658536672592163, "learning_rate": 3.612985456190778e-05, "loss": 0.0409, "step": 6100 }, { "epoch": 12.729166666666666, "grad_norm": 0.20055310428142548, "learning_rate": 3.597107297172084e-05, "loss": 0.0309, "step": 6110 }, { "epoch": 12.75, "grad_norm": 0.1511124223470688, "learning_rate": 3.581244479963225e-05, "loss": 0.0389, "step": 6120 }, { "epoch": 12.770833333333334, "grad_norm": 0.19505897164344788, "learning_rate": 3.5653971780374295e-05, "loss": 0.0376, "step": 6130 }, { "epoch": 12.791666666666666, "grad_norm": 0.26128458976745605, "learning_rate": 3.5495655646982505e-05, "loss": 0.0436, "step": 6140 }, { "epoch": 12.8125, "grad_norm": 0.19015803933143616, "learning_rate": 3.533749813077677e-05, "loss": 0.0337, "step": 6150 }, { "epoch": 12.833333333333334, "grad_norm": 0.18475806713104248, "learning_rate": 3.517950096134232e-05, "loss": 0.0394, "step": 6160 }, { "epoch": 12.854166666666666, "grad_norm": 0.199330672621727, "learning_rate": 3.5021665866510925e-05, "loss": 0.0393, "step": 6170 }, { "epoch": 12.875, "grad_norm": 0.1968792825937271, "learning_rate": 3.4863994572341843e-05, "loss": 0.0428, "step": 6180 }, { "epoch": 12.895833333333334, "grad_norm": 0.2163507491350174, "learning_rate": 3.470648880310313e-05, "loss": 0.0396, "step": 6190 }, { "epoch": 12.916666666666666, "grad_norm": 0.1362553834915161, "learning_rate": 3.4549150281252636e-05, "loss": 0.0415, "step": 6200 }, { "epoch": 12.9375, "grad_norm": 0.15272819995880127, "learning_rate": 3.439198072741921e-05, "loss": 0.0371, "step": 6210 }, { "epoch": 12.958333333333334, "grad_norm": 0.1750105768442154, "learning_rate": 3.423498186038393e-05, "loss": 0.0391, "step": 6220 }, { "epoch": 12.979166666666666, "grad_norm": 0.17547383904457092, "learning_rate": 3.407815539706124e-05, "loss": 0.036, "step": 6230 }, { "epoch": 13.0, "grad_norm": 0.2598505914211273, "learning_rate": 3.392150305248024e-05, "loss": 0.038, "step": 6240 }, { "epoch": 13.020833333333334, "grad_norm": 0.2553529739379883, "learning_rate": 3.3765026539765834e-05, "loss": 0.0387, "step": 6250 }, { "epoch": 13.041666666666666, "grad_norm": 0.17663992941379547, "learning_rate": 3.360872757012011e-05, "loss": 0.0389, "step": 6260 }, { "epoch": 13.0625, "grad_norm": 0.2314099818468094, "learning_rate": 3.3452607852803584e-05, "loss": 0.0434, "step": 6270 }, { "epoch": 13.083333333333334, "grad_norm": 0.17751750349998474, "learning_rate": 3.329666909511645e-05, "loss": 0.0383, "step": 6280 }, { "epoch": 13.104166666666666, "grad_norm": 0.1711682230234146, "learning_rate": 3.3140913002379995e-05, "loss": 0.0441, "step": 6290 }, { "epoch": 13.125, "grad_norm": 0.1765744388103485, "learning_rate": 3.298534127791785e-05, "loss": 0.0361, "step": 6300 }, { "epoch": 13.145833333333334, "grad_norm": 0.14884302020072937, "learning_rate": 3.282995562303754e-05, "loss": 0.0392, "step": 6310 }, { "epoch": 13.166666666666666, "grad_norm": 0.23284494876861572, "learning_rate": 3.267475773701161e-05, "loss": 0.0414, "step": 6320 }, { "epoch": 13.1875, "grad_norm": 0.21358659863471985, "learning_rate": 3.251974931705933e-05, "loss": 0.0389, "step": 6330 }, { "epoch": 13.208333333333334, "grad_norm": 0.2136419266462326, "learning_rate": 3.236493205832795e-05, "loss": 0.0394, "step": 6340 }, { "epoch": 13.229166666666666, "grad_norm": 0.17444035410881042, "learning_rate": 3.221030765387417e-05, "loss": 0.0335, "step": 6350 }, { "epoch": 13.25, "grad_norm": 0.12927989661693573, "learning_rate": 3.205587779464576e-05, "loss": 0.0297, "step": 6360 }, { "epoch": 13.270833333333334, "grad_norm": 0.20504234731197357, "learning_rate": 3.190164416946285e-05, "loss": 0.0398, "step": 6370 }, { "epoch": 13.291666666666666, "grad_norm": 0.1620664894580841, "learning_rate": 3.1747608464999725e-05, "loss": 0.0357, "step": 6380 }, { "epoch": 13.3125, "grad_norm": 0.18466980755329132, "learning_rate": 3.1593772365766105e-05, "loss": 0.0384, "step": 6390 }, { "epoch": 13.333333333333334, "grad_norm": 0.19365406036376953, "learning_rate": 3.144013755408895e-05, "loss": 0.0379, "step": 6400 }, { "epoch": 13.354166666666666, "grad_norm": 0.22242169082164764, "learning_rate": 3.128670571009399e-05, "loss": 0.0378, "step": 6410 }, { "epoch": 13.375, "grad_norm": 0.19277265667915344, "learning_rate": 3.113347851168721e-05, "loss": 0.0394, "step": 6420 }, { "epoch": 13.395833333333334, "grad_norm": 0.15475115180015564, "learning_rate": 3.098045763453678e-05, "loss": 0.0341, "step": 6430 }, { "epoch": 13.416666666666666, "grad_norm": 0.24574577808380127, "learning_rate": 3.082764475205442e-05, "loss": 0.036, "step": 6440 }, { "epoch": 13.4375, "grad_norm": 0.1253107488155365, "learning_rate": 3.0675041535377405e-05, "loss": 0.0354, "step": 6450 }, { "epoch": 13.458333333333334, "grad_norm": 0.19683432579040527, "learning_rate": 3.052264965335e-05, "loss": 0.0333, "step": 6460 }, { "epoch": 13.479166666666666, "grad_norm": 0.2121218889951706, "learning_rate": 3.0370470772505433e-05, "loss": 0.0363, "step": 6470 }, { "epoch": 13.5, "grad_norm": 0.14255274832248688, "learning_rate": 3.0218506557047598e-05, "loss": 0.0425, "step": 6480 }, { "epoch": 13.520833333333334, "grad_norm": 0.14524437487125397, "learning_rate": 3.006675866883275e-05, "loss": 0.035, "step": 6490 }, { "epoch": 13.541666666666666, "grad_norm": 0.17796678841114044, "learning_rate": 2.991522876735154e-05, "loss": 0.0369, "step": 6500 }, { "epoch": 13.5625, "grad_norm": 0.276693731546402, "learning_rate": 2.976391850971065e-05, "loss": 0.0405, "step": 6510 }, { "epoch": 13.583333333333334, "grad_norm": 0.1899837702512741, "learning_rate": 2.9612829550614836e-05, "loss": 0.0391, "step": 6520 }, { "epoch": 13.604166666666666, "grad_norm": 0.17294272780418396, "learning_rate": 2.9461963542348737e-05, "loss": 0.0433, "step": 6530 }, { "epoch": 13.625, "grad_norm": 0.17909543216228485, "learning_rate": 2.931132213475884e-05, "loss": 0.0326, "step": 6540 }, { "epoch": 13.645833333333334, "grad_norm": 0.14403104782104492, "learning_rate": 2.916090697523549e-05, "loss": 0.0357, "step": 6550 }, { "epoch": 13.666666666666666, "grad_norm": 0.2349185347557068, "learning_rate": 2.9010719708694722e-05, "loss": 0.04, "step": 6560 }, { "epoch": 13.6875, "grad_norm": 0.23521877825260162, "learning_rate": 2.8860761977560436e-05, "loss": 0.0384, "step": 6570 }, { "epoch": 13.708333333333334, "grad_norm": 0.16321514546871185, "learning_rate": 2.8711035421746367e-05, "loss": 0.0465, "step": 6580 }, { "epoch": 13.729166666666666, "grad_norm": 0.1888456791639328, "learning_rate": 2.8561541678638142e-05, "loss": 0.0389, "step": 6590 }, { "epoch": 13.75, "grad_norm": 0.12604469060897827, "learning_rate": 2.8412282383075363e-05, "loss": 0.0377, "step": 6600 }, { "epoch": 13.770833333333334, "grad_norm": 0.13205738365650177, "learning_rate": 2.8263259167333777e-05, "loss": 0.0353, "step": 6610 }, { "epoch": 13.791666666666666, "grad_norm": 0.13578617572784424, "learning_rate": 2.811447366110741e-05, "loss": 0.0353, "step": 6620 }, { "epoch": 13.8125, "grad_norm": 0.20386967062950134, "learning_rate": 2.7965927491490705e-05, "loss": 0.0356, "step": 6630 }, { "epoch": 13.833333333333334, "grad_norm": 0.18563248217105865, "learning_rate": 2.7817622282960815e-05, "loss": 0.0422, "step": 6640 }, { "epoch": 13.854166666666666, "grad_norm": 0.13876503705978394, "learning_rate": 2.766955965735968e-05, "loss": 0.0372, "step": 6650 }, { "epoch": 13.875, "grad_norm": 0.1998944729566574, "learning_rate": 2.7521741233876496e-05, "loss": 0.0345, "step": 6660 }, { "epoch": 13.895833333333334, "grad_norm": 0.09204313904047012, "learning_rate": 2.7374168629029813e-05, "loss": 0.0333, "step": 6670 }, { "epoch": 13.916666666666666, "grad_norm": 0.21691344678401947, "learning_rate": 2.7226843456650037e-05, "loss": 0.0377, "step": 6680 }, { "epoch": 13.9375, "grad_norm": 0.1491704136133194, "learning_rate": 2.707976732786166e-05, "loss": 0.0389, "step": 6690 }, { "epoch": 13.958333333333334, "grad_norm": 0.17232492566108704, "learning_rate": 2.693294185106562e-05, "loss": 0.0389, "step": 6700 }, { "epoch": 13.979166666666666, "grad_norm": 0.2585275173187256, "learning_rate": 2.6786368631921836e-05, "loss": 0.0324, "step": 6710 }, { "epoch": 14.0, "grad_norm": 0.31349268555641174, "learning_rate": 2.6640049273331515e-05, "loss": 0.0379, "step": 6720 }, { "epoch": 14.020833333333334, "grad_norm": 0.21207097172737122, "learning_rate": 2.6493985375419778e-05, "loss": 0.0331, "step": 6730 }, { "epoch": 14.041666666666666, "grad_norm": 0.2716270089149475, "learning_rate": 2.6348178535517966e-05, "loss": 0.0399, "step": 6740 }, { "epoch": 14.0625, "grad_norm": 0.22059811651706696, "learning_rate": 2.6202630348146324e-05, "loss": 0.0412, "step": 6750 }, { "epoch": 14.083333333333334, "grad_norm": 0.15869638323783875, "learning_rate": 2.6057342404996522e-05, "loss": 0.0328, "step": 6760 }, { "epoch": 14.104166666666666, "grad_norm": 0.19988775253295898, "learning_rate": 2.591231629491423e-05, "loss": 0.0359, "step": 6770 }, { "epoch": 14.125, "grad_norm": 0.1618472784757614, "learning_rate": 2.5767553603881767e-05, "loss": 0.0306, "step": 6780 }, { "epoch": 14.145833333333334, "grad_norm": 0.2341802716255188, "learning_rate": 2.562305591500069e-05, "loss": 0.0363, "step": 6790 }, { "epoch": 14.166666666666666, "grad_norm": 0.22032411396503448, "learning_rate": 2.547882480847461e-05, "loss": 0.0374, "step": 6800 }, { "epoch": 14.1875, "grad_norm": 0.2002587914466858, "learning_rate": 2.5334861861591753e-05, "loss": 0.0417, "step": 6810 }, { "epoch": 14.208333333333334, "grad_norm": 0.1493261754512787, "learning_rate": 2.5191168648707887e-05, "loss": 0.038, "step": 6820 }, { "epoch": 14.229166666666666, "grad_norm": 0.12463536113500595, "learning_rate": 2.5047746741228978e-05, "loss": 0.0306, "step": 6830 }, { "epoch": 14.25, "grad_norm": 0.1263580024242401, "learning_rate": 2.490459770759398e-05, "loss": 0.0303, "step": 6840 }, { "epoch": 14.270833333333334, "grad_norm": 0.11605334281921387, "learning_rate": 2.476172311325783e-05, "loss": 0.035, "step": 6850 }, { "epoch": 14.291666666666666, "grad_norm": 0.14916780591011047, "learning_rate": 2.4619124520674146e-05, "loss": 0.0306, "step": 6860 }, { "epoch": 14.3125, "grad_norm": 0.11922206729650497, "learning_rate": 2.447680348927837e-05, "loss": 0.0387, "step": 6870 }, { "epoch": 14.333333333333334, "grad_norm": 0.2507418692111969, "learning_rate": 2.433476157547044e-05, "loss": 0.0377, "step": 6880 }, { "epoch": 14.354166666666666, "grad_norm": 0.22429078817367554, "learning_rate": 2.419300033259798e-05, "loss": 0.0474, "step": 6890 }, { "epoch": 14.375, "grad_norm": 0.24157516658306122, "learning_rate": 2.405152131093926e-05, "loss": 0.0363, "step": 6900 }, { "epoch": 14.395833333333334, "grad_norm": 0.38413891196250916, "learning_rate": 2.3910326057686127e-05, "loss": 0.0411, "step": 6910 }, { "epoch": 14.416666666666666, "grad_norm": 0.22351625561714172, "learning_rate": 2.3769416116927335e-05, "loss": 0.0401, "step": 6920 }, { "epoch": 14.4375, "grad_norm": 0.18442459404468536, "learning_rate": 2.362879302963135e-05, "loss": 0.0404, "step": 6930 }, { "epoch": 14.458333333333334, "grad_norm": 0.4082157611846924, "learning_rate": 2.3488458333629777e-05, "loss": 0.0329, "step": 6940 }, { "epoch": 14.479166666666666, "grad_norm": 0.21980011463165283, "learning_rate": 2.3348413563600325e-05, "loss": 0.0366, "step": 6950 }, { "epoch": 14.5, "grad_norm": 0.17586643993854523, "learning_rate": 2.3208660251050158e-05, "loss": 0.0387, "step": 6960 }, { "epoch": 14.520833333333334, "grad_norm": 0.15730033814907074, "learning_rate": 2.3069199924299174e-05, "loss": 0.0336, "step": 6970 }, { "epoch": 14.541666666666666, "grad_norm": 0.19087393581867218, "learning_rate": 2.29300341084631e-05, "loss": 0.035, "step": 6980 }, { "epoch": 14.5625, "grad_norm": 0.18095408380031586, "learning_rate": 2.279116432543705e-05, "loss": 0.0355, "step": 6990 }, { "epoch": 14.583333333333334, "grad_norm": 0.2578522562980652, "learning_rate": 2.2652592093878666e-05, "loss": 0.0345, "step": 7000 }, { "epoch": 14.604166666666666, "grad_norm": 0.20171664655208588, "learning_rate": 2.251431892919171e-05, "loss": 0.0356, "step": 7010 }, { "epoch": 14.625, "grad_norm": 0.3004615902900696, "learning_rate": 2.237634634350934e-05, "loss": 0.0368, "step": 7020 }, { "epoch": 14.645833333333334, "grad_norm": 0.16451160609722137, "learning_rate": 2.2238675845677663e-05, "loss": 0.0319, "step": 7030 }, { "epoch": 14.666666666666666, "grad_norm": 0.27891501784324646, "learning_rate": 2.2101308941239203e-05, "loss": 0.0361, "step": 7040 }, { "epoch": 14.6875, "grad_norm": 0.10866022855043411, "learning_rate": 2.196424713241637e-05, "loss": 0.0356, "step": 7050 }, { "epoch": 14.708333333333334, "grad_norm": 0.15736782550811768, "learning_rate": 2.182749191809518e-05, "loss": 0.0449, "step": 7060 }, { "epoch": 14.729166666666666, "grad_norm": 0.14991992712020874, "learning_rate": 2.1691044793808734e-05, "loss": 0.0336, "step": 7070 }, { "epoch": 14.75, "grad_norm": 0.23279936611652374, "learning_rate": 2.1554907251720945e-05, "loss": 0.0327, "step": 7080 }, { "epoch": 14.770833333333334, "grad_norm": 0.19482247531414032, "learning_rate": 2.1419080780610123e-05, "loss": 0.035, "step": 7090 }, { "epoch": 14.791666666666666, "grad_norm": 0.16053085029125214, "learning_rate": 2.128356686585282e-05, "loss": 0.0322, "step": 7100 }, { "epoch": 14.8125, "grad_norm": 0.17333699762821198, "learning_rate": 2.1148366989407496e-05, "loss": 0.0348, "step": 7110 }, { "epoch": 14.833333333333334, "grad_norm": 0.20065756142139435, "learning_rate": 2.1013482629798333e-05, "loss": 0.0344, "step": 7120 }, { "epoch": 14.854166666666666, "grad_norm": 0.2283259928226471, "learning_rate": 2.0878915262099098e-05, "loss": 0.0332, "step": 7130 }, { "epoch": 14.875, "grad_norm": 0.19784249365329742, "learning_rate": 2.0744666357916925e-05, "loss": 0.0374, "step": 7140 }, { "epoch": 14.895833333333334, "grad_norm": 0.1944170594215393, "learning_rate": 2.061073738537635e-05, "loss": 0.0379, "step": 7150 }, { "epoch": 14.916666666666666, "grad_norm": 0.15928591787815094, "learning_rate": 2.0477129809103147e-05, "loss": 0.0408, "step": 7160 }, { "epoch": 14.9375, "grad_norm": 0.21307940781116486, "learning_rate": 2.0343845090208368e-05, "loss": 0.0385, "step": 7170 }, { "epoch": 14.958333333333334, "grad_norm": 0.1387159526348114, "learning_rate": 2.0210884686272368e-05, "loss": 0.0327, "step": 7180 }, { "epoch": 14.979166666666666, "grad_norm": 0.21682381629943848, "learning_rate": 2.0078250051328784e-05, "loss": 0.0436, "step": 7190 }, { "epoch": 15.0, "grad_norm": 0.3708045482635498, "learning_rate": 1.9945942635848748e-05, "loss": 0.034, "step": 7200 }, { "epoch": 15.020833333333334, "grad_norm": 0.17879103124141693, "learning_rate": 1.981396388672496e-05, "loss": 0.0314, "step": 7210 }, { "epoch": 15.041666666666666, "grad_norm": 0.21308660507202148, "learning_rate": 1.9682315247255894e-05, "loss": 0.0338, "step": 7220 }, { "epoch": 15.0625, "grad_norm": 0.17053188383579254, "learning_rate": 1.9550998157129946e-05, "loss": 0.036, "step": 7230 }, { "epoch": 15.083333333333334, "grad_norm": 0.1819431036710739, "learning_rate": 1.942001405240979e-05, "loss": 0.0336, "step": 7240 }, { "epoch": 15.104166666666666, "grad_norm": 0.14159807562828064, "learning_rate": 1.928936436551661e-05, "loss": 0.0366, "step": 7250 }, { "epoch": 15.125, "grad_norm": 0.23496906459331512, "learning_rate": 1.9159050525214452e-05, "loss": 0.0363, "step": 7260 }, { "epoch": 15.145833333333334, "grad_norm": 0.21902140974998474, "learning_rate": 1.9029073956594606e-05, "loss": 0.0359, "step": 7270 }, { "epoch": 15.166666666666666, "grad_norm": 0.1490468978881836, "learning_rate": 1.8899436081059975e-05, "loss": 0.0336, "step": 7280 }, { "epoch": 15.1875, "grad_norm": 0.1414002925157547, "learning_rate": 1.877013831630961e-05, "loss": 0.0281, "step": 7290 }, { "epoch": 15.208333333333334, "grad_norm": 0.30052894353866577, "learning_rate": 1.8641182076323148e-05, "loss": 0.0375, "step": 7300 }, { "epoch": 15.229166666666666, "grad_norm": 0.2560082972049713, "learning_rate": 1.851256877134538e-05, "loss": 0.0355, "step": 7310 }, { "epoch": 15.25, "grad_norm": 0.13596679270267487, "learning_rate": 1.838429980787081e-05, "loss": 0.0371, "step": 7320 }, { "epoch": 15.270833333333334, "grad_norm": 0.15120552480220795, "learning_rate": 1.8256376588628238e-05, "loss": 0.0335, "step": 7330 }, { "epoch": 15.291666666666666, "grad_norm": 0.19444897770881653, "learning_rate": 1.8128800512565513e-05, "loss": 0.0365, "step": 7340 }, { "epoch": 15.3125, "grad_norm": 0.1597200185060501, "learning_rate": 1.800157297483417e-05, "loss": 0.0333, "step": 7350 }, { "epoch": 15.333333333333334, "grad_norm": 0.15598775446414948, "learning_rate": 1.787469536677419e-05, "loss": 0.0332, "step": 7360 }, { "epoch": 15.354166666666666, "grad_norm": 0.17735296487808228, "learning_rate": 1.774816907589873e-05, "loss": 0.0358, "step": 7370 }, { "epoch": 15.375, "grad_norm": 0.1667356789112091, "learning_rate": 1.7621995485879062e-05, "loss": 0.0324, "step": 7380 }, { "epoch": 15.395833333333334, "grad_norm": 0.17198875546455383, "learning_rate": 1.749617597652934e-05, "loss": 0.0342, "step": 7390 }, { "epoch": 15.416666666666666, "grad_norm": 0.13327492773532867, "learning_rate": 1.7370711923791567e-05, "loss": 0.0381, "step": 7400 }, { "epoch": 15.4375, "grad_norm": 0.14324255287647247, "learning_rate": 1.7245604699720535e-05, "loss": 0.0363, "step": 7410 }, { "epoch": 15.458333333333334, "grad_norm": 0.12375563383102417, "learning_rate": 1.712085567246878e-05, "loss": 0.0293, "step": 7420 }, { "epoch": 15.479166666666666, "grad_norm": 0.18987584114074707, "learning_rate": 1.699646620627168e-05, "loss": 0.0379, "step": 7430 }, { "epoch": 15.5, "grad_norm": 0.29758167266845703, "learning_rate": 1.6872437661432517e-05, "loss": 0.037, "step": 7440 }, { "epoch": 15.520833333333334, "grad_norm": 0.17801667749881744, "learning_rate": 1.6748771394307585e-05, "loss": 0.033, "step": 7450 }, { "epoch": 15.541666666666666, "grad_norm": 0.18180030584335327, "learning_rate": 1.662546875729138e-05, "loss": 0.0312, "step": 7460 }, { "epoch": 15.5625, "grad_norm": 0.14685310423374176, "learning_rate": 1.6502531098801753e-05, "loss": 0.0385, "step": 7470 }, { "epoch": 15.583333333333334, "grad_norm": 0.2291467934846878, "learning_rate": 1.637995976326527e-05, "loss": 0.0325, "step": 7480 }, { "epoch": 15.604166666666666, "grad_norm": 0.1897166520357132, "learning_rate": 1.62577560911024e-05, "loss": 0.0389, "step": 7490 }, { "epoch": 15.625, "grad_norm": 0.1944008767604828, "learning_rate": 1.6135921418712956e-05, "loss": 0.0335, "step": 7500 }, { "epoch": 15.645833333333334, "grad_norm": 0.27378949522972107, "learning_rate": 1.6014457078461353e-05, "loss": 0.038, "step": 7510 }, { "epoch": 15.666666666666666, "grad_norm": 0.25739747285842896, "learning_rate": 1.5893364398662176e-05, "loss": 0.0315, "step": 7520 }, { "epoch": 15.6875, "grad_norm": 0.14477567374706268, "learning_rate": 1.5772644703565565e-05, "loss": 0.0361, "step": 7530 }, { "epoch": 15.708333333333334, "grad_norm": 0.142717182636261, "learning_rate": 1.5652299313342773e-05, "loss": 0.034, "step": 7540 }, { "epoch": 15.729166666666666, "grad_norm": 0.1424303650856018, "learning_rate": 1.553232954407171e-05, "loss": 0.0316, "step": 7550 }, { "epoch": 15.75, "grad_norm": 0.18298421800136566, "learning_rate": 1.5412736707722537e-05, "loss": 0.0333, "step": 7560 }, { "epoch": 15.770833333333334, "grad_norm": 0.12771207094192505, "learning_rate": 1.5293522112143373e-05, "loss": 0.0337, "step": 7570 }, { "epoch": 15.791666666666666, "grad_norm": 0.3018227219581604, "learning_rate": 1.517468706104589e-05, "loss": 0.0372, "step": 7580 }, { "epoch": 15.8125, "grad_norm": 0.21921075880527496, "learning_rate": 1.5056232853991209e-05, "loss": 0.0382, "step": 7590 }, { "epoch": 15.833333333333334, "grad_norm": 0.1828688681125641, "learning_rate": 1.4938160786375572e-05, "loss": 0.0352, "step": 7600 }, { "epoch": 15.854166666666666, "grad_norm": 0.18489907681941986, "learning_rate": 1.4820472149416154e-05, "loss": 0.0339, "step": 7610 }, { "epoch": 15.875, "grad_norm": 0.14749230444431305, "learning_rate": 1.470316823013707e-05, "loss": 0.0338, "step": 7620 }, { "epoch": 15.895833333333334, "grad_norm": 0.17167989909648895, "learning_rate": 1.4586250311355132e-05, "loss": 0.0352, "step": 7630 }, { "epoch": 15.916666666666666, "grad_norm": 0.1753416210412979, "learning_rate": 1.4469719671666043e-05, "loss": 0.0338, "step": 7640 }, { "epoch": 15.9375, "grad_norm": 0.11780905723571777, "learning_rate": 1.435357758543015e-05, "loss": 0.0371, "step": 7650 }, { "epoch": 15.958333333333334, "grad_norm": 0.14981669187545776, "learning_rate": 1.4237825322758736e-05, "loss": 0.0331, "step": 7660 }, { "epoch": 15.979166666666666, "grad_norm": 0.19261877238750458, "learning_rate": 1.412246414949997e-05, "loss": 0.0336, "step": 7670 }, { "epoch": 16.0, "grad_norm": 0.29280322790145874, "learning_rate": 1.4007495327225162e-05, "loss": 0.0348, "step": 7680 }, { "epoch": 16.020833333333332, "grad_norm": 0.17434559762477875, "learning_rate": 1.389292011321498e-05, "loss": 0.0316, "step": 7690 }, { "epoch": 16.041666666666668, "grad_norm": 0.18764066696166992, "learning_rate": 1.3778739760445552e-05, "loss": 0.0337, "step": 7700 }, { "epoch": 16.0625, "grad_norm": 0.2059665024280548, "learning_rate": 1.3664955517574968e-05, "loss": 0.0348, "step": 7710 }, { "epoch": 16.083333333333332, "grad_norm": 0.15280863642692566, "learning_rate": 1.3551568628929434e-05, "loss": 0.0323, "step": 7720 }, { "epoch": 16.104166666666668, "grad_norm": 0.1486819088459015, "learning_rate": 1.343858033448982e-05, "loss": 0.0347, "step": 7730 }, { "epoch": 16.125, "grad_norm": 0.1927894651889801, "learning_rate": 1.3325991869878013e-05, "loss": 0.035, "step": 7740 }, { "epoch": 16.145833333333332, "grad_norm": 0.11955563724040985, "learning_rate": 1.3213804466343421e-05, "loss": 0.0329, "step": 7750 }, { "epoch": 16.166666666666668, "grad_norm": 0.16345830261707306, "learning_rate": 1.3102019350749528e-05, "loss": 0.0359, "step": 7760 }, { "epoch": 16.1875, "grad_norm": 0.2789859175682068, "learning_rate": 1.299063774556042e-05, "loss": 0.0328, "step": 7770 }, { "epoch": 16.208333333333332, "grad_norm": 0.21761833131313324, "learning_rate": 1.2879660868827508e-05, "loss": 0.0301, "step": 7780 }, { "epoch": 16.229166666666668, "grad_norm": 0.14734092354774475, "learning_rate": 1.2769089934176126e-05, "loss": 0.0322, "step": 7790 }, { "epoch": 16.25, "grad_norm": 0.2599899470806122, "learning_rate": 1.2658926150792322e-05, "loss": 0.0313, "step": 7800 }, { "epoch": 16.270833333333332, "grad_norm": 0.1787201315164566, "learning_rate": 1.2549170723409549e-05, "loss": 0.0339, "step": 7810 }, { "epoch": 16.291666666666668, "grad_norm": 0.16388441622257233, "learning_rate": 1.243982485229559e-05, "loss": 0.0346, "step": 7820 }, { "epoch": 16.3125, "grad_norm": 0.18000830709934235, "learning_rate": 1.233088973323937e-05, "loss": 0.04, "step": 7830 }, { "epoch": 16.333333333333332, "grad_norm": 0.17897577583789825, "learning_rate": 1.2222366557537911e-05, "loss": 0.0399, "step": 7840 }, { "epoch": 16.354166666666668, "grad_norm": 0.22064079344272614, "learning_rate": 1.2114256511983274e-05, "loss": 0.0318, "step": 7850 }, { "epoch": 16.375, "grad_norm": 0.18616275489330292, "learning_rate": 1.2006560778849578e-05, "loss": 0.0304, "step": 7860 }, { "epoch": 16.395833333333332, "grad_norm": 0.13920727372169495, "learning_rate": 1.1899280535880119e-05, "loss": 0.0316, "step": 7870 }, { "epoch": 16.416666666666668, "grad_norm": 0.23855414986610413, "learning_rate": 1.1792416956274444e-05, "loss": 0.0315, "step": 7880 }, { "epoch": 16.4375, "grad_norm": 0.20827260613441467, "learning_rate": 1.1685971208675539e-05, "loss": 0.0325, "step": 7890 }, { "epoch": 16.458333333333332, "grad_norm": 0.19448751211166382, "learning_rate": 1.157994445715706e-05, "loss": 0.0354, "step": 7900 }, { "epoch": 16.479166666666668, "grad_norm": 0.14408908784389496, "learning_rate": 1.1474337861210543e-05, "loss": 0.0339, "step": 7910 }, { "epoch": 16.5, "grad_norm": 0.2209048867225647, "learning_rate": 1.1369152575732822e-05, "loss": 0.036, "step": 7920 }, { "epoch": 16.520833333333332, "grad_norm": 0.1276281476020813, "learning_rate": 1.1264389751013326e-05, "loss": 0.0338, "step": 7930 }, { "epoch": 16.541666666666668, "grad_norm": 0.16983328759670258, "learning_rate": 1.1160050532721528e-05, "loss": 0.0356, "step": 7940 }, { "epoch": 16.5625, "grad_norm": 0.224867045879364, "learning_rate": 1.1056136061894384e-05, "loss": 0.0363, "step": 7950 }, { "epoch": 16.583333333333332, "grad_norm": 0.19840490818023682, "learning_rate": 1.095264747492391e-05, "loss": 0.0412, "step": 7960 }, { "epoch": 16.604166666666668, "grad_norm": 0.15883027017116547, "learning_rate": 1.0849585903544706e-05, "loss": 0.0415, "step": 7970 }, { "epoch": 16.625, "grad_norm": 0.14518824219703674, "learning_rate": 1.0746952474821614e-05, "loss": 0.0352, "step": 7980 }, { "epoch": 16.645833333333332, "grad_norm": 0.18514308333396912, "learning_rate": 1.0644748311137376e-05, "loss": 0.0433, "step": 7990 }, { "epoch": 16.666666666666668, "grad_norm": 0.1748477965593338, "learning_rate": 1.0542974530180327e-05, "loss": 0.0378, "step": 8000 }, { "epoch": 16.6875, "grad_norm": 0.17043419182300568, "learning_rate": 1.0441632244932237e-05, "loss": 0.0332, "step": 8010 }, { "epoch": 16.708333333333332, "grad_norm": 0.24716496467590332, "learning_rate": 1.0340722563656107e-05, "loss": 0.0349, "step": 8020 }, { "epoch": 16.729166666666668, "grad_norm": 0.1788455843925476, "learning_rate": 1.0240246589884044e-05, "loss": 0.0339, "step": 8030 }, { "epoch": 16.75, "grad_norm": 0.21836072206497192, "learning_rate": 1.0140205422405214e-05, "loss": 0.0399, "step": 8040 }, { "epoch": 16.770833333333332, "grad_norm": 0.13819825649261475, "learning_rate": 1.0040600155253765e-05, "loss": 0.032, "step": 8050 }, { "epoch": 16.791666666666668, "grad_norm": 0.14727181196212769, "learning_rate": 9.941431877696955e-06, "loss": 0.033, "step": 8060 }, { "epoch": 16.8125, "grad_norm": 0.3028770685195923, "learning_rate": 9.842701674223187e-06, "loss": 0.0348, "step": 8070 }, { "epoch": 16.833333333333332, "grad_norm": 0.1468600183725357, "learning_rate": 9.744410624530148e-06, "loss": 0.0296, "step": 8080 }, { "epoch": 16.854166666666668, "grad_norm": 0.14955639839172363, "learning_rate": 9.646559803512994e-06, "loss": 0.0335, "step": 8090 }, { "epoch": 16.875, "grad_norm": 0.3067767024040222, "learning_rate": 9.549150281252633e-06, "loss": 0.0311, "step": 8100 }, { "epoch": 16.895833333333332, "grad_norm": 0.1653410643339157, "learning_rate": 9.452183123004e-06, "loss": 0.0322, "step": 8110 }, { "epoch": 16.916666666666668, "grad_norm": 0.38487905263900757, "learning_rate": 9.355659389184396e-06, "loss": 0.0324, "step": 8120 }, { "epoch": 16.9375, "grad_norm": 0.1474359631538391, "learning_rate": 9.259580135361929e-06, "loss": 0.0306, "step": 8130 }, { "epoch": 16.958333333333332, "grad_norm": 0.1430114060640335, "learning_rate": 9.163946412243896e-06, "loss": 0.0306, "step": 8140 }, { "epoch": 16.979166666666668, "grad_norm": 0.17467962205410004, "learning_rate": 9.068759265665384e-06, "loss": 0.0376, "step": 8150 }, { "epoch": 17.0, "grad_norm": 0.16724301874637604, "learning_rate": 8.974019736577777e-06, "loss": 0.0348, "step": 8160 }, { "epoch": 17.020833333333332, "grad_norm": 0.14975309371948242, "learning_rate": 8.879728861037384e-06, "loss": 0.0306, "step": 8170 }, { "epoch": 17.041666666666668, "grad_norm": 0.17851698398590088, "learning_rate": 8.785887670194138e-06, "loss": 0.0322, "step": 8180 }, { "epoch": 17.0625, "grad_norm": 0.1703353375196457, "learning_rate": 8.692497190280224e-06, "loss": 0.0324, "step": 8190 }, { "epoch": 17.083333333333332, "grad_norm": 0.2298639714717865, "learning_rate": 8.599558442598998e-06, "loss": 0.0352, "step": 8200 }, { "epoch": 17.104166666666668, "grad_norm": 0.15811441838741302, "learning_rate": 8.507072443513702e-06, "loss": 0.0317, "step": 8210 }, { "epoch": 17.125, "grad_norm": 0.21073931455612183, "learning_rate": 8.415040204436426e-06, "loss": 0.0341, "step": 8220 }, { "epoch": 17.145833333333332, "grad_norm": 0.15325315296649933, "learning_rate": 8.323462731816961e-06, "loss": 0.0331, "step": 8230 }, { "epoch": 17.166666666666668, "grad_norm": 0.14133264124393463, "learning_rate": 8.232341027131885e-06, "loss": 0.0373, "step": 8240 }, { "epoch": 17.1875, "grad_norm": 0.2085970789194107, "learning_rate": 8.141676086873572e-06, "loss": 0.031, "step": 8250 }, { "epoch": 17.208333333333332, "grad_norm": 0.18166519701480865, "learning_rate": 8.051468902539272e-06, "loss": 0.0321, "step": 8260 }, { "epoch": 17.229166666666668, "grad_norm": 0.17954124510288239, "learning_rate": 7.96172046062032e-06, "loss": 0.0313, "step": 8270 }, { "epoch": 17.25, "grad_norm": 0.1591859608888626, "learning_rate": 7.872431742591268e-06, "loss": 0.0423, "step": 8280 }, { "epoch": 17.270833333333332, "grad_norm": 0.19576288759708405, "learning_rate": 7.783603724899257e-06, "loss": 0.034, "step": 8290 }, { "epoch": 17.291666666666668, "grad_norm": 0.16259166598320007, "learning_rate": 7.695237378953223e-06, "loss": 0.031, "step": 8300 }, { "epoch": 17.3125, "grad_norm": 0.2567852735519409, "learning_rate": 7.607333671113409e-06, "loss": 0.0319, "step": 8310 }, { "epoch": 17.333333333333332, "grad_norm": 0.1433526873588562, "learning_rate": 7.519893562680663e-06, "loss": 0.0387, "step": 8320 }, { "epoch": 17.354166666666668, "grad_norm": 0.12833265960216522, "learning_rate": 7.432918009885997e-06, "loss": 0.0356, "step": 8330 }, { "epoch": 17.375, "grad_norm": 0.18633872270584106, "learning_rate": 7.3464079638801365e-06, "loss": 0.0372, "step": 8340 }, { "epoch": 17.395833333333332, "grad_norm": 0.19157272577285767, "learning_rate": 7.260364370723044e-06, "loss": 0.0328, "step": 8350 }, { "epoch": 17.416666666666668, "grad_norm": 0.14308947324752808, "learning_rate": 7.174788171373731e-06, "loss": 0.034, "step": 8360 }, { "epoch": 17.4375, "grad_norm": 0.15091511607170105, "learning_rate": 7.089680301679752e-06, "loss": 0.032, "step": 8370 }, { "epoch": 17.458333333333332, "grad_norm": 0.17052793502807617, "learning_rate": 7.005041692367154e-06, "loss": 0.0269, "step": 8380 }, { "epoch": 17.479166666666668, "grad_norm": 0.1326158493757248, "learning_rate": 6.92087326903022e-06, "loss": 0.0353, "step": 8390 }, { "epoch": 17.5, "grad_norm": 0.1644575148820877, "learning_rate": 6.837175952121306e-06, "loss": 0.0314, "step": 8400 }, { "epoch": 17.520833333333332, "grad_norm": 0.1430823653936386, "learning_rate": 6.753950656940905e-06, "loss": 0.0254, "step": 8410 }, { "epoch": 17.541666666666668, "grad_norm": 0.20929637551307678, "learning_rate": 6.671198293627479e-06, "loss": 0.0329, "step": 8420 }, { "epoch": 17.5625, "grad_norm": 0.16513291001319885, "learning_rate": 6.588919767147639e-06, "loss": 0.0295, "step": 8430 }, { "epoch": 17.583333333333332, "grad_norm": 0.2245665341615677, "learning_rate": 6.5071159772861436e-06, "loss": 0.0324, "step": 8440 }, { "epoch": 17.604166666666668, "grad_norm": 0.16559205949306488, "learning_rate": 6.425787818636131e-06, "loss": 0.0301, "step": 8450 }, { "epoch": 17.625, "grad_norm": 0.19494593143463135, "learning_rate": 6.344936180589351e-06, "loss": 0.0319, "step": 8460 }, { "epoch": 17.645833333333332, "grad_norm": 0.22981615364551544, "learning_rate": 6.264561947326331e-06, "loss": 0.0301, "step": 8470 }, { "epoch": 17.666666666666668, "grad_norm": 0.107606902718544, "learning_rate": 6.184665997806832e-06, "loss": 0.032, "step": 8480 }, { "epoch": 17.6875, "grad_norm": 0.21070224046707153, "learning_rate": 6.1052492057601275e-06, "loss": 0.0412, "step": 8490 }, { "epoch": 17.708333333333332, "grad_norm": 0.19031378626823425, "learning_rate": 6.026312439675552e-06, "loss": 0.0358, "step": 8500 }, { "epoch": 17.729166666666668, "grad_norm": 0.19321215152740479, "learning_rate": 5.947856562792925e-06, "loss": 0.0292, "step": 8510 }, { "epoch": 17.75, "grad_norm": 0.16616252064704895, "learning_rate": 5.869882433093155e-06, "loss": 0.0356, "step": 8520 }, { "epoch": 17.770833333333332, "grad_norm": 0.15638171136379242, "learning_rate": 5.79239090328883e-06, "loss": 0.0312, "step": 8530 }, { "epoch": 17.791666666666668, "grad_norm": 0.2161197066307068, "learning_rate": 5.715382820814885e-06, "loss": 0.0315, "step": 8540 }, { "epoch": 17.8125, "grad_norm": 0.18795347213745117, "learning_rate": 5.6388590278194096e-06, "loss": 0.0317, "step": 8550 }, { "epoch": 17.833333333333332, "grad_norm": 0.15534399449825287, "learning_rate": 5.562820361154314e-06, "loss": 0.0332, "step": 8560 }, { "epoch": 17.854166666666668, "grad_norm": 0.16690361499786377, "learning_rate": 5.48726765236629e-06, "loss": 0.0314, "step": 8570 }, { "epoch": 17.875, "grad_norm": 0.26291123032569885, "learning_rate": 5.412201727687644e-06, "loss": 0.0379, "step": 8580 }, { "epoch": 17.895833333333332, "grad_norm": 0.18499770760536194, "learning_rate": 5.337623408027293e-06, "loss": 0.0293, "step": 8590 }, { "epoch": 17.916666666666668, "grad_norm": 0.18224544823169708, "learning_rate": 5.263533508961827e-06, "loss": 0.0331, "step": 8600 }, { "epoch": 17.9375, "grad_norm": 0.1336999535560608, "learning_rate": 5.1899328407264855e-06, "loss": 0.0371, "step": 8610 }, { "epoch": 17.958333333333332, "grad_norm": 0.2066693902015686, "learning_rate": 5.116822208206396e-06, "loss": 0.036, "step": 8620 }, { "epoch": 17.979166666666668, "grad_norm": 0.27295708656311035, "learning_rate": 5.044202410927706e-06, "loss": 0.0332, "step": 8630 }, { "epoch": 18.0, "grad_norm": 0.3093808889389038, "learning_rate": 4.972074243048897e-06, "loss": 0.0364, "step": 8640 }, { "epoch": 18.020833333333332, "grad_norm": 0.13390128314495087, "learning_rate": 4.900438493352055e-06, "loss": 0.0307, "step": 8650 }, { "epoch": 18.041666666666668, "grad_norm": 0.20206564664840698, "learning_rate": 4.829295945234258e-06, "loss": 0.0354, "step": 8660 }, { "epoch": 18.0625, "grad_norm": 0.1990128606557846, "learning_rate": 4.758647376699032e-06, "loss": 0.0303, "step": 8670 }, { "epoch": 18.083333333333332, "grad_norm": 0.31685084104537964, "learning_rate": 4.688493560347773e-06, "loss": 0.0328, "step": 8680 }, { "epoch": 18.104166666666668, "grad_norm": 0.16394484043121338, "learning_rate": 4.618835263371396e-06, "loss": 0.0367, "step": 8690 }, { "epoch": 18.125, "grad_norm": 0.24125359952449799, "learning_rate": 4.549673247541875e-06, "loss": 0.0298, "step": 8700 }, { "epoch": 18.145833333333332, "grad_norm": 0.17618513107299805, "learning_rate": 4.48100826920394e-06, "loss": 0.0318, "step": 8710 }, { "epoch": 18.166666666666668, "grad_norm": 0.13456808030605316, "learning_rate": 4.412841079266777e-06, "loss": 0.027, "step": 8720 }, { "epoch": 18.1875, "grad_norm": 0.20114630460739136, "learning_rate": 4.3451724231958644e-06, "loss": 0.0336, "step": 8730 }, { "epoch": 18.208333333333332, "grad_norm": 0.19448570907115936, "learning_rate": 4.27800304100478e-06, "loss": 0.0333, "step": 8740 }, { "epoch": 18.229166666666668, "grad_norm": 0.22494345903396606, "learning_rate": 4.2113336672471245e-06, "loss": 0.037, "step": 8750 }, { "epoch": 18.25, "grad_norm": 0.19884195923805237, "learning_rate": 4.145165031008508e-06, "loss": 0.0302, "step": 8760 }, { "epoch": 18.270833333333332, "grad_norm": 0.21482793986797333, "learning_rate": 4.079497855898501e-06, "loss": 0.035, "step": 8770 }, { "epoch": 18.291666666666668, "grad_norm": 0.18211424350738525, "learning_rate": 4.01433286004283e-06, "loss": 0.0325, "step": 8780 }, { "epoch": 18.3125, "grad_norm": 0.18658918142318726, "learning_rate": 3.949670756075447e-06, "loss": 0.0338, "step": 8790 }, { "epoch": 18.333333333333332, "grad_norm": 0.14777681231498718, "learning_rate": 3.885512251130763e-06, "loss": 0.0343, "step": 8800 }, { "epoch": 18.354166666666668, "grad_norm": 0.18653449416160583, "learning_rate": 3.821858046835913e-06, "loss": 0.0348, "step": 8810 }, { "epoch": 18.375, "grad_norm": 0.14548705518245697, "learning_rate": 3.75870883930306e-06, "loss": 0.0301, "step": 8820 }, { "epoch": 18.395833333333332, "grad_norm": 0.20936094224452972, "learning_rate": 3.696065319121833e-06, "loss": 0.0325, "step": 8830 }, { "epoch": 18.416666666666668, "grad_norm": 0.21354569494724274, "learning_rate": 3.6339281713517303e-06, "loss": 0.0375, "step": 8840 }, { "epoch": 18.4375, "grad_norm": 0.1711226850748062, "learning_rate": 3.5722980755146517e-06, "loss": 0.0322, "step": 8850 }, { "epoch": 18.458333333333332, "grad_norm": 0.11110875010490417, "learning_rate": 3.511175705587433e-06, "loss": 0.0364, "step": 8860 }, { "epoch": 18.479166666666668, "grad_norm": 0.25910326838493347, "learning_rate": 3.4505617299945336e-06, "loss": 0.0357, "step": 8870 }, { "epoch": 18.5, "grad_norm": 0.24128733575344086, "learning_rate": 3.390456811600673e-06, "loss": 0.0306, "step": 8880 }, { "epoch": 18.520833333333332, "grad_norm": 0.15856292843818665, "learning_rate": 3.3308616077036115e-06, "loss": 0.032, "step": 8890 }, { "epoch": 18.541666666666668, "grad_norm": 0.24794311821460724, "learning_rate": 3.271776770026963e-06, "loss": 0.0295, "step": 8900 }, { "epoch": 18.5625, "grad_norm": 0.2193899005651474, "learning_rate": 3.213202944713023e-06, "loss": 0.0345, "step": 8910 }, { "epoch": 18.583333333333332, "grad_norm": 0.1675347238779068, "learning_rate": 3.155140772315773e-06, "loss": 0.0313, "step": 8920 }, { "epoch": 18.604166666666668, "grad_norm": 0.17640578746795654, "learning_rate": 3.0975908877938277e-06, "loss": 0.0325, "step": 8930 }, { "epoch": 18.625, "grad_norm": 0.16503232717514038, "learning_rate": 3.040553920503503e-06, "loss": 0.0305, "step": 8940 }, { "epoch": 18.645833333333332, "grad_norm": 0.22779154777526855, "learning_rate": 2.9840304941919415e-06, "loss": 0.0311, "step": 8950 }, { "epoch": 18.666666666666668, "grad_norm": 0.20752200484275818, "learning_rate": 2.928021226990263e-06, "loss": 0.0379, "step": 8960 }, { "epoch": 18.6875, "grad_norm": 0.25029054284095764, "learning_rate": 2.8725267314068495e-06, "loss": 0.0313, "step": 8970 }, { "epoch": 18.708333333333332, "grad_norm": 0.1501133143901825, "learning_rate": 2.817547614320615e-06, "loss": 0.0306, "step": 8980 }, { "epoch": 18.729166666666668, "grad_norm": 0.14609061181545258, "learning_rate": 2.7630844769743757e-06, "loss": 0.0348, "step": 8990 }, { "epoch": 18.75, "grad_norm": 0.17063935101032257, "learning_rate": 2.7091379149682685e-06, "loss": 0.0356, "step": 9000 }, { "epoch": 18.770833333333332, "grad_norm": 0.15772214531898499, "learning_rate": 2.6557085182532582e-06, "loss": 0.037, "step": 9010 }, { "epoch": 18.791666666666668, "grad_norm": 0.17870227992534637, "learning_rate": 2.602796871124663e-06, "loss": 0.0306, "step": 9020 }, { "epoch": 18.8125, "grad_norm": 0.1352458894252777, "learning_rate": 2.5504035522157854e-06, "loss": 0.0269, "step": 9030 }, { "epoch": 18.833333333333332, "grad_norm": 0.13433943688869476, "learning_rate": 2.4985291344915674e-06, "loss": 0.0336, "step": 9040 }, { "epoch": 18.854166666666668, "grad_norm": 0.13748623430728912, "learning_rate": 2.4471741852423237e-06, "loss": 0.031, "step": 9050 }, { "epoch": 18.875, "grad_norm": 0.14584968984127045, "learning_rate": 2.3963392660775575e-06, "loss": 0.034, "step": 9060 }, { "epoch": 18.895833333333332, "grad_norm": 0.17508484423160553, "learning_rate": 2.3460249329197824e-06, "loss": 0.034, "step": 9070 }, { "epoch": 18.916666666666668, "grad_norm": 0.29237616062164307, "learning_rate": 2.296231735998511e-06, "loss": 0.0356, "step": 9080 }, { "epoch": 18.9375, "grad_norm": 0.19162213802337646, "learning_rate": 2.2469602198441573e-06, "loss": 0.0281, "step": 9090 }, { "epoch": 18.958333333333332, "grad_norm": 0.147079199552536, "learning_rate": 2.1982109232821178e-06, "loss": 0.0313, "step": 9100 }, { "epoch": 18.979166666666668, "grad_norm": 0.13137395679950714, "learning_rate": 2.149984379426906e-06, "loss": 0.0399, "step": 9110 }, { "epoch": 19.0, "grad_norm": 0.4080326557159424, "learning_rate": 2.102281115676258e-06, "loss": 0.038, "step": 9120 }, { "epoch": 19.020833333333332, "grad_norm": 0.13633409142494202, "learning_rate": 2.0551016537054493e-06, "loss": 0.0331, "step": 9130 }, { "epoch": 19.041666666666668, "grad_norm": 0.13765296339988708, "learning_rate": 2.008446509461498e-06, "loss": 0.0263, "step": 9140 }, { "epoch": 19.0625, "grad_norm": 0.23236972093582153, "learning_rate": 1.962316193157593e-06, "loss": 0.0328, "step": 9150 }, { "epoch": 19.083333333333332, "grad_norm": 0.15789905190467834, "learning_rate": 1.91671120926748e-06, "loss": 0.0367, "step": 9160 }, { "epoch": 19.104166666666668, "grad_norm": 0.13010896742343903, "learning_rate": 1.8716320565199618e-06, "loss": 0.0297, "step": 9170 }, { "epoch": 19.125, "grad_norm": 0.15396663546562195, "learning_rate": 1.8270792278934302e-06, "loss": 0.0383, "step": 9180 }, { "epoch": 19.145833333333332, "grad_norm": 0.18995301425457, "learning_rate": 1.7830532106104747e-06, "loss": 0.0325, "step": 9190 }, { "epoch": 19.166666666666668, "grad_norm": 0.18019302189350128, "learning_rate": 1.7395544861325718e-06, "loss": 0.0284, "step": 9200 }, { "epoch": 19.1875, "grad_norm": 0.18761536478996277, "learning_rate": 1.696583530154794e-06, "loss": 0.0338, "step": 9210 }, { "epoch": 19.208333333333332, "grad_norm": 0.2118709832429886, "learning_rate": 1.6541408126006463e-06, "loss": 0.03, "step": 9220 }, { "epoch": 19.229166666666668, "grad_norm": 0.1725333034992218, "learning_rate": 1.6122267976168781e-06, "loss": 0.0372, "step": 9230 }, { "epoch": 19.25, "grad_norm": 0.18301089107990265, "learning_rate": 1.5708419435684462e-06, "loss": 0.0324, "step": 9240 }, { "epoch": 19.270833333333332, "grad_norm": 0.11558585613965988, "learning_rate": 1.5299867030334814e-06, "loss": 0.0328, "step": 9250 }, { "epoch": 19.291666666666668, "grad_norm": 0.1680075079202652, "learning_rate": 1.4896615227983468e-06, "loss": 0.0323, "step": 9260 }, { "epoch": 19.3125, "grad_norm": 0.13936129212379456, "learning_rate": 1.4498668438527597e-06, "loss": 0.0317, "step": 9270 }, { "epoch": 19.333333333333332, "grad_norm": 0.24704353511333466, "learning_rate": 1.4106031013849496e-06, "loss": 0.0335, "step": 9280 }, { "epoch": 19.354166666666668, "grad_norm": 0.11719508469104767, "learning_rate": 1.3718707247769135e-06, "loss": 0.0275, "step": 9290 }, { "epoch": 19.375, "grad_norm": 0.18378089368343353, "learning_rate": 1.333670137599713e-06, "loss": 0.0291, "step": 9300 }, { "epoch": 19.395833333333332, "grad_norm": 0.30711549520492554, "learning_rate": 1.2960017576088446e-06, "loss": 0.0365, "step": 9310 }, { "epoch": 19.416666666666668, "grad_norm": 0.41542425751686096, "learning_rate": 1.2588659967397e-06, "loss": 0.0317, "step": 9320 }, { "epoch": 19.4375, "grad_norm": 0.16232679784297943, "learning_rate": 1.222263261102985e-06, "loss": 0.0314, "step": 9330 }, { "epoch": 19.458333333333332, "grad_norm": 0.22481182217597961, "learning_rate": 1.1861939509803687e-06, "loss": 0.0347, "step": 9340 }, { "epoch": 19.479166666666668, "grad_norm": 0.1459631323814392, "learning_rate": 1.1506584608200367e-06, "loss": 0.0317, "step": 9350 }, { "epoch": 19.5, "grad_norm": 0.2111710160970688, "learning_rate": 1.1156571792324211e-06, "loss": 0.0293, "step": 9360 }, { "epoch": 19.520833333333332, "grad_norm": 0.1639842689037323, "learning_rate": 1.0811904889859336e-06, "loss": 0.0318, "step": 9370 }, { "epoch": 19.541666666666668, "grad_norm": 0.14058507978916168, "learning_rate": 1.0472587670027678e-06, "loss": 0.0401, "step": 9380 }, { "epoch": 19.5625, "grad_norm": 0.17518417537212372, "learning_rate": 1.0138623843548078e-06, "loss": 0.0349, "step": 9390 }, { "epoch": 19.583333333333332, "grad_norm": 0.15717728435993195, "learning_rate": 9.810017062595322e-07, "loss": 0.0319, "step": 9400 }, { "epoch": 19.604166666666668, "grad_norm": 0.23628921806812286, "learning_rate": 9.486770920760668e-07, "loss": 0.0327, "step": 9410 }, { "epoch": 19.625, "grad_norm": 0.16475990414619446, "learning_rate": 9.168888953011989e-07, "loss": 0.0282, "step": 9420 }, { "epoch": 19.645833333333332, "grad_norm": 0.13366751372814178, "learning_rate": 8.856374635655695e-07, "loss": 0.0315, "step": 9430 }, { "epoch": 19.666666666666668, "grad_norm": 0.2342182844877243, "learning_rate": 8.549231386298151e-07, "loss": 0.0303, "step": 9440 }, { "epoch": 19.6875, "grad_norm": 0.17857497930526733, "learning_rate": 8.247462563808817e-07, "loss": 0.0376, "step": 9450 }, { "epoch": 19.708333333333332, "grad_norm": 0.09750518202781677, "learning_rate": 7.951071468283167e-07, "loss": 0.0326, "step": 9460 }, { "epoch": 19.729166666666668, "grad_norm": 0.14700888097286224, "learning_rate": 7.66006134100672e-07, "loss": 0.0338, "step": 9470 }, { "epoch": 19.75, "grad_norm": 0.19283577799797058, "learning_rate": 7.374435364419674e-07, "loss": 0.0297, "step": 9480 }, { "epoch": 19.770833333333332, "grad_norm": 0.17570871114730835, "learning_rate": 7.094196662081831e-07, "loss": 0.0298, "step": 9490 }, { "epoch": 19.791666666666668, "grad_norm": 0.15083159506320953, "learning_rate": 6.819348298638839e-07, "loss": 0.0337, "step": 9500 }, { "epoch": 19.8125, "grad_norm": 0.21180565655231476, "learning_rate": 6.549893279788277e-07, "loss": 0.0362, "step": 9510 }, { "epoch": 19.833333333333332, "grad_norm": 0.1290484517812729, "learning_rate": 6.285834552247128e-07, "loss": 0.0288, "step": 9520 }, { "epoch": 19.854166666666668, "grad_norm": 0.20939485728740692, "learning_rate": 6.027175003719354e-07, "loss": 0.0394, "step": 9530 }, { "epoch": 19.875, "grad_norm": 0.20585738122463226, "learning_rate": 5.773917462864264e-07, "loss": 0.034, "step": 9540 }, { "epoch": 19.895833333333332, "grad_norm": 0.1653178483247757, "learning_rate": 5.526064699265753e-07, "loss": 0.035, "step": 9550 }, { "epoch": 19.916666666666668, "grad_norm": 0.19663727283477783, "learning_rate": 5.283619423401998e-07, "loss": 0.0333, "step": 9560 }, { "epoch": 19.9375, "grad_norm": 0.1678989678621292, "learning_rate": 5.046584286615697e-07, "loss": 0.0369, "step": 9570 }, { "epoch": 19.958333333333332, "grad_norm": 0.28280648589134216, "learning_rate": 4.814961881085045e-07, "loss": 0.0337, "step": 9580 }, { "epoch": 19.979166666666668, "grad_norm": 0.199066624045372, "learning_rate": 4.5887547397955864e-07, "loss": 0.0348, "step": 9590 }, { "epoch": 20.0, "grad_norm": 0.24922700226306915, "learning_rate": 4.367965336512403e-07, "loss": 0.0276, "step": 9600 }, { "epoch": 20.020833333333332, "grad_norm": 0.16354601085186005, "learning_rate": 4.1525960857530243e-07, "loss": 0.0308, "step": 9610 }, { "epoch": 20.041666666666668, "grad_norm": 0.24178677797317505, "learning_rate": 3.9426493427611177e-07, "loss": 0.0371, "step": 9620 }, { "epoch": 20.0625, "grad_norm": 0.18796806037425995, "learning_rate": 3.738127403480507e-07, "loss": 0.0388, "step": 9630 }, { "epoch": 20.083333333333332, "grad_norm": 0.20693808794021606, "learning_rate": 3.5390325045304706e-07, "loss": 0.0333, "step": 9640 }, { "epoch": 20.104166666666668, "grad_norm": 0.18679924309253693, "learning_rate": 3.3453668231809286e-07, "loss": 0.031, "step": 9650 }, { "epoch": 20.125, "grad_norm": 0.10266103595495224, "learning_rate": 3.157132477328628e-07, "loss": 0.0299, "step": 9660 }, { "epoch": 20.145833333333332, "grad_norm": 0.18884888291358948, "learning_rate": 2.9743315254743833e-07, "loss": 0.0364, "step": 9670 }, { "epoch": 20.166666666666668, "grad_norm": 0.20858243107795715, "learning_rate": 2.796965966699927e-07, "loss": 0.0353, "step": 9680 }, { "epoch": 20.1875, "grad_norm": 0.2836136817932129, "learning_rate": 2.625037740646763e-07, "loss": 0.0339, "step": 9690 }, { "epoch": 20.208333333333332, "grad_norm": 0.1977325975894928, "learning_rate": 2.458548727494292e-07, "loss": 0.029, "step": 9700 }, { "epoch": 20.229166666666668, "grad_norm": 0.21082016825675964, "learning_rate": 2.2975007479397738e-07, "loss": 0.0312, "step": 9710 }, { "epoch": 20.25, "grad_norm": 0.22530245780944824, "learning_rate": 2.1418955631781202e-07, "loss": 0.0361, "step": 9720 }, { "epoch": 20.270833333333332, "grad_norm": 0.11725817620754242, "learning_rate": 1.9917348748826335e-07, "loss": 0.0309, "step": 9730 }, { "epoch": 20.291666666666668, "grad_norm": 0.23259659111499786, "learning_rate": 1.847020325186577e-07, "loss": 0.0356, "step": 9740 }, { "epoch": 20.3125, "grad_norm": 0.25922563672065735, "learning_rate": 1.7077534966650766e-07, "loss": 0.0352, "step": 9750 }, { "epoch": 20.333333333333332, "grad_norm": 0.160082146525383, "learning_rate": 1.5739359123178587e-07, "loss": 0.0315, "step": 9760 }, { "epoch": 20.354166666666668, "grad_norm": 0.1723332554101944, "learning_rate": 1.4455690355525964e-07, "loss": 0.03, "step": 9770 }, { "epoch": 20.375, "grad_norm": 0.39016783237457275, "learning_rate": 1.3226542701689215e-07, "loss": 0.0333, "step": 9780 }, { "epoch": 20.395833333333332, "grad_norm": 0.17745746672153473, "learning_rate": 1.2051929603428825e-07, "loss": 0.0335, "step": 9790 }, { "epoch": 20.416666666666668, "grad_norm": 0.19119124114513397, "learning_rate": 1.0931863906127327e-07, "loss": 0.0371, "step": 9800 }, { "epoch": 20.4375, "grad_norm": 0.19665691256523132, "learning_rate": 9.866357858642205e-08, "loss": 0.0301, "step": 9810 }, { "epoch": 20.458333333333332, "grad_norm": 0.2378683239221573, "learning_rate": 8.855423113177664e-08, "loss": 0.0339, "step": 9820 }, { "epoch": 20.479166666666668, "grad_norm": 0.21455919742584229, "learning_rate": 7.899070725153613e-08, "loss": 0.0301, "step": 9830 }, { "epoch": 20.5, "grad_norm": 0.1403769999742508, "learning_rate": 6.997311153086883e-08, "loss": 0.0348, "step": 9840 }, { "epoch": 20.520833333333332, "grad_norm": 0.1677563339471817, "learning_rate": 6.150154258476315e-08, "loss": 0.0294, "step": 9850 }, { "epoch": 20.541666666666668, "grad_norm": 0.22757263481616974, "learning_rate": 5.3576093056922906e-08, "loss": 0.0371, "step": 9860 }, { "epoch": 20.5625, "grad_norm": 0.14663146436214447, "learning_rate": 4.619684961881254e-08, "loss": 0.0344, "step": 9870 }, { "epoch": 20.583333333333332, "grad_norm": 0.205908864736557, "learning_rate": 3.936389296864129e-08, "loss": 0.0275, "step": 9880 }, { "epoch": 20.604166666666668, "grad_norm": 0.12263581156730652, "learning_rate": 3.3077297830541584e-08, "loss": 0.0306, "step": 9890 }, { "epoch": 20.625, "grad_norm": 0.24407680332660675, "learning_rate": 2.7337132953697554e-08, "loss": 0.0353, "step": 9900 }, { "epoch": 20.645833333333332, "grad_norm": 0.17561787366867065, "learning_rate": 2.214346111164556e-08, "loss": 0.0343, "step": 9910 }, { "epoch": 20.666666666666668, "grad_norm": 0.28819283843040466, "learning_rate": 1.749633910153592e-08, "loss": 0.0353, "step": 9920 }, { "epoch": 20.6875, "grad_norm": 0.12137261778116226, "learning_rate": 1.3395817743561134e-08, "loss": 0.0355, "step": 9930 }, { "epoch": 20.708333333333332, "grad_norm": 0.15780037641525269, "learning_rate": 9.841941880361916e-09, "loss": 0.0292, "step": 9940 }, { "epoch": 20.729166666666668, "grad_norm": 0.15066218376159668, "learning_rate": 6.834750376549792e-09, "loss": 0.0332, "step": 9950 }, { "epoch": 20.75, "grad_norm": 0.17980065941810608, "learning_rate": 4.3742761183018784e-09, "loss": 0.0339, "step": 9960 }, { "epoch": 20.770833333333332, "grad_norm": 0.18489395081996918, "learning_rate": 2.4605460129556445e-09, "loss": 0.0353, "step": 9970 }, { "epoch": 20.791666666666668, "grad_norm": 0.16273553669452667, "learning_rate": 1.0935809887702154e-09, "loss": 0.0326, "step": 9980 }, { "epoch": 20.8125, "grad_norm": 0.21852363646030426, "learning_rate": 2.7339599464326627e-10, "loss": 0.0297, "step": 9990 }, { "epoch": 20.833333333333332, "grad_norm": 0.09543376415967941, "learning_rate": 0.0, "loss": 0.0322, "step": 10000 } ], "logging_steps": 10, "max_steps": 10000, "num_input_tokens_seen": 0, "num_train_epochs": 21, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 7.191112056860797e+17, "train_batch_size": 32, "trial_name": null, "trial_params": null }