{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 416.6666666666667, "eval_steps": 500, "global_step": 20000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.20833333333333334, "grad_norm": 6.974559783935547, "learning_rate": 9e-07, "loss": 0.9968, "step": 10 }, { "epoch": 0.4166666666666667, "grad_norm": 5.023812294006348, "learning_rate": 1.9e-06, "loss": 0.9334, "step": 20 }, { "epoch": 0.625, "grad_norm": 2.8353774547576904, "learning_rate": 2.9e-06, "loss": 0.6922, "step": 30 }, { "epoch": 0.8333333333333334, "grad_norm": 0.9118760228157043, "learning_rate": 3.9e-06, "loss": 0.4461, "step": 40 }, { "epoch": 1.0416666666666667, "grad_norm": 0.5101693272590637, "learning_rate": 4.9000000000000005e-06, "loss": 0.2961, "step": 50 }, { "epoch": 1.25, "grad_norm": 0.41475388407707214, "learning_rate": 5.9e-06, "loss": 0.2194, "step": 60 }, { "epoch": 1.4583333333333333, "grad_norm": 0.3171979486942291, "learning_rate": 6.900000000000001e-06, "loss": 0.1815, "step": 70 }, { "epoch": 1.6666666666666665, "grad_norm": 0.38558876514434814, "learning_rate": 7.9e-06, "loss": 0.1614, "step": 80 }, { "epoch": 1.875, "grad_norm": 0.28808021545410156, "learning_rate": 8.9e-06, "loss": 0.1422, "step": 90 }, { "epoch": 2.0833333333333335, "grad_norm": 0.29702240228652954, "learning_rate": 9.900000000000002e-06, "loss": 0.1262, "step": 100 }, { "epoch": 2.2916666666666665, "grad_norm": 0.2959185540676117, "learning_rate": 1.09e-05, "loss": 0.1081, "step": 110 }, { "epoch": 2.5, "grad_norm": 0.2338050752878189, "learning_rate": 1.19e-05, "loss": 0.0981, "step": 120 }, { "epoch": 2.7083333333333335, "grad_norm": 0.2578125, "learning_rate": 1.29e-05, "loss": 0.0895, "step": 130 }, { "epoch": 2.9166666666666665, "grad_norm": 0.2224149852991104, "learning_rate": 1.3900000000000002e-05, "loss": 0.0776, "step": 140 }, { "epoch": 3.125, "grad_norm": 0.19243746995925903, "learning_rate": 1.49e-05, "loss": 0.0712, "step": 150 }, { "epoch": 3.3333333333333335, "grad_norm": 0.2733956575393677, "learning_rate": 1.59e-05, "loss": 0.0674, "step": 160 }, { "epoch": 3.5416666666666665, "grad_norm": 0.23844897747039795, "learning_rate": 1.69e-05, "loss": 0.0617, "step": 170 }, { "epoch": 3.75, "grad_norm": 0.20417346060276031, "learning_rate": 1.79e-05, "loss": 0.056, "step": 180 }, { "epoch": 3.9583333333333335, "grad_norm": 0.24881872534751892, "learning_rate": 1.8900000000000002e-05, "loss": 0.0525, "step": 190 }, { "epoch": 4.166666666666667, "grad_norm": 0.25316762924194336, "learning_rate": 1.9900000000000003e-05, "loss": 0.0512, "step": 200 }, { "epoch": 4.375, "grad_norm": 0.19489045441150665, "learning_rate": 2.09e-05, "loss": 0.0454, "step": 210 }, { "epoch": 4.583333333333333, "grad_norm": 0.1898735761642456, "learning_rate": 2.19e-05, "loss": 0.0446, "step": 220 }, { "epoch": 4.791666666666667, "grad_norm": 0.20489181578159332, "learning_rate": 2.29e-05, "loss": 0.0422, "step": 230 }, { "epoch": 5.0, "grad_norm": 0.3320506811141968, "learning_rate": 2.39e-05, "loss": 0.0407, "step": 240 }, { "epoch": 5.208333333333333, "grad_norm": 0.24517174065113068, "learning_rate": 2.4900000000000002e-05, "loss": 0.0374, "step": 250 }, { "epoch": 5.416666666666667, "grad_norm": 0.26409515738487244, "learning_rate": 2.5900000000000003e-05, "loss": 0.0364, "step": 260 }, { "epoch": 5.625, "grad_norm": 0.2976372241973877, "learning_rate": 2.6900000000000003e-05, "loss": 0.0353, "step": 270 }, { "epoch": 5.833333333333333, "grad_norm": 0.24544252455234528, "learning_rate": 2.7900000000000004e-05, "loss": 0.0332, "step": 280 }, { "epoch": 6.041666666666667, "grad_norm": 0.3133062720298767, "learning_rate": 2.8899999999999998e-05, "loss": 0.0332, "step": 290 }, { "epoch": 6.25, "grad_norm": 0.29001384973526, "learning_rate": 2.9900000000000002e-05, "loss": 0.0326, "step": 300 }, { "epoch": 6.458333333333333, "grad_norm": 0.2940799295902252, "learning_rate": 3.09e-05, "loss": 0.0321, "step": 310 }, { "epoch": 6.666666666666667, "grad_norm": 0.2921755909919739, "learning_rate": 3.19e-05, "loss": 0.0306, "step": 320 }, { "epoch": 6.875, "grad_norm": 0.3143065869808197, "learning_rate": 3.29e-05, "loss": 0.0298, "step": 330 }, { "epoch": 7.083333333333333, "grad_norm": 0.35790130496025085, "learning_rate": 3.3900000000000004e-05, "loss": 0.0295, "step": 340 }, { "epoch": 7.291666666666667, "grad_norm": 0.24478909373283386, "learning_rate": 3.49e-05, "loss": 0.028, "step": 350 }, { "epoch": 7.5, "grad_norm": 0.19725550711154938, "learning_rate": 3.59e-05, "loss": 0.0273, "step": 360 }, { "epoch": 7.708333333333333, "grad_norm": 0.19303350150585175, "learning_rate": 3.69e-05, "loss": 0.0279, "step": 370 }, { "epoch": 7.916666666666667, "grad_norm": 0.22829170525074005, "learning_rate": 3.79e-05, "loss": 0.0275, "step": 380 }, { "epoch": 8.125, "grad_norm": 0.312612384557724, "learning_rate": 3.8900000000000004e-05, "loss": 0.0252, "step": 390 }, { "epoch": 8.333333333333334, "grad_norm": 0.26859182119369507, "learning_rate": 3.99e-05, "loss": 0.0262, "step": 400 }, { "epoch": 8.541666666666666, "grad_norm": 0.24778631329536438, "learning_rate": 4.09e-05, "loss": 0.024, "step": 410 }, { "epoch": 8.75, "grad_norm": 0.2118053287267685, "learning_rate": 4.19e-05, "loss": 0.0254, "step": 420 }, { "epoch": 8.958333333333334, "grad_norm": 0.2575972080230713, "learning_rate": 4.29e-05, "loss": 0.024, "step": 430 }, { "epoch": 9.166666666666666, "grad_norm": 0.2238076776266098, "learning_rate": 4.39e-05, "loss": 0.0247, "step": 440 }, { "epoch": 9.375, "grad_norm": 0.32065877318382263, "learning_rate": 4.49e-05, "loss": 0.0247, "step": 450 }, { "epoch": 9.583333333333334, "grad_norm": 0.28235775232315063, "learning_rate": 4.5900000000000004e-05, "loss": 0.0242, "step": 460 }, { "epoch": 9.791666666666666, "grad_norm": 0.3509873151779175, "learning_rate": 4.69e-05, "loss": 0.0235, "step": 470 }, { "epoch": 10.0, "grad_norm": 0.26749303936958313, "learning_rate": 4.79e-05, "loss": 0.0234, "step": 480 }, { "epoch": 10.208333333333334, "grad_norm": 0.2362636923789978, "learning_rate": 4.89e-05, "loss": 0.0227, "step": 490 }, { "epoch": 10.416666666666666, "grad_norm": 0.1780959814786911, "learning_rate": 4.99e-05, "loss": 0.0224, "step": 500 }, { "epoch": 10.625, "grad_norm": 0.2748551070690155, "learning_rate": 5.0900000000000004e-05, "loss": 0.0245, "step": 510 }, { "epoch": 10.833333333333334, "grad_norm": 0.20780707895755768, "learning_rate": 5.19e-05, "loss": 0.0212, "step": 520 }, { "epoch": 11.041666666666666, "grad_norm": 0.3468799591064453, "learning_rate": 5.2900000000000005e-05, "loss": 0.0227, "step": 530 }, { "epoch": 11.25, "grad_norm": 0.2328055202960968, "learning_rate": 5.390000000000001e-05, "loss": 0.0212, "step": 540 }, { "epoch": 11.458333333333334, "grad_norm": 0.264704167842865, "learning_rate": 5.4900000000000006e-05, "loss": 0.0217, "step": 550 }, { "epoch": 11.666666666666666, "grad_norm": 0.2830072045326233, "learning_rate": 5.590000000000001e-05, "loss": 0.0223, "step": 560 }, { "epoch": 11.875, "grad_norm": 0.3284772038459778, "learning_rate": 5.69e-05, "loss": 0.0208, "step": 570 }, { "epoch": 12.083333333333334, "grad_norm": 0.24000631272792816, "learning_rate": 5.79e-05, "loss": 0.0206, "step": 580 }, { "epoch": 12.291666666666666, "grad_norm": 0.24238787591457367, "learning_rate": 5.89e-05, "loss": 0.0214, "step": 590 }, { "epoch": 12.5, "grad_norm": 0.25679489970207214, "learning_rate": 5.99e-05, "loss": 0.0206, "step": 600 }, { "epoch": 12.708333333333334, "grad_norm": 0.2557210326194763, "learning_rate": 6.09e-05, "loss": 0.0217, "step": 610 }, { "epoch": 12.916666666666666, "grad_norm": 0.24070383608341217, "learning_rate": 6.19e-05, "loss": 0.0209, "step": 620 }, { "epoch": 13.125, "grad_norm": 0.25813865661621094, "learning_rate": 6.29e-05, "loss": 0.0208, "step": 630 }, { "epoch": 13.333333333333334, "grad_norm": 0.2484397441148758, "learning_rate": 6.390000000000001e-05, "loss": 0.0206, "step": 640 }, { "epoch": 13.541666666666666, "grad_norm": 0.24208255112171173, "learning_rate": 6.49e-05, "loss": 0.0189, "step": 650 }, { "epoch": 13.75, "grad_norm": 0.19995449483394623, "learning_rate": 6.59e-05, "loss": 0.0196, "step": 660 }, { "epoch": 13.958333333333334, "grad_norm": 0.24547183513641357, "learning_rate": 6.690000000000001e-05, "loss": 0.0189, "step": 670 }, { "epoch": 14.166666666666666, "grad_norm": 0.2594086229801178, "learning_rate": 6.790000000000001e-05, "loss": 0.019, "step": 680 }, { "epoch": 14.375, "grad_norm": 0.2065507173538208, "learning_rate": 6.89e-05, "loss": 0.0192, "step": 690 }, { "epoch": 14.583333333333334, "grad_norm": 0.2905842661857605, "learning_rate": 6.99e-05, "loss": 0.0187, "step": 700 }, { "epoch": 14.791666666666666, "grad_norm": 0.2601730227470398, "learning_rate": 7.09e-05, "loss": 0.0196, "step": 710 }, { "epoch": 15.0, "grad_norm": 0.28263160586357117, "learning_rate": 7.19e-05, "loss": 0.0192, "step": 720 }, { "epoch": 15.208333333333334, "grad_norm": 0.3240365982055664, "learning_rate": 7.29e-05, "loss": 0.0195, "step": 730 }, { "epoch": 15.416666666666666, "grad_norm": 0.24705904722213745, "learning_rate": 7.390000000000001e-05, "loss": 0.0187, "step": 740 }, { "epoch": 15.625, "grad_norm": 0.2265540510416031, "learning_rate": 7.49e-05, "loss": 0.0179, "step": 750 }, { "epoch": 15.833333333333334, "grad_norm": 0.193108931183815, "learning_rate": 7.59e-05, "loss": 0.0183, "step": 760 }, { "epoch": 16.041666666666668, "grad_norm": 0.36317235231399536, "learning_rate": 7.69e-05, "loss": 0.0182, "step": 770 }, { "epoch": 16.25, "grad_norm": 0.3126901686191559, "learning_rate": 7.790000000000001e-05, "loss": 0.0197, "step": 780 }, { "epoch": 16.458333333333332, "grad_norm": 0.238056942820549, "learning_rate": 7.890000000000001e-05, "loss": 0.0182, "step": 790 }, { "epoch": 16.666666666666668, "grad_norm": 0.25261858105659485, "learning_rate": 7.99e-05, "loss": 0.0176, "step": 800 }, { "epoch": 16.875, "grad_norm": 0.1865801066160202, "learning_rate": 8.090000000000001e-05, "loss": 0.0174, "step": 810 }, { "epoch": 17.083333333333332, "grad_norm": 0.18573996424674988, "learning_rate": 8.19e-05, "loss": 0.0176, "step": 820 }, { "epoch": 17.291666666666668, "grad_norm": 0.21988113224506378, "learning_rate": 8.29e-05, "loss": 0.0174, "step": 830 }, { "epoch": 17.5, "grad_norm": 0.196188285946846, "learning_rate": 8.39e-05, "loss": 0.0172, "step": 840 }, { "epoch": 17.708333333333332, "grad_norm": 0.219802588224411, "learning_rate": 8.49e-05, "loss": 0.0181, "step": 850 }, { "epoch": 17.916666666666668, "grad_norm": 0.2536110579967499, "learning_rate": 8.59e-05, "loss": 0.0178, "step": 860 }, { "epoch": 18.125, "grad_norm": 0.3585800528526306, "learning_rate": 8.69e-05, "loss": 0.0176, "step": 870 }, { "epoch": 18.333333333333332, "grad_norm": 0.18298107385635376, "learning_rate": 8.790000000000001e-05, "loss": 0.0173, "step": 880 }, { "epoch": 18.541666666666668, "grad_norm": 0.22495491802692413, "learning_rate": 8.89e-05, "loss": 0.0166, "step": 890 }, { "epoch": 18.75, "grad_norm": 0.21044448018074036, "learning_rate": 8.99e-05, "loss": 0.0161, "step": 900 }, { "epoch": 18.958333333333332, "grad_norm": 0.19759798049926758, "learning_rate": 9.090000000000001e-05, "loss": 0.0153, "step": 910 }, { "epoch": 19.166666666666668, "grad_norm": 0.22768504917621613, "learning_rate": 9.190000000000001e-05, "loss": 0.0168, "step": 920 }, { "epoch": 19.375, "grad_norm": 0.1936219483613968, "learning_rate": 9.290000000000001e-05, "loss": 0.0162, "step": 930 }, { "epoch": 19.583333333333332, "grad_norm": 0.21084393560886383, "learning_rate": 9.39e-05, "loss": 0.0179, "step": 940 }, { "epoch": 19.791666666666668, "grad_norm": 0.20455226302146912, "learning_rate": 9.49e-05, "loss": 0.0154, "step": 950 }, { "epoch": 20.0, "grad_norm": 0.26040470600128174, "learning_rate": 9.59e-05, "loss": 0.0155, "step": 960 }, { "epoch": 20.208333333333332, "grad_norm": 0.2832554280757904, "learning_rate": 9.69e-05, "loss": 0.0164, "step": 970 }, { "epoch": 20.416666666666668, "grad_norm": 0.2514568567276001, "learning_rate": 9.790000000000001e-05, "loss": 0.017, "step": 980 }, { "epoch": 20.625, "grad_norm": 0.20968522131443024, "learning_rate": 9.89e-05, "loss": 0.016, "step": 990 }, { "epoch": 20.833333333333332, "grad_norm": 0.20158836245536804, "learning_rate": 9.99e-05, "loss": 0.0153, "step": 1000 }, { "epoch": 21.041666666666668, "grad_norm": 0.24486659467220306, "learning_rate": 9.999994463727085e-05, "loss": 0.0157, "step": 1010 }, { "epoch": 21.25, "grad_norm": 0.2102823108434677, "learning_rate": 9.999975326009292e-05, "loss": 0.0166, "step": 1020 }, { "epoch": 21.458333333333332, "grad_norm": 0.2416916787624359, "learning_rate": 9.999942518549879e-05, "loss": 0.0161, "step": 1030 }, { "epoch": 21.666666666666668, "grad_norm": 0.14526234567165375, "learning_rate": 9.999896041438544e-05, "loss": 0.0156, "step": 1040 }, { "epoch": 21.875, "grad_norm": 0.21768969297409058, "learning_rate": 9.999835894802353e-05, "loss": 0.0149, "step": 1050 }, { "epoch": 22.083333333333332, "grad_norm": 0.2318434864282608, "learning_rate": 9.999762078805743e-05, "loss": 0.0153, "step": 1060 }, { "epoch": 22.291666666666668, "grad_norm": 0.2798757255077362, "learning_rate": 9.999674593650526e-05, "loss": 0.0155, "step": 1070 }, { "epoch": 22.5, "grad_norm": 0.24006976187229156, "learning_rate": 9.99957343957588e-05, "loss": 0.0153, "step": 1080 }, { "epoch": 22.708333333333332, "grad_norm": 0.21017949283123016, "learning_rate": 9.99945861685836e-05, "loss": 0.0162, "step": 1090 }, { "epoch": 22.916666666666668, "grad_norm": 0.19796672463417053, "learning_rate": 9.999330125811884e-05, "loss": 0.0149, "step": 1100 }, { "epoch": 23.125, "grad_norm": 0.2603440582752228, "learning_rate": 9.999187966787744e-05, "loss": 0.015, "step": 1110 }, { "epoch": 23.333333333333332, "grad_norm": 0.23967282474040985, "learning_rate": 9.999032140174595e-05, "loss": 0.0151, "step": 1120 }, { "epoch": 23.541666666666668, "grad_norm": 0.18136964738368988, "learning_rate": 9.998862646398464e-05, "loss": 0.0152, "step": 1130 }, { "epoch": 23.75, "grad_norm": 0.252003014087677, "learning_rate": 9.998679485922739e-05, "loss": 0.0153, "step": 1140 }, { "epoch": 23.958333333333332, "grad_norm": 0.2043199986219406, "learning_rate": 9.998482659248174e-05, "loss": 0.0157, "step": 1150 }, { "epoch": 24.166666666666668, "grad_norm": 0.18087252974510193, "learning_rate": 9.998272166912883e-05, "loss": 0.0154, "step": 1160 }, { "epoch": 24.375, "grad_norm": 0.21990996599197388, "learning_rate": 9.998048009492347e-05, "loss": 0.015, "step": 1170 }, { "epoch": 24.583333333333332, "grad_norm": 0.2346096634864807, "learning_rate": 9.997810187599403e-05, "loss": 0.0154, "step": 1180 }, { "epoch": 24.791666666666668, "grad_norm": 0.18085162341594696, "learning_rate": 9.997558701884249e-05, "loss": 0.015, "step": 1190 }, { "epoch": 25.0, "grad_norm": 0.3023941218852997, "learning_rate": 9.997293553034433e-05, "loss": 0.0133, "step": 1200 }, { "epoch": 25.208333333333332, "grad_norm": 0.20299163460731506, "learning_rate": 9.997014741774866e-05, "loss": 0.0133, "step": 1210 }, { "epoch": 25.416666666666668, "grad_norm": 0.26265865564346313, "learning_rate": 9.996722268867803e-05, "loss": 0.0137, "step": 1220 }, { "epoch": 25.625, "grad_norm": 0.24567152559757233, "learning_rate": 9.996416135112858e-05, "loss": 0.0132, "step": 1230 }, { "epoch": 25.833333333333332, "grad_norm": 0.17860938608646393, "learning_rate": 9.996096341346988e-05, "loss": 0.0135, "step": 1240 }, { "epoch": 26.041666666666668, "grad_norm": 0.27000877261161804, "learning_rate": 9.995762888444495e-05, "loss": 0.0127, "step": 1250 }, { "epoch": 26.25, "grad_norm": 0.21311180293560028, "learning_rate": 9.995415777317027e-05, "loss": 0.0146, "step": 1260 }, { "epoch": 26.458333333333332, "grad_norm": 0.19608379900455475, "learning_rate": 9.995055008913574e-05, "loss": 0.0141, "step": 1270 }, { "epoch": 26.666666666666668, "grad_norm": 0.14746077358722687, "learning_rate": 9.994680584220463e-05, "loss": 0.0127, "step": 1280 }, { "epoch": 26.875, "grad_norm": 0.2702135443687439, "learning_rate": 9.994292504261355e-05, "loss": 0.0139, "step": 1290 }, { "epoch": 27.083333333333332, "grad_norm": 0.16915710270404816, "learning_rate": 9.993890770097247e-05, "loss": 0.0125, "step": 1300 }, { "epoch": 27.291666666666668, "grad_norm": 0.18446531891822815, "learning_rate": 9.993475382826467e-05, "loss": 0.0133, "step": 1310 }, { "epoch": 27.5, "grad_norm": 0.1798723340034485, "learning_rate": 9.993046343584664e-05, "loss": 0.0127, "step": 1320 }, { "epoch": 27.708333333333332, "grad_norm": 0.1655735820531845, "learning_rate": 9.992603653544816e-05, "loss": 0.0123, "step": 1330 }, { "epoch": 27.916666666666668, "grad_norm": 0.21007224917411804, "learning_rate": 9.992147313917222e-05, "loss": 0.0125, "step": 1340 }, { "epoch": 28.125, "grad_norm": 0.2112513929605484, "learning_rate": 9.991677325949497e-05, "loss": 0.0125, "step": 1350 }, { "epoch": 28.333333333333332, "grad_norm": 0.20448802411556244, "learning_rate": 9.991193690926568e-05, "loss": 0.0133, "step": 1360 }, { "epoch": 28.541666666666668, "grad_norm": 0.1936739832162857, "learning_rate": 9.990696410170678e-05, "loss": 0.0125, "step": 1370 }, { "epoch": 28.75, "grad_norm": 0.20615226030349731, "learning_rate": 9.990185485041371e-05, "loss": 0.0121, "step": 1380 }, { "epoch": 28.958333333333332, "grad_norm": 0.18444038927555084, "learning_rate": 9.989660916935498e-05, "loss": 0.0123, "step": 1390 }, { "epoch": 29.166666666666668, "grad_norm": 0.21376805007457733, "learning_rate": 9.989122707287208e-05, "loss": 0.013, "step": 1400 }, { "epoch": 29.375, "grad_norm": 0.25530359148979187, "learning_rate": 9.988570857567945e-05, "loss": 0.0125, "step": 1410 }, { "epoch": 29.583333333333332, "grad_norm": 0.21851158142089844, "learning_rate": 9.988005369286446e-05, "loss": 0.0123, "step": 1420 }, { "epoch": 29.791666666666668, "grad_norm": 0.19980329275131226, "learning_rate": 9.987426243988734e-05, "loss": 0.0134, "step": 1430 }, { "epoch": 30.0, "grad_norm": 0.3672507107257843, "learning_rate": 9.986833483258114e-05, "loss": 0.0108, "step": 1440 }, { "epoch": 30.208333333333332, "grad_norm": 0.26760515570640564, "learning_rate": 9.986227088715173e-05, "loss": 0.0144, "step": 1450 }, { "epoch": 30.416666666666668, "grad_norm": 0.1989632248878479, "learning_rate": 9.98560706201777e-05, "loss": 0.0135, "step": 1460 }, { "epoch": 30.625, "grad_norm": 0.20122896134853363, "learning_rate": 9.984973404861036e-05, "loss": 0.0137, "step": 1470 }, { "epoch": 30.833333333333332, "grad_norm": 0.22380387783050537, "learning_rate": 9.984326118977361e-05, "loss": 0.0138, "step": 1480 }, { "epoch": 31.041666666666668, "grad_norm": 0.17185676097869873, "learning_rate": 9.983665206136406e-05, "loss": 0.0119, "step": 1490 }, { "epoch": 31.25, "grad_norm": 0.20098410546779633, "learning_rate": 9.982990668145075e-05, "loss": 0.0119, "step": 1500 }, { "epoch": 31.458333333333332, "grad_norm": 0.16579347848892212, "learning_rate": 9.982302506847534e-05, "loss": 0.013, "step": 1510 }, { "epoch": 31.666666666666668, "grad_norm": 0.15271247923374176, "learning_rate": 9.981600724125189e-05, "loss": 0.0131, "step": 1520 }, { "epoch": 31.875, "grad_norm": 0.16309182345867157, "learning_rate": 9.980885321896685e-05, "loss": 0.0121, "step": 1530 }, { "epoch": 32.083333333333336, "grad_norm": 0.17842234671115875, "learning_rate": 9.980156302117905e-05, "loss": 0.0112, "step": 1540 }, { "epoch": 32.291666666666664, "grad_norm": 0.18424782156944275, "learning_rate": 9.979413666781963e-05, "loss": 0.0117, "step": 1550 }, { "epoch": 32.5, "grad_norm": 0.17072798311710358, "learning_rate": 9.978657417919193e-05, "loss": 0.0113, "step": 1560 }, { "epoch": 32.708333333333336, "grad_norm": 0.16320225596427917, "learning_rate": 9.977887557597153e-05, "loss": 0.0113, "step": 1570 }, { "epoch": 32.916666666666664, "grad_norm": 0.17314594984054565, "learning_rate": 9.97710408792061e-05, "loss": 0.0108, "step": 1580 }, { "epoch": 33.125, "grad_norm": 0.21347780525684357, "learning_rate": 9.976307011031542e-05, "loss": 0.0111, "step": 1590 }, { "epoch": 33.333333333333336, "grad_norm": 0.1748444139957428, "learning_rate": 9.975496329109126e-05, "loss": 0.0118, "step": 1600 }, { "epoch": 33.541666666666664, "grad_norm": 0.22180508077144623, "learning_rate": 9.974672044369732e-05, "loss": 0.0111, "step": 1610 }, { "epoch": 33.75, "grad_norm": 0.1914110630750656, "learning_rate": 9.97383415906693e-05, "loss": 0.0124, "step": 1620 }, { "epoch": 33.958333333333336, "grad_norm": 0.1542980968952179, "learning_rate": 9.97298267549146e-05, "loss": 0.0119, "step": 1630 }, { "epoch": 34.166666666666664, "grad_norm": 0.2009705901145935, "learning_rate": 9.972117595971249e-05, "loss": 0.0124, "step": 1640 }, { "epoch": 34.375, "grad_norm": 0.1812678873538971, "learning_rate": 9.971238922871391e-05, "loss": 0.0116, "step": 1650 }, { "epoch": 34.583333333333336, "grad_norm": 0.13899721205234528, "learning_rate": 9.970346658594142e-05, "loss": 0.0113, "step": 1660 }, { "epoch": 34.791666666666664, "grad_norm": 0.12181176245212555, "learning_rate": 9.969440805578923e-05, "loss": 0.0115, "step": 1670 }, { "epoch": 35.0, "grad_norm": 0.20665058493614197, "learning_rate": 9.968521366302298e-05, "loss": 0.0104, "step": 1680 }, { "epoch": 35.208333333333336, "grad_norm": 0.14869576692581177, "learning_rate": 9.967588343277981e-05, "loss": 0.0111, "step": 1690 }, { "epoch": 35.416666666666664, "grad_norm": 0.21121446788311005, "learning_rate": 9.966641739056818e-05, "loss": 0.0121, "step": 1700 }, { "epoch": 35.625, "grad_norm": 0.2114773988723755, "learning_rate": 9.965681556226793e-05, "loss": 0.0117, "step": 1710 }, { "epoch": 35.833333333333336, "grad_norm": 0.2102501392364502, "learning_rate": 9.964707797413006e-05, "loss": 0.0111, "step": 1720 }, { "epoch": 36.041666666666664, "grad_norm": 0.197468101978302, "learning_rate": 9.963720465277679e-05, "loss": 0.0113, "step": 1730 }, { "epoch": 36.25, "grad_norm": 0.21283449232578278, "learning_rate": 9.96271956252014e-05, "loss": 0.0111, "step": 1740 }, { "epoch": 36.458333333333336, "grad_norm": 0.20028117299079895, "learning_rate": 9.961705091876816e-05, "loss": 0.012, "step": 1750 }, { "epoch": 36.666666666666664, "grad_norm": 0.15327388048171997, "learning_rate": 9.960677056121235e-05, "loss": 0.0104, "step": 1760 }, { "epoch": 36.875, "grad_norm": 0.16232164204120636, "learning_rate": 9.959635458064005e-05, "loss": 0.0107, "step": 1770 }, { "epoch": 37.083333333333336, "grad_norm": 0.18801745772361755, "learning_rate": 9.958580300552815e-05, "loss": 0.0106, "step": 1780 }, { "epoch": 37.291666666666664, "grad_norm": 0.15016761422157288, "learning_rate": 9.957511586472426e-05, "loss": 0.0104, "step": 1790 }, { "epoch": 37.5, "grad_norm": 0.15682189166545868, "learning_rate": 9.956429318744662e-05, "loss": 0.0101, "step": 1800 }, { "epoch": 37.708333333333336, "grad_norm": 0.2034134864807129, "learning_rate": 9.955333500328404e-05, "loss": 0.0106, "step": 1810 }, { "epoch": 37.916666666666664, "grad_norm": 0.16577675938606262, "learning_rate": 9.95422413421957e-05, "loss": 0.0104, "step": 1820 }, { "epoch": 38.125, "grad_norm": 0.16364583373069763, "learning_rate": 9.953101223451133e-05, "loss": 0.0101, "step": 1830 }, { "epoch": 38.333333333333336, "grad_norm": 0.14578108489513397, "learning_rate": 9.951964771093085e-05, "loss": 0.0105, "step": 1840 }, { "epoch": 38.541666666666664, "grad_norm": 0.14456351101398468, "learning_rate": 9.950814780252442e-05, "loss": 0.0101, "step": 1850 }, { "epoch": 38.75, "grad_norm": 0.20234094560146332, "learning_rate": 9.949651254073236e-05, "loss": 0.0109, "step": 1860 }, { "epoch": 38.958333333333336, "grad_norm": 0.16703951358795166, "learning_rate": 9.948474195736504e-05, "loss": 0.0105, "step": 1870 }, { "epoch": 39.166666666666664, "grad_norm": 0.17165902256965637, "learning_rate": 9.947283608460277e-05, "loss": 0.0103, "step": 1880 }, { "epoch": 39.375, "grad_norm": 0.14556387066841125, "learning_rate": 9.946079495499577e-05, "loss": 0.0101, "step": 1890 }, { "epoch": 39.583333333333336, "grad_norm": 0.19160117208957672, "learning_rate": 9.944861860146401e-05, "loss": 0.0113, "step": 1900 }, { "epoch": 39.791666666666664, "grad_norm": 0.1653631329536438, "learning_rate": 9.943630705729719e-05, "loss": 0.01, "step": 1910 }, { "epoch": 40.0, "grad_norm": 0.20655889809131622, "learning_rate": 9.942386035615459e-05, "loss": 0.0106, "step": 1920 }, { "epoch": 40.208333333333336, "grad_norm": 0.1884182095527649, "learning_rate": 9.941127853206503e-05, "loss": 0.0108, "step": 1930 }, { "epoch": 40.416666666666664, "grad_norm": 0.15719261765480042, "learning_rate": 9.939856161942673e-05, "loss": 0.0105, "step": 1940 }, { "epoch": 40.625, "grad_norm": 0.15232212841510773, "learning_rate": 9.938570965300724e-05, "loss": 0.0102, "step": 1950 }, { "epoch": 40.833333333333336, "grad_norm": 0.1885528415441513, "learning_rate": 9.937272266794335e-05, "loss": 0.0109, "step": 1960 }, { "epoch": 41.041666666666664, "grad_norm": 0.15623626112937927, "learning_rate": 9.935960069974096e-05, "loss": 0.0099, "step": 1970 }, { "epoch": 41.25, "grad_norm": 0.15828962624073029, "learning_rate": 9.934634378427506e-05, "loss": 0.0111, "step": 1980 }, { "epoch": 41.458333333333336, "grad_norm": 0.17898498475551605, "learning_rate": 9.933295195778954e-05, "loss": 0.0096, "step": 1990 }, { "epoch": 41.666666666666664, "grad_norm": 0.156189426779747, "learning_rate": 9.931942525689715e-05, "loss": 0.0097, "step": 2000 }, { "epoch": 41.875, "grad_norm": 0.18208195269107819, "learning_rate": 9.930576371857936e-05, "loss": 0.0104, "step": 2010 }, { "epoch": 42.083333333333336, "grad_norm": 0.22289738059043884, "learning_rate": 9.929196738018629e-05, "loss": 0.0101, "step": 2020 }, { "epoch": 42.291666666666664, "grad_norm": 0.1856096237897873, "learning_rate": 9.927803627943662e-05, "loss": 0.0102, "step": 2030 }, { "epoch": 42.5, "grad_norm": 0.18785765767097473, "learning_rate": 9.926397045441744e-05, "loss": 0.01, "step": 2040 }, { "epoch": 42.708333333333336, "grad_norm": 0.17422276735305786, "learning_rate": 9.924976994358417e-05, "loss": 0.01, "step": 2050 }, { "epoch": 42.916666666666664, "grad_norm": 0.14945165812969208, "learning_rate": 9.923543478576048e-05, "loss": 0.0099, "step": 2060 }, { "epoch": 43.125, "grad_norm": 0.1581973135471344, "learning_rate": 9.922096502013813e-05, "loss": 0.0114, "step": 2070 }, { "epoch": 43.333333333333336, "grad_norm": 0.1979743242263794, "learning_rate": 9.92063606862769e-05, "loss": 0.0115, "step": 2080 }, { "epoch": 43.541666666666664, "grad_norm": 0.1677751988172531, "learning_rate": 9.919162182410453e-05, "loss": 0.0103, "step": 2090 }, { "epoch": 43.75, "grad_norm": 0.12610012292861938, "learning_rate": 9.917674847391645e-05, "loss": 0.0098, "step": 2100 }, { "epoch": 43.958333333333336, "grad_norm": 0.1920396089553833, "learning_rate": 9.916174067637584e-05, "loss": 0.0094, "step": 2110 }, { "epoch": 44.166666666666664, "grad_norm": 0.159335657954216, "learning_rate": 9.914659847251348e-05, "loss": 0.0105, "step": 2120 }, { "epoch": 44.375, "grad_norm": 0.18806587159633636, "learning_rate": 9.913132190372753e-05, "loss": 0.0101, "step": 2130 }, { "epoch": 44.583333333333336, "grad_norm": 0.1827884465456009, "learning_rate": 9.911591101178359e-05, "loss": 0.0103, "step": 2140 }, { "epoch": 44.791666666666664, "grad_norm": 0.21888400614261627, "learning_rate": 9.910036583881443e-05, "loss": 0.01, "step": 2150 }, { "epoch": 45.0, "grad_norm": 0.20317022502422333, "learning_rate": 9.908468642731995e-05, "loss": 0.0089, "step": 2160 }, { "epoch": 45.208333333333336, "grad_norm": 0.23497819900512695, "learning_rate": 9.906887282016707e-05, "loss": 0.0105, "step": 2170 }, { "epoch": 45.416666666666664, "grad_norm": 0.18091560900211334, "learning_rate": 9.90529250605896e-05, "loss": 0.0099, "step": 2180 }, { "epoch": 45.625, "grad_norm": 0.14061926305294037, "learning_rate": 9.903684319218809e-05, "loss": 0.01, "step": 2190 }, { "epoch": 45.833333333333336, "grad_norm": 0.19375453889369965, "learning_rate": 9.902062725892976e-05, "loss": 0.0096, "step": 2200 }, { "epoch": 46.041666666666664, "grad_norm": 0.21020196378231049, "learning_rate": 9.900427730514834e-05, "loss": 0.0096, "step": 2210 }, { "epoch": 46.25, "grad_norm": 0.15842080116271973, "learning_rate": 9.8987793375544e-05, "loss": 0.0097, "step": 2220 }, { "epoch": 46.458333333333336, "grad_norm": 0.15409104526042938, "learning_rate": 9.897117551518318e-05, "loss": 0.0094, "step": 2230 }, { "epoch": 46.666666666666664, "grad_norm": 0.1582673192024231, "learning_rate": 9.895442376949844e-05, "loss": 0.0102, "step": 2240 }, { "epoch": 46.875, "grad_norm": 0.14312148094177246, "learning_rate": 9.893753818428845e-05, "loss": 0.0094, "step": 2250 }, { "epoch": 47.083333333333336, "grad_norm": 0.17130939662456512, "learning_rate": 9.892051880571773e-05, "loss": 0.0092, "step": 2260 }, { "epoch": 47.291666666666664, "grad_norm": 0.18089613318443298, "learning_rate": 9.890336568031663e-05, "loss": 0.0098, "step": 2270 }, { "epoch": 47.5, "grad_norm": 0.14833058416843414, "learning_rate": 9.888607885498113e-05, "loss": 0.0098, "step": 2280 }, { "epoch": 47.708333333333336, "grad_norm": 0.1335451900959015, "learning_rate": 9.886865837697275e-05, "loss": 0.0088, "step": 2290 }, { "epoch": 47.916666666666664, "grad_norm": 0.1326667219400406, "learning_rate": 9.88511042939184e-05, "loss": 0.0094, "step": 2300 }, { "epoch": 48.125, "grad_norm": 0.16099606454372406, "learning_rate": 9.883341665381028e-05, "loss": 0.0092, "step": 2310 }, { "epoch": 48.333333333333336, "grad_norm": 0.16287587583065033, "learning_rate": 9.881559550500575e-05, "loss": 0.0099, "step": 2320 }, { "epoch": 48.541666666666664, "grad_norm": 0.20915569365024567, "learning_rate": 9.879764089622712e-05, "loss": 0.0097, "step": 2330 }, { "epoch": 48.75, "grad_norm": 0.1475881040096283, "learning_rate": 9.87795528765616e-05, "loss": 0.0097, "step": 2340 }, { "epoch": 48.958333333333336, "grad_norm": 0.15001028776168823, "learning_rate": 9.876133149546118e-05, "loss": 0.0096, "step": 2350 }, { "epoch": 49.166666666666664, "grad_norm": 0.1850421130657196, "learning_rate": 9.874297680274238e-05, "loss": 0.0095, "step": 2360 }, { "epoch": 49.375, "grad_norm": 0.1945352703332901, "learning_rate": 9.872448884858624e-05, "loss": 0.0096, "step": 2370 }, { "epoch": 49.583333333333336, "grad_norm": 0.13718049228191376, "learning_rate": 9.870586768353815e-05, "loss": 0.0087, "step": 2380 }, { "epoch": 49.791666666666664, "grad_norm": 0.1327553540468216, "learning_rate": 9.868711335850764e-05, "loss": 0.0092, "step": 2390 }, { "epoch": 50.0, "grad_norm": 0.260092556476593, "learning_rate": 9.866822592476833e-05, "loss": 0.0096, "step": 2400 }, { "epoch": 50.208333333333336, "grad_norm": 0.175159752368927, "learning_rate": 9.86492054339577e-05, "loss": 0.0091, "step": 2410 }, { "epoch": 50.416666666666664, "grad_norm": 0.17031779885292053, "learning_rate": 9.863005193807711e-05, "loss": 0.0095, "step": 2420 }, { "epoch": 50.625, "grad_norm": 0.1681128591299057, "learning_rate": 9.861076548949143e-05, "loss": 0.0107, "step": 2430 }, { "epoch": 50.833333333333336, "grad_norm": 0.17762134969234467, "learning_rate": 9.859134614092912e-05, "loss": 0.0102, "step": 2440 }, { "epoch": 51.041666666666664, "grad_norm": 0.14008237421512604, "learning_rate": 9.857179394548191e-05, "loss": 0.0093, "step": 2450 }, { "epoch": 51.25, "grad_norm": 0.1564144790172577, "learning_rate": 9.855210895660477e-05, "loss": 0.0096, "step": 2460 }, { "epoch": 51.458333333333336, "grad_norm": 0.13487133383750916, "learning_rate": 9.853229122811568e-05, "loss": 0.0099, "step": 2470 }, { "epoch": 51.666666666666664, "grad_norm": 0.1658105105161667, "learning_rate": 9.851234081419559e-05, "loss": 0.0085, "step": 2480 }, { "epoch": 51.875, "grad_norm": 0.15481163561344147, "learning_rate": 9.849225776938814e-05, "loss": 0.0091, "step": 2490 }, { "epoch": 52.083333333333336, "grad_norm": 0.19152818620204926, "learning_rate": 9.847204214859964e-05, "loss": 0.0081, "step": 2500 }, { "epoch": 52.291666666666664, "grad_norm": 0.14624345302581787, "learning_rate": 9.845169400709879e-05, "loss": 0.0087, "step": 2510 }, { "epoch": 52.5, "grad_norm": 0.14260073006153107, "learning_rate": 9.843121340051664e-05, "loss": 0.0096, "step": 2520 }, { "epoch": 52.708333333333336, "grad_norm": 0.18242524564266205, "learning_rate": 9.841060038484641e-05, "loss": 0.0089, "step": 2530 }, { "epoch": 52.916666666666664, "grad_norm": 0.135667085647583, "learning_rate": 9.838985501644328e-05, "loss": 0.0095, "step": 2540 }, { "epoch": 53.125, "grad_norm": 0.11698679625988007, "learning_rate": 9.83689773520243e-05, "loss": 0.008, "step": 2550 }, { "epoch": 53.333333333333336, "grad_norm": 0.13887479901313782, "learning_rate": 9.834796744866819e-05, "loss": 0.0086, "step": 2560 }, { "epoch": 53.541666666666664, "grad_norm": 0.12642112374305725, "learning_rate": 9.832682536381525e-05, "loss": 0.0092, "step": 2570 }, { "epoch": 53.75, "grad_norm": 0.11770359426736832, "learning_rate": 9.830555115526711e-05, "loss": 0.009, "step": 2580 }, { "epoch": 53.958333333333336, "grad_norm": 0.10433600842952728, "learning_rate": 9.828414488118667e-05, "loss": 0.0084, "step": 2590 }, { "epoch": 54.166666666666664, "grad_norm": 0.12209464609622955, "learning_rate": 9.826260660009785e-05, "loss": 0.0094, "step": 2600 }, { "epoch": 54.375, "grad_norm": 0.1385062336921692, "learning_rate": 9.824093637088547e-05, "loss": 0.009, "step": 2610 }, { "epoch": 54.583333333333336, "grad_norm": 0.12731477618217468, "learning_rate": 9.821913425279514e-05, "loss": 0.0089, "step": 2620 }, { "epoch": 54.791666666666664, "grad_norm": 0.15336956083774567, "learning_rate": 9.8197200305433e-05, "loss": 0.0085, "step": 2630 }, { "epoch": 55.0, "grad_norm": 0.1945595145225525, "learning_rate": 9.817513458876564e-05, "loss": 0.0096, "step": 2640 }, { "epoch": 55.208333333333336, "grad_norm": 0.11767341941595078, "learning_rate": 9.815293716311987e-05, "loss": 0.0088, "step": 2650 }, { "epoch": 55.416666666666664, "grad_norm": 0.14541785418987274, "learning_rate": 9.813060808918262e-05, "loss": 0.0092, "step": 2660 }, { "epoch": 55.625, "grad_norm": 0.16650767624378204, "learning_rate": 9.810814742800069e-05, "loss": 0.0097, "step": 2670 }, { "epoch": 55.833333333333336, "grad_norm": 0.1150713860988617, "learning_rate": 9.808555524098074e-05, "loss": 0.0086, "step": 2680 }, { "epoch": 56.041666666666664, "grad_norm": 0.1088116317987442, "learning_rate": 9.806283158988887e-05, "loss": 0.0078, "step": 2690 }, { "epoch": 56.25, "grad_norm": 0.14631342887878418, "learning_rate": 9.803997653685072e-05, "loss": 0.0082, "step": 2700 }, { "epoch": 56.458333333333336, "grad_norm": 0.1343754678964615, "learning_rate": 9.801699014435112e-05, "loss": 0.008, "step": 2710 }, { "epoch": 56.666666666666664, "grad_norm": 0.13529370725154877, "learning_rate": 9.799387247523398e-05, "loss": 0.0085, "step": 2720 }, { "epoch": 56.875, "grad_norm": 0.11147897690534592, "learning_rate": 9.797062359270215e-05, "loss": 0.0079, "step": 2730 }, { "epoch": 57.083333333333336, "grad_norm": 0.19471466541290283, "learning_rate": 9.794724356031715e-05, "loss": 0.0083, "step": 2740 }, { "epoch": 57.291666666666664, "grad_norm": 0.1863505244255066, "learning_rate": 9.792373244199913e-05, "loss": 0.0085, "step": 2750 }, { "epoch": 57.5, "grad_norm": 0.13585540652275085, "learning_rate": 9.790009030202658e-05, "loss": 0.0081, "step": 2760 }, { "epoch": 57.708333333333336, "grad_norm": 0.13892769813537598, "learning_rate": 9.78763172050362e-05, "loss": 0.0086, "step": 2770 }, { "epoch": 57.916666666666664, "grad_norm": 0.15619535744190216, "learning_rate": 9.785241321602274e-05, "loss": 0.0078, "step": 2780 }, { "epoch": 58.125, "grad_norm": 0.17480793595314026, "learning_rate": 9.782837840033879e-05, "loss": 0.0088, "step": 2790 }, { "epoch": 58.333333333333336, "grad_norm": 0.19116300344467163, "learning_rate": 9.780421282369461e-05, "loss": 0.0091, "step": 2800 }, { "epoch": 58.541666666666664, "grad_norm": 0.2017354965209961, "learning_rate": 9.777991655215797e-05, "loss": 0.0082, "step": 2810 }, { "epoch": 58.75, "grad_norm": 0.17326346039772034, "learning_rate": 9.775548965215394e-05, "loss": 0.0088, "step": 2820 }, { "epoch": 58.958333333333336, "grad_norm": 0.17388294637203217, "learning_rate": 9.773093219046474e-05, "loss": 0.0084, "step": 2830 }, { "epoch": 59.166666666666664, "grad_norm": 0.1788823902606964, "learning_rate": 9.770624423422954e-05, "loss": 0.0084, "step": 2840 }, { "epoch": 59.375, "grad_norm": 0.11936558783054352, "learning_rate": 9.768142585094426e-05, "loss": 0.0091, "step": 2850 }, { "epoch": 59.583333333333336, "grad_norm": 0.14019201695919037, "learning_rate": 9.765647710846142e-05, "loss": 0.0092, "step": 2860 }, { "epoch": 59.791666666666664, "grad_norm": 0.12400297075510025, "learning_rate": 9.763139807498991e-05, "loss": 0.0084, "step": 2870 }, { "epoch": 60.0, "grad_norm": 0.1594945192337036, "learning_rate": 9.760618881909487e-05, "loss": 0.0083, "step": 2880 }, { "epoch": 60.208333333333336, "grad_norm": 0.17475134134292603, "learning_rate": 9.758084940969744e-05, "loss": 0.0093, "step": 2890 }, { "epoch": 60.416666666666664, "grad_norm": 0.125895693898201, "learning_rate": 9.755537991607459e-05, "loss": 0.0087, "step": 2900 }, { "epoch": 60.625, "grad_norm": 0.14806149899959564, "learning_rate": 9.752978040785895e-05, "loss": 0.0072, "step": 2910 }, { "epoch": 60.833333333333336, "grad_norm": 0.14935727417469025, "learning_rate": 9.750405095503859e-05, "loss": 0.0084, "step": 2920 }, { "epoch": 61.041666666666664, "grad_norm": 0.12621425092220306, "learning_rate": 9.747819162795686e-05, "loss": 0.0076, "step": 2930 }, { "epoch": 61.25, "grad_norm": 0.15602892637252808, "learning_rate": 9.745220249731217e-05, "loss": 0.0084, "step": 2940 }, { "epoch": 61.458333333333336, "grad_norm": 0.12207546830177307, "learning_rate": 9.742608363415781e-05, "loss": 0.0084, "step": 2950 }, { "epoch": 61.666666666666664, "grad_norm": 0.1394585818052292, "learning_rate": 9.739983510990176e-05, "loss": 0.0077, "step": 2960 }, { "epoch": 61.875, "grad_norm": 0.13204297423362732, "learning_rate": 9.737345699630647e-05, "loss": 0.0079, "step": 2970 }, { "epoch": 62.083333333333336, "grad_norm": 0.13679321110248566, "learning_rate": 9.734694936548869e-05, "loss": 0.0074, "step": 2980 }, { "epoch": 62.291666666666664, "grad_norm": 0.11424277722835541, "learning_rate": 9.732031228991932e-05, "loss": 0.0086, "step": 2990 }, { "epoch": 62.5, "grad_norm": 0.112228162586689, "learning_rate": 9.729354584242302e-05, "loss": 0.0087, "step": 3000 }, { "epoch": 62.708333333333336, "grad_norm": 0.15181872248649597, "learning_rate": 9.726665009617832e-05, "loss": 0.0081, "step": 3010 }, { "epoch": 62.916666666666664, "grad_norm": 0.1584879606962204, "learning_rate": 9.723962512471714e-05, "loss": 0.0083, "step": 3020 }, { "epoch": 63.125, "grad_norm": 0.15587449073791504, "learning_rate": 9.72124710019247e-05, "loss": 0.0084, "step": 3030 }, { "epoch": 63.333333333333336, "grad_norm": 0.13749879598617554, "learning_rate": 9.718518780203934e-05, "loss": 0.0087, "step": 3040 }, { "epoch": 63.541666666666664, "grad_norm": 0.15750397741794586, "learning_rate": 9.715777559965228e-05, "loss": 0.0085, "step": 3050 }, { "epoch": 63.75, "grad_norm": 0.16457325220108032, "learning_rate": 9.713023446970746e-05, "loss": 0.008, "step": 3060 }, { "epoch": 63.958333333333336, "grad_norm": 0.14457859098911285, "learning_rate": 9.710256448750126e-05, "loss": 0.008, "step": 3070 }, { "epoch": 64.16666666666667, "grad_norm": 0.21400192379951477, "learning_rate": 9.707476572868235e-05, "loss": 0.0087, "step": 3080 }, { "epoch": 64.375, "grad_norm": 0.176253542304039, "learning_rate": 9.704683826925149e-05, "loss": 0.0082, "step": 3090 }, { "epoch": 64.58333333333333, "grad_norm": 0.14613905549049377, "learning_rate": 9.701878218556129e-05, "loss": 0.0091, "step": 3100 }, { "epoch": 64.79166666666667, "grad_norm": 0.12556883692741394, "learning_rate": 9.699059755431598e-05, "loss": 0.0086, "step": 3110 }, { "epoch": 65.0, "grad_norm": 0.12506556510925293, "learning_rate": 9.696228445257132e-05, "loss": 0.0078, "step": 3120 }, { "epoch": 65.20833333333333, "grad_norm": 0.1324303150177002, "learning_rate": 9.693384295773419e-05, "loss": 0.0076, "step": 3130 }, { "epoch": 65.41666666666667, "grad_norm": 0.14260755479335785, "learning_rate": 9.690527314756259e-05, "loss": 0.0075, "step": 3140 }, { "epoch": 65.625, "grad_norm": 0.17024897038936615, "learning_rate": 9.687657510016527e-05, "loss": 0.0073, "step": 3150 }, { "epoch": 65.83333333333333, "grad_norm": 0.12163723260164261, "learning_rate": 9.684774889400161e-05, "loss": 0.0084, "step": 3160 }, { "epoch": 66.04166666666667, "grad_norm": 0.17265737056732178, "learning_rate": 9.681879460788135e-05, "loss": 0.0085, "step": 3170 }, { "epoch": 66.25, "grad_norm": 0.14137807488441467, "learning_rate": 9.67897123209644e-05, "loss": 0.0087, "step": 3180 }, { "epoch": 66.45833333333333, "grad_norm": 0.11415492743253708, "learning_rate": 9.676050211276062e-05, "loss": 0.0084, "step": 3190 }, { "epoch": 66.66666666666667, "grad_norm": 0.10539334267377853, "learning_rate": 9.673116406312962e-05, "loss": 0.0085, "step": 3200 }, { "epoch": 66.875, "grad_norm": 0.1746184527873993, "learning_rate": 9.67016982522805e-05, "loss": 0.0079, "step": 3210 }, { "epoch": 67.08333333333333, "grad_norm": 0.15164965391159058, "learning_rate": 9.667210476077164e-05, "loss": 0.0078, "step": 3220 }, { "epoch": 67.29166666666667, "grad_norm": 0.1245863139629364, "learning_rate": 9.664238366951055e-05, "loss": 0.0083, "step": 3230 }, { "epoch": 67.5, "grad_norm": 0.13058176636695862, "learning_rate": 9.661253505975355e-05, "loss": 0.008, "step": 3240 }, { "epoch": 67.70833333333333, "grad_norm": 0.1412813365459442, "learning_rate": 9.658255901310557e-05, "loss": 0.0084, "step": 3250 }, { "epoch": 67.91666666666667, "grad_norm": 0.13035815954208374, "learning_rate": 9.655245561152e-05, "loss": 0.0082, "step": 3260 }, { "epoch": 68.125, "grad_norm": 0.14681102335453033, "learning_rate": 9.65222249372984e-05, "loss": 0.0078, "step": 3270 }, { "epoch": 68.33333333333333, "grad_norm": 0.12792235612869263, "learning_rate": 9.649186707309026e-05, "loss": 0.0082, "step": 3280 }, { "epoch": 68.54166666666667, "grad_norm": 0.15287558734416962, "learning_rate": 9.646138210189283e-05, "loss": 0.0079, "step": 3290 }, { "epoch": 68.75, "grad_norm": 0.1277853548526764, "learning_rate": 9.643077010705087e-05, "loss": 0.008, "step": 3300 }, { "epoch": 68.95833333333333, "grad_norm": 0.10948234051465988, "learning_rate": 9.640003117225637e-05, "loss": 0.0081, "step": 3310 }, { "epoch": 69.16666666666667, "grad_norm": 0.16888520121574402, "learning_rate": 9.636916538154846e-05, "loss": 0.008, "step": 3320 }, { "epoch": 69.375, "grad_norm": 0.1860867738723755, "learning_rate": 9.633817281931296e-05, "loss": 0.0081, "step": 3330 }, { "epoch": 69.58333333333333, "grad_norm": 0.12217903882265091, "learning_rate": 9.630705357028242e-05, "loss": 0.008, "step": 3340 }, { "epoch": 69.79166666666667, "grad_norm": 0.14392343163490295, "learning_rate": 9.627580771953563e-05, "loss": 0.0084, "step": 3350 }, { "epoch": 70.0, "grad_norm": 0.2517831027507782, "learning_rate": 9.624443535249759e-05, "loss": 0.0091, "step": 3360 }, { "epoch": 70.20833333333333, "grad_norm": 0.1237884908914566, "learning_rate": 9.621293655493913e-05, "loss": 0.0086, "step": 3370 }, { "epoch": 70.41666666666667, "grad_norm": 0.1395934820175171, "learning_rate": 9.618131141297675e-05, "loss": 0.0091, "step": 3380 }, { "epoch": 70.625, "grad_norm": 0.15799179673194885, "learning_rate": 9.614956001307242e-05, "loss": 0.0098, "step": 3390 }, { "epoch": 70.83333333333333, "grad_norm": 0.14630959928035736, "learning_rate": 9.611768244203321e-05, "loss": 0.0082, "step": 3400 }, { "epoch": 71.04166666666667, "grad_norm": 0.19569124281406403, "learning_rate": 9.60856787870112e-05, "loss": 0.0089, "step": 3410 }, { "epoch": 71.25, "grad_norm": 0.15080992877483368, "learning_rate": 9.605354913550318e-05, "loss": 0.0081, "step": 3420 }, { "epoch": 71.45833333333333, "grad_norm": 0.12431894987821579, "learning_rate": 9.602129357535037e-05, "loss": 0.0077, "step": 3430 }, { "epoch": 71.66666666666667, "grad_norm": 0.1317983716726303, "learning_rate": 9.598891219473825e-05, "loss": 0.0081, "step": 3440 }, { "epoch": 71.875, "grad_norm": 0.1271415799856186, "learning_rate": 9.595640508219625e-05, "loss": 0.0079, "step": 3450 }, { "epoch": 72.08333333333333, "grad_norm": 0.12340828031301498, "learning_rate": 9.592377232659761e-05, "loss": 0.0073, "step": 3460 }, { "epoch": 72.29166666666667, "grad_norm": 0.16125109791755676, "learning_rate": 9.589101401715904e-05, "loss": 0.0082, "step": 3470 }, { "epoch": 72.5, "grad_norm": 0.13908740878105164, "learning_rate": 9.585813024344045e-05, "loss": 0.0081, "step": 3480 }, { "epoch": 72.70833333333333, "grad_norm": 0.12069405615329742, "learning_rate": 9.58251210953449e-05, "loss": 0.0072, "step": 3490 }, { "epoch": 72.91666666666667, "grad_norm": 0.15209130942821503, "learning_rate": 9.579198666311809e-05, "loss": 0.0082, "step": 3500 }, { "epoch": 73.125, "grad_norm": 0.12193018198013306, "learning_rate": 9.575872703734832e-05, "loss": 0.0078, "step": 3510 }, { "epoch": 73.33333333333333, "grad_norm": 0.17105849087238312, "learning_rate": 9.572534230896611e-05, "loss": 0.0085, "step": 3520 }, { "epoch": 73.54166666666667, "grad_norm": 0.1370059996843338, "learning_rate": 9.569183256924403e-05, "loss": 0.0085, "step": 3530 }, { "epoch": 73.75, "grad_norm": 0.13424254953861237, "learning_rate": 9.565819790979646e-05, "loss": 0.0085, "step": 3540 }, { "epoch": 73.95833333333333, "grad_norm": 0.12105348706245422, "learning_rate": 9.562443842257925e-05, "loss": 0.0077, "step": 3550 }, { "epoch": 74.16666666666667, "grad_norm": 0.14536826312541962, "learning_rate": 9.559055419988956e-05, "loss": 0.0087, "step": 3560 }, { "epoch": 74.375, "grad_norm": 0.1609853357076645, "learning_rate": 9.555654533436557e-05, "loss": 0.0092, "step": 3570 }, { "epoch": 74.58333333333333, "grad_norm": 0.15583093464374542, "learning_rate": 9.552241191898621e-05, "loss": 0.0084, "step": 3580 }, { "epoch": 74.79166666666667, "grad_norm": 0.13674955070018768, "learning_rate": 9.548815404707092e-05, "loss": 0.0078, "step": 3590 }, { "epoch": 75.0, "grad_norm": 0.1659046858549118, "learning_rate": 9.545377181227942e-05, "loss": 0.008, "step": 3600 }, { "epoch": 75.20833333333333, "grad_norm": 0.09946411848068237, "learning_rate": 9.541926530861145e-05, "loss": 0.0076, "step": 3610 }, { "epoch": 75.41666666666667, "grad_norm": 0.13440348207950592, "learning_rate": 9.538463463040645e-05, "loss": 0.0071, "step": 3620 }, { "epoch": 75.625, "grad_norm": 0.13562451303005219, "learning_rate": 9.534987987234337e-05, "loss": 0.0072, "step": 3630 }, { "epoch": 75.83333333333333, "grad_norm": 0.12133369594812393, "learning_rate": 9.53150011294404e-05, "loss": 0.0078, "step": 3640 }, { "epoch": 76.04166666666667, "grad_norm": 0.11865601688623428, "learning_rate": 9.527999849705471e-05, "loss": 0.0073, "step": 3650 }, { "epoch": 76.25, "grad_norm": 0.13767482340335846, "learning_rate": 9.524487207088213e-05, "loss": 0.008, "step": 3660 }, { "epoch": 76.45833333333333, "grad_norm": 0.12942279875278473, "learning_rate": 9.520962194695698e-05, "loss": 0.0082, "step": 3670 }, { "epoch": 76.66666666666667, "grad_norm": 0.14708350598812103, "learning_rate": 9.517424822165175e-05, "loss": 0.0089, "step": 3680 }, { "epoch": 76.875, "grad_norm": 0.12420503050088882, "learning_rate": 9.513875099167685e-05, "loss": 0.0079, "step": 3690 }, { "epoch": 77.08333333333333, "grad_norm": 0.14663736522197723, "learning_rate": 9.510313035408035e-05, "loss": 0.0084, "step": 3700 }, { "epoch": 77.29166666666667, "grad_norm": 0.1613157093524933, "learning_rate": 9.506738640624775e-05, "loss": 0.0085, "step": 3710 }, { "epoch": 77.5, "grad_norm": 0.15745188295841217, "learning_rate": 9.50315192459016e-05, "loss": 0.0084, "step": 3720 }, { "epoch": 77.70833333333333, "grad_norm": 0.1454235464334488, "learning_rate": 9.499552897110136e-05, "loss": 0.0081, "step": 3730 }, { "epoch": 77.91666666666667, "grad_norm": 0.13637305796146393, "learning_rate": 9.495941568024304e-05, "loss": 0.0078, "step": 3740 }, { "epoch": 78.125, "grad_norm": 0.16548554599285126, "learning_rate": 9.492317947205904e-05, "loss": 0.0078, "step": 3750 }, { "epoch": 78.33333333333333, "grad_norm": 0.11904530972242355, "learning_rate": 9.488682044561775e-05, "loss": 0.008, "step": 3760 }, { "epoch": 78.54166666666667, "grad_norm": 0.13436388969421387, "learning_rate": 9.485033870032335e-05, "loss": 0.0078, "step": 3770 }, { "epoch": 78.75, "grad_norm": 0.13463658094406128, "learning_rate": 9.481373433591556e-05, "loss": 0.008, "step": 3780 }, { "epoch": 78.95833333333333, "grad_norm": 0.12881360948085785, "learning_rate": 9.47770074524693e-05, "loss": 0.0074, "step": 3790 }, { "epoch": 79.16666666666667, "grad_norm": 0.1699158102273941, "learning_rate": 9.474015815039446e-05, "loss": 0.0091, "step": 3800 }, { "epoch": 79.375, "grad_norm": 0.15745197236537933, "learning_rate": 9.470318653043565e-05, "loss": 0.009, "step": 3810 }, { "epoch": 79.58333333333333, "grad_norm": 0.1425720900297165, "learning_rate": 9.466609269367185e-05, "loss": 0.0081, "step": 3820 }, { "epoch": 79.79166666666667, "grad_norm": 0.13255997002124786, "learning_rate": 9.46288767415162e-05, "loss": 0.0085, "step": 3830 }, { "epoch": 80.0, "grad_norm": 0.18882817029953003, "learning_rate": 9.459153877571567e-05, "loss": 0.0077, "step": 3840 }, { "epoch": 80.20833333333333, "grad_norm": 0.12347506731748581, "learning_rate": 9.455407889835087e-05, "loss": 0.0076, "step": 3850 }, { "epoch": 80.41666666666667, "grad_norm": 0.134022518992424, "learning_rate": 9.451649721183564e-05, "loss": 0.008, "step": 3860 }, { "epoch": 80.625, "grad_norm": 0.10200574994087219, "learning_rate": 9.447879381891692e-05, "loss": 0.0081, "step": 3870 }, { "epoch": 80.83333333333333, "grad_norm": 0.11393435299396515, "learning_rate": 9.444096882267428e-05, "loss": 0.0067, "step": 3880 }, { "epoch": 81.04166666666667, "grad_norm": 0.17549581825733185, "learning_rate": 9.440302232651988e-05, "loss": 0.0068, "step": 3890 }, { "epoch": 81.25, "grad_norm": 0.129764124751091, "learning_rate": 9.436495443419795e-05, "loss": 0.0072, "step": 3900 }, { "epoch": 81.45833333333333, "grad_norm": 0.13367408514022827, "learning_rate": 9.432676524978466e-05, "loss": 0.0075, "step": 3910 }, { "epoch": 81.66666666666667, "grad_norm": 0.12855835258960724, "learning_rate": 9.42884548776878e-05, "loss": 0.007, "step": 3920 }, { "epoch": 81.875, "grad_norm": 0.12377104163169861, "learning_rate": 9.425002342264646e-05, "loss": 0.0066, "step": 3930 }, { "epoch": 82.08333333333333, "grad_norm": 0.14512717723846436, "learning_rate": 9.421147098973077e-05, "loss": 0.0078, "step": 3940 }, { "epoch": 82.29166666666667, "grad_norm": 0.14285895228385925, "learning_rate": 9.41727976843416e-05, "loss": 0.007, "step": 3950 }, { "epoch": 82.5, "grad_norm": 0.1557202786207199, "learning_rate": 9.413400361221029e-05, "loss": 0.0077, "step": 3960 }, { "epoch": 82.70833333333333, "grad_norm": 0.12391534447669983, "learning_rate": 9.409508887939835e-05, "loss": 0.0075, "step": 3970 }, { "epoch": 82.91666666666667, "grad_norm": 0.1519940346479416, "learning_rate": 9.40560535922972e-05, "loss": 0.0069, "step": 3980 }, { "epoch": 83.125, "grad_norm": 0.1247396171092987, "learning_rate": 9.40168978576278e-05, "loss": 0.0074, "step": 3990 }, { "epoch": 83.33333333333333, "grad_norm": 0.12143047899007797, "learning_rate": 9.397762178244043e-05, "loss": 0.0077, "step": 4000 }, { "epoch": 83.54166666666667, "grad_norm": 0.1239767074584961, "learning_rate": 9.393822547411439e-05, "loss": 0.0073, "step": 4010 }, { "epoch": 83.75, "grad_norm": 0.14913630485534668, "learning_rate": 9.389870904035769e-05, "loss": 0.0072, "step": 4020 }, { "epoch": 83.95833333333333, "grad_norm": 0.12743103504180908, "learning_rate": 9.385907258920672e-05, "loss": 0.0073, "step": 4030 }, { "epoch": 84.16666666666667, "grad_norm": 0.16922424733638763, "learning_rate": 9.381931622902607e-05, "loss": 0.0073, "step": 4040 }, { "epoch": 84.375, "grad_norm": 0.12121975421905518, "learning_rate": 9.377944006850807e-05, "loss": 0.0084, "step": 4050 }, { "epoch": 84.58333333333333, "grad_norm": 0.12847809493541718, "learning_rate": 9.373944421667265e-05, "loss": 0.0078, "step": 4060 }, { "epoch": 84.79166666666667, "grad_norm": 0.10404125601053238, "learning_rate": 9.369932878286691e-05, "loss": 0.0073, "step": 4070 }, { "epoch": 85.0, "grad_norm": 0.20326335728168488, "learning_rate": 9.365909387676494e-05, "loss": 0.0075, "step": 4080 }, { "epoch": 85.20833333333333, "grad_norm": 0.1208629459142685, "learning_rate": 9.361873960836744e-05, "loss": 0.0075, "step": 4090 }, { "epoch": 85.41666666666667, "grad_norm": 0.15183036029338837, "learning_rate": 9.357826608800142e-05, "loss": 0.0074, "step": 4100 }, { "epoch": 85.625, "grad_norm": 0.11224193871021271, "learning_rate": 9.353767342631994e-05, "loss": 0.0072, "step": 4110 }, { "epoch": 85.83333333333333, "grad_norm": 0.14832796156406403, "learning_rate": 9.34969617343018e-05, "loss": 0.0076, "step": 4120 }, { "epoch": 86.04166666666667, "grad_norm": 0.13874362409114838, "learning_rate": 9.345613112325122e-05, "loss": 0.008, "step": 4130 }, { "epoch": 86.25, "grad_norm": 0.12126526981592178, "learning_rate": 9.34151817047975e-05, "loss": 0.0077, "step": 4140 }, { "epoch": 86.45833333333333, "grad_norm": 0.11635075509548187, "learning_rate": 9.33741135908948e-05, "loss": 0.008, "step": 4150 }, { "epoch": 86.66666666666667, "grad_norm": 0.09447265416383743, "learning_rate": 9.33329268938218e-05, "loss": 0.0069, "step": 4160 }, { "epoch": 86.875, "grad_norm": 0.11846235394477844, "learning_rate": 9.329162172618132e-05, "loss": 0.0074, "step": 4170 }, { "epoch": 87.08333333333333, "grad_norm": 0.13078013062477112, "learning_rate": 9.325019820090013e-05, "loss": 0.0072, "step": 4180 }, { "epoch": 87.29166666666667, "grad_norm": 0.12578906118869781, "learning_rate": 9.320865643122855e-05, "loss": 0.0078, "step": 4190 }, { "epoch": 87.5, "grad_norm": 0.1526239514350891, "learning_rate": 9.316699653074023e-05, "loss": 0.0073, "step": 4200 }, { "epoch": 87.70833333333333, "grad_norm": 0.11341243982315063, "learning_rate": 9.312521861333172e-05, "loss": 0.0067, "step": 4210 }, { "epoch": 87.91666666666667, "grad_norm": 0.09736169129610062, "learning_rate": 9.308332279322224e-05, "loss": 0.0066, "step": 4220 }, { "epoch": 88.125, "grad_norm": 0.13081710040569305, "learning_rate": 9.304130918495338e-05, "loss": 0.0074, "step": 4230 }, { "epoch": 88.33333333333333, "grad_norm": 0.12707583606243134, "learning_rate": 9.299917790338874e-05, "loss": 0.0076, "step": 4240 }, { "epoch": 88.54166666666667, "grad_norm": 0.11190862953662872, "learning_rate": 9.295692906371363e-05, "loss": 0.0068, "step": 4250 }, { "epoch": 88.75, "grad_norm": 0.11754106730222702, "learning_rate": 9.291456278143476e-05, "loss": 0.0075, "step": 4260 }, { "epoch": 88.95833333333333, "grad_norm": 0.10456420481204987, "learning_rate": 9.287207917237994e-05, "loss": 0.0072, "step": 4270 }, { "epoch": 89.16666666666667, "grad_norm": 0.13785317540168762, "learning_rate": 9.282947835269773e-05, "loss": 0.0072, "step": 4280 }, { "epoch": 89.375, "grad_norm": 0.10497057437896729, "learning_rate": 9.278676043885715e-05, "loss": 0.0078, "step": 4290 }, { "epoch": 89.58333333333333, "grad_norm": 0.10352105647325516, "learning_rate": 9.274392554764733e-05, "loss": 0.0073, "step": 4300 }, { "epoch": 89.79166666666667, "grad_norm": 0.1163288876414299, "learning_rate": 9.270097379617723e-05, "loss": 0.0073, "step": 4310 }, { "epoch": 90.0, "grad_norm": 0.17180398106575012, "learning_rate": 9.26579053018753e-05, "loss": 0.0071, "step": 4320 }, { "epoch": 90.20833333333333, "grad_norm": 0.15238836407661438, "learning_rate": 9.261472018248918e-05, "loss": 0.0072, "step": 4330 }, { "epoch": 90.41666666666667, "grad_norm": 0.12145853042602539, "learning_rate": 9.25714185560853e-05, "loss": 0.0076, "step": 4340 }, { "epoch": 90.625, "grad_norm": 0.1380954384803772, "learning_rate": 9.252800054104868e-05, "loss": 0.0073, "step": 4350 }, { "epoch": 90.83333333333333, "grad_norm": 0.14991872012615204, "learning_rate": 9.248446625608252e-05, "loss": 0.0072, "step": 4360 }, { "epoch": 91.04166666666667, "grad_norm": 0.15483133494853973, "learning_rate": 9.244081582020789e-05, "loss": 0.0083, "step": 4370 }, { "epoch": 91.25, "grad_norm": 0.12043429166078568, "learning_rate": 9.239704935276339e-05, "loss": 0.0079, "step": 4380 }, { "epoch": 91.45833333333333, "grad_norm": 0.13251228630542755, "learning_rate": 9.235316697340489e-05, "loss": 0.0075, "step": 4390 }, { "epoch": 91.66666666666667, "grad_norm": 0.1269141584634781, "learning_rate": 9.230916880210512e-05, "loss": 0.0079, "step": 4400 }, { "epoch": 91.875, "grad_norm": 0.11620093137025833, "learning_rate": 9.226505495915342e-05, "loss": 0.0073, "step": 4410 }, { "epoch": 92.08333333333333, "grad_norm": 0.1434793919324875, "learning_rate": 9.222082556515536e-05, "loss": 0.0063, "step": 4420 }, { "epoch": 92.29166666666667, "grad_norm": 0.1004461795091629, "learning_rate": 9.217648074103242e-05, "loss": 0.008, "step": 4430 }, { "epoch": 92.5, "grad_norm": 0.0979839563369751, "learning_rate": 9.213202060802161e-05, "loss": 0.0068, "step": 4440 }, { "epoch": 92.70833333333333, "grad_norm": 0.11008862406015396, "learning_rate": 9.208744528767528e-05, "loss": 0.0069, "step": 4450 }, { "epoch": 92.91666666666667, "grad_norm": 0.11195098608732224, "learning_rate": 9.204275490186064e-05, "loss": 0.007, "step": 4460 }, { "epoch": 93.125, "grad_norm": 0.13116782903671265, "learning_rate": 9.199794957275949e-05, "loss": 0.0068, "step": 4470 }, { "epoch": 93.33333333333333, "grad_norm": 0.10709001123905182, "learning_rate": 9.19530294228679e-05, "loss": 0.0062, "step": 4480 }, { "epoch": 93.54166666666667, "grad_norm": 0.11429505795240402, "learning_rate": 9.190799457499583e-05, "loss": 0.0072, "step": 4490 }, { "epoch": 93.75, "grad_norm": 0.12184348702430725, "learning_rate": 9.186284515226686e-05, "loss": 0.0071, "step": 4500 }, { "epoch": 93.95833333333333, "grad_norm": 0.12104353308677673, "learning_rate": 9.181758127811777e-05, "loss": 0.0074, "step": 4510 }, { "epoch": 94.16666666666667, "grad_norm": 0.09736120700836182, "learning_rate": 9.177220307629825e-05, "loss": 0.0076, "step": 4520 }, { "epoch": 94.375, "grad_norm": 0.09775745123624802, "learning_rate": 9.172671067087059e-05, "loss": 0.0076, "step": 4530 }, { "epoch": 94.58333333333333, "grad_norm": 0.10957901924848557, "learning_rate": 9.16811041862093e-05, "loss": 0.0069, "step": 4540 }, { "epoch": 94.79166666666667, "grad_norm": 0.11660820990800858, "learning_rate": 9.163538374700076e-05, "loss": 0.0067, "step": 4550 }, { "epoch": 95.0, "grad_norm": 0.1356566995382309, "learning_rate": 9.158954947824287e-05, "loss": 0.0065, "step": 4560 }, { "epoch": 95.20833333333333, "grad_norm": 0.1425929218530655, "learning_rate": 9.154360150524482e-05, "loss": 0.0069, "step": 4570 }, { "epoch": 95.41666666666667, "grad_norm": 0.13953809440135956, "learning_rate": 9.14975399536266e-05, "loss": 0.0078, "step": 4580 }, { "epoch": 95.625, "grad_norm": 0.08912316709756851, "learning_rate": 9.14513649493187e-05, "loss": 0.0067, "step": 4590 }, { "epoch": 95.83333333333333, "grad_norm": 0.10334280133247375, "learning_rate": 9.140507661856187e-05, "loss": 0.0066, "step": 4600 }, { "epoch": 96.04166666666667, "grad_norm": 0.11234814673662186, "learning_rate": 9.135867508790661e-05, "loss": 0.0068, "step": 4610 }, { "epoch": 96.25, "grad_norm": 0.1121845468878746, "learning_rate": 9.131216048421291e-05, "loss": 0.0078, "step": 4620 }, { "epoch": 96.45833333333333, "grad_norm": 0.1481083333492279, "learning_rate": 9.126553293464998e-05, "loss": 0.0073, "step": 4630 }, { "epoch": 96.66666666666667, "grad_norm": 0.1397561877965927, "learning_rate": 9.121879256669572e-05, "loss": 0.0079, "step": 4640 }, { "epoch": 96.875, "grad_norm": 0.1100471243262291, "learning_rate": 9.117193950813652e-05, "loss": 0.0072, "step": 4650 }, { "epoch": 97.08333333333333, "grad_norm": 0.18109332025051117, "learning_rate": 9.112497388706685e-05, "loss": 0.0071, "step": 4660 }, { "epoch": 97.29166666666667, "grad_norm": 0.16449885070323944, "learning_rate": 9.10778958318889e-05, "loss": 0.0081, "step": 4670 }, { "epoch": 97.5, "grad_norm": 0.18169593811035156, "learning_rate": 9.103070547131232e-05, "loss": 0.0076, "step": 4680 }, { "epoch": 97.70833333333333, "grad_norm": 0.17230816185474396, "learning_rate": 9.098340293435375e-05, "loss": 0.0075, "step": 4690 }, { "epoch": 97.91666666666667, "grad_norm": 0.11778809130191803, "learning_rate": 9.093598835033649e-05, "loss": 0.0072, "step": 4700 }, { "epoch": 98.125, "grad_norm": 0.15728609263896942, "learning_rate": 9.088846184889021e-05, "loss": 0.0072, "step": 4710 }, { "epoch": 98.33333333333333, "grad_norm": 0.11238937824964523, "learning_rate": 9.084082355995057e-05, "loss": 0.0073, "step": 4720 }, { "epoch": 98.54166666666667, "grad_norm": 0.11571408063173294, "learning_rate": 9.079307361375882e-05, "loss": 0.0067, "step": 4730 }, { "epoch": 98.75, "grad_norm": 0.12732599675655365, "learning_rate": 9.074521214086149e-05, "loss": 0.0072, "step": 4740 }, { "epoch": 98.95833333333333, "grad_norm": 0.11861906200647354, "learning_rate": 9.069723927211001e-05, "loss": 0.0073, "step": 4750 }, { "epoch": 99.16666666666667, "grad_norm": 0.12790387868881226, "learning_rate": 9.064915513866037e-05, "loss": 0.007, "step": 4760 }, { "epoch": 99.375, "grad_norm": 0.14003939926624298, "learning_rate": 9.060095987197279e-05, "loss": 0.0075, "step": 4770 }, { "epoch": 99.58333333333333, "grad_norm": 0.18221960961818695, "learning_rate": 9.055265360381126e-05, "loss": 0.0079, "step": 4780 }, { "epoch": 99.79166666666667, "grad_norm": 0.18938899040222168, "learning_rate": 9.050423646624326e-05, "loss": 0.0078, "step": 4790 }, { "epoch": 100.0, "grad_norm": 0.1797226518392563, "learning_rate": 9.045570859163943e-05, "loss": 0.007, "step": 4800 }, { "epoch": 100.20833333333333, "grad_norm": 0.11891371011734009, "learning_rate": 9.04070701126731e-05, "loss": 0.0074, "step": 4810 }, { "epoch": 100.41666666666667, "grad_norm": 0.11718389391899109, "learning_rate": 9.035832116232001e-05, "loss": 0.0078, "step": 4820 }, { "epoch": 100.625, "grad_norm": 0.1415216028690338, "learning_rate": 9.030946187385796e-05, "loss": 0.0075, "step": 4830 }, { "epoch": 100.83333333333333, "grad_norm": 0.14168231189250946, "learning_rate": 9.026049238086635e-05, "loss": 0.0065, "step": 4840 }, { "epoch": 101.04166666666667, "grad_norm": 0.17353275418281555, "learning_rate": 9.021141281722591e-05, "loss": 0.0067, "step": 4850 }, { "epoch": 101.25, "grad_norm": 0.13674576580524445, "learning_rate": 9.01622233171183e-05, "loss": 0.0074, "step": 4860 }, { "epoch": 101.45833333333333, "grad_norm": 0.16381537914276123, "learning_rate": 9.011292401502574e-05, "loss": 0.0067, "step": 4870 }, { "epoch": 101.66666666666667, "grad_norm": 0.12143448740243912, "learning_rate": 9.006351504573063e-05, "loss": 0.0073, "step": 4880 }, { "epoch": 101.875, "grad_norm": 0.14107128977775574, "learning_rate": 9.001399654431519e-05, "loss": 0.0065, "step": 4890 }, { "epoch": 102.08333333333333, "grad_norm": 0.12365766614675522, "learning_rate": 8.996436864616116e-05, "loss": 0.0071, "step": 4900 }, { "epoch": 102.29166666666667, "grad_norm": 0.11717549711465836, "learning_rate": 8.991463148694925e-05, "loss": 0.0071, "step": 4910 }, { "epoch": 102.5, "grad_norm": 0.12707993388175964, "learning_rate": 8.986478520265902e-05, "loss": 0.007, "step": 4920 }, { "epoch": 102.70833333333333, "grad_norm": 0.1060505360364914, "learning_rate": 8.981482992956827e-05, "loss": 0.007, "step": 4930 }, { "epoch": 102.91666666666667, "grad_norm": 0.0786166563630104, "learning_rate": 8.976476580425282e-05, "loss": 0.0068, "step": 4940 }, { "epoch": 103.125, "grad_norm": 0.10416026413440704, "learning_rate": 8.971459296358606e-05, "loss": 0.0075, "step": 4950 }, { "epoch": 103.33333333333333, "grad_norm": 0.12413540482521057, "learning_rate": 8.966431154473864e-05, "loss": 0.0066, "step": 4960 }, { "epoch": 103.54166666666667, "grad_norm": 0.09850534051656723, "learning_rate": 8.961392168517803e-05, "loss": 0.0067, "step": 4970 }, { "epoch": 103.75, "grad_norm": 0.11118543148040771, "learning_rate": 8.956342352266821e-05, "loss": 0.0058, "step": 4980 }, { "epoch": 103.95833333333333, "grad_norm": 0.11706725507974625, "learning_rate": 8.95128171952692e-05, "loss": 0.0068, "step": 4990 }, { "epoch": 104.16666666666667, "grad_norm": 0.10897029936313629, "learning_rate": 8.946210284133676e-05, "loss": 0.0064, "step": 5000 }, { "epoch": 104.375, "grad_norm": 0.11849738657474518, "learning_rate": 8.941128059952201e-05, "loss": 0.0076, "step": 5010 }, { "epoch": 104.58333333333333, "grad_norm": 0.1375737190246582, "learning_rate": 8.936035060877102e-05, "loss": 0.0068, "step": 5020 }, { "epoch": 104.79166666666667, "grad_norm": 0.13590985536575317, "learning_rate": 8.930931300832443e-05, "loss": 0.0059, "step": 5030 }, { "epoch": 105.0, "grad_norm": 0.12509427964687347, "learning_rate": 8.925816793771711e-05, "loss": 0.0065, "step": 5040 }, { "epoch": 105.20833333333333, "grad_norm": 0.1391259729862213, "learning_rate": 8.92069155367777e-05, "loss": 0.0074, "step": 5050 }, { "epoch": 105.41666666666667, "grad_norm": 0.12694478034973145, "learning_rate": 8.915555594562834e-05, "loss": 0.007, "step": 5060 }, { "epoch": 105.625, "grad_norm": 0.12098538130521774, "learning_rate": 8.910408930468416e-05, "loss": 0.0076, "step": 5070 }, { "epoch": 105.83333333333333, "grad_norm": 0.11609725654125214, "learning_rate": 8.905251575465303e-05, "loss": 0.0066, "step": 5080 }, { "epoch": 106.04166666666667, "grad_norm": 0.11573158949613571, "learning_rate": 8.900083543653502e-05, "loss": 0.0064, "step": 5090 }, { "epoch": 106.25, "grad_norm": 0.10825660824775696, "learning_rate": 8.894904849162218e-05, "loss": 0.0073, "step": 5100 }, { "epoch": 106.45833333333333, "grad_norm": 0.14082001149654388, "learning_rate": 8.889715506149802e-05, "loss": 0.0072, "step": 5110 }, { "epoch": 106.66666666666667, "grad_norm": 0.11810378730297089, "learning_rate": 8.884515528803722e-05, "loss": 0.0063, "step": 5120 }, { "epoch": 106.875, "grad_norm": 0.10104241222143173, "learning_rate": 8.879304931340517e-05, "loss": 0.0077, "step": 5130 }, { "epoch": 107.08333333333333, "grad_norm": 0.1465030014514923, "learning_rate": 8.874083728005759e-05, "loss": 0.007, "step": 5140 }, { "epoch": 107.29166666666667, "grad_norm": 0.11347117274999619, "learning_rate": 8.868851933074021e-05, "loss": 0.0071, "step": 5150 }, { "epoch": 107.5, "grad_norm": 0.11116746813058853, "learning_rate": 8.863609560848829e-05, "loss": 0.0067, "step": 5160 }, { "epoch": 107.70833333333333, "grad_norm": 0.10318662226200104, "learning_rate": 8.85835662566263e-05, "loss": 0.0069, "step": 5170 }, { "epoch": 107.91666666666667, "grad_norm": 0.13412339985370636, "learning_rate": 8.853093141876747e-05, "loss": 0.0066, "step": 5180 }, { "epoch": 108.125, "grad_norm": 0.09884343296289444, "learning_rate": 8.847819123881343e-05, "loss": 0.0072, "step": 5190 }, { "epoch": 108.33333333333333, "grad_norm": 0.09570195525884628, "learning_rate": 8.842534586095383e-05, "loss": 0.0069, "step": 5200 }, { "epoch": 108.54166666666667, "grad_norm": 0.11387636512517929, "learning_rate": 8.837239542966593e-05, "loss": 0.0068, "step": 5210 }, { "epoch": 108.75, "grad_norm": 0.12105993926525116, "learning_rate": 8.831934008971417e-05, "loss": 0.0067, "step": 5220 }, { "epoch": 108.95833333333333, "grad_norm": 0.08655501902103424, "learning_rate": 8.826617998614982e-05, "loss": 0.0066, "step": 5230 }, { "epoch": 109.16666666666667, "grad_norm": 0.10007982701063156, "learning_rate": 8.821291526431056e-05, "loss": 0.007, "step": 5240 }, { "epoch": 109.375, "grad_norm": 0.10021092742681503, "learning_rate": 8.815954606982015e-05, "loss": 0.0069, "step": 5250 }, { "epoch": 109.58333333333333, "grad_norm": 0.09979358315467834, "learning_rate": 8.810607254858789e-05, "loss": 0.0073, "step": 5260 }, { "epoch": 109.79166666666667, "grad_norm": 0.12664121389389038, "learning_rate": 8.805249484680838e-05, "loss": 0.0071, "step": 5270 }, { "epoch": 110.0, "grad_norm": 0.1827368438243866, "learning_rate": 8.799881311096096e-05, "loss": 0.007, "step": 5280 }, { "epoch": 110.20833333333333, "grad_norm": 0.11624093353748322, "learning_rate": 8.794502748780949e-05, "loss": 0.007, "step": 5290 }, { "epoch": 110.41666666666667, "grad_norm": 0.10885845124721527, "learning_rate": 8.78911381244018e-05, "loss": 0.0069, "step": 5300 }, { "epoch": 110.625, "grad_norm": 0.1408589631319046, "learning_rate": 8.783714516806933e-05, "loss": 0.0065, "step": 5310 }, { "epoch": 110.83333333333333, "grad_norm": 0.10794783383607864, "learning_rate": 8.77830487664268e-05, "loss": 0.0068, "step": 5320 }, { "epoch": 111.04166666666667, "grad_norm": 0.13909800350666046, "learning_rate": 8.772884906737167e-05, "loss": 0.0064, "step": 5330 }, { "epoch": 111.25, "grad_norm": 0.12241464853286743, "learning_rate": 8.767454621908387e-05, "loss": 0.0066, "step": 5340 }, { "epoch": 111.45833333333333, "grad_norm": 0.10399699956178665, "learning_rate": 8.76201403700253e-05, "loss": 0.0062, "step": 5350 }, { "epoch": 111.66666666666667, "grad_norm": 0.08754562586545944, "learning_rate": 8.756563166893949e-05, "loss": 0.0072, "step": 5360 }, { "epoch": 111.875, "grad_norm": 0.11521821469068527, "learning_rate": 8.751102026485113e-05, "loss": 0.0065, "step": 5370 }, { "epoch": 112.08333333333333, "grad_norm": 0.1297358125448227, "learning_rate": 8.745630630706571e-05, "loss": 0.0063, "step": 5380 }, { "epoch": 112.29166666666667, "grad_norm": 0.12349589914083481, "learning_rate": 8.740148994516912e-05, "loss": 0.0067, "step": 5390 }, { "epoch": 112.5, "grad_norm": 0.1138467863202095, "learning_rate": 8.73465713290272e-05, "loss": 0.0072, "step": 5400 }, { "epoch": 112.70833333333333, "grad_norm": 0.12485259026288986, "learning_rate": 8.729155060878533e-05, "loss": 0.0069, "step": 5410 }, { "epoch": 112.91666666666667, "grad_norm": 0.0945986956357956, "learning_rate": 8.723642793486809e-05, "loss": 0.0072, "step": 5420 }, { "epoch": 113.125, "grad_norm": 0.12580625712871552, "learning_rate": 8.718120345797873e-05, "loss": 0.0068, "step": 5430 }, { "epoch": 113.33333333333333, "grad_norm": 0.13720518350601196, "learning_rate": 8.712587732909889e-05, "loss": 0.007, "step": 5440 }, { "epoch": 113.54166666666667, "grad_norm": 0.12274326384067535, "learning_rate": 8.707044969948806e-05, "loss": 0.0064, "step": 5450 }, { "epoch": 113.75, "grad_norm": 0.11328493058681488, "learning_rate": 8.701492072068329e-05, "loss": 0.0067, "step": 5460 }, { "epoch": 113.95833333333333, "grad_norm": 0.11199081689119339, "learning_rate": 8.695929054449869e-05, "loss": 0.0061, "step": 5470 }, { "epoch": 114.16666666666667, "grad_norm": 0.13164229691028595, "learning_rate": 8.690355932302501e-05, "loss": 0.0072, "step": 5480 }, { "epoch": 114.375, "grad_norm": 0.15297167003154755, "learning_rate": 8.684772720862931e-05, "loss": 0.0069, "step": 5490 }, { "epoch": 114.58333333333333, "grad_norm": 0.16369394958019257, "learning_rate": 8.679179435395446e-05, "loss": 0.0075, "step": 5500 }, { "epoch": 114.79166666666667, "grad_norm": 0.13898268342018127, "learning_rate": 8.673576091191874e-05, "loss": 0.0069, "step": 5510 }, { "epoch": 115.0, "grad_norm": 0.11769311130046844, "learning_rate": 8.667962703571541e-05, "loss": 0.0066, "step": 5520 }, { "epoch": 115.20833333333333, "grad_norm": 0.1247541755437851, "learning_rate": 8.662339287881238e-05, "loss": 0.0061, "step": 5530 }, { "epoch": 115.41666666666667, "grad_norm": 0.11203167587518692, "learning_rate": 8.656705859495169e-05, "loss": 0.0061, "step": 5540 }, { "epoch": 115.625, "grad_norm": 0.1286049783229828, "learning_rate": 8.651062433814912e-05, "loss": 0.0073, "step": 5550 }, { "epoch": 115.83333333333333, "grad_norm": 0.11936389654874802, "learning_rate": 8.645409026269375e-05, "loss": 0.0061, "step": 5560 }, { "epoch": 116.04166666666667, "grad_norm": 0.1643476039171219, "learning_rate": 8.639745652314759e-05, "loss": 0.0063, "step": 5570 }, { "epoch": 116.25, "grad_norm": 0.10795634984970093, "learning_rate": 8.634072327434515e-05, "loss": 0.0072, "step": 5580 }, { "epoch": 116.45833333333333, "grad_norm": 0.09590476751327515, "learning_rate": 8.628389067139294e-05, "loss": 0.007, "step": 5590 }, { "epoch": 116.66666666666667, "grad_norm": 0.09990982711315155, "learning_rate": 8.622695886966911e-05, "loss": 0.0066, "step": 5600 }, { "epoch": 116.875, "grad_norm": 0.0694585070014, "learning_rate": 8.616992802482308e-05, "loss": 0.006, "step": 5610 }, { "epoch": 117.08333333333333, "grad_norm": 0.15140552818775177, "learning_rate": 8.611279829277496e-05, "loss": 0.0073, "step": 5620 }, { "epoch": 117.29166666666667, "grad_norm": 0.12265612930059433, "learning_rate": 8.605556982971528e-05, "loss": 0.0074, "step": 5630 }, { "epoch": 117.5, "grad_norm": 0.1393747478723526, "learning_rate": 8.599824279210447e-05, "loss": 0.0073, "step": 5640 }, { "epoch": 117.70833333333333, "grad_norm": 0.09753510355949402, "learning_rate": 8.594081733667243e-05, "loss": 0.0064, "step": 5650 }, { "epoch": 117.91666666666667, "grad_norm": 0.10731826722621918, "learning_rate": 8.58832936204182e-05, "loss": 0.0066, "step": 5660 }, { "epoch": 118.125, "grad_norm": 0.12953539192676544, "learning_rate": 8.582567180060942e-05, "loss": 0.0068, "step": 5670 }, { "epoch": 118.33333333333333, "grad_norm": 0.12015504390001297, "learning_rate": 8.576795203478194e-05, "loss": 0.0067, "step": 5680 }, { "epoch": 118.54166666666667, "grad_norm": 0.13686147332191467, "learning_rate": 8.571013448073939e-05, "loss": 0.0066, "step": 5690 }, { "epoch": 118.75, "grad_norm": 0.10429541021585464, "learning_rate": 8.565221929655275e-05, "loss": 0.0061, "step": 5700 }, { "epoch": 118.95833333333333, "grad_norm": 0.10097655653953552, "learning_rate": 8.559420664055992e-05, "loss": 0.0061, "step": 5710 }, { "epoch": 119.16666666666667, "grad_norm": 0.17581488192081451, "learning_rate": 8.553609667136532e-05, "loss": 0.0075, "step": 5720 }, { "epoch": 119.375, "grad_norm": 0.09860816597938538, "learning_rate": 8.547788954783936e-05, "loss": 0.0066, "step": 5730 }, { "epoch": 119.58333333333333, "grad_norm": 0.09528197348117828, "learning_rate": 8.541958542911808e-05, "loss": 0.0068, "step": 5740 }, { "epoch": 119.79166666666667, "grad_norm": 0.12572768330574036, "learning_rate": 8.536118447460275e-05, "loss": 0.006, "step": 5750 }, { "epoch": 120.0, "grad_norm": 0.14177562296390533, "learning_rate": 8.530268684395932e-05, "loss": 0.0063, "step": 5760 }, { "epoch": 120.20833333333333, "grad_norm": 0.13652679324150085, "learning_rate": 8.524409269711807e-05, "loss": 0.0067, "step": 5770 }, { "epoch": 120.41666666666667, "grad_norm": 0.11517651379108429, "learning_rate": 8.51854021942732e-05, "loss": 0.0061, "step": 5780 }, { "epoch": 120.625, "grad_norm": 0.09767290204763412, "learning_rate": 8.512661549588227e-05, "loss": 0.0065, "step": 5790 }, { "epoch": 120.83333333333333, "grad_norm": 0.09993951767683029, "learning_rate": 8.506773276266588e-05, "loss": 0.0067, "step": 5800 }, { "epoch": 121.04166666666667, "grad_norm": 0.1145903691649437, "learning_rate": 8.500875415560721e-05, "loss": 0.0059, "step": 5810 }, { "epoch": 121.25, "grad_norm": 0.10294085741043091, "learning_rate": 8.494967983595144e-05, "loss": 0.0062, "step": 5820 }, { "epoch": 121.45833333333333, "grad_norm": 0.09089931100606918, "learning_rate": 8.489050996520558e-05, "loss": 0.0065, "step": 5830 }, { "epoch": 121.66666666666667, "grad_norm": 0.0995241180062294, "learning_rate": 8.483124470513775e-05, "loss": 0.0058, "step": 5840 }, { "epoch": 121.875, "grad_norm": 0.13291694223880768, "learning_rate": 8.477188421777692e-05, "loss": 0.0064, "step": 5850 }, { "epoch": 122.08333333333333, "grad_norm": 0.13685187697410583, "learning_rate": 8.47124286654124e-05, "loss": 0.0073, "step": 5860 }, { "epoch": 122.29166666666667, "grad_norm": 0.13093774020671844, "learning_rate": 8.465287821059341e-05, "loss": 0.0062, "step": 5870 }, { "epoch": 122.5, "grad_norm": 0.1293039619922638, "learning_rate": 8.45932330161286e-05, "loss": 0.0063, "step": 5880 }, { "epoch": 122.70833333333333, "grad_norm": 0.11227479577064514, "learning_rate": 8.453349324508567e-05, "loss": 0.006, "step": 5890 }, { "epoch": 122.91666666666667, "grad_norm": 0.10199317336082458, "learning_rate": 8.447365906079088e-05, "loss": 0.006, "step": 5900 }, { "epoch": 123.125, "grad_norm": 0.1251365691423416, "learning_rate": 8.441373062682856e-05, "loss": 0.0066, "step": 5910 }, { "epoch": 123.33333333333333, "grad_norm": 0.10289514809846878, "learning_rate": 8.43537081070408e-05, "loss": 0.0066, "step": 5920 }, { "epoch": 123.54166666666667, "grad_norm": 0.08732490241527557, "learning_rate": 8.429359166552689e-05, "loss": 0.0065, "step": 5930 }, { "epoch": 123.75, "grad_norm": 0.12066444009542465, "learning_rate": 8.423338146664284e-05, "loss": 0.0064, "step": 5940 }, { "epoch": 123.95833333333333, "grad_norm": 0.0953541174530983, "learning_rate": 8.417307767500107e-05, "loss": 0.006, "step": 5950 }, { "epoch": 124.16666666666667, "grad_norm": 0.11806394904851913, "learning_rate": 8.411268045546983e-05, "loss": 0.0067, "step": 5960 }, { "epoch": 124.375, "grad_norm": 0.08223152905702591, "learning_rate": 8.405218997317281e-05, "loss": 0.0065, "step": 5970 }, { "epoch": 124.58333333333333, "grad_norm": 0.1024564579129219, "learning_rate": 8.399160639348869e-05, "loss": 0.0064, "step": 5980 }, { "epoch": 124.79166666666667, "grad_norm": 0.09232425689697266, "learning_rate": 8.393092988205065e-05, "loss": 0.0059, "step": 5990 }, { "epoch": 125.0, "grad_norm": 0.13532240688800812, "learning_rate": 8.387016060474597e-05, "loss": 0.0059, "step": 6000 }, { "epoch": 125.20833333333333, "grad_norm": 0.09899389743804932, "learning_rate": 8.380929872771551e-05, "loss": 0.0066, "step": 6010 }, { "epoch": 125.41666666666667, "grad_norm": 0.0958431139588356, "learning_rate": 8.374834441735335e-05, "loss": 0.006, "step": 6020 }, { "epoch": 125.625, "grad_norm": 0.08399681001901627, "learning_rate": 8.368729784030622e-05, "loss": 0.0059, "step": 6030 }, { "epoch": 125.83333333333333, "grad_norm": 0.11440552771091461, "learning_rate": 8.362615916347315e-05, "loss": 0.0062, "step": 6040 }, { "epoch": 126.04166666666667, "grad_norm": 0.13556325435638428, "learning_rate": 8.356492855400493e-05, "loss": 0.0061, "step": 6050 }, { "epoch": 126.25, "grad_norm": 0.10845920443534851, "learning_rate": 8.350360617930371e-05, "loss": 0.0073, "step": 6060 }, { "epoch": 126.45833333333333, "grad_norm": 0.11572260409593582, "learning_rate": 8.344219220702255e-05, "loss": 0.0065, "step": 6070 }, { "epoch": 126.66666666666667, "grad_norm": 0.1350720077753067, "learning_rate": 8.338068680506485e-05, "loss": 0.0063, "step": 6080 }, { "epoch": 126.875, "grad_norm": 0.13286876678466797, "learning_rate": 8.33190901415841e-05, "loss": 0.0061, "step": 6090 }, { "epoch": 127.08333333333333, "grad_norm": 0.11133982241153717, "learning_rate": 8.325740238498317e-05, "loss": 0.0068, "step": 6100 }, { "epoch": 127.29166666666667, "grad_norm": 0.12204574048519135, "learning_rate": 8.319562370391406e-05, "loss": 0.0063, "step": 6110 }, { "epoch": 127.5, "grad_norm": 0.10109833627939224, "learning_rate": 8.31337542672773e-05, "loss": 0.0057, "step": 6120 }, { "epoch": 127.70833333333333, "grad_norm": 0.11030742526054382, "learning_rate": 8.307179424422158e-05, "loss": 0.0065, "step": 6130 }, { "epoch": 127.91666666666667, "grad_norm": 0.09110900014638901, "learning_rate": 8.300974380414327e-05, "loss": 0.0061, "step": 6140 }, { "epoch": 128.125, "grad_norm": 0.10939113795757294, "learning_rate": 8.294760311668586e-05, "loss": 0.0065, "step": 6150 }, { "epoch": 128.33333333333334, "grad_norm": 0.11912523210048676, "learning_rate": 8.288537235173961e-05, "loss": 0.0057, "step": 6160 }, { "epoch": 128.54166666666666, "grad_norm": 0.10735300928354263, "learning_rate": 8.282305167944108e-05, "loss": 0.006, "step": 6170 }, { "epoch": 128.75, "grad_norm": 0.1297248899936676, "learning_rate": 8.276064127017262e-05, "loss": 0.0067, "step": 6180 }, { "epoch": 128.95833333333334, "grad_norm": 0.10314971208572388, "learning_rate": 8.269814129456189e-05, "loss": 0.0066, "step": 6190 }, { "epoch": 129.16666666666666, "grad_norm": 0.08305135369300842, "learning_rate": 8.263555192348143e-05, "loss": 0.0059, "step": 6200 }, { "epoch": 129.375, "grad_norm": 0.119288370013237, "learning_rate": 8.257287332804819e-05, "loss": 0.0069, "step": 6210 }, { "epoch": 129.58333333333334, "grad_norm": 0.11154352873563766, "learning_rate": 8.251010567962307e-05, "loss": 0.0061, "step": 6220 }, { "epoch": 129.79166666666666, "grad_norm": 0.10460001230239868, "learning_rate": 8.244724914981041e-05, "loss": 0.0062, "step": 6230 }, { "epoch": 130.0, "grad_norm": 0.08898643404245377, "learning_rate": 8.238430391045757e-05, "loss": 0.0063, "step": 6240 }, { "epoch": 130.20833333333334, "grad_norm": 0.07482964545488358, "learning_rate": 8.232127013365445e-05, "loss": 0.0064, "step": 6250 }, { "epoch": 130.41666666666666, "grad_norm": 0.08529376983642578, "learning_rate": 8.225814799173295e-05, "loss": 0.0062, "step": 6260 }, { "epoch": 130.625, "grad_norm": 0.09941529482603073, "learning_rate": 8.219493765726663e-05, "loss": 0.0064, "step": 6270 }, { "epoch": 130.83333333333334, "grad_norm": 0.13443775475025177, "learning_rate": 8.21316393030701e-05, "loss": 0.0061, "step": 6280 }, { "epoch": 131.04166666666666, "grad_norm": 0.1252257227897644, "learning_rate": 8.206825310219865e-05, "loss": 0.006, "step": 6290 }, { "epoch": 131.25, "grad_norm": 0.11646953970193863, "learning_rate": 8.200477922794776e-05, "loss": 0.0063, "step": 6300 }, { "epoch": 131.45833333333334, "grad_norm": 0.13598810136318207, "learning_rate": 8.194121785385256e-05, "loss": 0.006, "step": 6310 }, { "epoch": 131.66666666666666, "grad_norm": 0.098904550075531, "learning_rate": 8.187756915368741e-05, "loss": 0.0063, "step": 6320 }, { "epoch": 131.875, "grad_norm": 0.0969843715429306, "learning_rate": 8.181383330146544e-05, "loss": 0.0058, "step": 6330 }, { "epoch": 132.08333333333334, "grad_norm": 0.1454145461320877, "learning_rate": 8.175001047143804e-05, "loss": 0.0059, "step": 6340 }, { "epoch": 132.29166666666666, "grad_norm": 0.15495622158050537, "learning_rate": 8.168610083809438e-05, "loss": 0.0066, "step": 6350 }, { "epoch": 132.5, "grad_norm": 0.1121242344379425, "learning_rate": 8.162210457616095e-05, "loss": 0.006, "step": 6360 }, { "epoch": 132.70833333333334, "grad_norm": 0.12226052582263947, "learning_rate": 8.155802186060109e-05, "loss": 0.006, "step": 6370 }, { "epoch": 132.91666666666666, "grad_norm": 0.12909547984600067, "learning_rate": 8.149385286661453e-05, "loss": 0.0063, "step": 6380 }, { "epoch": 133.125, "grad_norm": 0.11496283113956451, "learning_rate": 8.14295977696368e-05, "loss": 0.0063, "step": 6390 }, { "epoch": 133.33333333333334, "grad_norm": 0.11631165444850922, "learning_rate": 8.13652567453389e-05, "loss": 0.0055, "step": 6400 }, { "epoch": 133.54166666666666, "grad_norm": 0.08732081949710846, "learning_rate": 8.130082996962676e-05, "loss": 0.0055, "step": 6410 }, { "epoch": 133.75, "grad_norm": 0.11272727698087692, "learning_rate": 8.123631761864068e-05, "loss": 0.006, "step": 6420 }, { "epoch": 133.95833333333334, "grad_norm": 0.07373277097940445, "learning_rate": 8.1171719868755e-05, "loss": 0.0061, "step": 6430 }, { "epoch": 134.16666666666666, "grad_norm": 0.09602215886116028, "learning_rate": 8.110703689657748e-05, "loss": 0.0058, "step": 6440 }, { "epoch": 134.375, "grad_norm": 0.12535147368907928, "learning_rate": 8.104226887894892e-05, "loss": 0.006, "step": 6450 }, { "epoch": 134.58333333333334, "grad_norm": 0.1267966479063034, "learning_rate": 8.097741599294257e-05, "loss": 0.0058, "step": 6460 }, { "epoch": 134.79166666666666, "grad_norm": 0.10991288721561432, "learning_rate": 8.091247841586378e-05, "loss": 0.0064, "step": 6470 }, { "epoch": 135.0, "grad_norm": 0.12143436819314957, "learning_rate": 8.084745632524939e-05, "loss": 0.0054, "step": 6480 }, { "epoch": 135.20833333333334, "grad_norm": 0.11986532807350159, "learning_rate": 8.07823498988673e-05, "loss": 0.0064, "step": 6490 }, { "epoch": 135.41666666666666, "grad_norm": 0.08360620588064194, "learning_rate": 8.071715931471602e-05, "loss": 0.0058, "step": 6500 }, { "epoch": 135.625, "grad_norm": 0.0874779149889946, "learning_rate": 8.06518847510241e-05, "loss": 0.0057, "step": 6510 }, { "epoch": 135.83333333333334, "grad_norm": 0.08690817654132843, "learning_rate": 8.058652638624971e-05, "loss": 0.006, "step": 6520 }, { "epoch": 136.04166666666666, "grad_norm": 0.16905423998832703, "learning_rate": 8.052108439908013e-05, "loss": 0.0054, "step": 6530 }, { "epoch": 136.25, "grad_norm": 0.09702770411968231, "learning_rate": 8.045555896843125e-05, "loss": 0.0062, "step": 6540 }, { "epoch": 136.45833333333334, "grad_norm": 0.14107906818389893, "learning_rate": 8.03899502734471e-05, "loss": 0.0059, "step": 6550 }, { "epoch": 136.66666666666666, "grad_norm": 0.1095065101981163, "learning_rate": 8.032425849349931e-05, "loss": 0.0059, "step": 6560 }, { "epoch": 136.875, "grad_norm": 0.1075138971209526, "learning_rate": 8.025848380818674e-05, "loss": 0.0067, "step": 6570 }, { "epoch": 137.08333333333334, "grad_norm": 0.10115578770637512, "learning_rate": 8.019262639733487e-05, "loss": 0.0067, "step": 6580 }, { "epoch": 137.29166666666666, "grad_norm": 0.1064053326845169, "learning_rate": 8.012668644099531e-05, "loss": 0.0061, "step": 6590 }, { "epoch": 137.5, "grad_norm": 0.10812310874462128, "learning_rate": 8.006066411944542e-05, "loss": 0.0056, "step": 6600 }, { "epoch": 137.70833333333334, "grad_norm": 0.13611872494220734, "learning_rate": 7.999455961318769e-05, "loss": 0.0058, "step": 6610 }, { "epoch": 137.91666666666666, "grad_norm": 0.09421633183956146, "learning_rate": 7.992837310294932e-05, "loss": 0.0057, "step": 6620 }, { "epoch": 138.125, "grad_norm": 0.1151861622929573, "learning_rate": 7.986210476968167e-05, "loss": 0.0057, "step": 6630 }, { "epoch": 138.33333333333334, "grad_norm": 0.1174456849694252, "learning_rate": 7.97957547945599e-05, "loss": 0.0054, "step": 6640 }, { "epoch": 138.54166666666666, "grad_norm": 0.08284151554107666, "learning_rate": 7.972932335898226e-05, "loss": 0.0058, "step": 6650 }, { "epoch": 138.75, "grad_norm": 0.10490133613348007, "learning_rate": 7.966281064456975e-05, "loss": 0.0058, "step": 6660 }, { "epoch": 138.95833333333334, "grad_norm": 0.11169099062681198, "learning_rate": 7.959621683316563e-05, "loss": 0.0059, "step": 6670 }, { "epoch": 139.16666666666666, "grad_norm": 0.09254045784473419, "learning_rate": 7.952954210683481e-05, "loss": 0.0055, "step": 6680 }, { "epoch": 139.375, "grad_norm": 0.11032960563898087, "learning_rate": 7.946278664786345e-05, "loss": 0.0059, "step": 6690 }, { "epoch": 139.58333333333334, "grad_norm": 0.09158681333065033, "learning_rate": 7.939595063875842e-05, "loss": 0.0061, "step": 6700 }, { "epoch": 139.79166666666666, "grad_norm": 0.08491400629281998, "learning_rate": 7.932903426224683e-05, "loss": 0.0064, "step": 6710 }, { "epoch": 140.0, "grad_norm": 0.16620711982250214, "learning_rate": 7.926203770127552e-05, "loss": 0.0056, "step": 6720 }, { "epoch": 140.20833333333334, "grad_norm": 0.11883492767810822, "learning_rate": 7.919496113901046e-05, "loss": 0.0059, "step": 6730 }, { "epoch": 140.41666666666666, "grad_norm": 0.12540000677108765, "learning_rate": 7.912780475883649e-05, "loss": 0.0058, "step": 6740 }, { "epoch": 140.625, "grad_norm": 0.10853338986635208, "learning_rate": 7.906056874435652e-05, "loss": 0.0057, "step": 6750 }, { "epoch": 140.83333333333334, "grad_norm": 0.11889602988958359, "learning_rate": 7.899325327939131e-05, "loss": 0.0061, "step": 6760 }, { "epoch": 141.04166666666666, "grad_norm": 0.12400171160697937, "learning_rate": 7.892585854797872e-05, "loss": 0.0053, "step": 6770 }, { "epoch": 141.25, "grad_norm": 0.11744941771030426, "learning_rate": 7.88583847343734e-05, "loss": 0.0063, "step": 6780 }, { "epoch": 141.45833333333334, "grad_norm": 0.10729074478149414, "learning_rate": 7.879083202304616e-05, "loss": 0.0063, "step": 6790 }, { "epoch": 141.66666666666666, "grad_norm": 0.11353697627782822, "learning_rate": 7.872320059868355e-05, "loss": 0.0056, "step": 6800 }, { "epoch": 141.875, "grad_norm": 0.0716300681233406, "learning_rate": 7.865549064618729e-05, "loss": 0.0053, "step": 6810 }, { "epoch": 142.08333333333334, "grad_norm": 0.13477295637130737, "learning_rate": 7.858770235067381e-05, "loss": 0.0061, "step": 6820 }, { "epoch": 142.29166666666666, "grad_norm": 0.10974391549825668, "learning_rate": 7.851983589747374e-05, "loss": 0.006, "step": 6830 }, { "epoch": 142.5, "grad_norm": 0.09437442570924759, "learning_rate": 7.845189147213133e-05, "loss": 0.0064, "step": 6840 }, { "epoch": 142.70833333333334, "grad_norm": 0.10821171849966049, "learning_rate": 7.838386926040407e-05, "loss": 0.0057, "step": 6850 }, { "epoch": 142.91666666666666, "grad_norm": 0.10441498458385468, "learning_rate": 7.83157694482621e-05, "loss": 0.0061, "step": 6860 }, { "epoch": 143.125, "grad_norm": 0.13895486295223236, "learning_rate": 7.824759222188768e-05, "loss": 0.0067, "step": 6870 }, { "epoch": 143.33333333333334, "grad_norm": 0.12144254148006439, "learning_rate": 7.817933776767478e-05, "loss": 0.0062, "step": 6880 }, { "epoch": 143.54166666666666, "grad_norm": 0.09021422266960144, "learning_rate": 7.811100627222842e-05, "loss": 0.0063, "step": 6890 }, { "epoch": 143.75, "grad_norm": 0.09941209107637405, "learning_rate": 7.804259792236435e-05, "loss": 0.0054, "step": 6900 }, { "epoch": 143.95833333333334, "grad_norm": 0.12068283557891846, "learning_rate": 7.797411290510835e-05, "loss": 0.0058, "step": 6910 }, { "epoch": 144.16666666666666, "grad_norm": 0.1384175419807434, "learning_rate": 7.790555140769586e-05, "loss": 0.0058, "step": 6920 }, { "epoch": 144.375, "grad_norm": 0.1139628142118454, "learning_rate": 7.78369136175714e-05, "loss": 0.0057, "step": 6930 }, { "epoch": 144.58333333333334, "grad_norm": 0.09992294758558273, "learning_rate": 7.776819972238806e-05, "loss": 0.0054, "step": 6940 }, { "epoch": 144.79166666666666, "grad_norm": 0.09880156069993973, "learning_rate": 7.7699409910007e-05, "loss": 0.0052, "step": 6950 }, { "epoch": 145.0, "grad_norm": 0.10627720504999161, "learning_rate": 7.763054436849694e-05, "loss": 0.0056, "step": 6960 }, { "epoch": 145.20833333333334, "grad_norm": 0.09809526801109314, "learning_rate": 7.756160328613364e-05, "loss": 0.0057, "step": 6970 }, { "epoch": 145.41666666666666, "grad_norm": 0.08648856729269028, "learning_rate": 7.749258685139942e-05, "loss": 0.0055, "step": 6980 }, { "epoch": 145.625, "grad_norm": 0.1040714904665947, "learning_rate": 7.742349525298253e-05, "loss": 0.0058, "step": 6990 }, { "epoch": 145.83333333333334, "grad_norm": 0.12083418667316437, "learning_rate": 7.735432867977679e-05, "loss": 0.0057, "step": 7000 }, { "epoch": 146.04166666666666, "grad_norm": 0.10526537895202637, "learning_rate": 7.728508732088096e-05, "loss": 0.0052, "step": 7010 }, { "epoch": 146.25, "grad_norm": 0.13863271474838257, "learning_rate": 7.721577136559825e-05, "loss": 0.0058, "step": 7020 }, { "epoch": 146.45833333333334, "grad_norm": 0.09065917134284973, "learning_rate": 7.714638100343588e-05, "loss": 0.0058, "step": 7030 }, { "epoch": 146.66666666666666, "grad_norm": 0.1355368196964264, "learning_rate": 7.707691642410444e-05, "loss": 0.0059, "step": 7040 }, { "epoch": 146.875, "grad_norm": 0.09605033695697784, "learning_rate": 7.70073778175174e-05, "loss": 0.0057, "step": 7050 }, { "epoch": 147.08333333333334, "grad_norm": 0.08787801861763, "learning_rate": 7.69377653737907e-05, "loss": 0.0051, "step": 7060 }, { "epoch": 147.29166666666666, "grad_norm": 0.11439439654350281, "learning_rate": 7.686807928324209e-05, "loss": 0.0053, "step": 7070 }, { "epoch": 147.5, "grad_norm": 0.11384747177362442, "learning_rate": 7.679831973639065e-05, "loss": 0.0066, "step": 7080 }, { "epoch": 147.70833333333334, "grad_norm": 0.10955357551574707, "learning_rate": 7.672848692395637e-05, "loss": 0.0057, "step": 7090 }, { "epoch": 147.91666666666666, "grad_norm": 0.12239781767129898, "learning_rate": 7.665858103685944e-05, "loss": 0.0058, "step": 7100 }, { "epoch": 148.125, "grad_norm": 0.1162685826420784, "learning_rate": 7.658860226621991e-05, "loss": 0.0053, "step": 7110 }, { "epoch": 148.33333333333334, "grad_norm": 0.124757319688797, "learning_rate": 7.651855080335708e-05, "loss": 0.0053, "step": 7120 }, { "epoch": 148.54166666666666, "grad_norm": 0.13873450458049774, "learning_rate": 7.644842683978896e-05, "loss": 0.0057, "step": 7130 }, { "epoch": 148.75, "grad_norm": 0.11904890835285187, "learning_rate": 7.63782305672318e-05, "loss": 0.0063, "step": 7140 }, { "epoch": 148.95833333333334, "grad_norm": 0.09709350764751434, "learning_rate": 7.63079621775995e-05, "loss": 0.0058, "step": 7150 }, { "epoch": 149.16666666666666, "grad_norm": 0.11029646545648575, "learning_rate": 7.623762186300319e-05, "loss": 0.0055, "step": 7160 }, { "epoch": 149.375, "grad_norm": 0.09899567812681198, "learning_rate": 7.616720981575057e-05, "loss": 0.0066, "step": 7170 }, { "epoch": 149.58333333333334, "grad_norm": 0.08266521990299225, "learning_rate": 7.609672622834552e-05, "loss": 0.0061, "step": 7180 }, { "epoch": 149.79166666666666, "grad_norm": 0.08625275641679764, "learning_rate": 7.602617129348747e-05, "loss": 0.0059, "step": 7190 }, { "epoch": 150.0, "grad_norm": 0.13016267120838165, "learning_rate": 7.595554520407088e-05, "loss": 0.0055, "step": 7200 }, { "epoch": 150.20833333333334, "grad_norm": 0.10206914693117142, "learning_rate": 7.588484815318484e-05, "loss": 0.0058, "step": 7210 }, { "epoch": 150.41666666666666, "grad_norm": 0.09598031640052795, "learning_rate": 7.581408033411234e-05, "loss": 0.0056, "step": 7220 }, { "epoch": 150.625, "grad_norm": 0.12026665359735489, "learning_rate": 7.574324194032995e-05, "loss": 0.0058, "step": 7230 }, { "epoch": 150.83333333333334, "grad_norm": 0.08771341294050217, "learning_rate": 7.567233316550705e-05, "loss": 0.0057, "step": 7240 }, { "epoch": 151.04166666666666, "grad_norm": 0.0863017737865448, "learning_rate": 7.560135420350562e-05, "loss": 0.0056, "step": 7250 }, { "epoch": 151.25, "grad_norm": 0.090540312230587, "learning_rate": 7.553030524837935e-05, "loss": 0.0056, "step": 7260 }, { "epoch": 151.45833333333334, "grad_norm": 0.11293289810419083, "learning_rate": 7.545918649437341e-05, "loss": 0.0054, "step": 7270 }, { "epoch": 151.66666666666666, "grad_norm": 0.08923284709453583, "learning_rate": 7.538799813592377e-05, "loss": 0.0057, "step": 7280 }, { "epoch": 151.875, "grad_norm": 0.1050669401884079, "learning_rate": 7.531674036765662e-05, "loss": 0.0057, "step": 7290 }, { "epoch": 152.08333333333334, "grad_norm": 0.1110481396317482, "learning_rate": 7.524541338438807e-05, "loss": 0.0055, "step": 7300 }, { "epoch": 152.29166666666666, "grad_norm": 0.09473437815904617, "learning_rate": 7.517401738112328e-05, "loss": 0.0065, "step": 7310 }, { "epoch": 152.5, "grad_norm": 0.09379380196332932, "learning_rate": 7.510255255305628e-05, "loss": 0.0055, "step": 7320 }, { "epoch": 152.70833333333334, "grad_norm": 0.0987544134259224, "learning_rate": 7.503101909556911e-05, "loss": 0.0055, "step": 7330 }, { "epoch": 152.91666666666666, "grad_norm": 0.07818496972322464, "learning_rate": 7.495941720423154e-05, "loss": 0.005, "step": 7340 }, { "epoch": 153.125, "grad_norm": 0.13115940988063812, "learning_rate": 7.488774707480042e-05, "loss": 0.0058, "step": 7350 }, { "epoch": 153.33333333333334, "grad_norm": 0.13628965616226196, "learning_rate": 7.481600890321911e-05, "loss": 0.0055, "step": 7360 }, { "epoch": 153.54166666666666, "grad_norm": 0.10880760103464127, "learning_rate": 7.474420288561708e-05, "loss": 0.0054, "step": 7370 }, { "epoch": 153.75, "grad_norm": 0.10566121339797974, "learning_rate": 7.467232921830921e-05, "loss": 0.0053, "step": 7380 }, { "epoch": 153.95833333333334, "grad_norm": 0.10736144334077835, "learning_rate": 7.460038809779537e-05, "loss": 0.0057, "step": 7390 }, { "epoch": 154.16666666666666, "grad_norm": 0.10708538442850113, "learning_rate": 7.452837972075983e-05, "loss": 0.006, "step": 7400 }, { "epoch": 154.375, "grad_norm": 0.10432501882314682, "learning_rate": 7.445630428407074e-05, "loss": 0.0064, "step": 7410 }, { "epoch": 154.58333333333334, "grad_norm": 0.10843656212091446, "learning_rate": 7.43841619847796e-05, "loss": 0.0055, "step": 7420 }, { "epoch": 154.79166666666666, "grad_norm": 0.09779039025306702, "learning_rate": 7.431195302012072e-05, "loss": 0.0055, "step": 7430 }, { "epoch": 155.0, "grad_norm": 0.14302781224250793, "learning_rate": 7.423967758751061e-05, "loss": 0.0059, "step": 7440 }, { "epoch": 155.20833333333334, "grad_norm": 0.10521672666072845, "learning_rate": 7.416733588454758e-05, "loss": 0.0057, "step": 7450 }, { "epoch": 155.41666666666666, "grad_norm": 0.10838710516691208, "learning_rate": 7.409492810901106e-05, "loss": 0.0065, "step": 7460 }, { "epoch": 155.625, "grad_norm": 0.1253792643547058, "learning_rate": 7.402245445886116e-05, "loss": 0.0061, "step": 7470 }, { "epoch": 155.83333333333334, "grad_norm": 0.11941833049058914, "learning_rate": 7.394991513223806e-05, "loss": 0.0056, "step": 7480 }, { "epoch": 156.04166666666666, "grad_norm": 0.1468804031610489, "learning_rate": 7.38773103274615e-05, "loss": 0.0063, "step": 7490 }, { "epoch": 156.25, "grad_norm": 0.1231686994433403, "learning_rate": 7.380464024303028e-05, "loss": 0.0063, "step": 7500 }, { "epoch": 156.45833333333334, "grad_norm": 0.09419112652540207, "learning_rate": 7.373190507762162e-05, "loss": 0.0058, "step": 7510 }, { "epoch": 156.66666666666666, "grad_norm": 0.10222430527210236, "learning_rate": 7.365910503009066e-05, "loss": 0.0061, "step": 7520 }, { "epoch": 156.875, "grad_norm": 0.08774254471063614, "learning_rate": 7.358624029946996e-05, "loss": 0.0052, "step": 7530 }, { "epoch": 157.08333333333334, "grad_norm": 0.08310490101575851, "learning_rate": 7.351331108496893e-05, "loss": 0.0056, "step": 7540 }, { "epoch": 157.29166666666666, "grad_norm": 0.08657695353031158, "learning_rate": 7.344031758597325e-05, "loss": 0.0055, "step": 7550 }, { "epoch": 157.5, "grad_norm": 0.09564448893070221, "learning_rate": 7.336726000204435e-05, "loss": 0.0057, "step": 7560 }, { "epoch": 157.70833333333334, "grad_norm": 0.11101897805929184, "learning_rate": 7.32941385329189e-05, "loss": 0.0059, "step": 7570 }, { "epoch": 157.91666666666666, "grad_norm": 0.10803870856761932, "learning_rate": 7.322095337850816e-05, "loss": 0.006, "step": 7580 }, { "epoch": 158.125, "grad_norm": 0.10363899171352386, "learning_rate": 7.314770473889758e-05, "loss": 0.0057, "step": 7590 }, { "epoch": 158.33333333333334, "grad_norm": 0.07880672067403793, "learning_rate": 7.307439281434615e-05, "loss": 0.005, "step": 7600 }, { "epoch": 158.54166666666666, "grad_norm": 0.08683787286281586, "learning_rate": 7.300101780528585e-05, "loss": 0.0053, "step": 7610 }, { "epoch": 158.75, "grad_norm": 0.08584139496088028, "learning_rate": 7.292757991232117e-05, "loss": 0.0055, "step": 7620 }, { "epoch": 158.95833333333334, "grad_norm": 0.1066519170999527, "learning_rate": 7.285407933622848e-05, "loss": 0.0052, "step": 7630 }, { "epoch": 159.16666666666666, "grad_norm": 0.16025276482105255, "learning_rate": 7.278051627795557e-05, "loss": 0.006, "step": 7640 }, { "epoch": 159.375, "grad_norm": 0.12102033197879791, "learning_rate": 7.270689093862105e-05, "loss": 0.0053, "step": 7650 }, { "epoch": 159.58333333333334, "grad_norm": 0.1015082597732544, "learning_rate": 7.263320351951374e-05, "loss": 0.0052, "step": 7660 }, { "epoch": 159.79166666666666, "grad_norm": 0.1098414808511734, "learning_rate": 7.255945422209227e-05, "loss": 0.0059, "step": 7670 }, { "epoch": 160.0, "grad_norm": 0.11478480696678162, "learning_rate": 7.248564324798437e-05, "loss": 0.005, "step": 7680 }, { "epoch": 160.20833333333334, "grad_norm": 0.09792090952396393, "learning_rate": 7.241177079898644e-05, "loss": 0.0058, "step": 7690 }, { "epoch": 160.41666666666666, "grad_norm": 0.08875871449708939, "learning_rate": 7.233783707706295e-05, "loss": 0.0058, "step": 7700 }, { "epoch": 160.625, "grad_norm": 0.08430448919534683, "learning_rate": 7.226384228434586e-05, "loss": 0.0055, "step": 7710 }, { "epoch": 160.83333333333334, "grad_norm": 0.08698766678571701, "learning_rate": 7.21897866231341e-05, "loss": 0.0054, "step": 7720 }, { "epoch": 161.04166666666666, "grad_norm": 0.12460258603096008, "learning_rate": 7.211567029589303e-05, "loss": 0.0053, "step": 7730 }, { "epoch": 161.25, "grad_norm": 0.09813178330659866, "learning_rate": 7.204149350525387e-05, "loss": 0.0058, "step": 7740 }, { "epoch": 161.45833333333334, "grad_norm": 0.09020190685987473, "learning_rate": 7.196725645401309e-05, "loss": 0.0056, "step": 7750 }, { "epoch": 161.66666666666666, "grad_norm": 0.102361761033535, "learning_rate": 7.1892959345132e-05, "loss": 0.0054, "step": 7760 }, { "epoch": 161.875, "grad_norm": 0.07865072786808014, "learning_rate": 7.181860238173605e-05, "loss": 0.0055, "step": 7770 }, { "epoch": 162.08333333333334, "grad_norm": 0.10875935107469559, "learning_rate": 7.174418576711432e-05, "loss": 0.0048, "step": 7780 }, { "epoch": 162.29166666666666, "grad_norm": 0.10033952444791794, "learning_rate": 7.1669709704719e-05, "loss": 0.0056, "step": 7790 }, { "epoch": 162.5, "grad_norm": 0.09406279027462006, "learning_rate": 7.159517439816481e-05, "loss": 0.0059, "step": 7800 }, { "epoch": 162.70833333333334, "grad_norm": 0.1181127279996872, "learning_rate": 7.152058005122842e-05, "loss": 0.0053, "step": 7810 }, { "epoch": 162.91666666666666, "grad_norm": 0.10044004023075104, "learning_rate": 7.144592686784793e-05, "loss": 0.0051, "step": 7820 }, { "epoch": 163.125, "grad_norm": 0.1023101806640625, "learning_rate": 7.137121505212229e-05, "loss": 0.0058, "step": 7830 }, { "epoch": 163.33333333333334, "grad_norm": 0.0931241363286972, "learning_rate": 7.129644480831077e-05, "loss": 0.0055, "step": 7840 }, { "epoch": 163.54166666666666, "grad_norm": 0.07676256448030472, "learning_rate": 7.122161634083234e-05, "loss": 0.005, "step": 7850 }, { "epoch": 163.75, "grad_norm": 0.08273041248321533, "learning_rate": 7.114672985426516e-05, "loss": 0.0055, "step": 7860 }, { "epoch": 163.95833333333334, "grad_norm": 0.0874224379658699, "learning_rate": 7.107178555334606e-05, "loss": 0.0059, "step": 7870 }, { "epoch": 164.16666666666666, "grad_norm": 0.09303269535303116, "learning_rate": 7.099678364296989e-05, "loss": 0.0053, "step": 7880 }, { "epoch": 164.375, "grad_norm": 0.09301522374153137, "learning_rate": 7.0921724328189e-05, "loss": 0.0052, "step": 7890 }, { "epoch": 164.58333333333334, "grad_norm": 0.07047935575246811, "learning_rate": 7.084660781421268e-05, "loss": 0.0051, "step": 7900 }, { "epoch": 164.79166666666666, "grad_norm": 0.08342131972312927, "learning_rate": 7.077143430640662e-05, "loss": 0.0049, "step": 7910 }, { "epoch": 165.0, "grad_norm": 0.13393904268741608, "learning_rate": 7.069620401029232e-05, "loss": 0.0058, "step": 7920 }, { "epoch": 165.20833333333334, "grad_norm": 0.08015713095664978, "learning_rate": 7.062091713154655e-05, "loss": 0.0055, "step": 7930 }, { "epoch": 165.41666666666666, "grad_norm": 0.07985738664865494, "learning_rate": 7.054557387600075e-05, "loss": 0.0055, "step": 7940 }, { "epoch": 165.625, "grad_norm": 0.09442175924777985, "learning_rate": 7.04701744496405e-05, "loss": 0.0058, "step": 7950 }, { "epoch": 165.83333333333334, "grad_norm": 0.11302405595779419, "learning_rate": 7.039471905860495e-05, "loss": 0.0053, "step": 7960 }, { "epoch": 166.04166666666666, "grad_norm": 0.11725012212991714, "learning_rate": 7.031920790918628e-05, "loss": 0.0057, "step": 7970 }, { "epoch": 166.25, "grad_norm": 0.08774341642856598, "learning_rate": 7.024364120782906e-05, "loss": 0.0058, "step": 7980 }, { "epoch": 166.45833333333334, "grad_norm": 0.09302745014429092, "learning_rate": 7.016801916112978e-05, "loss": 0.0067, "step": 7990 }, { "epoch": 166.66666666666666, "grad_norm": 0.07605799287557602, "learning_rate": 7.009234197583623e-05, "loss": 0.0054, "step": 8000 }, { "epoch": 166.875, "grad_norm": 0.08458559215068817, "learning_rate": 7.001660985884692e-05, "loss": 0.0053, "step": 8010 }, { "epoch": 167.08333333333334, "grad_norm": 0.09316980838775635, "learning_rate": 6.994082301721063e-05, "loss": 0.0053, "step": 8020 }, { "epoch": 167.29166666666666, "grad_norm": 0.10803414136171341, "learning_rate": 6.986498165812563e-05, "loss": 0.0056, "step": 8030 }, { "epoch": 167.5, "grad_norm": 0.10128818452358246, "learning_rate": 6.978908598893932e-05, "loss": 0.0055, "step": 8040 }, { "epoch": 167.70833333333334, "grad_norm": 0.08869010955095291, "learning_rate": 6.971313621714756e-05, "loss": 0.0054, "step": 8050 }, { "epoch": 167.91666666666666, "grad_norm": 0.09642387926578522, "learning_rate": 6.96371325503941e-05, "loss": 0.005, "step": 8060 }, { "epoch": 168.125, "grad_norm": 0.14754681289196014, "learning_rate": 6.956107519647014e-05, "loss": 0.0061, "step": 8070 }, { "epoch": 168.33333333333334, "grad_norm": 0.08863451331853867, "learning_rate": 6.94849643633135e-05, "loss": 0.0052, "step": 8080 }, { "epoch": 168.54166666666666, "grad_norm": 0.11689287424087524, "learning_rate": 6.940880025900834e-05, "loss": 0.0052, "step": 8090 }, { "epoch": 168.75, "grad_norm": 0.07224515825510025, "learning_rate": 6.933258309178438e-05, "loss": 0.0052, "step": 8100 }, { "epoch": 168.95833333333334, "grad_norm": 0.10028796643018723, "learning_rate": 6.925631307001646e-05, "loss": 0.0058, "step": 8110 }, { "epoch": 169.16666666666666, "grad_norm": 0.08413723111152649, "learning_rate": 6.91799904022239e-05, "loss": 0.0053, "step": 8120 }, { "epoch": 169.375, "grad_norm": 0.07827712595462799, "learning_rate": 6.910361529706997e-05, "loss": 0.0053, "step": 8130 }, { "epoch": 169.58333333333334, "grad_norm": 0.0828624814748764, "learning_rate": 6.902718796336131e-05, "loss": 0.0052, "step": 8140 }, { "epoch": 169.79166666666666, "grad_norm": 0.08206067979335785, "learning_rate": 6.895070861004729e-05, "loss": 0.0054, "step": 8150 }, { "epoch": 170.0, "grad_norm": 0.13488063216209412, "learning_rate": 6.887417744621956e-05, "loss": 0.0056, "step": 8160 }, { "epoch": 170.20833333333334, "grad_norm": 0.1257939487695694, "learning_rate": 6.87975946811114e-05, "loss": 0.0058, "step": 8170 }, { "epoch": 170.41666666666666, "grad_norm": 0.08077426999807358, "learning_rate": 6.872096052409718e-05, "loss": 0.005, "step": 8180 }, { "epoch": 170.625, "grad_norm": 0.09580591320991516, "learning_rate": 6.864427518469174e-05, "loss": 0.0051, "step": 8190 }, { "epoch": 170.83333333333334, "grad_norm": 0.10609008371829987, "learning_rate": 6.856753887254986e-05, "loss": 0.0058, "step": 8200 }, { "epoch": 171.04166666666666, "grad_norm": 0.09542074799537659, "learning_rate": 6.849075179746572e-05, "loss": 0.0047, "step": 8210 }, { "epoch": 171.25, "grad_norm": 0.09745375066995621, "learning_rate": 6.841391416937221e-05, "loss": 0.0048, "step": 8220 }, { "epoch": 171.45833333333334, "grad_norm": 0.08340441435575485, "learning_rate": 6.833702619834053e-05, "loss": 0.0047, "step": 8230 }, { "epoch": 171.66666666666666, "grad_norm": 0.08873630315065384, "learning_rate": 6.82600880945794e-05, "loss": 0.0049, "step": 8240 }, { "epoch": 171.875, "grad_norm": 0.1035197302699089, "learning_rate": 6.818310006843468e-05, "loss": 0.0051, "step": 8250 }, { "epoch": 172.08333333333334, "grad_norm": 0.12573423981666565, "learning_rate": 6.810606233038868e-05, "loss": 0.0047, "step": 8260 }, { "epoch": 172.29166666666666, "grad_norm": 0.10541315376758575, "learning_rate": 6.802897509105966e-05, "loss": 0.0046, "step": 8270 }, { "epoch": 172.5, "grad_norm": 0.09518696367740631, "learning_rate": 6.79518385612012e-05, "loss": 0.0053, "step": 8280 }, { "epoch": 172.70833333333334, "grad_norm": 0.08766573667526245, "learning_rate": 6.787465295170157e-05, "loss": 0.0047, "step": 8290 }, { "epoch": 172.91666666666666, "grad_norm": 0.09926716983318329, "learning_rate": 6.779741847358332e-05, "loss": 0.0049, "step": 8300 }, { "epoch": 173.125, "grad_norm": 0.10876373201608658, "learning_rate": 6.772013533800256e-05, "loss": 0.0058, "step": 8310 }, { "epoch": 173.33333333333334, "grad_norm": 0.09657292813062668, "learning_rate": 6.764280375624843e-05, "loss": 0.006, "step": 8320 }, { "epoch": 173.54166666666666, "grad_norm": 0.08310046046972275, "learning_rate": 6.756542393974252e-05, "loss": 0.0057, "step": 8330 }, { "epoch": 173.75, "grad_norm": 0.08636170625686646, "learning_rate": 6.748799610003828e-05, "loss": 0.0051, "step": 8340 }, { "epoch": 173.95833333333334, "grad_norm": 0.08633033186197281, "learning_rate": 6.741052044882048e-05, "loss": 0.0045, "step": 8350 }, { "epoch": 174.16666666666666, "grad_norm": 0.09062892198562622, "learning_rate": 6.73329971979046e-05, "loss": 0.0052, "step": 8360 }, { "epoch": 174.375, "grad_norm": 0.11162165552377701, "learning_rate": 6.725542655923625e-05, "loss": 0.0055, "step": 8370 }, { "epoch": 174.58333333333334, "grad_norm": 0.10384809970855713, "learning_rate": 6.717780874489057e-05, "loss": 0.0054, "step": 8380 }, { "epoch": 174.79166666666666, "grad_norm": 0.07469624280929565, "learning_rate": 6.710014396707172e-05, "loss": 0.0052, "step": 8390 }, { "epoch": 175.0, "grad_norm": 0.17423014342784882, "learning_rate": 6.702243243811221e-05, "loss": 0.0056, "step": 8400 }, { "epoch": 175.20833333333334, "grad_norm": 0.10197913646697998, "learning_rate": 6.694467437047244e-05, "loss": 0.0053, "step": 8410 }, { "epoch": 175.41666666666666, "grad_norm": 0.09109578281641006, "learning_rate": 6.686686997673997e-05, "loss": 0.0055, "step": 8420 }, { "epoch": 175.625, "grad_norm": 0.08921491354703903, "learning_rate": 6.678901946962903e-05, "loss": 0.005, "step": 8430 }, { "epoch": 175.83333333333334, "grad_norm": 0.0822393074631691, "learning_rate": 6.671112306197996e-05, "loss": 0.0054, "step": 8440 }, { "epoch": 176.04166666666666, "grad_norm": 0.11888659000396729, "learning_rate": 6.663318096675854e-05, "loss": 0.0047, "step": 8450 }, { "epoch": 176.25, "grad_norm": 0.07118705660104752, "learning_rate": 6.655519339705552e-05, "loss": 0.005, "step": 8460 }, { "epoch": 176.45833333333334, "grad_norm": 0.10682482272386551, "learning_rate": 6.647716056608588e-05, "loss": 0.0053, "step": 8470 }, { "epoch": 176.66666666666666, "grad_norm": 0.10813131183385849, "learning_rate": 6.639908268718843e-05, "loss": 0.0051, "step": 8480 }, { "epoch": 176.875, "grad_norm": 0.09826311469078064, "learning_rate": 6.632095997382514e-05, "loss": 0.0051, "step": 8490 }, { "epoch": 177.08333333333334, "grad_norm": 0.097310371696949, "learning_rate": 6.624279263958047e-05, "loss": 0.0048, "step": 8500 }, { "epoch": 177.29166666666666, "grad_norm": 0.09451311826705933, "learning_rate": 6.616458089816097e-05, "loss": 0.005, "step": 8510 }, { "epoch": 177.5, "grad_norm": 0.08848772943019867, "learning_rate": 6.608632496339454e-05, "loss": 0.0054, "step": 8520 }, { "epoch": 177.70833333333334, "grad_norm": 0.061752356588840485, "learning_rate": 6.600802504922988e-05, "loss": 0.0047, "step": 8530 }, { "epoch": 177.91666666666666, "grad_norm": 0.09137643128633499, "learning_rate": 6.592968136973604e-05, "loss": 0.0043, "step": 8540 }, { "epoch": 178.125, "grad_norm": 0.10173672437667847, "learning_rate": 6.585129413910159e-05, "loss": 0.005, "step": 8550 }, { "epoch": 178.33333333333334, "grad_norm": 0.10683491080999374, "learning_rate": 6.577286357163424e-05, "loss": 0.0048, "step": 8560 }, { "epoch": 178.54166666666666, "grad_norm": 0.0896768867969513, "learning_rate": 6.569438988176018e-05, "loss": 0.005, "step": 8570 }, { "epoch": 178.75, "grad_norm": 0.08543156832456589, "learning_rate": 6.561587328402347e-05, "loss": 0.0044, "step": 8580 }, { "epoch": 178.95833333333334, "grad_norm": 0.08024384826421738, "learning_rate": 6.553731399308549e-05, "loss": 0.0049, "step": 8590 }, { "epoch": 179.16666666666666, "grad_norm": 0.10679547488689423, "learning_rate": 6.545871222372436e-05, "loss": 0.0048, "step": 8600 }, { "epoch": 179.375, "grad_norm": 0.10262718051671982, "learning_rate": 6.538006819083426e-05, "loss": 0.0051, "step": 8610 }, { "epoch": 179.58333333333334, "grad_norm": 0.10270822793245316, "learning_rate": 6.530138210942505e-05, "loss": 0.005, "step": 8620 }, { "epoch": 179.79166666666666, "grad_norm": 0.11014208942651749, "learning_rate": 6.522265419462141e-05, "loss": 0.0053, "step": 8630 }, { "epoch": 180.0, "grad_norm": 0.12140003591775894, "learning_rate": 6.514388466166248e-05, "loss": 0.0047, "step": 8640 }, { "epoch": 180.20833333333334, "grad_norm": 0.09969613701105118, "learning_rate": 6.506507372590119e-05, "loss": 0.006, "step": 8650 }, { "epoch": 180.41666666666666, "grad_norm": 0.09234268218278885, "learning_rate": 6.498622160280355e-05, "loss": 0.0051, "step": 8660 }, { "epoch": 180.625, "grad_norm": 0.08095008879899979, "learning_rate": 6.490732850794832e-05, "loss": 0.0057, "step": 8670 }, { "epoch": 180.83333333333334, "grad_norm": 0.10728495568037033, "learning_rate": 6.482839465702616e-05, "loss": 0.0057, "step": 8680 }, { "epoch": 181.04166666666666, "grad_norm": 0.08470702916383743, "learning_rate": 6.474942026583923e-05, "loss": 0.0047, "step": 8690 }, { "epoch": 181.25, "grad_norm": 0.13144522905349731, "learning_rate": 6.467040555030052e-05, "loss": 0.0057, "step": 8700 }, { "epoch": 181.45833333333334, "grad_norm": 0.09629794210195541, "learning_rate": 6.459135072643321e-05, "loss": 0.0059, "step": 8710 }, { "epoch": 181.66666666666666, "grad_norm": 0.07350742071866989, "learning_rate": 6.451225601037019e-05, "loss": 0.0051, "step": 8720 }, { "epoch": 181.875, "grad_norm": 0.08334241062402725, "learning_rate": 6.443312161835338e-05, "loss": 0.0048, "step": 8730 }, { "epoch": 182.08333333333334, "grad_norm": 0.12150025367736816, "learning_rate": 6.43539477667332e-05, "loss": 0.0052, "step": 8740 }, { "epoch": 182.29166666666666, "grad_norm": 0.10265988856554031, "learning_rate": 6.427473467196793e-05, "loss": 0.0049, "step": 8750 }, { "epoch": 182.5, "grad_norm": 0.08025182783603668, "learning_rate": 6.419548255062315e-05, "loss": 0.0055, "step": 8760 }, { "epoch": 182.70833333333334, "grad_norm": 0.07537805289030075, "learning_rate": 6.411619161937112e-05, "loss": 0.005, "step": 8770 }, { "epoch": 182.91666666666666, "grad_norm": 0.08773955702781677, "learning_rate": 6.403686209499022e-05, "loss": 0.005, "step": 8780 }, { "epoch": 183.125, "grad_norm": 0.13066275417804718, "learning_rate": 6.395749419436437e-05, "loss": 0.0056, "step": 8790 }, { "epoch": 183.33333333333334, "grad_norm": 0.07916446030139923, "learning_rate": 6.387808813448234e-05, "loss": 0.0051, "step": 8800 }, { "epoch": 183.54166666666666, "grad_norm": 0.08592705428600311, "learning_rate": 6.37986441324373e-05, "loss": 0.0055, "step": 8810 }, { "epoch": 183.75, "grad_norm": 0.08762349933385849, "learning_rate": 6.37191624054261e-05, "loss": 0.0049, "step": 8820 }, { "epoch": 183.95833333333334, "grad_norm": 0.08688924461603165, "learning_rate": 6.363964317074872e-05, "loss": 0.0051, "step": 8830 }, { "epoch": 184.16666666666666, "grad_norm": 0.0780668631196022, "learning_rate": 6.356008664580776e-05, "loss": 0.0055, "step": 8840 }, { "epoch": 184.375, "grad_norm": 0.08803711086511612, "learning_rate": 6.348049304810771e-05, "loss": 0.0053, "step": 8850 }, { "epoch": 184.58333333333334, "grad_norm": 0.09025304019451141, "learning_rate": 6.340086259525442e-05, "loss": 0.0055, "step": 8860 }, { "epoch": 184.79166666666666, "grad_norm": 0.08074600249528885, "learning_rate": 6.332119550495448e-05, "loss": 0.0044, "step": 8870 }, { "epoch": 185.0, "grad_norm": 0.13476479053497314, "learning_rate": 6.324149199501473e-05, "loss": 0.0051, "step": 8880 }, { "epoch": 185.20833333333334, "grad_norm": 0.10290780663490295, "learning_rate": 6.316175228334146e-05, "loss": 0.005, "step": 8890 }, { "epoch": 185.41666666666666, "grad_norm": 0.07648208737373352, "learning_rate": 6.308197658794003e-05, "loss": 0.0054, "step": 8900 }, { "epoch": 185.625, "grad_norm": 0.09961112588644028, "learning_rate": 6.300216512691417e-05, "loss": 0.0048, "step": 8910 }, { "epoch": 185.83333333333334, "grad_norm": 0.08533564954996109, "learning_rate": 6.292231811846532e-05, "loss": 0.0047, "step": 8920 }, { "epoch": 186.04166666666666, "grad_norm": 0.10156703740358353, "learning_rate": 6.284243578089217e-05, "loss": 0.0052, "step": 8930 }, { "epoch": 186.25, "grad_norm": 0.08096405863761902, "learning_rate": 6.276251833258999e-05, "loss": 0.0055, "step": 8940 }, { "epoch": 186.45833333333334, "grad_norm": 0.07800690829753876, "learning_rate": 6.268256599205003e-05, "loss": 0.0049, "step": 8950 }, { "epoch": 186.66666666666666, "grad_norm": 0.08543597161769867, "learning_rate": 6.260257897785892e-05, "loss": 0.0049, "step": 8960 }, { "epoch": 186.875, "grad_norm": 0.09671951085329056, "learning_rate": 6.252255750869811e-05, "loss": 0.0053, "step": 8970 }, { "epoch": 187.08333333333334, "grad_norm": 0.09271382540464401, "learning_rate": 6.244250180334325e-05, "loss": 0.0046, "step": 8980 }, { "epoch": 187.29166666666666, "grad_norm": 0.09039599448442459, "learning_rate": 6.236241208066356e-05, "loss": 0.005, "step": 8990 }, { "epoch": 187.5, "grad_norm": 0.0986475795507431, "learning_rate": 6.228228855962133e-05, "loss": 0.0051, "step": 9000 }, { "epoch": 187.70833333333334, "grad_norm": 0.08276578783988953, "learning_rate": 6.220213145927115e-05, "loss": 0.0047, "step": 9010 }, { "epoch": 187.91666666666666, "grad_norm": 0.10878936201334, "learning_rate": 6.212194099875951e-05, "loss": 0.0048, "step": 9020 }, { "epoch": 188.125, "grad_norm": 0.1023121252655983, "learning_rate": 6.204171739732405e-05, "loss": 0.0045, "step": 9030 }, { "epoch": 188.33333333333334, "grad_norm": 0.08749669790267944, "learning_rate": 6.196146087429303e-05, "loss": 0.0047, "step": 9040 }, { "epoch": 188.54166666666666, "grad_norm": 0.08253318071365356, "learning_rate": 6.188117164908474e-05, "loss": 0.0053, "step": 9050 }, { "epoch": 188.75, "grad_norm": 0.07947352528572083, "learning_rate": 6.180084994120684e-05, "loss": 0.0048, "step": 9060 }, { "epoch": 188.95833333333334, "grad_norm": 0.09912115335464478, "learning_rate": 6.17204959702558e-05, "loss": 0.0048, "step": 9070 }, { "epoch": 189.16666666666666, "grad_norm": 0.09145205467939377, "learning_rate": 6.164010995591635e-05, "loss": 0.0044, "step": 9080 }, { "epoch": 189.375, "grad_norm": 0.08611541986465454, "learning_rate": 6.155969211796076e-05, "loss": 0.0052, "step": 9090 }, { "epoch": 189.58333333333334, "grad_norm": 0.0806790143251419, "learning_rate": 6.147924267624829e-05, "loss": 0.0048, "step": 9100 }, { "epoch": 189.79166666666666, "grad_norm": 0.06859297305345535, "learning_rate": 6.13987618507247e-05, "loss": 0.0048, "step": 9110 }, { "epoch": 190.0, "grad_norm": 0.07385079562664032, "learning_rate": 6.131824986142147e-05, "loss": 0.004, "step": 9120 }, { "epoch": 190.20833333333334, "grad_norm": 0.08279384672641754, "learning_rate": 6.123770692845529e-05, "loss": 0.005, "step": 9130 }, { "epoch": 190.41666666666666, "grad_norm": 0.06951972097158432, "learning_rate": 6.11571332720275e-05, "loss": 0.0043, "step": 9140 }, { "epoch": 190.625, "grad_norm": 0.07704819738864899, "learning_rate": 6.107652911242336e-05, "loss": 0.0047, "step": 9150 }, { "epoch": 190.83333333333334, "grad_norm": 0.09230971336364746, "learning_rate": 6.0995894670011586e-05, "loss": 0.0049, "step": 9160 }, { "epoch": 191.04166666666666, "grad_norm": 0.083180733025074, "learning_rate": 6.091523016524368e-05, "loss": 0.0047, "step": 9170 }, { "epoch": 191.25, "grad_norm": 0.07267171889543533, "learning_rate": 6.083453581865328e-05, "loss": 0.0049, "step": 9180 }, { "epoch": 191.45833333333334, "grad_norm": 0.07215800136327744, "learning_rate": 6.075381185085568e-05, "loss": 0.0044, "step": 9190 }, { "epoch": 191.66666666666666, "grad_norm": 0.08514665812253952, "learning_rate": 6.067305848254709e-05, "loss": 0.005, "step": 9200 }, { "epoch": 191.875, "grad_norm": 0.0753583237528801, "learning_rate": 6.059227593450418e-05, "loss": 0.0046, "step": 9210 }, { "epoch": 192.08333333333334, "grad_norm": 0.10318110138177872, "learning_rate": 6.051146442758333e-05, "loss": 0.0049, "step": 9220 }, { "epoch": 192.29166666666666, "grad_norm": 0.09597302973270416, "learning_rate": 6.043062418272012e-05, "loss": 0.0048, "step": 9230 }, { "epoch": 192.5, "grad_norm": 0.09518416225910187, "learning_rate": 6.0349755420928666e-05, "loss": 0.0049, "step": 9240 }, { "epoch": 192.70833333333334, "grad_norm": 0.08500322699546814, "learning_rate": 6.0268858363301105e-05, "loss": 0.005, "step": 9250 }, { "epoch": 192.91666666666666, "grad_norm": 0.09713351726531982, "learning_rate": 6.018793323100689e-05, "loss": 0.0049, "step": 9260 }, { "epoch": 193.125, "grad_norm": 0.0907636284828186, "learning_rate": 6.0106980245292255e-05, "loss": 0.0051, "step": 9270 }, { "epoch": 193.33333333333334, "grad_norm": 0.07519053667783737, "learning_rate": 6.002599962747957e-05, "loss": 0.0048, "step": 9280 }, { "epoch": 193.54166666666666, "grad_norm": 0.0730765089392662, "learning_rate": 5.994499159896673e-05, "loss": 0.0051, "step": 9290 }, { "epoch": 193.75, "grad_norm": 0.08427779376506805, "learning_rate": 5.9863956381226607e-05, "loss": 0.0051, "step": 9300 }, { "epoch": 193.95833333333334, "grad_norm": 0.06732882559299469, "learning_rate": 5.9782894195806394e-05, "loss": 0.0053, "step": 9310 }, { "epoch": 194.16666666666666, "grad_norm": 0.08637591451406479, "learning_rate": 5.9701805264327004e-05, "loss": 0.0054, "step": 9320 }, { "epoch": 194.375, "grad_norm": 0.0790843740105629, "learning_rate": 5.96206898084825e-05, "loss": 0.0045, "step": 9330 }, { "epoch": 194.58333333333334, "grad_norm": 0.09703824669122696, "learning_rate": 5.953954805003942e-05, "loss": 0.0049, "step": 9340 }, { "epoch": 194.79166666666666, "grad_norm": 0.09087009727954865, "learning_rate": 5.945838021083623e-05, "loss": 0.0049, "step": 9350 }, { "epoch": 195.0, "grad_norm": 0.09709818661212921, "learning_rate": 5.9377186512782714e-05, "loss": 0.0046, "step": 9360 }, { "epoch": 195.20833333333334, "grad_norm": 0.0950152575969696, "learning_rate": 5.929596717785935e-05, "loss": 0.0049, "step": 9370 }, { "epoch": 195.41666666666666, "grad_norm": 0.10203614830970764, "learning_rate": 5.921472242811668e-05, "loss": 0.0052, "step": 9380 }, { "epoch": 195.625, "grad_norm": 0.09221017360687256, "learning_rate": 5.913345248567475e-05, "loss": 0.0045, "step": 9390 }, { "epoch": 195.83333333333334, "grad_norm": 0.07404825836420059, "learning_rate": 5.905215757272248e-05, "loss": 0.0041, "step": 9400 }, { "epoch": 196.04166666666666, "grad_norm": 0.08147578686475754, "learning_rate": 5.897083791151706e-05, "loss": 0.0042, "step": 9410 }, { "epoch": 196.25, "grad_norm": 0.06695184111595154, "learning_rate": 5.888949372438336e-05, "loss": 0.0048, "step": 9420 }, { "epoch": 196.45833333333334, "grad_norm": 0.10201659053564072, "learning_rate": 5.8808125233713255e-05, "loss": 0.0047, "step": 9430 }, { "epoch": 196.66666666666666, "grad_norm": 0.12022338062524796, "learning_rate": 5.872673266196509e-05, "loss": 0.0048, "step": 9440 }, { "epoch": 196.875, "grad_norm": 0.1098472997546196, "learning_rate": 5.864531623166305e-05, "loss": 0.0046, "step": 9450 }, { "epoch": 197.08333333333334, "grad_norm": 0.1094290092587471, "learning_rate": 5.856387616539656e-05, "loss": 0.0047, "step": 9460 }, { "epoch": 197.29166666666666, "grad_norm": 0.09983476251363754, "learning_rate": 5.848241268581967e-05, "loss": 0.005, "step": 9470 }, { "epoch": 197.5, "grad_norm": 0.10044335573911667, "learning_rate": 5.840092601565037e-05, "loss": 0.0049, "step": 9480 }, { "epoch": 197.70833333333334, "grad_norm": 0.10567688196897507, "learning_rate": 5.8319416377670144e-05, "loss": 0.0051, "step": 9490 }, { "epoch": 197.91666666666666, "grad_norm": 0.07616277784109116, "learning_rate": 5.82378839947232e-05, "loss": 0.0048, "step": 9500 }, { "epoch": 198.125, "grad_norm": 0.09004552662372589, "learning_rate": 5.815632908971599e-05, "loss": 0.0055, "step": 9510 }, { "epoch": 198.33333333333334, "grad_norm": 0.08310094475746155, "learning_rate": 5.80747518856165e-05, "loss": 0.0048, "step": 9520 }, { "epoch": 198.54166666666666, "grad_norm": 0.07669731229543686, "learning_rate": 5.799315260545367e-05, "loss": 0.0042, "step": 9530 }, { "epoch": 198.75, "grad_norm": 0.0664587914943695, "learning_rate": 5.791153147231686e-05, "loss": 0.005, "step": 9540 }, { "epoch": 198.95833333333334, "grad_norm": 0.07665698230266571, "learning_rate": 5.782988870935509e-05, "loss": 0.0044, "step": 9550 }, { "epoch": 199.16666666666666, "grad_norm": 0.11083905398845673, "learning_rate": 5.774822453977657e-05, "loss": 0.005, "step": 9560 }, { "epoch": 199.375, "grad_norm": 0.10722140967845917, "learning_rate": 5.7666539186848036e-05, "loss": 0.0044, "step": 9570 }, { "epoch": 199.58333333333334, "grad_norm": 0.08209723234176636, "learning_rate": 5.758483287389411e-05, "loss": 0.0045, "step": 9580 }, { "epoch": 199.79166666666666, "grad_norm": 0.08465832471847534, "learning_rate": 5.7503105824296735e-05, "loss": 0.0043, "step": 9590 }, { "epoch": 200.0, "grad_norm": 0.1317940503358841, "learning_rate": 5.742135826149453e-05, "loss": 0.0042, "step": 9600 }, { "epoch": 200.20833333333334, "grad_norm": 0.06619848310947418, "learning_rate": 5.7339590408982223e-05, "loss": 0.0048, "step": 9610 }, { "epoch": 200.41666666666666, "grad_norm": 0.10773306339979172, "learning_rate": 5.725780249031e-05, "loss": 0.0042, "step": 9620 }, { "epoch": 200.625, "grad_norm": 0.0858214870095253, "learning_rate": 5.717599472908292e-05, "loss": 0.0051, "step": 9630 }, { "epoch": 200.83333333333334, "grad_norm": 0.06482688337564468, "learning_rate": 5.7094167348960237e-05, "loss": 0.0046, "step": 9640 }, { "epoch": 201.04166666666666, "grad_norm": 0.08941106498241425, "learning_rate": 5.7012320573654945e-05, "loss": 0.0047, "step": 9650 }, { "epoch": 201.25, "grad_norm": 0.084571473300457, "learning_rate": 5.693045462693295e-05, "loss": 0.0042, "step": 9660 }, { "epoch": 201.45833333333334, "grad_norm": 0.07390978187322617, "learning_rate": 5.684856973261266e-05, "loss": 0.0048, "step": 9670 }, { "epoch": 201.66666666666666, "grad_norm": 0.09011656790971756, "learning_rate": 5.6766666114564215e-05, "loss": 0.0048, "step": 9680 }, { "epoch": 201.875, "grad_norm": 0.07405609637498856, "learning_rate": 5.668474399670899e-05, "loss": 0.0053, "step": 9690 }, { "epoch": 202.08333333333334, "grad_norm": 0.10148493945598602, "learning_rate": 5.660280360301896e-05, "loss": 0.0047, "step": 9700 }, { "epoch": 202.29166666666666, "grad_norm": 0.08475403487682343, "learning_rate": 5.652084515751599e-05, "loss": 0.0049, "step": 9710 }, { "epoch": 202.5, "grad_norm": 0.08293423056602478, "learning_rate": 5.643886888427137e-05, "loss": 0.0042, "step": 9720 }, { "epoch": 202.70833333333334, "grad_norm": 0.07478015124797821, "learning_rate": 5.6356875007405074e-05, "loss": 0.0045, "step": 9730 }, { "epoch": 202.91666666666666, "grad_norm": 0.0673331692814827, "learning_rate": 5.627486375108525e-05, "loss": 0.0051, "step": 9740 }, { "epoch": 203.125, "grad_norm": 0.07342224568128586, "learning_rate": 5.619283533952754e-05, "loss": 0.0042, "step": 9750 }, { "epoch": 203.33333333333334, "grad_norm": 0.0902743861079216, "learning_rate": 5.6110789996994474e-05, "loss": 0.0041, "step": 9760 }, { "epoch": 203.54166666666666, "grad_norm": 0.1071423813700676, "learning_rate": 5.602872794779491e-05, "loss": 0.0044, "step": 9770 }, { "epoch": 203.75, "grad_norm": 0.07815075665712357, "learning_rate": 5.594664941628334e-05, "loss": 0.0042, "step": 9780 }, { "epoch": 203.95833333333334, "grad_norm": 0.1022556722164154, "learning_rate": 5.5864554626859324e-05, "loss": 0.0046, "step": 9790 }, { "epoch": 204.16666666666666, "grad_norm": 0.08836833387613297, "learning_rate": 5.578244380396691e-05, "loss": 0.0047, "step": 9800 }, { "epoch": 204.375, "grad_norm": 0.09600876271724701, "learning_rate": 5.570031717209394e-05, "loss": 0.0051, "step": 9810 }, { "epoch": 204.58333333333334, "grad_norm": 0.09041570872068405, "learning_rate": 5.561817495577147e-05, "loss": 0.0047, "step": 9820 }, { "epoch": 204.79166666666666, "grad_norm": 0.08351774513721466, "learning_rate": 5.5536017379573215e-05, "loss": 0.005, "step": 9830 }, { "epoch": 205.0, "grad_norm": 0.08934912830591202, "learning_rate": 5.545384466811483e-05, "loss": 0.0043, "step": 9840 }, { "epoch": 205.20833333333334, "grad_norm": 0.08522336930036545, "learning_rate": 5.5371657046053384e-05, "loss": 0.0044, "step": 9850 }, { "epoch": 205.41666666666666, "grad_norm": 0.06155434995889664, "learning_rate": 5.528945473808669e-05, "loss": 0.0041, "step": 9860 }, { "epoch": 205.625, "grad_norm": 0.07685669511556625, "learning_rate": 5.520723796895272e-05, "loss": 0.0044, "step": 9870 }, { "epoch": 205.83333333333334, "grad_norm": 0.09510715305805206, "learning_rate": 5.512500696342897e-05, "loss": 0.0043, "step": 9880 }, { "epoch": 206.04166666666666, "grad_norm": 0.07144830375909805, "learning_rate": 5.504276194633188e-05, "loss": 0.0047, "step": 9890 }, { "epoch": 206.25, "grad_norm": 0.0793699324131012, "learning_rate": 5.49605031425162e-05, "loss": 0.0042, "step": 9900 }, { "epoch": 206.45833333333334, "grad_norm": 0.08628202974796295, "learning_rate": 5.487823077687434e-05, "loss": 0.0043, "step": 9910 }, { "epoch": 206.66666666666666, "grad_norm": 0.07330932468175888, "learning_rate": 5.4795945074335806e-05, "loss": 0.004, "step": 9920 }, { "epoch": 206.875, "grad_norm": 0.06510837376117706, "learning_rate": 5.471364625986657e-05, "loss": 0.0052, "step": 9930 }, { "epoch": 207.08333333333334, "grad_norm": 0.09940299391746521, "learning_rate": 5.463133455846845e-05, "loss": 0.0037, "step": 9940 }, { "epoch": 207.29166666666666, "grad_norm": 0.07666120678186417, "learning_rate": 5.4549010195178505e-05, "loss": 0.0048, "step": 9950 }, { "epoch": 207.5, "grad_norm": 0.08008687943220139, "learning_rate": 5.446667339506838e-05, "loss": 0.005, "step": 9960 }, { "epoch": 207.70833333333334, "grad_norm": 0.08758749812841415, "learning_rate": 5.4384324383243756e-05, "loss": 0.0043, "step": 9970 }, { "epoch": 207.91666666666666, "grad_norm": 0.10595089942216873, "learning_rate": 5.430196338484368e-05, "loss": 0.0041, "step": 9980 }, { "epoch": 208.125, "grad_norm": 0.08378472179174423, "learning_rate": 5.4219590625039975e-05, "loss": 0.0042, "step": 9990 }, { "epoch": 208.33333333333334, "grad_norm": 0.08405479788780212, "learning_rate": 5.413720632903664e-05, "loss": 0.0044, "step": 10000 }, { "epoch": 208.54166666666666, "grad_norm": 0.06871920078992844, "learning_rate": 5.405481072206917e-05, "loss": 0.0045, "step": 10010 }, { "epoch": 208.75, "grad_norm": 0.080235056579113, "learning_rate": 5.397240402940402e-05, "loss": 0.0045, "step": 10020 }, { "epoch": 208.95833333333334, "grad_norm": 0.09365525841712952, "learning_rate": 5.388998647633794e-05, "loss": 0.0045, "step": 10030 }, { "epoch": 209.16666666666666, "grad_norm": 0.10134760290384293, "learning_rate": 5.380755828819737e-05, "loss": 0.0047, "step": 10040 }, { "epoch": 209.375, "grad_norm": 0.0983610674738884, "learning_rate": 5.3725119690337846e-05, "loss": 0.0043, "step": 10050 }, { "epoch": 209.58333333333334, "grad_norm": 0.11548363417387009, "learning_rate": 5.3642670908143324e-05, "loss": 0.0046, "step": 10060 }, { "epoch": 209.79166666666666, "grad_norm": 0.07226860523223877, "learning_rate": 5.356021216702562e-05, "loss": 0.004, "step": 10070 }, { "epoch": 210.0, "grad_norm": 0.12253393977880478, "learning_rate": 5.347774369242381e-05, "loss": 0.0044, "step": 10080 }, { "epoch": 210.20833333333334, "grad_norm": 0.08758904039859772, "learning_rate": 5.3395265709803545e-05, "loss": 0.0042, "step": 10090 }, { "epoch": 210.41666666666666, "grad_norm": 0.08828257024288177, "learning_rate": 5.331277844465647e-05, "loss": 0.0048, "step": 10100 }, { "epoch": 210.625, "grad_norm": 0.08111494779586792, "learning_rate": 5.323028212249963e-05, "loss": 0.0046, "step": 10110 }, { "epoch": 210.83333333333334, "grad_norm": 0.0782303586602211, "learning_rate": 5.314777696887481e-05, "loss": 0.0045, "step": 10120 }, { "epoch": 211.04166666666666, "grad_norm": 0.07636129856109619, "learning_rate": 5.306526320934796e-05, "loss": 0.0052, "step": 10130 }, { "epoch": 211.25, "grad_norm": 0.07616882771253586, "learning_rate": 5.298274106950854e-05, "loss": 0.0053, "step": 10140 }, { "epoch": 211.45833333333334, "grad_norm": 0.10563205182552338, "learning_rate": 5.290021077496893e-05, "loss": 0.0049, "step": 10150 }, { "epoch": 211.66666666666666, "grad_norm": 0.08141803741455078, "learning_rate": 5.2817672551363816e-05, "loss": 0.0042, "step": 10160 }, { "epoch": 211.875, "grad_norm": 0.10213128477334976, "learning_rate": 5.273512662434952e-05, "loss": 0.0053, "step": 10170 }, { "epoch": 212.08333333333334, "grad_norm": 0.08282104879617691, "learning_rate": 5.265257321960349e-05, "loss": 0.0048, "step": 10180 }, { "epoch": 212.29166666666666, "grad_norm": 0.07616627216339111, "learning_rate": 5.257001256282357e-05, "loss": 0.0048, "step": 10190 }, { "epoch": 212.5, "grad_norm": 0.07670637965202332, "learning_rate": 5.248744487972742e-05, "loss": 0.0043, "step": 10200 }, { "epoch": 212.70833333333334, "grad_norm": 0.06573561578989029, "learning_rate": 5.240487039605196e-05, "loss": 0.0044, "step": 10210 }, { "epoch": 212.91666666666666, "grad_norm": 0.088370680809021, "learning_rate": 5.232228933755267e-05, "loss": 0.0041, "step": 10220 }, { "epoch": 213.125, "grad_norm": 0.10430411994457245, "learning_rate": 5.2239701930003006e-05, "loss": 0.0044, "step": 10230 }, { "epoch": 213.33333333333334, "grad_norm": 0.09101904183626175, "learning_rate": 5.215710839919379e-05, "loss": 0.005, "step": 10240 }, { "epoch": 213.54166666666666, "grad_norm": 0.09455154091119766, "learning_rate": 5.207450897093257e-05, "loss": 0.004, "step": 10250 }, { "epoch": 213.75, "grad_norm": 0.10548193007707596, "learning_rate": 5.1991903871043046e-05, "loss": 0.0042, "step": 10260 }, { "epoch": 213.95833333333334, "grad_norm": 0.09239113330841064, "learning_rate": 5.190929332536439e-05, "loss": 0.0044, "step": 10270 }, { "epoch": 214.16666666666666, "grad_norm": 0.0880899578332901, "learning_rate": 5.182667755975071e-05, "loss": 0.0038, "step": 10280 }, { "epoch": 214.375, "grad_norm": 0.08263242244720459, "learning_rate": 5.1744056800070315e-05, "loss": 0.0046, "step": 10290 }, { "epoch": 214.58333333333334, "grad_norm": 0.06905565410852432, "learning_rate": 5.166143127220524e-05, "loss": 0.0048, "step": 10300 }, { "epoch": 214.79166666666666, "grad_norm": 0.05993887782096863, "learning_rate": 5.1578801202050485e-05, "loss": 0.0038, "step": 10310 }, { "epoch": 215.0, "grad_norm": 0.1567331999540329, "learning_rate": 5.149616681551355e-05, "loss": 0.0047, "step": 10320 }, { "epoch": 215.20833333333334, "grad_norm": 0.11180654913187027, "learning_rate": 5.141352833851367e-05, "loss": 0.0045, "step": 10330 }, { "epoch": 215.41666666666666, "grad_norm": 0.10464493930339813, "learning_rate": 5.1330885996981285e-05, "loss": 0.0047, "step": 10340 }, { "epoch": 215.625, "grad_norm": 0.0891461968421936, "learning_rate": 5.124824001685741e-05, "loss": 0.0042, "step": 10350 }, { "epoch": 215.83333333333334, "grad_norm": 0.09689531475305557, "learning_rate": 5.116559062409298e-05, "loss": 0.0041, "step": 10360 }, { "epoch": 216.04166666666666, "grad_norm": 0.07943390309810638, "learning_rate": 5.10829380446483e-05, "loss": 0.0043, "step": 10370 }, { "epoch": 216.25, "grad_norm": 0.07546445727348328, "learning_rate": 5.100028250449235e-05, "loss": 0.0043, "step": 10380 }, { "epoch": 216.45833333333334, "grad_norm": 0.0762731283903122, "learning_rate": 5.0917624229602234e-05, "loss": 0.004, "step": 10390 }, { "epoch": 216.66666666666666, "grad_norm": 0.0770091637969017, "learning_rate": 5.0834963445962524e-05, "loss": 0.0044, "step": 10400 }, { "epoch": 216.875, "grad_norm": 0.07763999700546265, "learning_rate": 5.075230037956461e-05, "loss": 0.0044, "step": 10410 }, { "epoch": 217.08333333333334, "grad_norm": 0.08438394963741302, "learning_rate": 5.0669635256406213e-05, "loss": 0.0041, "step": 10420 }, { "epoch": 217.29166666666666, "grad_norm": 0.07274957746267319, "learning_rate": 5.058696830249058e-05, "loss": 0.004, "step": 10430 }, { "epoch": 217.5, "grad_norm": 0.08821699768304825, "learning_rate": 5.050429974382602e-05, "loss": 0.0049, "step": 10440 }, { "epoch": 217.70833333333334, "grad_norm": 0.08680495619773865, "learning_rate": 5.042162980642523e-05, "loss": 0.0047, "step": 10450 }, { "epoch": 217.91666666666666, "grad_norm": 0.06896526366472244, "learning_rate": 5.033895871630462e-05, "loss": 0.0041, "step": 10460 }, { "epoch": 218.125, "grad_norm": 0.08594425767660141, "learning_rate": 5.025628669948386e-05, "loss": 0.0043, "step": 10470 }, { "epoch": 218.33333333333334, "grad_norm": 0.08039252460002899, "learning_rate": 5.017361398198502e-05, "loss": 0.0047, "step": 10480 }, { "epoch": 218.54166666666666, "grad_norm": 0.07175641506910324, "learning_rate": 5.009094078983221e-05, "loss": 0.0047, "step": 10490 }, { "epoch": 218.75, "grad_norm": 0.10174325853586197, "learning_rate": 5.000826734905073e-05, "loss": 0.004, "step": 10500 }, { "epoch": 218.95833333333334, "grad_norm": 0.08097557723522186, "learning_rate": 4.9925593885666645e-05, "loss": 0.0042, "step": 10510 }, { "epoch": 219.16666666666666, "grad_norm": 0.09669702500104904, "learning_rate": 4.984292062570602e-05, "loss": 0.005, "step": 10520 }, { "epoch": 219.375, "grad_norm": 0.10431204736232758, "learning_rate": 4.976024779519442e-05, "loss": 0.0051, "step": 10530 }, { "epoch": 219.58333333333334, "grad_norm": 0.11600370705127716, "learning_rate": 4.9677575620156194e-05, "loss": 0.0048, "step": 10540 }, { "epoch": 219.79166666666666, "grad_norm": 0.1080477386713028, "learning_rate": 4.959490432661391e-05, "loss": 0.005, "step": 10550 }, { "epoch": 220.0, "grad_norm": 0.1080140620470047, "learning_rate": 4.9512234140587726e-05, "loss": 0.0044, "step": 10560 }, { "epoch": 220.20833333333334, "grad_norm": 0.07374705374240875, "learning_rate": 4.942956528809477e-05, "loss": 0.0043, "step": 10570 }, { "epoch": 220.41666666666666, "grad_norm": 0.07950390875339508, "learning_rate": 4.934689799514854e-05, "loss": 0.0045, "step": 10580 }, { "epoch": 220.625, "grad_norm": 0.09192371368408203, "learning_rate": 4.926423248775827e-05, "loss": 0.0041, "step": 10590 }, { "epoch": 220.83333333333334, "grad_norm": 0.09168757498264313, "learning_rate": 4.918156899192826e-05, "loss": 0.0042, "step": 10600 }, { "epoch": 221.04166666666666, "grad_norm": 0.07767151296138763, "learning_rate": 4.909890773365738e-05, "loss": 0.0047, "step": 10610 }, { "epoch": 221.25, "grad_norm": 0.08599270135164261, "learning_rate": 4.9016248938938344e-05, "loss": 0.0042, "step": 10620 }, { "epoch": 221.45833333333334, "grad_norm": 0.06903228908777237, "learning_rate": 4.8933592833757156e-05, "loss": 0.0044, "step": 10630 }, { "epoch": 221.66666666666666, "grad_norm": 0.06549149006605148, "learning_rate": 4.8850939644092435e-05, "loss": 0.0039, "step": 10640 }, { "epoch": 221.875, "grad_norm": 0.08034789562225342, "learning_rate": 4.876828959591485e-05, "loss": 0.0038, "step": 10650 }, { "epoch": 222.08333333333334, "grad_norm": 0.07487344741821289, "learning_rate": 4.8685642915186474e-05, "loss": 0.004, "step": 10660 }, { "epoch": 222.29166666666666, "grad_norm": 0.08309964090585709, "learning_rate": 4.860299982786018e-05, "loss": 0.004, "step": 10670 }, { "epoch": 222.5, "grad_norm": 0.05246204510331154, "learning_rate": 4.852036055987901e-05, "loss": 0.0042, "step": 10680 }, { "epoch": 222.70833333333334, "grad_norm": 0.06416309624910355, "learning_rate": 4.843772533717558e-05, "loss": 0.0041, "step": 10690 }, { "epoch": 222.91666666666666, "grad_norm": 0.06598826497793198, "learning_rate": 4.835509438567142e-05, "loss": 0.0043, "step": 10700 }, { "epoch": 223.125, "grad_norm": 0.11653419584035873, "learning_rate": 4.827246793127639e-05, "loss": 0.0042, "step": 10710 }, { "epoch": 223.33333333333334, "grad_norm": 0.07292275875806808, "learning_rate": 4.818984619988807e-05, "loss": 0.0049, "step": 10720 }, { "epoch": 223.54166666666666, "grad_norm": 0.097282774746418, "learning_rate": 4.810722941739115e-05, "loss": 0.0042, "step": 10730 }, { "epoch": 223.75, "grad_norm": 0.07634696364402771, "learning_rate": 4.8024617809656684e-05, "loss": 0.0041, "step": 10740 }, { "epoch": 223.95833333333334, "grad_norm": 0.06951826065778732, "learning_rate": 4.794201160254171e-05, "loss": 0.0037, "step": 10750 }, { "epoch": 224.16666666666666, "grad_norm": 0.08665944635868073, "learning_rate": 4.785941102188844e-05, "loss": 0.0043, "step": 10760 }, { "epoch": 224.375, "grad_norm": 0.09112483263015747, "learning_rate": 4.7776816293523686e-05, "loss": 0.004, "step": 10770 }, { "epoch": 224.58333333333334, "grad_norm": 0.09624297171831131, "learning_rate": 4.769422764325832e-05, "loss": 0.0048, "step": 10780 }, { "epoch": 224.79166666666666, "grad_norm": 0.07699936628341675, "learning_rate": 4.76116452968865e-05, "loss": 0.0042, "step": 10790 }, { "epoch": 225.0, "grad_norm": 0.11507120728492737, "learning_rate": 4.752906948018525e-05, "loss": 0.0044, "step": 10800 }, { "epoch": 225.20833333333334, "grad_norm": 0.09376589208841324, "learning_rate": 4.7446500418913684e-05, "loss": 0.0038, "step": 10810 }, { "epoch": 225.41666666666666, "grad_norm": 0.07837499678134918, "learning_rate": 4.736393833881247e-05, "loss": 0.004, "step": 10820 }, { "epoch": 225.625, "grad_norm": 0.07055239379405975, "learning_rate": 4.7281383465603194e-05, "loss": 0.0047, "step": 10830 }, { "epoch": 225.83333333333334, "grad_norm": 0.06904678791761398, "learning_rate": 4.71988360249877e-05, "loss": 0.0038, "step": 10840 }, { "epoch": 226.04166666666666, "grad_norm": 0.07525734603404999, "learning_rate": 4.7116296242647554e-05, "loss": 0.0038, "step": 10850 }, { "epoch": 226.25, "grad_norm": 0.0893394872546196, "learning_rate": 4.703376434424336e-05, "loss": 0.0046, "step": 10860 }, { "epoch": 226.45833333333334, "grad_norm": 0.06936854124069214, "learning_rate": 4.695124055541421e-05, "loss": 0.0043, "step": 10870 }, { "epoch": 226.66666666666666, "grad_norm": 0.07443088293075562, "learning_rate": 4.6868725101776934e-05, "loss": 0.0042, "step": 10880 }, { "epoch": 226.875, "grad_norm": 0.08189339935779572, "learning_rate": 4.678621820892567e-05, "loss": 0.004, "step": 10890 }, { "epoch": 227.08333333333334, "grad_norm": 0.1024923324584961, "learning_rate": 4.670372010243111e-05, "loss": 0.0041, "step": 10900 }, { "epoch": 227.29166666666666, "grad_norm": 0.07718830555677414, "learning_rate": 4.662123100783992e-05, "loss": 0.0038, "step": 10910 }, { "epoch": 227.5, "grad_norm": 0.06552870571613312, "learning_rate": 4.653875115067415e-05, "loss": 0.004, "step": 10920 }, { "epoch": 227.70833333333334, "grad_norm": 0.07354909181594849, "learning_rate": 4.6456280756430545e-05, "loss": 0.004, "step": 10930 }, { "epoch": 227.91666666666666, "grad_norm": 0.08459313958883286, "learning_rate": 4.637382005058004e-05, "loss": 0.004, "step": 10940 }, { "epoch": 228.125, "grad_norm": 0.0682472363114357, "learning_rate": 4.629136925856705e-05, "loss": 0.0036, "step": 10950 }, { "epoch": 228.33333333333334, "grad_norm": 0.06016051024198532, "learning_rate": 4.6208928605808895e-05, "loss": 0.0046, "step": 10960 }, { "epoch": 228.54166666666666, "grad_norm": 0.0717540755867958, "learning_rate": 4.612649831769519e-05, "loss": 0.0038, "step": 10970 }, { "epoch": 228.75, "grad_norm": 0.08144474029541016, "learning_rate": 4.604407861958715e-05, "loss": 0.0039, "step": 10980 }, { "epoch": 228.95833333333334, "grad_norm": 0.09001273661851883, "learning_rate": 4.5961669736817114e-05, "loss": 0.0039, "step": 10990 }, { "epoch": 229.16666666666666, "grad_norm": 0.06866330653429031, "learning_rate": 4.5879271894687814e-05, "loss": 0.0039, "step": 11000 }, { "epoch": 229.375, "grad_norm": 0.08719601482152939, "learning_rate": 4.5796885318471826e-05, "loss": 0.0047, "step": 11010 }, { "epoch": 229.58333333333334, "grad_norm": 0.07484059780836105, "learning_rate": 4.571451023341086e-05, "loss": 0.0046, "step": 11020 }, { "epoch": 229.79166666666666, "grad_norm": 0.08523911982774734, "learning_rate": 4.563214686471527e-05, "loss": 0.0039, "step": 11030 }, { "epoch": 230.0, "grad_norm": 0.07977326959371567, "learning_rate": 4.5549795437563365e-05, "loss": 0.0035, "step": 11040 }, { "epoch": 230.20833333333334, "grad_norm": 0.05724235996603966, "learning_rate": 4.546745617710081e-05, "loss": 0.004, "step": 11050 }, { "epoch": 230.41666666666666, "grad_norm": 0.06423802673816681, "learning_rate": 4.5385129308440014e-05, "loss": 0.0042, "step": 11060 }, { "epoch": 230.625, "grad_norm": 0.06667157262563705, "learning_rate": 4.530281505665944e-05, "loss": 0.0037, "step": 11070 }, { "epoch": 230.83333333333334, "grad_norm": 0.08221349120140076, "learning_rate": 4.5220513646803134e-05, "loss": 0.0041, "step": 11080 }, { "epoch": 231.04166666666666, "grad_norm": 0.07517136633396149, "learning_rate": 4.513822530388003e-05, "loss": 0.004, "step": 11090 }, { "epoch": 231.25, "grad_norm": 0.05887502431869507, "learning_rate": 4.5055950252863296e-05, "loss": 0.004, "step": 11100 }, { "epoch": 231.45833333333334, "grad_norm": 0.06675781309604645, "learning_rate": 4.4973688718689803e-05, "loss": 0.0041, "step": 11110 }, { "epoch": 231.66666666666666, "grad_norm": 0.061561230570077896, "learning_rate": 4.4891440926259406e-05, "loss": 0.0043, "step": 11120 }, { "epoch": 231.875, "grad_norm": 0.07555277645587921, "learning_rate": 4.480920710043443e-05, "loss": 0.0045, "step": 11130 }, { "epoch": 232.08333333333334, "grad_norm": 0.056767646223306656, "learning_rate": 4.4726987466039044e-05, "loss": 0.0041, "step": 11140 }, { "epoch": 232.29166666666666, "grad_norm": 0.06691516190767288, "learning_rate": 4.46447822478586e-05, "loss": 0.0041, "step": 11150 }, { "epoch": 232.5, "grad_norm": 0.09032388031482697, "learning_rate": 4.4562591670638974e-05, "loss": 0.0043, "step": 11160 }, { "epoch": 232.70833333333334, "grad_norm": 0.08420974016189575, "learning_rate": 4.4480415959086105e-05, "loss": 0.0034, "step": 11170 }, { "epoch": 232.91666666666666, "grad_norm": 0.0541284903883934, "learning_rate": 4.439825533786522e-05, "loss": 0.004, "step": 11180 }, { "epoch": 233.125, "grad_norm": 0.08211835473775864, "learning_rate": 4.431611003160035e-05, "loss": 0.0033, "step": 11190 }, { "epoch": 233.33333333333334, "grad_norm": 0.10513685643672943, "learning_rate": 4.4233980264873636e-05, "loss": 0.0036, "step": 11200 }, { "epoch": 233.54166666666666, "grad_norm": 0.10075683891773224, "learning_rate": 4.4151866262224684e-05, "loss": 0.0042, "step": 11210 }, { "epoch": 233.75, "grad_norm": 0.06789051741361618, "learning_rate": 4.406976824815006e-05, "loss": 0.0042, "step": 11220 }, { "epoch": 233.95833333333334, "grad_norm": 0.08441724628210068, "learning_rate": 4.3987686447102595e-05, "loss": 0.0037, "step": 11230 }, { "epoch": 234.16666666666666, "grad_norm": 0.09478902071714401, "learning_rate": 4.3905621083490804e-05, "loss": 0.0044, "step": 11240 }, { "epoch": 234.375, "grad_norm": 0.07273782044649124, "learning_rate": 4.3823572381678286e-05, "loss": 0.0043, "step": 11250 }, { "epoch": 234.58333333333334, "grad_norm": 0.07657942175865173, "learning_rate": 4.374154056598301e-05, "loss": 0.0041, "step": 11260 }, { "epoch": 234.79166666666666, "grad_norm": 0.07257437705993652, "learning_rate": 4.3659525860676845e-05, "loss": 0.0042, "step": 11270 }, { "epoch": 235.0, "grad_norm": 0.11468042433261871, "learning_rate": 4.3577528489984854e-05, "loss": 0.0039, "step": 11280 }, { "epoch": 235.20833333333334, "grad_norm": 0.07370015233755112, "learning_rate": 4.349554867808476e-05, "loss": 0.004, "step": 11290 }, { "epoch": 235.41666666666666, "grad_norm": 0.06718330085277557, "learning_rate": 4.34135866491062e-05, "loss": 0.0043, "step": 11300 }, { "epoch": 235.625, "grad_norm": 0.06349906325340271, "learning_rate": 4.333164262713022e-05, "loss": 0.0042, "step": 11310 }, { "epoch": 235.83333333333334, "grad_norm": 0.07982847094535828, "learning_rate": 4.324971683618868e-05, "loss": 0.0046, "step": 11320 }, { "epoch": 236.04166666666666, "grad_norm": 0.08246547728776932, "learning_rate": 4.316780950026354e-05, "loss": 0.0039, "step": 11330 }, { "epoch": 236.25, "grad_norm": 0.08450296521186829, "learning_rate": 4.308592084328637e-05, "loss": 0.0048, "step": 11340 }, { "epoch": 236.45833333333334, "grad_norm": 0.0771978572010994, "learning_rate": 4.3004051089137576e-05, "loss": 0.0044, "step": 11350 }, { "epoch": 236.66666666666666, "grad_norm": 0.09197066724300385, "learning_rate": 4.292220046164597e-05, "loss": 0.0043, "step": 11360 }, { "epoch": 236.875, "grad_norm": 0.05844641849398613, "learning_rate": 4.2840369184588035e-05, "loss": 0.0034, "step": 11370 }, { "epoch": 237.08333333333334, "grad_norm": 0.08299897611141205, "learning_rate": 4.2758557481687345e-05, "loss": 0.0039, "step": 11380 }, { "epoch": 237.29166666666666, "grad_norm": 0.08714327961206436, "learning_rate": 4.267676557661403e-05, "loss": 0.004, "step": 11390 }, { "epoch": 237.5, "grad_norm": 0.08236216008663177, "learning_rate": 4.2594993692983955e-05, "loss": 0.0037, "step": 11400 }, { "epoch": 237.70833333333334, "grad_norm": 0.07817985117435455, "learning_rate": 4.251324205435837e-05, "loss": 0.004, "step": 11410 }, { "epoch": 237.91666666666666, "grad_norm": 0.0871753990650177, "learning_rate": 4.243151088424312e-05, "loss": 0.0035, "step": 11420 }, { "epoch": 238.125, "grad_norm": 0.07390059530735016, "learning_rate": 4.234980040608813e-05, "loss": 0.0039, "step": 11430 }, { "epoch": 238.33333333333334, "grad_norm": 0.07501138001680374, "learning_rate": 4.22681108432867e-05, "loss": 0.0037, "step": 11440 }, { "epoch": 238.54166666666666, "grad_norm": 0.07962115854024887, "learning_rate": 4.2186442419174984e-05, "loss": 0.0038, "step": 11450 }, { "epoch": 238.75, "grad_norm": 0.09466228634119034, "learning_rate": 4.210479535703133e-05, "loss": 0.0036, "step": 11460 }, { "epoch": 238.95833333333334, "grad_norm": 0.08905835449695587, "learning_rate": 4.202316988007567e-05, "loss": 0.0038, "step": 11470 }, { "epoch": 239.16666666666666, "grad_norm": 0.06689192354679108, "learning_rate": 4.194156621146901e-05, "loss": 0.0042, "step": 11480 }, { "epoch": 239.375, "grad_norm": 0.08884111791849136, "learning_rate": 4.1859984574312596e-05, "loss": 0.0045, "step": 11490 }, { "epoch": 239.58333333333334, "grad_norm": 0.06781647354364395, "learning_rate": 4.177842519164752e-05, "loss": 0.0043, "step": 11500 }, { "epoch": 239.79166666666666, "grad_norm": 0.0783434584736824, "learning_rate": 4.169688828645404e-05, "loss": 0.0042, "step": 11510 }, { "epoch": 240.0, "grad_norm": 0.07984805852174759, "learning_rate": 4.161537408165092e-05, "loss": 0.0036, "step": 11520 }, { "epoch": 240.20833333333334, "grad_norm": 0.11116258054971695, "learning_rate": 4.1533882800094924e-05, "loss": 0.0042, "step": 11530 }, { "epoch": 240.41666666666666, "grad_norm": 0.08153592795133591, "learning_rate": 4.145241466458005e-05, "loss": 0.004, "step": 11540 }, { "epoch": 240.625, "grad_norm": 0.07920381426811218, "learning_rate": 4.13709698978371e-05, "loss": 0.0038, "step": 11550 }, { "epoch": 240.83333333333334, "grad_norm": 0.09103021770715714, "learning_rate": 4.1289548722532944e-05, "loss": 0.0036, "step": 11560 }, { "epoch": 241.04166666666666, "grad_norm": 0.07566218823194504, "learning_rate": 4.120815136126999e-05, "loss": 0.0034, "step": 11570 }, { "epoch": 241.25, "grad_norm": 0.07083752751350403, "learning_rate": 4.112677803658548e-05, "loss": 0.0045, "step": 11580 }, { "epoch": 241.45833333333334, "grad_norm": 0.055106669664382935, "learning_rate": 4.1045428970951e-05, "loss": 0.0041, "step": 11590 }, { "epoch": 241.66666666666666, "grad_norm": 0.05773547664284706, "learning_rate": 4.0964104386771785e-05, "loss": 0.0039, "step": 11600 }, { "epoch": 241.875, "grad_norm": 0.05333257466554642, "learning_rate": 4.0882804506386144e-05, "loss": 0.0037, "step": 11610 }, { "epoch": 242.08333333333334, "grad_norm": 0.07671287655830383, "learning_rate": 4.080152955206485e-05, "loss": 0.0036, "step": 11620 }, { "epoch": 242.29166666666666, "grad_norm": 0.06843624264001846, "learning_rate": 4.0720279746010505e-05, "loss": 0.0038, "step": 11630 }, { "epoch": 242.5, "grad_norm": 0.07084959745407104, "learning_rate": 4.063905531035699e-05, "loss": 0.004, "step": 11640 }, { "epoch": 242.70833333333334, "grad_norm": 0.09049341827630997, "learning_rate": 4.055785646716882e-05, "loss": 0.0039, "step": 11650 }, { "epoch": 242.91666666666666, "grad_norm": 0.06996320188045502, "learning_rate": 4.047668343844051e-05, "loss": 0.0034, "step": 11660 }, { "epoch": 243.125, "grad_norm": 0.07655086368322372, "learning_rate": 4.039553644609604e-05, "loss": 0.0039, "step": 11670 }, { "epoch": 243.33333333333334, "grad_norm": 0.06584595888853073, "learning_rate": 4.0314415711988176e-05, "loss": 0.0039, "step": 11680 }, { "epoch": 243.54166666666666, "grad_norm": 0.07030265033245087, "learning_rate": 4.023332145789792e-05, "loss": 0.0039, "step": 11690 }, { "epoch": 243.75, "grad_norm": 0.05846063792705536, "learning_rate": 4.015225390553385e-05, "loss": 0.0036, "step": 11700 }, { "epoch": 243.95833333333334, "grad_norm": 0.07539776712656021, "learning_rate": 4.007121327653158e-05, "loss": 0.0042, "step": 11710 }, { "epoch": 244.16666666666666, "grad_norm": 0.07613994926214218, "learning_rate": 3.9990199792453064e-05, "loss": 0.0042, "step": 11720 }, { "epoch": 244.375, "grad_norm": 0.08504599332809448, "learning_rate": 3.9909213674786103e-05, "loss": 0.0039, "step": 11730 }, { "epoch": 244.58333333333334, "grad_norm": 0.073247991502285, "learning_rate": 3.982825514494363e-05, "loss": 0.0044, "step": 11740 }, { "epoch": 244.79166666666666, "grad_norm": 0.061691150069236755, "learning_rate": 3.974732442426319e-05, "loss": 0.0038, "step": 11750 }, { "epoch": 245.0, "grad_norm": 0.15482908487319946, "learning_rate": 3.966642173400629e-05, "loss": 0.0043, "step": 11760 }, { "epoch": 245.20833333333334, "grad_norm": 0.06241372600197792, "learning_rate": 3.9585547295357764e-05, "loss": 0.004, "step": 11770 }, { "epoch": 245.41666666666666, "grad_norm": 0.08169407397508621, "learning_rate": 3.950470132942526e-05, "loss": 0.0038, "step": 11780 }, { "epoch": 245.625, "grad_norm": 0.06807658821344376, "learning_rate": 3.942388405723856e-05, "loss": 0.0039, "step": 11790 }, { "epoch": 245.83333333333334, "grad_norm": 0.07831177860498428, "learning_rate": 3.9343095699749e-05, "loss": 0.0043, "step": 11800 }, { "epoch": 246.04166666666666, "grad_norm": 0.08437669277191162, "learning_rate": 3.9262336477828874e-05, "loss": 0.0039, "step": 11810 }, { "epoch": 246.25, "grad_norm": 0.0941329076886177, "learning_rate": 3.9181606612270794e-05, "loss": 0.004, "step": 11820 }, { "epoch": 246.45833333333334, "grad_norm": 0.0672382339835167, "learning_rate": 3.910090632378713e-05, "loss": 0.004, "step": 11830 }, { "epoch": 246.66666666666666, "grad_norm": 0.06990095973014832, "learning_rate": 3.90202358330094e-05, "loss": 0.0039, "step": 11840 }, { "epoch": 246.875, "grad_norm": 0.07049155980348587, "learning_rate": 3.8939595360487656e-05, "loss": 0.0037, "step": 11850 }, { "epoch": 247.08333333333334, "grad_norm": 0.05934784933924675, "learning_rate": 3.885898512668984e-05, "loss": 0.0036, "step": 11860 }, { "epoch": 247.29166666666666, "grad_norm": 0.059273235499858856, "learning_rate": 3.877840535200127e-05, "loss": 0.0034, "step": 11870 }, { "epoch": 247.5, "grad_norm": 0.1149180456995964, "learning_rate": 3.869785625672397e-05, "loss": 0.0044, "step": 11880 }, { "epoch": 247.70833333333334, "grad_norm": 0.0793297216296196, "learning_rate": 3.8617338061076094e-05, "loss": 0.0036, "step": 11890 }, { "epoch": 247.91666666666666, "grad_norm": 0.06681729108095169, "learning_rate": 3.853685098519132e-05, "loss": 0.0039, "step": 11900 }, { "epoch": 248.125, "grad_norm": 0.08372467011213303, "learning_rate": 3.845639524911823e-05, "loss": 0.0038, "step": 11910 }, { "epoch": 248.33333333333334, "grad_norm": 0.09060271829366684, "learning_rate": 3.837597107281974e-05, "loss": 0.0038, "step": 11920 }, { "epoch": 248.54166666666666, "grad_norm": 0.11163757741451263, "learning_rate": 3.829557867617247e-05, "loss": 0.004, "step": 11930 }, { "epoch": 248.75, "grad_norm": 0.07465142011642456, "learning_rate": 3.821521827896618e-05, "loss": 0.0034, "step": 11940 }, { "epoch": 248.95833333333334, "grad_norm": 0.0870361328125, "learning_rate": 3.81348901009031e-05, "loss": 0.004, "step": 11950 }, { "epoch": 249.16666666666666, "grad_norm": 0.06975876539945602, "learning_rate": 3.805459436159741e-05, "loss": 0.0041, "step": 11960 }, { "epoch": 249.375, "grad_norm": 0.08040283620357513, "learning_rate": 3.797433128057461e-05, "loss": 0.0044, "step": 11970 }, { "epoch": 249.58333333333334, "grad_norm": 0.059457916766405106, "learning_rate": 3.789410107727089e-05, "loss": 0.0036, "step": 11980 }, { "epoch": 249.79166666666666, "grad_norm": 0.08177363872528076, "learning_rate": 3.781390397103257e-05, "loss": 0.0036, "step": 11990 }, { "epoch": 250.0, "grad_norm": 0.1404440551996231, "learning_rate": 3.7733740181115455e-05, "loss": 0.0036, "step": 12000 }, { "epoch": 250.20833333333334, "grad_norm": 0.08345585316419601, "learning_rate": 3.7653609926684306e-05, "loss": 0.0042, "step": 12010 }, { "epoch": 250.41666666666666, "grad_norm": 0.07803481072187424, "learning_rate": 3.757351342681217e-05, "loss": 0.0039, "step": 12020 }, { "epoch": 250.625, "grad_norm": 0.06594395637512207, "learning_rate": 3.749345090047982e-05, "loss": 0.0044, "step": 12030 }, { "epoch": 250.83333333333334, "grad_norm": 0.07037488371133804, "learning_rate": 3.741342256657515e-05, "loss": 0.0037, "step": 12040 }, { "epoch": 251.04166666666666, "grad_norm": 0.07023880630731583, "learning_rate": 3.7333428643892567e-05, "loss": 0.0036, "step": 12050 }, { "epoch": 251.25, "grad_norm": 0.05839606374502182, "learning_rate": 3.725346935113239e-05, "loss": 0.0038, "step": 12060 }, { "epoch": 251.45833333333334, "grad_norm": 0.05696297809481621, "learning_rate": 3.717354490690029e-05, "loss": 0.0036, "step": 12070 }, { "epoch": 251.66666666666666, "grad_norm": 0.06134091690182686, "learning_rate": 3.709365552970664e-05, "loss": 0.0036, "step": 12080 }, { "epoch": 251.875, "grad_norm": 0.06548434495925903, "learning_rate": 3.7013801437965945e-05, "loss": 0.0034, "step": 12090 }, { "epoch": 252.08333333333334, "grad_norm": 0.05327092483639717, "learning_rate": 3.693398284999623e-05, "loss": 0.0033, "step": 12100 }, { "epoch": 252.29166666666666, "grad_norm": 0.08150686323642731, "learning_rate": 3.6854199984018484e-05, "loss": 0.0036, "step": 12110 }, { "epoch": 252.5, "grad_norm": 0.08749327808618546, "learning_rate": 3.677445305815601e-05, "loss": 0.0039, "step": 12120 }, { "epoch": 252.70833333333334, "grad_norm": 0.06815247237682343, "learning_rate": 3.669474229043387e-05, "loss": 0.0038, "step": 12130 }, { "epoch": 252.91666666666666, "grad_norm": 0.0748521164059639, "learning_rate": 3.6615067898778235e-05, "loss": 0.0035, "step": 12140 }, { "epoch": 253.125, "grad_norm": 0.06813368946313858, "learning_rate": 3.6535430101015866e-05, "loss": 0.0031, "step": 12150 }, { "epoch": 253.33333333333334, "grad_norm": 0.08114764839410782, "learning_rate": 3.645582911487345e-05, "loss": 0.0037, "step": 12160 }, { "epoch": 253.54166666666666, "grad_norm": 0.07204904407262802, "learning_rate": 3.637626515797706e-05, "loss": 0.0034, "step": 12170 }, { "epoch": 253.75, "grad_norm": 0.0949767455458641, "learning_rate": 3.629673844785152e-05, "loss": 0.0038, "step": 12180 }, { "epoch": 253.95833333333334, "grad_norm": 0.04681476950645447, "learning_rate": 3.621724920191979e-05, "loss": 0.0034, "step": 12190 }, { "epoch": 254.16666666666666, "grad_norm": 0.06310950964689255, "learning_rate": 3.6137797637502444e-05, "loss": 0.0044, "step": 12200 }, { "epoch": 254.375, "grad_norm": 0.07463338226079941, "learning_rate": 3.6058383971817035e-05, "loss": 0.0032, "step": 12210 }, { "epoch": 254.58333333333334, "grad_norm": 0.06335640698671341, "learning_rate": 3.59790084219775e-05, "loss": 0.0042, "step": 12220 }, { "epoch": 254.79166666666666, "grad_norm": 0.06590235233306885, "learning_rate": 3.589967120499353e-05, "loss": 0.0032, "step": 12230 }, { "epoch": 255.0, "grad_norm": 0.08950315415859222, "learning_rate": 3.5820372537770075e-05, "loss": 0.0025, "step": 12240 }, { "epoch": 255.20833333333334, "grad_norm": 0.07533518224954605, "learning_rate": 3.5741112637106655e-05, "loss": 0.0034, "step": 12250 }, { "epoch": 255.41666666666666, "grad_norm": 0.06159466132521629, "learning_rate": 3.5661891719696804e-05, "loss": 0.0034, "step": 12260 }, { "epoch": 255.625, "grad_norm": 0.06729214638471603, "learning_rate": 3.5582710002127504e-05, "loss": 0.0033, "step": 12270 }, { "epoch": 255.83333333333334, "grad_norm": 0.056677963584661484, "learning_rate": 3.550356770087853e-05, "loss": 0.004, "step": 12280 }, { "epoch": 256.0416666666667, "grad_norm": 0.07773435860872269, "learning_rate": 3.5424465032321914e-05, "loss": 0.0034, "step": 12290 }, { "epoch": 256.25, "grad_norm": 0.06359165161848068, "learning_rate": 3.5345402212721335e-05, "loss": 0.004, "step": 12300 }, { "epoch": 256.4583333333333, "grad_norm": 0.0655280128121376, "learning_rate": 3.526637945823152e-05, "loss": 0.0035, "step": 12310 }, { "epoch": 256.6666666666667, "grad_norm": 0.05958801135420799, "learning_rate": 3.518739698489767e-05, "loss": 0.0037, "step": 12320 }, { "epoch": 256.875, "grad_norm": 0.058237213641405106, "learning_rate": 3.510845500865485e-05, "loss": 0.0042, "step": 12330 }, { "epoch": 257.0833333333333, "grad_norm": 0.08093230426311493, "learning_rate": 3.502955374532739e-05, "loss": 0.0041, "step": 12340 }, { "epoch": 257.2916666666667, "grad_norm": 0.09686008840799332, "learning_rate": 3.495069341062836e-05, "loss": 0.0044, "step": 12350 }, { "epoch": 257.5, "grad_norm": 0.07864302396774292, "learning_rate": 3.4871874220158896e-05, "loss": 0.0037, "step": 12360 }, { "epoch": 257.7083333333333, "grad_norm": 0.09150219708681107, "learning_rate": 3.479309638940762e-05, "loss": 0.0036, "step": 12370 }, { "epoch": 257.9166666666667, "grad_norm": 0.08383223414421082, "learning_rate": 3.4714360133750146e-05, "loss": 0.0041, "step": 12380 }, { "epoch": 258.125, "grad_norm": 0.062211018055677414, "learning_rate": 3.463566566844839e-05, "loss": 0.0041, "step": 12390 }, { "epoch": 258.3333333333333, "grad_norm": 0.07312257587909698, "learning_rate": 3.4557013208650016e-05, "loss": 0.0039, "step": 12400 }, { "epoch": 258.5416666666667, "grad_norm": 0.07249034941196442, "learning_rate": 3.4478402969387857e-05, "loss": 0.0035, "step": 12410 }, { "epoch": 258.75, "grad_norm": 0.06961807608604431, "learning_rate": 3.4399835165579266e-05, "loss": 0.0035, "step": 12420 }, { "epoch": 258.9583333333333, "grad_norm": 0.052475687116384506, "learning_rate": 3.4321310012025645e-05, "loss": 0.0033, "step": 12430 }, { "epoch": 259.1666666666667, "grad_norm": 0.05825299024581909, "learning_rate": 3.424282772341176e-05, "loss": 0.0033, "step": 12440 }, { "epoch": 259.375, "grad_norm": 0.06594852358102798, "learning_rate": 3.416438851430519e-05, "loss": 0.004, "step": 12450 }, { "epoch": 259.5833333333333, "grad_norm": 0.05914101377129555, "learning_rate": 3.408599259915577e-05, "loss": 0.0033, "step": 12460 }, { "epoch": 259.7916666666667, "grad_norm": 0.06320131570100784, "learning_rate": 3.400764019229487e-05, "loss": 0.0033, "step": 12470 }, { "epoch": 260.0, "grad_norm": 0.10979031026363373, "learning_rate": 3.3929331507935035e-05, "loss": 0.0037, "step": 12480 }, { "epoch": 260.2083333333333, "grad_norm": 0.08124915510416031, "learning_rate": 3.3851066760169196e-05, "loss": 0.0033, "step": 12490 }, { "epoch": 260.4166666666667, "grad_norm": 0.0648612231016159, "learning_rate": 3.377284616297021e-05, "loss": 0.0033, "step": 12500 }, { "epoch": 260.625, "grad_norm": 0.07111397385597229, "learning_rate": 3.3694669930190166e-05, "loss": 0.0033, "step": 12510 }, { "epoch": 260.8333333333333, "grad_norm": 0.0799051970243454, "learning_rate": 3.36165382755599e-05, "loss": 0.0035, "step": 12520 }, { "epoch": 261.0416666666667, "grad_norm": 0.11436645686626434, "learning_rate": 3.35384514126884e-05, "loss": 0.0034, "step": 12530 }, { "epoch": 261.25, "grad_norm": 0.10901912301778793, "learning_rate": 3.3460409555062154e-05, "loss": 0.0037, "step": 12540 }, { "epoch": 261.4583333333333, "grad_norm": 0.09324777871370316, "learning_rate": 3.3382412916044645e-05, "loss": 0.0037, "step": 12550 }, { "epoch": 261.6666666666667, "grad_norm": 0.08402010053396225, "learning_rate": 3.330446170887566e-05, "loss": 0.0038, "step": 12560 }, { "epoch": 261.875, "grad_norm": 0.08065953105688095, "learning_rate": 3.3226556146670834e-05, "loss": 0.0035, "step": 12570 }, { "epoch": 262.0833333333333, "grad_norm": 0.0707504078745842, "learning_rate": 3.314869644242102e-05, "loss": 0.0033, "step": 12580 }, { "epoch": 262.2916666666667, "grad_norm": 0.05712595209479332, "learning_rate": 3.3070882808991674e-05, "loss": 0.0036, "step": 12590 }, { "epoch": 262.5, "grad_norm": 0.08371494710445404, "learning_rate": 3.2993115459122305e-05, "loss": 0.0036, "step": 12600 }, { "epoch": 262.7083333333333, "grad_norm": 0.07911838591098785, "learning_rate": 3.2915394605425835e-05, "loss": 0.0032, "step": 12610 }, { "epoch": 262.9166666666667, "grad_norm": 0.0629376471042633, "learning_rate": 3.283772046038816e-05, "loss": 0.0037, "step": 12620 }, { "epoch": 263.125, "grad_norm": 0.08946304023265839, "learning_rate": 3.276009323636739e-05, "loss": 0.0039, "step": 12630 }, { "epoch": 263.3333333333333, "grad_norm": 0.08780304342508316, "learning_rate": 3.268251314559344e-05, "loss": 0.004, "step": 12640 }, { "epoch": 263.5416666666667, "grad_norm": 0.09156536310911179, "learning_rate": 3.2604980400167254e-05, "loss": 0.0038, "step": 12650 }, { "epoch": 263.75, "grad_norm": 0.07984056323766708, "learning_rate": 3.252749521206042e-05, "loss": 0.0038, "step": 12660 }, { "epoch": 263.9583333333333, "grad_norm": 0.07119851559400558, "learning_rate": 3.2450057793114494e-05, "loss": 0.0039, "step": 12670 }, { "epoch": 264.1666666666667, "grad_norm": 0.07172167301177979, "learning_rate": 3.2372668355040435e-05, "loss": 0.0043, "step": 12680 }, { "epoch": 264.375, "grad_norm": 0.058365799486637115, "learning_rate": 3.2295327109418005e-05, "loss": 0.0031, "step": 12690 }, { "epoch": 264.5833333333333, "grad_norm": 0.09042668342590332, "learning_rate": 3.221803426769518e-05, "loss": 0.0032, "step": 12700 }, { "epoch": 264.7916666666667, "grad_norm": 0.07085420936346054, "learning_rate": 3.214079004118768e-05, "loss": 0.0038, "step": 12710 }, { "epoch": 265.0, "grad_norm": 0.10534781962633133, "learning_rate": 3.2063594641078234e-05, "loss": 0.003, "step": 12720 }, { "epoch": 265.2083333333333, "grad_norm": 0.064866803586483, "learning_rate": 3.198644827841616e-05, "loss": 0.0033, "step": 12730 }, { "epoch": 265.4166666666667, "grad_norm": 0.05374990776181221, "learning_rate": 3.1909351164116654e-05, "loss": 0.0035, "step": 12740 }, { "epoch": 265.625, "grad_norm": 0.04931361973285675, "learning_rate": 3.183230350896026e-05, "loss": 0.0032, "step": 12750 }, { "epoch": 265.8333333333333, "grad_norm": 0.057978205382823944, "learning_rate": 3.1755305523592337e-05, "loss": 0.0037, "step": 12760 }, { "epoch": 266.0416666666667, "grad_norm": 0.057241518050432205, "learning_rate": 3.167835741852245e-05, "loss": 0.0031, "step": 12770 }, { "epoch": 266.25, "grad_norm": 0.05711232125759125, "learning_rate": 3.160145940412378e-05, "loss": 0.0031, "step": 12780 }, { "epoch": 266.4583333333333, "grad_norm": 0.06167575716972351, "learning_rate": 3.1524611690632545e-05, "loss": 0.0037, "step": 12790 }, { "epoch": 266.6666666666667, "grad_norm": 0.06098562106490135, "learning_rate": 3.144781448814746e-05, "loss": 0.0034, "step": 12800 }, { "epoch": 266.875, "grad_norm": 0.06780976802110672, "learning_rate": 3.1371068006629145e-05, "loss": 0.0036, "step": 12810 }, { "epoch": 267.0833333333333, "grad_norm": 0.07264469563961029, "learning_rate": 3.129437245589956e-05, "loss": 0.0031, "step": 12820 }, { "epoch": 267.2916666666667, "grad_norm": 0.06847786903381348, "learning_rate": 3.121772804564143e-05, "loss": 0.0038, "step": 12830 }, { "epoch": 267.5, "grad_norm": 0.06978224217891693, "learning_rate": 3.11411349853976e-05, "loss": 0.0029, "step": 12840 }, { "epoch": 267.7083333333333, "grad_norm": 0.08396042138338089, "learning_rate": 3.10645934845706e-05, "loss": 0.0037, "step": 12850 }, { "epoch": 267.9166666666667, "grad_norm": 0.06016869097948074, "learning_rate": 3.098810375242196e-05, "loss": 0.003, "step": 12860 }, { "epoch": 268.125, "grad_norm": 0.09584139287471771, "learning_rate": 3.0911665998071704e-05, "loss": 0.0037, "step": 12870 }, { "epoch": 268.3333333333333, "grad_norm": 0.07470010221004486, "learning_rate": 3.083528043049774e-05, "loss": 0.0033, "step": 12880 }, { "epoch": 268.5416666666667, "grad_norm": 0.07846856862306595, "learning_rate": 3.0758947258535255e-05, "loss": 0.0033, "step": 12890 }, { "epoch": 268.75, "grad_norm": 0.06384994089603424, "learning_rate": 3.068266669087625e-05, "loss": 0.0036, "step": 12900 }, { "epoch": 268.9583333333333, "grad_norm": 0.07939575612545013, "learning_rate": 3.060643893606887e-05, "loss": 0.0028, "step": 12910 }, { "epoch": 269.1666666666667, "grad_norm": 0.07634379714727402, "learning_rate": 3.053026420251693e-05, "loss": 0.0034, "step": 12920 }, { "epoch": 269.375, "grad_norm": 0.08798728138208389, "learning_rate": 3.0454142698479183e-05, "loss": 0.0033, "step": 12930 }, { "epoch": 269.5833333333333, "grad_norm": 0.05770793929696083, "learning_rate": 3.0378074632068954e-05, "loss": 0.0036, "step": 12940 }, { "epoch": 269.7916666666667, "grad_norm": 0.07636895030736923, "learning_rate": 3.0302060211253408e-05, "loss": 0.0037, "step": 12950 }, { "epoch": 270.0, "grad_norm": 0.11303605139255524, "learning_rate": 3.0226099643853073e-05, "loss": 0.0038, "step": 12960 }, { "epoch": 270.2083333333333, "grad_norm": 0.06935838609933853, "learning_rate": 3.0150193137541283e-05, "loss": 0.0038, "step": 12970 }, { "epoch": 270.4166666666667, "grad_norm": 0.07052377611398697, "learning_rate": 3.0074340899843467e-05, "loss": 0.0038, "step": 12980 }, { "epoch": 270.625, "grad_norm": 0.0664835050702095, "learning_rate": 2.999854313813677e-05, "loss": 0.0043, "step": 12990 }, { "epoch": 270.8333333333333, "grad_norm": 0.06378308683633804, "learning_rate": 2.9922800059649382e-05, "loss": 0.0037, "step": 13000 }, { "epoch": 271.0416666666667, "grad_norm": 0.06551670283079147, "learning_rate": 2.9847111871459976e-05, "loss": 0.0029, "step": 13010 }, { "epoch": 271.25, "grad_norm": 0.05222296342253685, "learning_rate": 2.977147878049721e-05, "loss": 0.0029, "step": 13020 }, { "epoch": 271.4583333333333, "grad_norm": 0.05466610938310623, "learning_rate": 2.9695900993539006e-05, "loss": 0.003, "step": 13030 }, { "epoch": 271.6666666666667, "grad_norm": 0.05328041687607765, "learning_rate": 2.9620378717212183e-05, "loss": 0.0033, "step": 13040 }, { "epoch": 271.875, "grad_norm": 0.06414512544870377, "learning_rate": 2.9544912157991745e-05, "loss": 0.0037, "step": 13050 }, { "epoch": 272.0833333333333, "grad_norm": 0.09836328029632568, "learning_rate": 2.9469501522200405e-05, "loss": 0.0036, "step": 13060 }, { "epoch": 272.2916666666667, "grad_norm": 0.07551635801792145, "learning_rate": 2.9394147016007946e-05, "loss": 0.0034, "step": 13070 }, { "epoch": 272.5, "grad_norm": 0.10554227232933044, "learning_rate": 2.9318848845430702e-05, "loss": 0.0034, "step": 13080 }, { "epoch": 272.7083333333333, "grad_norm": 0.05853103846311569, "learning_rate": 2.9243607216331013e-05, "loss": 0.0029, "step": 13090 }, { "epoch": 272.9166666666667, "grad_norm": 0.06934937834739685, "learning_rate": 2.916842233441661e-05, "loss": 0.003, "step": 13100 }, { "epoch": 273.125, "grad_norm": 0.05607706680893898, "learning_rate": 2.90932944052401e-05, "loss": 0.0034, "step": 13110 }, { "epoch": 273.3333333333333, "grad_norm": 0.05985116958618164, "learning_rate": 2.9018223634198354e-05, "loss": 0.0038, "step": 13120 }, { "epoch": 273.5416666666667, "grad_norm": 0.04928935691714287, "learning_rate": 2.8943210226532025e-05, "loss": 0.0033, "step": 13130 }, { "epoch": 273.75, "grad_norm": 0.0629349797964096, "learning_rate": 2.8868254387324857e-05, "loss": 0.0033, "step": 13140 }, { "epoch": 273.9583333333333, "grad_norm": 0.0545048825442791, "learning_rate": 2.8793356321503306e-05, "loss": 0.0036, "step": 13150 }, { "epoch": 274.1666666666667, "grad_norm": 0.06391371786594391, "learning_rate": 2.87185162338358e-05, "loss": 0.0036, "step": 13160 }, { "epoch": 274.375, "grad_norm": 0.0790068656206131, "learning_rate": 2.8643734328932253e-05, "loss": 0.0034, "step": 13170 }, { "epoch": 274.5833333333333, "grad_norm": 0.08321867138147354, "learning_rate": 2.856901081124359e-05, "loss": 0.0033, "step": 13180 }, { "epoch": 274.7916666666667, "grad_norm": 0.04767299443483353, "learning_rate": 2.8494345885061002e-05, "loss": 0.0031, "step": 13190 }, { "epoch": 275.0, "grad_norm": 0.12771421670913696, "learning_rate": 2.8419739754515616e-05, "loss": 0.0032, "step": 13200 }, { "epoch": 275.2083333333333, "grad_norm": 0.09988090395927429, "learning_rate": 2.8345192623577666e-05, "loss": 0.0033, "step": 13210 }, { "epoch": 275.4166666666667, "grad_norm": 0.06305726617574692, "learning_rate": 2.8270704696056193e-05, "loss": 0.0038, "step": 13220 }, { "epoch": 275.625, "grad_norm": 0.07497010380029678, "learning_rate": 2.8196276175598367e-05, "loss": 0.0032, "step": 13230 }, { "epoch": 275.8333333333333, "grad_norm": 0.0691300481557846, "learning_rate": 2.8121907265688884e-05, "loss": 0.0031, "step": 13240 }, { "epoch": 276.0416666666667, "grad_norm": 0.07143756002187729, "learning_rate": 2.804759816964957e-05, "loss": 0.0034, "step": 13250 }, { "epoch": 276.25, "grad_norm": 0.0773322731256485, "learning_rate": 2.797334909063857e-05, "loss": 0.0031, "step": 13260 }, { "epoch": 276.4583333333333, "grad_norm": 0.060831546783447266, "learning_rate": 2.7899160231650056e-05, "loss": 0.0033, "step": 13270 }, { "epoch": 276.6666666666667, "grad_norm": 0.0621473453938961, "learning_rate": 2.7825031795513585e-05, "loss": 0.0032, "step": 13280 }, { "epoch": 276.875, "grad_norm": 0.06625412404537201, "learning_rate": 2.775096398489341e-05, "loss": 0.0031, "step": 13290 }, { "epoch": 277.0833333333333, "grad_norm": 0.06443925201892853, "learning_rate": 2.7676957002288163e-05, "loss": 0.0029, "step": 13300 }, { "epoch": 277.2916666666667, "grad_norm": 0.06362342089414597, "learning_rate": 2.760301105003003e-05, "loss": 0.0032, "step": 13310 }, { "epoch": 277.5, "grad_norm": 0.06547089666128159, "learning_rate": 2.752912633028446e-05, "loss": 0.0031, "step": 13320 }, { "epoch": 277.7083333333333, "grad_norm": 0.0855202004313469, "learning_rate": 2.7455303045049474e-05, "loss": 0.0038, "step": 13330 }, { "epoch": 277.9166666666667, "grad_norm": 0.059112876653671265, "learning_rate": 2.7381541396155098e-05, "loss": 0.0029, "step": 13340 }, { "epoch": 278.125, "grad_norm": 0.0598030723631382, "learning_rate": 2.730784158526286e-05, "loss": 0.0033, "step": 13350 }, { "epoch": 278.3333333333333, "grad_norm": 0.046297524124383926, "learning_rate": 2.723420381386521e-05, "loss": 0.0034, "step": 13360 }, { "epoch": 278.5416666666667, "grad_norm": 0.057827141135931015, "learning_rate": 2.7160628283285018e-05, "loss": 0.0036, "step": 13370 }, { "epoch": 278.75, "grad_norm": 0.060188520699739456, "learning_rate": 2.7087115194675007e-05, "loss": 0.0031, "step": 13380 }, { "epoch": 278.9583333333333, "grad_norm": 0.0660238116979599, "learning_rate": 2.701366474901712e-05, "loss": 0.0035, "step": 13390 }, { "epoch": 279.1666666666667, "grad_norm": 0.07306091487407684, "learning_rate": 2.6940277147122085e-05, "loss": 0.0032, "step": 13400 }, { "epoch": 279.375, "grad_norm": 0.06184381991624832, "learning_rate": 2.686695258962878e-05, "loss": 0.0035, "step": 13410 }, { "epoch": 279.5833333333333, "grad_norm": 0.06182049959897995, "learning_rate": 2.679369127700375e-05, "loss": 0.0033, "step": 13420 }, { "epoch": 279.7916666666667, "grad_norm": 0.06645441055297852, "learning_rate": 2.672049340954067e-05, "loss": 0.0032, "step": 13430 }, { "epoch": 280.0, "grad_norm": 0.15651145577430725, "learning_rate": 2.6647359187359676e-05, "loss": 0.0032, "step": 13440 }, { "epoch": 280.2083333333333, "grad_norm": 0.07936737686395645, "learning_rate": 2.6574288810406946e-05, "loss": 0.0035, "step": 13450 }, { "epoch": 280.4166666666667, "grad_norm": 0.08160511404275894, "learning_rate": 2.6501282478454083e-05, "loss": 0.0033, "step": 13460 }, { "epoch": 280.625, "grad_norm": 0.07005820423364639, "learning_rate": 2.6428340391097618e-05, "loss": 0.0034, "step": 13470 }, { "epoch": 280.8333333333333, "grad_norm": 0.05696292594075203, "learning_rate": 2.6355462747758485e-05, "loss": 0.0035, "step": 13480 }, { "epoch": 281.0416666666667, "grad_norm": 0.06601208448410034, "learning_rate": 2.6282649747681304e-05, "loss": 0.003, "step": 13490 }, { "epoch": 281.25, "grad_norm": 0.07280915975570679, "learning_rate": 2.620990158993406e-05, "loss": 0.0036, "step": 13500 }, { "epoch": 281.4583333333333, "grad_norm": 0.06199074164032936, "learning_rate": 2.6137218473407477e-05, "loss": 0.0037, "step": 13510 }, { "epoch": 281.6666666666667, "grad_norm": 0.076949842274189, "learning_rate": 2.606460059681436e-05, "loss": 0.0032, "step": 13520 }, { "epoch": 281.875, "grad_norm": 0.05254018306732178, "learning_rate": 2.599204815868928e-05, "loss": 0.0028, "step": 13530 }, { "epoch": 282.0833333333333, "grad_norm": 0.07566657662391663, "learning_rate": 2.5919561357387756e-05, "loss": 0.0034, "step": 13540 }, { "epoch": 282.2916666666667, "grad_norm": 0.07486864179372787, "learning_rate": 2.5847140391085972e-05, "loss": 0.0032, "step": 13550 }, { "epoch": 282.5, "grad_norm": 0.06527996063232422, "learning_rate": 2.5774785457780103e-05, "loss": 0.0038, "step": 13560 }, { "epoch": 282.7083333333333, "grad_norm": 0.0545133538544178, "learning_rate": 2.5702496755285753e-05, "loss": 0.0029, "step": 13570 }, { "epoch": 282.9166666666667, "grad_norm": 0.06359624117612839, "learning_rate": 2.5630274481237483e-05, "loss": 0.0036, "step": 13580 }, { "epoch": 283.125, "grad_norm": 0.07943383604288101, "learning_rate": 2.5558118833088197e-05, "loss": 0.0031, "step": 13590 }, { "epoch": 283.3333333333333, "grad_norm": 0.06589006632566452, "learning_rate": 2.548603000810872e-05, "loss": 0.003, "step": 13600 }, { "epoch": 283.5416666666667, "grad_norm": 0.06526432931423187, "learning_rate": 2.5414008203387152e-05, "loss": 0.0038, "step": 13610 }, { "epoch": 283.75, "grad_norm": 0.058363936841487885, "learning_rate": 2.534205361582834e-05, "loss": 0.0032, "step": 13620 }, { "epoch": 283.9583333333333, "grad_norm": 0.06055246666073799, "learning_rate": 2.527016644215338e-05, "loss": 0.0036, "step": 13630 }, { "epoch": 284.1666666666667, "grad_norm": 0.06761568039655685, "learning_rate": 2.519834687889905e-05, "loss": 0.0027, "step": 13640 }, { "epoch": 284.375, "grad_norm": 0.0655943751335144, "learning_rate": 2.5126595122417295e-05, "loss": 0.0029, "step": 13650 }, { "epoch": 284.5833333333333, "grad_norm": 0.06619150936603546, "learning_rate": 2.5054911368874713e-05, "loss": 0.0035, "step": 13660 }, { "epoch": 284.7916666666667, "grad_norm": 0.04892865940928459, "learning_rate": 2.4983295814251916e-05, "loss": 0.0029, "step": 13670 }, { "epoch": 285.0, "grad_norm": 0.07803577929735184, "learning_rate": 2.4911748654343105e-05, "loss": 0.0032, "step": 13680 }, { "epoch": 285.2083333333333, "grad_norm": 0.07011864334344864, "learning_rate": 2.4840270084755463e-05, "loss": 0.003, "step": 13690 }, { "epoch": 285.4166666666667, "grad_norm": 0.07580351829528809, "learning_rate": 2.4768860300908685e-05, "loss": 0.0036, "step": 13700 }, { "epoch": 285.625, "grad_norm": 0.07177908718585968, "learning_rate": 2.469751949803443e-05, "loss": 0.0031, "step": 13710 }, { "epoch": 285.8333333333333, "grad_norm": 0.06133725121617317, "learning_rate": 2.4626247871175666e-05, "loss": 0.0028, "step": 13720 }, { "epoch": 286.0416666666667, "grad_norm": 0.07657529413700104, "learning_rate": 2.4555045615186346e-05, "loss": 0.0029, "step": 13730 }, { "epoch": 286.25, "grad_norm": 0.07596191018819809, "learning_rate": 2.4483912924730677e-05, "loss": 0.0036, "step": 13740 }, { "epoch": 286.4583333333333, "grad_norm": 0.07259636372327805, "learning_rate": 2.4412849994282742e-05, "loss": 0.0033, "step": 13750 }, { "epoch": 286.6666666666667, "grad_norm": 0.04670800268650055, "learning_rate": 2.434185701812592e-05, "loss": 0.0032, "step": 13760 }, { "epoch": 286.875, "grad_norm": 0.0671168863773346, "learning_rate": 2.4270934190352218e-05, "loss": 0.003, "step": 13770 }, { "epoch": 287.0833333333333, "grad_norm": 0.07418610900640488, "learning_rate": 2.4200081704861998e-05, "loss": 0.0032, "step": 13780 }, { "epoch": 287.2916666666667, "grad_norm": 0.07680364698171616, "learning_rate": 2.412929975536321e-05, "loss": 0.0031, "step": 13790 }, { "epoch": 287.5, "grad_norm": 0.11535327881574631, "learning_rate": 2.4058588535371017e-05, "loss": 0.0031, "step": 13800 }, { "epoch": 287.7083333333333, "grad_norm": 0.06159520149230957, "learning_rate": 2.3987948238207243e-05, "loss": 0.0034, "step": 13810 }, { "epoch": 287.9166666666667, "grad_norm": 0.07431001961231232, "learning_rate": 2.3917379056999678e-05, "loss": 0.0034, "step": 13820 }, { "epoch": 288.125, "grad_norm": 0.05294564366340637, "learning_rate": 2.3846881184681824e-05, "loss": 0.0027, "step": 13830 }, { "epoch": 288.3333333333333, "grad_norm": 0.058934424072504044, "learning_rate": 2.377645481399214e-05, "loss": 0.003, "step": 13840 }, { "epoch": 288.5416666666667, "grad_norm": 0.05285405367612839, "learning_rate": 2.3706100137473667e-05, "loss": 0.003, "step": 13850 }, { "epoch": 288.75, "grad_norm": 0.07271008938550949, "learning_rate": 2.3635817347473394e-05, "loss": 0.003, "step": 13860 }, { "epoch": 288.9583333333333, "grad_norm": 0.04162471741437912, "learning_rate": 2.3565606636141757e-05, "loss": 0.003, "step": 13870 }, { "epoch": 289.1666666666667, "grad_norm": 0.06376595050096512, "learning_rate": 2.3495468195432203e-05, "loss": 0.0033, "step": 13880 }, { "epoch": 289.375, "grad_norm": 0.047706156969070435, "learning_rate": 2.3425402217100507e-05, "loss": 0.0027, "step": 13890 }, { "epoch": 289.5833333333333, "grad_norm": 0.05783573538064957, "learning_rate": 2.3355408892704424e-05, "loss": 0.0033, "step": 13900 }, { "epoch": 289.7916666666667, "grad_norm": 0.06446803361177444, "learning_rate": 2.3285488413603003e-05, "loss": 0.0024, "step": 13910 }, { "epoch": 290.0, "grad_norm": 0.11385491490364075, "learning_rate": 2.321564097095615e-05, "loss": 0.0033, "step": 13920 }, { "epoch": 290.2083333333333, "grad_norm": 0.06075119227170944, "learning_rate": 2.3145866755724142e-05, "loss": 0.0031, "step": 13930 }, { "epoch": 290.4166666666667, "grad_norm": 0.05721805989742279, "learning_rate": 2.307616595866699e-05, "loss": 0.0029, "step": 13940 }, { "epoch": 290.625, "grad_norm": 0.05026848986744881, "learning_rate": 2.3006538770344032e-05, "loss": 0.0027, "step": 13950 }, { "epoch": 290.8333333333333, "grad_norm": 0.06898508220911026, "learning_rate": 2.293698538111334e-05, "loss": 0.0032, "step": 13960 }, { "epoch": 291.0416666666667, "grad_norm": 0.05520084500312805, "learning_rate": 2.28675059811312e-05, "loss": 0.0031, "step": 13970 }, { "epoch": 291.25, "grad_norm": 0.06776347756385803, "learning_rate": 2.279810076035167e-05, "loss": 0.0024, "step": 13980 }, { "epoch": 291.4583333333333, "grad_norm": 0.07633086293935776, "learning_rate": 2.272876990852596e-05, "loss": 0.0036, "step": 13990 }, { "epoch": 291.6666666666667, "grad_norm": 0.07049766182899475, "learning_rate": 2.265951361520195e-05, "loss": 0.0029, "step": 14000 }, { "epoch": 291.875, "grad_norm": 0.059785857796669006, "learning_rate": 2.2590332069723748e-05, "loss": 0.0029, "step": 14010 }, { "epoch": 292.0833333333333, "grad_norm": 0.06475789099931717, "learning_rate": 2.2521225461231004e-05, "loss": 0.003, "step": 14020 }, { "epoch": 292.2916666666667, "grad_norm": 0.06691654771566391, "learning_rate": 2.2452193978658597e-05, "loss": 0.0034, "step": 14030 }, { "epoch": 292.5, "grad_norm": 0.057548608630895615, "learning_rate": 2.238323781073594e-05, "loss": 0.0028, "step": 14040 }, { "epoch": 292.7083333333333, "grad_norm": 0.06472804397344589, "learning_rate": 2.2314357145986552e-05, "loss": 0.0029, "step": 14050 }, { "epoch": 292.9166666666667, "grad_norm": 0.05939633399248123, "learning_rate": 2.224555217272757e-05, "loss": 0.0033, "step": 14060 }, { "epoch": 293.125, "grad_norm": 0.05963665246963501, "learning_rate": 2.2176823079069127e-05, "loss": 0.0037, "step": 14070 }, { "epoch": 293.3333333333333, "grad_norm": 0.0482952743768692, "learning_rate": 2.210817005291398e-05, "loss": 0.0028, "step": 14080 }, { "epoch": 293.5416666666667, "grad_norm": 0.05348234996199608, "learning_rate": 2.203959328195686e-05, "loss": 0.0032, "step": 14090 }, { "epoch": 293.75, "grad_norm": 0.0730530247092247, "learning_rate": 2.1971092953684026e-05, "loss": 0.003, "step": 14100 }, { "epoch": 293.9583333333333, "grad_norm": 0.05773692578077316, "learning_rate": 2.1902669255372788e-05, "loss": 0.0035, "step": 14110 }, { "epoch": 294.1666666666667, "grad_norm": 0.06893027573823929, "learning_rate": 2.1834322374090897e-05, "loss": 0.0029, "step": 14120 }, { "epoch": 294.375, "grad_norm": 0.05846279487013817, "learning_rate": 2.1766052496696153e-05, "loss": 0.0029, "step": 14130 }, { "epoch": 294.5833333333333, "grad_norm": 0.06255601346492767, "learning_rate": 2.169785980983577e-05, "loss": 0.0034, "step": 14140 }, { "epoch": 294.7916666666667, "grad_norm": 0.056012317538261414, "learning_rate": 2.162974449994593e-05, "loss": 0.003, "step": 14150 }, { "epoch": 295.0, "grad_norm": 0.10697311162948608, "learning_rate": 2.1561706753251337e-05, "loss": 0.0026, "step": 14160 }, { "epoch": 295.2083333333333, "grad_norm": 0.06714137643575668, "learning_rate": 2.1493746755764544e-05, "loss": 0.0033, "step": 14170 }, { "epoch": 295.4166666666667, "grad_norm": 0.07123233377933502, "learning_rate": 2.1425864693285635e-05, "loss": 0.0028, "step": 14180 }, { "epoch": 295.625, "grad_norm": 0.0704316571354866, "learning_rate": 2.1358060751401547e-05, "loss": 0.0032, "step": 14190 }, { "epoch": 295.8333333333333, "grad_norm": 0.05250856652855873, "learning_rate": 2.129033511548566e-05, "loss": 0.0034, "step": 14200 }, { "epoch": 296.0416666666667, "grad_norm": 0.0651916041970253, "learning_rate": 2.1222687970697315e-05, "loss": 0.0029, "step": 14210 }, { "epoch": 296.25, "grad_norm": 0.07999720424413681, "learning_rate": 2.1155119501981173e-05, "loss": 0.003, "step": 14220 }, { "epoch": 296.4583333333333, "grad_norm": 0.08031754940748215, "learning_rate": 2.1087629894066895e-05, "loss": 0.0028, "step": 14230 }, { "epoch": 296.6666666666667, "grad_norm": 0.07251890003681183, "learning_rate": 2.1020219331468473e-05, "loss": 0.0029, "step": 14240 }, { "epoch": 296.875, "grad_norm": 0.05759895220398903, "learning_rate": 2.095288799848379e-05, "loss": 0.003, "step": 14250 }, { "epoch": 297.0833333333333, "grad_norm": 0.07492667436599731, "learning_rate": 2.088563607919417e-05, "loss": 0.0031, "step": 14260 }, { "epoch": 297.2916666666667, "grad_norm": 0.05479956045746803, "learning_rate": 2.0818463757463786e-05, "loss": 0.003, "step": 14270 }, { "epoch": 297.5, "grad_norm": 0.058124981820583344, "learning_rate": 2.0751371216939175e-05, "loss": 0.003, "step": 14280 }, { "epoch": 297.7083333333333, "grad_norm": 0.05974339321255684, "learning_rate": 2.068435864104882e-05, "loss": 0.0026, "step": 14290 }, { "epoch": 297.9166666666667, "grad_norm": 0.058808550238609314, "learning_rate": 2.0617426213002506e-05, "loss": 0.0026, "step": 14300 }, { "epoch": 298.125, "grad_norm": 0.056159939616918564, "learning_rate": 2.055057411579097e-05, "loss": 0.0026, "step": 14310 }, { "epoch": 298.3333333333333, "grad_norm": 0.03978898376226425, "learning_rate": 2.0483802532185286e-05, "loss": 0.0026, "step": 14320 }, { "epoch": 298.5416666666667, "grad_norm": 0.04357141628861427, "learning_rate": 2.041711164473638e-05, "loss": 0.003, "step": 14330 }, { "epoch": 298.75, "grad_norm": 0.05240320786833763, "learning_rate": 2.0350501635774637e-05, "loss": 0.0025, "step": 14340 }, { "epoch": 298.9583333333333, "grad_norm": 0.05654362589120865, "learning_rate": 2.0283972687409247e-05, "loss": 0.003, "step": 14350 }, { "epoch": 299.1666666666667, "grad_norm": 0.04651632905006409, "learning_rate": 2.021752498152784e-05, "loss": 0.0025, "step": 14360 }, { "epoch": 299.375, "grad_norm": 0.04259257763624191, "learning_rate": 2.015115869979589e-05, "loss": 0.0028, "step": 14370 }, { "epoch": 299.5833333333333, "grad_norm": 0.05148958042263985, "learning_rate": 2.0084874023656265e-05, "loss": 0.0026, "step": 14380 }, { "epoch": 299.7916666666667, "grad_norm": 0.05969763919711113, "learning_rate": 2.001867113432877e-05, "loss": 0.0026, "step": 14390 }, { "epoch": 300.0, "grad_norm": 0.1380593478679657, "learning_rate": 1.995255021280954e-05, "loss": 0.0031, "step": 14400 }, { "epoch": 300.2083333333333, "grad_norm": 0.05844041705131531, "learning_rate": 1.9886511439870688e-05, "loss": 0.0033, "step": 14410 }, { "epoch": 300.4166666666667, "grad_norm": 0.06101421266794205, "learning_rate": 1.9820554996059675e-05, "loss": 0.0028, "step": 14420 }, { "epoch": 300.625, "grad_norm": 0.056662432849407196, "learning_rate": 1.9754681061698893e-05, "loss": 0.0028, "step": 14430 }, { "epoch": 300.8333333333333, "grad_norm": 0.045769255608320236, "learning_rate": 1.9688889816885185e-05, "loss": 0.0035, "step": 14440 }, { "epoch": 301.0416666666667, "grad_norm": 0.05264827609062195, "learning_rate": 1.962318144148928e-05, "loss": 0.003, "step": 14450 }, { "epoch": 301.25, "grad_norm": 0.06537435203790665, "learning_rate": 1.955755611515539e-05, "loss": 0.0035, "step": 14460 }, { "epoch": 301.4583333333333, "grad_norm": 0.054620515555143356, "learning_rate": 1.9492014017300642e-05, "loss": 0.0033, "step": 14470 }, { "epoch": 301.6666666666667, "grad_norm": 0.05648590996861458, "learning_rate": 1.942655532711461e-05, "loss": 0.0027, "step": 14480 }, { "epoch": 301.875, "grad_norm": 0.0565841943025589, "learning_rate": 1.9361180223558882e-05, "loss": 0.003, "step": 14490 }, { "epoch": 302.0833333333333, "grad_norm": 0.07255291193723679, "learning_rate": 1.929588888536647e-05, "loss": 0.0028, "step": 14500 }, { "epoch": 302.2916666666667, "grad_norm": 0.0523601770401001, "learning_rate": 1.9230681491041425e-05, "loss": 0.003, "step": 14510 }, { "epoch": 302.5, "grad_norm": 0.05616770312190056, "learning_rate": 1.9165558218858264e-05, "loss": 0.0032, "step": 14520 }, { "epoch": 302.7083333333333, "grad_norm": 0.05589020252227783, "learning_rate": 1.9100519246861505e-05, "loss": 0.0031, "step": 14530 }, { "epoch": 302.9166666666667, "grad_norm": 0.055330414324998856, "learning_rate": 1.9035564752865248e-05, "loss": 0.0031, "step": 14540 }, { "epoch": 303.125, "grad_norm": 0.06697449833154678, "learning_rate": 1.897069491445258e-05, "loss": 0.003, "step": 14550 }, { "epoch": 303.3333333333333, "grad_norm": 0.057773981243371964, "learning_rate": 1.890590990897515e-05, "loss": 0.0027, "step": 14560 }, { "epoch": 303.5416666666667, "grad_norm": 0.06626018136739731, "learning_rate": 1.884120991355272e-05, "loss": 0.0037, "step": 14570 }, { "epoch": 303.75, "grad_norm": 0.06674684584140778, "learning_rate": 1.8776595105072576e-05, "loss": 0.0032, "step": 14580 }, { "epoch": 303.9583333333333, "grad_norm": 0.056781917810440063, "learning_rate": 1.8712065660189166e-05, "loss": 0.0029, "step": 14590 }, { "epoch": 304.1666666666667, "grad_norm": 0.06022360920906067, "learning_rate": 1.8647621755323513e-05, "loss": 0.0034, "step": 14600 }, { "epoch": 304.375, "grad_norm": 0.06112566217780113, "learning_rate": 1.858326356666278e-05, "loss": 0.0032, "step": 14610 }, { "epoch": 304.5833333333333, "grad_norm": 0.07508993148803711, "learning_rate": 1.851899127015983e-05, "loss": 0.0027, "step": 14620 }, { "epoch": 304.7916666666667, "grad_norm": 0.05188087001442909, "learning_rate": 1.8454805041532626e-05, "loss": 0.0029, "step": 14630 }, { "epoch": 305.0, "grad_norm": 0.18868382275104523, "learning_rate": 1.8390705056263906e-05, "loss": 0.003, "step": 14640 }, { "epoch": 305.2083333333333, "grad_norm": 0.06020208075642586, "learning_rate": 1.832669148960057e-05, "loss": 0.0037, "step": 14650 }, { "epoch": 305.4166666666667, "grad_norm": 0.05297277867794037, "learning_rate": 1.8262764516553233e-05, "loss": 0.0029, "step": 14660 }, { "epoch": 305.625, "grad_norm": 0.05797077342867851, "learning_rate": 1.8198924311895843e-05, "loss": 0.0028, "step": 14670 }, { "epoch": 305.8333333333333, "grad_norm": 0.06405321508646011, "learning_rate": 1.813517105016505e-05, "loss": 0.0032, "step": 14680 }, { "epoch": 306.0416666666667, "grad_norm": 0.058188553899526596, "learning_rate": 1.8071504905659888e-05, "loss": 0.0035, "step": 14690 }, { "epoch": 306.25, "grad_norm": 0.04631323739886284, "learning_rate": 1.800792605244109e-05, "loss": 0.003, "step": 14700 }, { "epoch": 306.4583333333333, "grad_norm": 0.06062280759215355, "learning_rate": 1.7944434664330844e-05, "loss": 0.0029, "step": 14710 }, { "epoch": 306.6666666666667, "grad_norm": 0.06051019951701164, "learning_rate": 1.7881030914912212e-05, "loss": 0.0028, "step": 14720 }, { "epoch": 306.875, "grad_norm": 0.07733427733182907, "learning_rate": 1.7817714977528577e-05, "loss": 0.0028, "step": 14730 }, { "epoch": 307.0833333333333, "grad_norm": 0.09962804615497589, "learning_rate": 1.7754487025283332e-05, "loss": 0.0037, "step": 14740 }, { "epoch": 307.2916666666667, "grad_norm": 0.08421801030635834, "learning_rate": 1.7691347231039275e-05, "loss": 0.0032, "step": 14750 }, { "epoch": 307.5, "grad_norm": 0.05531933531165123, "learning_rate": 1.7628295767418164e-05, "loss": 0.0029, "step": 14760 }, { "epoch": 307.7083333333333, "grad_norm": 0.05238766223192215, "learning_rate": 1.7565332806800333e-05, "loss": 0.0031, "step": 14770 }, { "epoch": 307.9166666666667, "grad_norm": 0.045048583298921585, "learning_rate": 1.750245852132408e-05, "loss": 0.003, "step": 14780 }, { "epoch": 308.125, "grad_norm": 0.05620455741882324, "learning_rate": 1.7439673082885323e-05, "loss": 0.0032, "step": 14790 }, { "epoch": 308.3333333333333, "grad_norm": 0.04353693872690201, "learning_rate": 1.7376976663137047e-05, "loss": 0.0026, "step": 14800 }, { "epoch": 308.5416666666667, "grad_norm": 0.04077008366584778, "learning_rate": 1.7314369433488853e-05, "loss": 0.0025, "step": 14810 }, { "epoch": 308.75, "grad_norm": 0.04910499230027199, "learning_rate": 1.7251851565106548e-05, "loss": 0.0029, "step": 14820 }, { "epoch": 308.9583333333333, "grad_norm": 0.058185309171676636, "learning_rate": 1.7189423228911574e-05, "loss": 0.0027, "step": 14830 }, { "epoch": 309.1666666666667, "grad_norm": 0.04882240667939186, "learning_rate": 1.7127084595580606e-05, "loss": 0.003, "step": 14840 }, { "epoch": 309.375, "grad_norm": 0.04182935506105423, "learning_rate": 1.706483583554513e-05, "loss": 0.0023, "step": 14850 }, { "epoch": 309.5833333333333, "grad_norm": 0.05036068335175514, "learning_rate": 1.700267711899083e-05, "loss": 0.0029, "step": 14860 }, { "epoch": 309.7916666666667, "grad_norm": 0.05969211086630821, "learning_rate": 1.69406086158573e-05, "loss": 0.0025, "step": 14870 }, { "epoch": 310.0, "grad_norm": 0.0903393104672432, "learning_rate": 1.6878630495837455e-05, "loss": 0.0028, "step": 14880 }, { "epoch": 310.2083333333333, "grad_norm": 0.06168792024254799, "learning_rate": 1.681674292837707e-05, "loss": 0.0028, "step": 14890 }, { "epoch": 310.4166666666667, "grad_norm": 0.05154012143611908, "learning_rate": 1.6754946082674444e-05, "loss": 0.003, "step": 14900 }, { "epoch": 310.625, "grad_norm": 0.05374538153409958, "learning_rate": 1.6693240127679748e-05, "loss": 0.0029, "step": 14910 }, { "epoch": 310.8333333333333, "grad_norm": 0.05426044762134552, "learning_rate": 1.663162523209475e-05, "loss": 0.0029, "step": 14920 }, { "epoch": 311.0416666666667, "grad_norm": 0.05842746049165726, "learning_rate": 1.6570101564372193e-05, "loss": 0.0026, "step": 14930 }, { "epoch": 311.25, "grad_norm": 0.05705396831035614, "learning_rate": 1.650866929271543e-05, "loss": 0.0031, "step": 14940 }, { "epoch": 311.4583333333333, "grad_norm": 0.040170926600694656, "learning_rate": 1.644732858507797e-05, "loss": 0.0028, "step": 14950 }, { "epoch": 311.6666666666667, "grad_norm": 0.0519564263522625, "learning_rate": 1.6386079609162943e-05, "loss": 0.0028, "step": 14960 }, { "epoch": 311.875, "grad_norm": 0.05661792308092117, "learning_rate": 1.6324922532422742e-05, "loss": 0.003, "step": 14970 }, { "epoch": 312.0833333333333, "grad_norm": 0.06094616651535034, "learning_rate": 1.6263857522058434e-05, "loss": 0.0034, "step": 14980 }, { "epoch": 312.2916666666667, "grad_norm": 0.049984969198703766, "learning_rate": 1.6202884745019443e-05, "loss": 0.0025, "step": 14990 }, { "epoch": 312.5, "grad_norm": 0.04867992922663689, "learning_rate": 1.614200436800304e-05, "loss": 0.0026, "step": 15000 }, { "epoch": 312.7083333333333, "grad_norm": 0.05425535514950752, "learning_rate": 1.6081216557453814e-05, "loss": 0.0028, "step": 15010 }, { "epoch": 312.9166666666667, "grad_norm": 0.04900875687599182, "learning_rate": 1.6020521479563367e-05, "loss": 0.0027, "step": 15020 }, { "epoch": 313.125, "grad_norm": 0.04832986369729042, "learning_rate": 1.5959919300269654e-05, "loss": 0.0025, "step": 15030 }, { "epoch": 313.3333333333333, "grad_norm": 0.05813790112733841, "learning_rate": 1.5899410185256764e-05, "loss": 0.0025, "step": 15040 }, { "epoch": 313.5416666666667, "grad_norm": 0.052179962396621704, "learning_rate": 1.583899429995431e-05, "loss": 0.0033, "step": 15050 }, { "epoch": 313.75, "grad_norm": 0.04327377676963806, "learning_rate": 1.5778671809536993e-05, "loss": 0.0024, "step": 15060 }, { "epoch": 313.9583333333333, "grad_norm": 0.0749281719326973, "learning_rate": 1.5718442878924246e-05, "loss": 0.003, "step": 15070 }, { "epoch": 314.1666666666667, "grad_norm": 0.04433543607592583, "learning_rate": 1.5658307672779593e-05, "loss": 0.0029, "step": 15080 }, { "epoch": 314.375, "grad_norm": 0.04362441226840019, "learning_rate": 1.5598266355510427e-05, "loss": 0.0023, "step": 15090 }, { "epoch": 314.5833333333333, "grad_norm": 0.03822088614106178, "learning_rate": 1.553831909126744e-05, "loss": 0.003, "step": 15100 }, { "epoch": 314.7916666666667, "grad_norm": 0.04855434596538544, "learning_rate": 1.5478466043944135e-05, "loss": 0.0028, "step": 15110 }, { "epoch": 315.0, "grad_norm": 0.17905032634735107, "learning_rate": 1.5418707377176468e-05, "loss": 0.0024, "step": 15120 }, { "epoch": 315.2083333333333, "grad_norm": 0.08645624667406082, "learning_rate": 1.535904325434233e-05, "loss": 0.0028, "step": 15130 }, { "epoch": 315.4166666666667, "grad_norm": 0.06680537760257721, "learning_rate": 1.529947383856118e-05, "loss": 0.0027, "step": 15140 }, { "epoch": 315.625, "grad_norm": 0.05821596458554268, "learning_rate": 1.5239999292693524e-05, "loss": 0.0027, "step": 15150 }, { "epoch": 315.8333333333333, "grad_norm": 0.04677597060799599, "learning_rate": 1.5180619779340505e-05, "loss": 0.0028, "step": 15160 }, { "epoch": 316.0416666666667, "grad_norm": 0.06698650866746902, "learning_rate": 1.5121335460843428e-05, "loss": 0.0032, "step": 15170 }, { "epoch": 316.25, "grad_norm": 0.042077913880348206, "learning_rate": 1.5062146499283347e-05, "loss": 0.0027, "step": 15180 }, { "epoch": 316.4583333333333, "grad_norm": 0.0397922657430172, "learning_rate": 1.5003053056480643e-05, "loss": 0.0026, "step": 15190 }, { "epoch": 316.6666666666667, "grad_norm": 0.04399751126766205, "learning_rate": 1.4944055293994551e-05, "loss": 0.0028, "step": 15200 }, { "epoch": 316.875, "grad_norm": 0.051611386239528656, "learning_rate": 1.4885153373122656e-05, "loss": 0.0029, "step": 15210 }, { "epoch": 317.0833333333333, "grad_norm": 0.05567285045981407, "learning_rate": 1.482634745490059e-05, "loss": 0.0025, "step": 15220 }, { "epoch": 317.2916666666667, "grad_norm": 0.045029982924461365, "learning_rate": 1.4767637700101466e-05, "loss": 0.0027, "step": 15230 }, { "epoch": 317.5, "grad_norm": 0.05780570209026337, "learning_rate": 1.4709024269235528e-05, "loss": 0.0031, "step": 15240 }, { "epoch": 317.7083333333333, "grad_norm": 0.047299329191446304, "learning_rate": 1.4650507322549684e-05, "loss": 0.0024, "step": 15250 }, { "epoch": 317.9166666666667, "grad_norm": 0.045941613614559174, "learning_rate": 1.4592087020026972e-05, "loss": 0.0026, "step": 15260 }, { "epoch": 318.125, "grad_norm": 0.05118637904524803, "learning_rate": 1.4533763521386318e-05, "loss": 0.0027, "step": 15270 }, { "epoch": 318.3333333333333, "grad_norm": 0.0662231519818306, "learning_rate": 1.44755369860819e-05, "loss": 0.0026, "step": 15280 }, { "epoch": 318.5416666666667, "grad_norm": 0.058556653559207916, "learning_rate": 1.441740757330287e-05, "loss": 0.0029, "step": 15290 }, { "epoch": 318.75, "grad_norm": 0.04370421543717384, "learning_rate": 1.4359375441972844e-05, "loss": 0.0026, "step": 15300 }, { "epoch": 318.9583333333333, "grad_norm": 0.05480695888400078, "learning_rate": 1.4301440750749395e-05, "loss": 0.0027, "step": 15310 }, { "epoch": 319.1666666666667, "grad_norm": 0.08607908338308334, "learning_rate": 1.4243603658023808e-05, "loss": 0.0028, "step": 15320 }, { "epoch": 319.375, "grad_norm": 0.04464980959892273, "learning_rate": 1.4185864321920444e-05, "loss": 0.0027, "step": 15330 }, { "epoch": 319.5833333333333, "grad_norm": 0.044157467782497406, "learning_rate": 1.4128222900296485e-05, "loss": 0.0027, "step": 15340 }, { "epoch": 319.7916666666667, "grad_norm": 0.045880064368247986, "learning_rate": 1.407067955074135e-05, "loss": 0.003, "step": 15350 }, { "epoch": 320.0, "grad_norm": 0.06483473628759384, "learning_rate": 1.4013234430576356e-05, "loss": 0.0023, "step": 15360 }, { "epoch": 320.2083333333333, "grad_norm": 0.05662933737039566, "learning_rate": 1.3955887696854286e-05, "loss": 0.0028, "step": 15370 }, { "epoch": 320.4166666666667, "grad_norm": 0.05209330841898918, "learning_rate": 1.38986395063589e-05, "loss": 0.0036, "step": 15380 }, { "epoch": 320.625, "grad_norm": 0.04244333505630493, "learning_rate": 1.3841490015604597e-05, "loss": 0.0025, "step": 15390 }, { "epoch": 320.8333333333333, "grad_norm": 0.048080481588840485, "learning_rate": 1.3784439380835879e-05, "loss": 0.0025, "step": 15400 }, { "epoch": 321.0416666666667, "grad_norm": 0.07081323862075806, "learning_rate": 1.3727487758026986e-05, "loss": 0.0028, "step": 15410 }, { "epoch": 321.25, "grad_norm": 0.05248699337244034, "learning_rate": 1.3670635302881525e-05, "loss": 0.0025, "step": 15420 }, { "epoch": 321.4583333333333, "grad_norm": 0.047260433435440063, "learning_rate": 1.3613882170831888e-05, "loss": 0.0027, "step": 15430 }, { "epoch": 321.6666666666667, "grad_norm": 0.04973779246211052, "learning_rate": 1.355722851703901e-05, "loss": 0.0027, "step": 15440 }, { "epoch": 321.875, "grad_norm": 0.05042463541030884, "learning_rate": 1.3500674496391814e-05, "loss": 0.0029, "step": 15450 }, { "epoch": 322.0833333333333, "grad_norm": 0.04606928303837776, "learning_rate": 1.3444220263506795e-05, "loss": 0.003, "step": 15460 }, { "epoch": 322.2916666666667, "grad_norm": 0.0592568963766098, "learning_rate": 1.3387865972727714e-05, "loss": 0.0027, "step": 15470 }, { "epoch": 322.5, "grad_norm": 0.0632430911064148, "learning_rate": 1.3331611778125036e-05, "loss": 0.0031, "step": 15480 }, { "epoch": 322.7083333333333, "grad_norm": 0.04863471910357475, "learning_rate": 1.3275457833495564e-05, "loss": 0.0024, "step": 15490 }, { "epoch": 322.9166666666667, "grad_norm": 0.049661993980407715, "learning_rate": 1.3219404292362065e-05, "loss": 0.0023, "step": 15500 }, { "epoch": 323.125, "grad_norm": 0.04483556002378464, "learning_rate": 1.3163451307972751e-05, "loss": 0.0028, "step": 15510 }, { "epoch": 323.3333333333333, "grad_norm": 0.045244622975587845, "learning_rate": 1.3107599033300977e-05, "loss": 0.0028, "step": 15520 }, { "epoch": 323.5416666666667, "grad_norm": 0.0572897233068943, "learning_rate": 1.305184762104471e-05, "loss": 0.0028, "step": 15530 }, { "epoch": 323.75, "grad_norm": 0.046123843640089035, "learning_rate": 1.2996197223626178e-05, "loss": 0.0024, "step": 15540 }, { "epoch": 323.9583333333333, "grad_norm": 0.03351430222392082, "learning_rate": 1.2940647993191457e-05, "loss": 0.0025, "step": 15550 }, { "epoch": 324.1666666666667, "grad_norm": 0.05210813507437706, "learning_rate": 1.2885200081610005e-05, "loss": 0.0026, "step": 15560 }, { "epoch": 324.375, "grad_norm": 0.0485290065407753, "learning_rate": 1.2829853640474316e-05, "loss": 0.0025, "step": 15570 }, { "epoch": 324.5833333333333, "grad_norm": 0.0591752864420414, "learning_rate": 1.2774608821099438e-05, "loss": 0.0027, "step": 15580 }, { "epoch": 324.7916666666667, "grad_norm": 0.04793165251612663, "learning_rate": 1.2719465774522577e-05, "loss": 0.0028, "step": 15590 }, { "epoch": 325.0, "grad_norm": 0.1010865718126297, "learning_rate": 1.2664424651502755e-05, "loss": 0.0025, "step": 15600 }, { "epoch": 325.2083333333333, "grad_norm": 0.07002512365579605, "learning_rate": 1.260948560252026e-05, "loss": 0.003, "step": 15610 }, { "epoch": 325.4166666666667, "grad_norm": 0.06972119957208633, "learning_rate": 1.2554648777776396e-05, "loss": 0.0027, "step": 15620 }, { "epoch": 325.625, "grad_norm": 0.054285772144794464, "learning_rate": 1.2499914327192919e-05, "loss": 0.0027, "step": 15630 }, { "epoch": 325.8333333333333, "grad_norm": 0.051791463047266006, "learning_rate": 1.2445282400411722e-05, "loss": 0.0025, "step": 15640 }, { "epoch": 326.0416666666667, "grad_norm": 0.0780150294303894, "learning_rate": 1.2390753146794437e-05, "loss": 0.0035, "step": 15650 }, { "epoch": 326.25, "grad_norm": 0.05401209741830826, "learning_rate": 1.2336326715421925e-05, "loss": 0.003, "step": 15660 }, { "epoch": 326.4583333333333, "grad_norm": 0.05553296580910683, "learning_rate": 1.2282003255094005e-05, "loss": 0.0028, "step": 15670 }, { "epoch": 326.6666666666667, "grad_norm": 0.03876460716128349, "learning_rate": 1.2227782914328928e-05, "loss": 0.0027, "step": 15680 }, { "epoch": 326.875, "grad_norm": 0.05459398403763771, "learning_rate": 1.2173665841363018e-05, "loss": 0.0026, "step": 15690 }, { "epoch": 327.0833333333333, "grad_norm": 0.04699806496500969, "learning_rate": 1.211965218415032e-05, "loss": 0.0025, "step": 15700 }, { "epoch": 327.2916666666667, "grad_norm": 0.06113770604133606, "learning_rate": 1.2065742090362082e-05, "loss": 0.0032, "step": 15710 }, { "epoch": 327.5, "grad_norm": 0.06580445915460587, "learning_rate": 1.2011935707386457e-05, "loss": 0.0025, "step": 15720 }, { "epoch": 327.7083333333333, "grad_norm": 0.038551393896341324, "learning_rate": 1.1958233182328044e-05, "loss": 0.0023, "step": 15730 }, { "epoch": 327.9166666666667, "grad_norm": 0.047870419919490814, "learning_rate": 1.1904634662007474e-05, "loss": 0.0031, "step": 15740 }, { "epoch": 328.125, "grad_norm": 0.04287156090140343, "learning_rate": 1.1851140292961088e-05, "loss": 0.0025, "step": 15750 }, { "epoch": 328.3333333333333, "grad_norm": 0.060364048928022385, "learning_rate": 1.1797750221440424e-05, "loss": 0.0027, "step": 15760 }, { "epoch": 328.5416666666667, "grad_norm": 0.05696841701865196, "learning_rate": 1.1744464593411897e-05, "loss": 0.0031, "step": 15770 }, { "epoch": 328.75, "grad_norm": 0.03941575437784195, "learning_rate": 1.1691283554556399e-05, "loss": 0.0027, "step": 15780 }, { "epoch": 328.9583333333333, "grad_norm": 0.04604223370552063, "learning_rate": 1.1638207250268834e-05, "loss": 0.0027, "step": 15790 }, { "epoch": 329.1666666666667, "grad_norm": 0.046913616359233856, "learning_rate": 1.158523582565782e-05, "loss": 0.0032, "step": 15800 }, { "epoch": 329.375, "grad_norm": 0.050775256007909775, "learning_rate": 1.1532369425545192e-05, "loss": 0.0027, "step": 15810 }, { "epoch": 329.5833333333333, "grad_norm": 0.04552769660949707, "learning_rate": 1.1479608194465662e-05, "loss": 0.0027, "step": 15820 }, { "epoch": 329.7916666666667, "grad_norm": 0.0623021125793457, "learning_rate": 1.1426952276666442e-05, "loss": 0.0024, "step": 15830 }, { "epoch": 330.0, "grad_norm": 0.08355139195919037, "learning_rate": 1.1374401816106778e-05, "loss": 0.0026, "step": 15840 }, { "epoch": 330.2083333333333, "grad_norm": 0.058746278285980225, "learning_rate": 1.1321956956457646e-05, "loss": 0.0026, "step": 15850 }, { "epoch": 330.4166666666667, "grad_norm": 0.05687379464507103, "learning_rate": 1.1269617841101277e-05, "loss": 0.0026, "step": 15860 }, { "epoch": 330.625, "grad_norm": 0.04913514479994774, "learning_rate": 1.1217384613130804e-05, "loss": 0.0029, "step": 15870 }, { "epoch": 330.8333333333333, "grad_norm": 0.06692720949649811, "learning_rate": 1.11652574153499e-05, "loss": 0.0028, "step": 15880 }, { "epoch": 331.0416666666667, "grad_norm": 0.06595587730407715, "learning_rate": 1.1113236390272303e-05, "loss": 0.0024, "step": 15890 }, { "epoch": 331.25, "grad_norm": 0.06288541853427887, "learning_rate": 1.106132168012155e-05, "loss": 0.0024, "step": 15900 }, { "epoch": 331.4583333333333, "grad_norm": 0.04768465459346771, "learning_rate": 1.1009513426830448e-05, "loss": 0.0025, "step": 15910 }, { "epoch": 331.6666666666667, "grad_norm": 0.05915641784667969, "learning_rate": 1.0957811772040777e-05, "loss": 0.0024, "step": 15920 }, { "epoch": 331.875, "grad_norm": 0.03556068241596222, "learning_rate": 1.0906216857102913e-05, "loss": 0.0021, "step": 15930 }, { "epoch": 332.0833333333333, "grad_norm": 0.04218234494328499, "learning_rate": 1.0854728823075355e-05, "loss": 0.0026, "step": 15940 }, { "epoch": 332.2916666666667, "grad_norm": 0.04187922924757004, "learning_rate": 1.0803347810724452e-05, "loss": 0.0021, "step": 15950 }, { "epoch": 332.5, "grad_norm": 0.04112124443054199, "learning_rate": 1.0752073960523911e-05, "loss": 0.0025, "step": 15960 }, { "epoch": 332.7083333333333, "grad_norm": 0.05012509971857071, "learning_rate": 1.070090741265447e-05, "loss": 0.0023, "step": 15970 }, { "epoch": 332.9166666666667, "grad_norm": 0.04015078768134117, "learning_rate": 1.0649848307003547e-05, "loss": 0.0026, "step": 15980 }, { "epoch": 333.125, "grad_norm": 0.043533314019441605, "learning_rate": 1.0598896783164757e-05, "loss": 0.0024, "step": 15990 }, { "epoch": 333.3333333333333, "grad_norm": 0.05653885379433632, "learning_rate": 1.0548052980437645e-05, "loss": 0.0025, "step": 16000 }, { "epoch": 333.5416666666667, "grad_norm": 0.04985982924699783, "learning_rate": 1.049731703782722e-05, "loss": 0.0021, "step": 16010 }, { "epoch": 333.75, "grad_norm": 0.03919093310832977, "learning_rate": 1.0446689094043587e-05, "loss": 0.0026, "step": 16020 }, { "epoch": 333.9583333333333, "grad_norm": 0.045663267374038696, "learning_rate": 1.039616928750165e-05, "loss": 0.0024, "step": 16030 }, { "epoch": 334.1666666666667, "grad_norm": 0.03930378705263138, "learning_rate": 1.0345757756320612e-05, "loss": 0.0027, "step": 16040 }, { "epoch": 334.375, "grad_norm": 0.04489700868725777, "learning_rate": 1.0295454638323666e-05, "loss": 0.0026, "step": 16050 }, { "epoch": 334.5833333333333, "grad_norm": 0.03926540166139603, "learning_rate": 1.0245260071037632e-05, "loss": 0.0022, "step": 16060 }, { "epoch": 334.7916666666667, "grad_norm": 0.042247649282217026, "learning_rate": 1.0195174191692518e-05, "loss": 0.0027, "step": 16070 }, { "epoch": 335.0, "grad_norm": 0.054206717759370804, "learning_rate": 1.014519713722124e-05, "loss": 0.0029, "step": 16080 }, { "epoch": 335.2083333333333, "grad_norm": 0.04424287751317024, "learning_rate": 1.0095329044259132e-05, "loss": 0.0029, "step": 16090 }, { "epoch": 335.4166666666667, "grad_norm": 0.037547968327999115, "learning_rate": 1.004557004914365e-05, "loss": 0.0028, "step": 16100 }, { "epoch": 335.625, "grad_norm": 0.043832797557115555, "learning_rate": 9.995920287914007e-06, "loss": 0.0026, "step": 16110 }, { "epoch": 335.8333333333333, "grad_norm": 0.041086889803409576, "learning_rate": 9.946379896310737e-06, "loss": 0.0027, "step": 16120 }, { "epoch": 336.0416666666667, "grad_norm": 0.056270092725753784, "learning_rate": 9.896949009775396e-06, "loss": 0.0024, "step": 16130 }, { "epoch": 336.25, "grad_norm": 0.05965442210435867, "learning_rate": 9.847627763450134e-06, "loss": 0.0026, "step": 16140 }, { "epoch": 336.4583333333333, "grad_norm": 0.04070623219013214, "learning_rate": 9.798416292177337e-06, "loss": 0.0027, "step": 16150 }, { "epoch": 336.6666666666667, "grad_norm": 0.0459221675992012, "learning_rate": 9.74931473049932e-06, "loss": 0.0024, "step": 16160 }, { "epoch": 336.875, "grad_norm": 0.03595241531729698, "learning_rate": 9.700323212657847e-06, "loss": 0.0026, "step": 16170 }, { "epoch": 337.0833333333333, "grad_norm": 0.04217417538166046, "learning_rate": 9.65144187259388e-06, "loss": 0.0024, "step": 16180 }, { "epoch": 337.2916666666667, "grad_norm": 0.043367672711610794, "learning_rate": 9.602670843947132e-06, "loss": 0.0021, "step": 16190 }, { "epoch": 337.5, "grad_norm": 0.04134844243526459, "learning_rate": 9.554010260055713e-06, "loss": 0.0024, "step": 16200 }, { "epoch": 337.7083333333333, "grad_norm": 0.04122209921479225, "learning_rate": 9.505460253955834e-06, "loss": 0.0026, "step": 16210 }, { "epoch": 337.9166666666667, "grad_norm": 0.04033898562192917, "learning_rate": 9.457020958381324e-06, "loss": 0.0027, "step": 16220 }, { "epoch": 338.125, "grad_norm": 0.05340607091784477, "learning_rate": 9.408692505763395e-06, "loss": 0.0026, "step": 16230 }, { "epoch": 338.3333333333333, "grad_norm": 0.05425158888101578, "learning_rate": 9.360475028230181e-06, "loss": 0.0024, "step": 16240 }, { "epoch": 338.5416666666667, "grad_norm": 0.04579264670610428, "learning_rate": 9.312368657606412e-06, "loss": 0.0031, "step": 16250 }, { "epoch": 338.75, "grad_norm": 0.058905936777591705, "learning_rate": 9.264373525413096e-06, "loss": 0.0024, "step": 16260 }, { "epoch": 338.9583333333333, "grad_norm": 0.05396619811654091, "learning_rate": 9.216489762867058e-06, "loss": 0.0026, "step": 16270 }, { "epoch": 339.1666666666667, "grad_norm": 0.0469575971364975, "learning_rate": 9.168717500880708e-06, "loss": 0.0026, "step": 16280 }, { "epoch": 339.375, "grad_norm": 0.0519217774271965, "learning_rate": 9.121056870061574e-06, "loss": 0.0026, "step": 16290 }, { "epoch": 339.5833333333333, "grad_norm": 0.05396993085741997, "learning_rate": 9.073508000711983e-06, "loss": 0.0023, "step": 16300 }, { "epoch": 339.7916666666667, "grad_norm": 0.05750616639852524, "learning_rate": 9.026071022828758e-06, "loss": 0.0025, "step": 16310 }, { "epoch": 340.0, "grad_norm": 0.15159299969673157, "learning_rate": 8.978746066102771e-06, "loss": 0.0027, "step": 16320 }, { "epoch": 340.2083333333333, "grad_norm": 0.0574987456202507, "learning_rate": 8.931533259918634e-06, "loss": 0.0027, "step": 16330 }, { "epoch": 340.4166666666667, "grad_norm": 0.05183491110801697, "learning_rate": 8.884432733354382e-06, "loss": 0.0025, "step": 16340 }, { "epoch": 340.625, "grad_norm": 0.05125327408313751, "learning_rate": 8.837444615181029e-06, "loss": 0.0021, "step": 16350 }, { "epoch": 340.8333333333333, "grad_norm": 0.04577251896262169, "learning_rate": 8.790569033862323e-06, "loss": 0.0023, "step": 16360 }, { "epoch": 341.0416666666667, "grad_norm": 0.05664884299039841, "learning_rate": 8.7438061175543e-06, "loss": 0.0041, "step": 16370 }, { "epoch": 341.25, "grad_norm": 0.06322553008794785, "learning_rate": 8.697155994104978e-06, "loss": 0.0027, "step": 16380 }, { "epoch": 341.4583333333333, "grad_norm": 0.052804991602897644, "learning_rate": 8.650618791054033e-06, "loss": 0.0026, "step": 16390 }, { "epoch": 341.6666666666667, "grad_norm": 0.0531063973903656, "learning_rate": 8.604194635632373e-06, "loss": 0.0025, "step": 16400 }, { "epoch": 341.875, "grad_norm": 0.047438088804483414, "learning_rate": 8.557883654761906e-06, "loss": 0.0024, "step": 16410 }, { "epoch": 342.0833333333333, "grad_norm": 0.048192743211984634, "learning_rate": 8.511685975055061e-06, "loss": 0.0021, "step": 16420 }, { "epoch": 342.2916666666667, "grad_norm": 0.046920642256736755, "learning_rate": 8.46560172281452e-06, "loss": 0.0025, "step": 16430 }, { "epoch": 342.5, "grad_norm": 0.049056701362133026, "learning_rate": 8.419631024032893e-06, "loss": 0.0025, "step": 16440 }, { "epoch": 342.7083333333333, "grad_norm": 0.05192911624908447, "learning_rate": 8.373774004392293e-06, "loss": 0.003, "step": 16450 }, { "epoch": 342.9166666666667, "grad_norm": 0.036646198481321335, "learning_rate": 8.32803078926409e-06, "loss": 0.0027, "step": 16460 }, { "epoch": 343.125, "grad_norm": 0.041683655232191086, "learning_rate": 8.282401503708454e-06, "loss": 0.003, "step": 16470 }, { "epoch": 343.3333333333333, "grad_norm": 0.04826538637280464, "learning_rate": 8.23688627247412e-06, "loss": 0.0024, "step": 16480 }, { "epoch": 343.5416666666667, "grad_norm": 0.038742899894714355, "learning_rate": 8.191485219998007e-06, "loss": 0.0026, "step": 16490 }, { "epoch": 343.75, "grad_norm": 0.05081498995423317, "learning_rate": 8.146198470404843e-06, "loss": 0.0028, "step": 16500 }, { "epoch": 343.9583333333333, "grad_norm": 0.04662046581506729, "learning_rate": 8.101026147506897e-06, "loss": 0.0025, "step": 16510 }, { "epoch": 344.1666666666667, "grad_norm": 0.04832198843359947, "learning_rate": 8.05596837480353e-06, "loss": 0.002, "step": 16520 }, { "epoch": 344.375, "grad_norm": 0.042424410581588745, "learning_rate": 8.011025275480998e-06, "loss": 0.0027, "step": 16530 }, { "epoch": 344.5833333333333, "grad_norm": 0.051099974662065506, "learning_rate": 7.966196972412027e-06, "loss": 0.0025, "step": 16540 }, { "epoch": 344.7916666666667, "grad_norm": 0.042938701808452606, "learning_rate": 7.92148358815547e-06, "loss": 0.0024, "step": 16550 }, { "epoch": 345.0, "grad_norm": 0.0752609446644783, "learning_rate": 7.87688524495604e-06, "loss": 0.0027, "step": 16560 }, { "epoch": 345.2083333333333, "grad_norm": 0.03861226513981819, "learning_rate": 7.83240206474386e-06, "loss": 0.0027, "step": 16570 }, { "epoch": 345.4166666666667, "grad_norm": 0.04701007157564163, "learning_rate": 7.788034169134272e-06, "loss": 0.0026, "step": 16580 }, { "epoch": 345.625, "grad_norm": 0.05635011941194534, "learning_rate": 7.743781679427414e-06, "loss": 0.0025, "step": 16590 }, { "epoch": 345.8333333333333, "grad_norm": 0.054765280336141586, "learning_rate": 7.699644716607895e-06, "loss": 0.0025, "step": 16600 }, { "epoch": 346.0416666666667, "grad_norm": 0.04011647775769234, "learning_rate": 7.655623401344486e-06, "loss": 0.0019, "step": 16610 }, { "epoch": 346.25, "grad_norm": 0.03474632650613785, "learning_rate": 7.611717853989775e-06, "loss": 0.0023, "step": 16620 }, { "epoch": 346.4583333333333, "grad_norm": 0.042997073382139206, "learning_rate": 7.567928194579854e-06, "loss": 0.0028, "step": 16630 }, { "epoch": 346.6666666666667, "grad_norm": 0.04854965582489967, "learning_rate": 7.524254542833997e-06, "loss": 0.0024, "step": 16640 }, { "epoch": 346.875, "grad_norm": 0.04107629507780075, "learning_rate": 7.480697018154286e-06, "loss": 0.0026, "step": 16650 }, { "epoch": 347.0833333333333, "grad_norm": 0.0600329153239727, "learning_rate": 7.437255739625332e-06, "loss": 0.002, "step": 16660 }, { "epoch": 347.2916666666667, "grad_norm": 0.048207975924015045, "learning_rate": 7.393930826013923e-06, "loss": 0.0025, "step": 16670 }, { "epoch": 347.5, "grad_norm": 0.03276606276631355, "learning_rate": 7.350722395768722e-06, "loss": 0.0027, "step": 16680 }, { "epoch": 347.7083333333333, "grad_norm": 0.04820079728960991, "learning_rate": 7.307630567019963e-06, "loss": 0.0026, "step": 16690 }, { "epoch": 347.9166666666667, "grad_norm": 0.041505057364702225, "learning_rate": 7.264655457579e-06, "loss": 0.0021, "step": 16700 }, { "epoch": 348.125, "grad_norm": 0.05991107225418091, "learning_rate": 7.221797184938184e-06, "loss": 0.0023, "step": 16710 }, { "epoch": 348.3333333333333, "grad_norm": 0.04982274770736694, "learning_rate": 7.179055866270373e-06, "loss": 0.002, "step": 16720 }, { "epoch": 348.5416666666667, "grad_norm": 0.04873545095324516, "learning_rate": 7.136431618428707e-06, "loss": 0.0028, "step": 16730 }, { "epoch": 348.75, "grad_norm": 0.0465773344039917, "learning_rate": 7.09392455794628e-06, "loss": 0.0025, "step": 16740 }, { "epoch": 348.9583333333333, "grad_norm": 0.04243065416812897, "learning_rate": 7.051534801035725e-06, "loss": 0.0027, "step": 16750 }, { "epoch": 349.1666666666667, "grad_norm": 0.05325585976243019, "learning_rate": 7.00926246358905e-06, "loss": 0.0027, "step": 16760 }, { "epoch": 349.375, "grad_norm": 0.053696103394031525, "learning_rate": 6.967107661177191e-06, "loss": 0.0029, "step": 16770 }, { "epoch": 349.5833333333333, "grad_norm": 0.06472840905189514, "learning_rate": 6.925070509049786e-06, "loss": 0.002, "step": 16780 }, { "epoch": 349.7916666666667, "grad_norm": 0.047079164534807205, "learning_rate": 6.883151122134812e-06, "loss": 0.0031, "step": 16790 }, { "epoch": 350.0, "grad_norm": 0.08385952562093735, "learning_rate": 6.8413496150382394e-06, "loss": 0.003, "step": 16800 }, { "epoch": 350.2083333333333, "grad_norm": 0.041503407061100006, "learning_rate": 6.7996661020438165e-06, "loss": 0.0027, "step": 16810 }, { "epoch": 350.4166666666667, "grad_norm": 0.04477478191256523, "learning_rate": 6.758100697112662e-06, "loss": 0.0022, "step": 16820 }, { "epoch": 350.625, "grad_norm": 0.05411629006266594, "learning_rate": 6.716653513883026e-06, "loss": 0.0024, "step": 16830 }, { "epoch": 350.8333333333333, "grad_norm": 0.04144349694252014, "learning_rate": 6.675324665669913e-06, "loss": 0.0023, "step": 16840 }, { "epoch": 351.0416666666667, "grad_norm": 0.04664525389671326, "learning_rate": 6.634114265464803e-06, "loss": 0.0021, "step": 16850 }, { "epoch": 351.25, "grad_norm": 0.052553702145814896, "learning_rate": 6.59302242593538e-06, "loss": 0.0022, "step": 16860 }, { "epoch": 351.4583333333333, "grad_norm": 0.058285243809223175, "learning_rate": 6.552049259425141e-06, "loss": 0.0024, "step": 16870 }, { "epoch": 351.6666666666667, "grad_norm": 0.06193317845463753, "learning_rate": 6.511194877953181e-06, "loss": 0.0025, "step": 16880 }, { "epoch": 351.875, "grad_norm": 0.054898425936698914, "learning_rate": 6.470459393213813e-06, "loss": 0.0023, "step": 16890 }, { "epoch": 352.0833333333333, "grad_norm": 0.058712489902973175, "learning_rate": 6.429842916576279e-06, "loss": 0.0025, "step": 16900 }, { "epoch": 352.2916666666667, "grad_norm": 0.036511726677417755, "learning_rate": 6.389345559084503e-06, "loss": 0.0024, "step": 16910 }, { "epoch": 352.5, "grad_norm": 0.044073693454265594, "learning_rate": 6.348967431456682e-06, "loss": 0.0026, "step": 16920 }, { "epoch": 352.7083333333333, "grad_norm": 0.04777196794748306, "learning_rate": 6.30870864408511e-06, "loss": 0.0028, "step": 16930 }, { "epoch": 352.9166666666667, "grad_norm": 0.03935185447335243, "learning_rate": 6.268569307035754e-06, "loss": 0.0022, "step": 16940 }, { "epoch": 353.125, "grad_norm": 0.04764503985643387, "learning_rate": 6.228549530048022e-06, "loss": 0.002, "step": 16950 }, { "epoch": 353.3333333333333, "grad_norm": 0.04137396067380905, "learning_rate": 6.1886494225344814e-06, "loss": 0.0025, "step": 16960 }, { "epoch": 353.5416666666667, "grad_norm": 0.04737443849444389, "learning_rate": 6.148869093580479e-06, "loss": 0.0028, "step": 16970 }, { "epoch": 353.75, "grad_norm": 0.04294656962156296, "learning_rate": 6.109208651943921e-06, "loss": 0.0029, "step": 16980 }, { "epoch": 353.9583333333333, "grad_norm": 0.036440152674913406, "learning_rate": 6.069668206054946e-06, "loss": 0.0023, "step": 16990 }, { "epoch": 354.1666666666667, "grad_norm": 0.0427139550447464, "learning_rate": 6.0302478640156145e-06, "loss": 0.0024, "step": 17000 }, { "epoch": 354.375, "grad_norm": 0.0380924828350544, "learning_rate": 5.990947733599644e-06, "loss": 0.0022, "step": 17010 }, { "epoch": 354.5833333333333, "grad_norm": 0.04738587513566017, "learning_rate": 5.951767922252105e-06, "loss": 0.0027, "step": 17020 }, { "epoch": 354.7916666666667, "grad_norm": 0.04058103263378143, "learning_rate": 5.912708537089068e-06, "loss": 0.0023, "step": 17030 }, { "epoch": 355.0, "grad_norm": 0.10945980250835419, "learning_rate": 5.873769684897434e-06, "loss": 0.0027, "step": 17040 }, { "epoch": 355.2083333333333, "grad_norm": 0.05154130980372429, "learning_rate": 5.834951472134514e-06, "loss": 0.0027, "step": 17050 }, { "epoch": 355.4166666666667, "grad_norm": 0.04844414442777634, "learning_rate": 5.796254004927832e-06, "loss": 0.0023, "step": 17060 }, { "epoch": 355.625, "grad_norm": 0.04569484665989876, "learning_rate": 5.757677389074806e-06, "loss": 0.0022, "step": 17070 }, { "epoch": 355.8333333333333, "grad_norm": 0.050090257078409195, "learning_rate": 5.719221730042385e-06, "loss": 0.0029, "step": 17080 }, { "epoch": 356.0416666666667, "grad_norm": 0.03548366576433182, "learning_rate": 5.680887132966911e-06, "loss": 0.0024, "step": 17090 }, { "epoch": 356.25, "grad_norm": 0.04304024949669838, "learning_rate": 5.642673702653683e-06, "loss": 0.0022, "step": 17100 }, { "epoch": 356.4583333333333, "grad_norm": 0.045299652963876724, "learning_rate": 5.604581543576781e-06, "loss": 0.0023, "step": 17110 }, { "epoch": 356.6666666666667, "grad_norm": 0.047296155244112015, "learning_rate": 5.566610759878704e-06, "loss": 0.0019, "step": 17120 }, { "epoch": 356.875, "grad_norm": 0.02874354086816311, "learning_rate": 5.528761455370119e-06, "loss": 0.0022, "step": 17130 }, { "epoch": 357.0833333333333, "grad_norm": 0.04980836063623428, "learning_rate": 5.491033733529594e-06, "loss": 0.0021, "step": 17140 }, { "epoch": 357.2916666666667, "grad_norm": 0.02558056451380253, "learning_rate": 5.453427697503255e-06, "loss": 0.0023, "step": 17150 }, { "epoch": 357.5, "grad_norm": 0.04492144286632538, "learning_rate": 5.415943450104599e-06, "loss": 0.0025, "step": 17160 }, { "epoch": 357.7083333333333, "grad_norm": 0.03339587524533272, "learning_rate": 5.378581093814111e-06, "loss": 0.0027, "step": 17170 }, { "epoch": 357.9166666666667, "grad_norm": 0.04842767491936684, "learning_rate": 5.3413407307790375e-06, "loss": 0.0023, "step": 17180 }, { "epoch": 358.125, "grad_norm": 0.047614943236112595, "learning_rate": 5.30422246281313e-06, "loss": 0.0018, "step": 17190 }, { "epoch": 358.3333333333333, "grad_norm": 0.03952654078602791, "learning_rate": 5.267226391396296e-06, "loss": 0.0023, "step": 17200 }, { "epoch": 358.5416666666667, "grad_norm": 0.0351870059967041, "learning_rate": 5.2303526176744e-06, "loss": 0.0023, "step": 17210 }, { "epoch": 358.75, "grad_norm": 0.05134988948702812, "learning_rate": 5.193601242458929e-06, "loss": 0.0025, "step": 17220 }, { "epoch": 358.9583333333333, "grad_norm": 0.05000967159867287, "learning_rate": 5.156972366226714e-06, "loss": 0.0026, "step": 17230 }, { "epoch": 359.1666666666667, "grad_norm": 0.04266923666000366, "learning_rate": 5.120466089119735e-06, "loss": 0.0025, "step": 17240 }, { "epoch": 359.375, "grad_norm": 0.030653849244117737, "learning_rate": 5.084082510944749e-06, "loss": 0.0023, "step": 17250 }, { "epoch": 359.5833333333333, "grad_norm": 0.044220056384801865, "learning_rate": 5.047821731173058e-06, "loss": 0.0022, "step": 17260 }, { "epoch": 359.7916666666667, "grad_norm": 0.034354932606220245, "learning_rate": 5.011683848940274e-06, "loss": 0.0027, "step": 17270 }, { "epoch": 360.0, "grad_norm": 0.056136343628168106, "learning_rate": 4.975668963045954e-06, "loss": 0.002, "step": 17280 }, { "epoch": 360.2083333333333, "grad_norm": 0.03440313786268234, "learning_rate": 4.9397771719534525e-06, "loss": 0.0025, "step": 17290 }, { "epoch": 360.4166666666667, "grad_norm": 0.04178176820278168, "learning_rate": 4.904008573789548e-06, "loss": 0.0023, "step": 17300 }, { "epoch": 360.625, "grad_norm": 0.04031011834740639, "learning_rate": 4.8683632663442005e-06, "loss": 0.0027, "step": 17310 }, { "epoch": 360.8333333333333, "grad_norm": 0.03783115744590759, "learning_rate": 4.832841347070343e-06, "loss": 0.0023, "step": 17320 }, { "epoch": 361.0416666666667, "grad_norm": 0.045168038457632065, "learning_rate": 4.797442913083539e-06, "loss": 0.0023, "step": 17330 }, { "epoch": 361.25, "grad_norm": 0.05694412812590599, "learning_rate": 4.7621680611617596e-06, "loss": 0.0023, "step": 17340 }, { "epoch": 361.4583333333333, "grad_norm": 0.046456266194581985, "learning_rate": 4.727016887745095e-06, "loss": 0.0021, "step": 17350 }, { "epoch": 361.6666666666667, "grad_norm": 0.050657760351896286, "learning_rate": 4.691989488935511e-06, "loss": 0.0027, "step": 17360 }, { "epoch": 361.875, "grad_norm": 0.044857222586870193, "learning_rate": 4.657085960496588e-06, "loss": 0.0023, "step": 17370 }, { "epoch": 362.0833333333333, "grad_norm": 0.046807724982500076, "learning_rate": 4.6223063978532265e-06, "loss": 0.0019, "step": 17380 }, { "epoch": 362.2916666666667, "grad_norm": 0.04568253457546234, "learning_rate": 4.587650896091439e-06, "loss": 0.0025, "step": 17390 }, { "epoch": 362.5, "grad_norm": 0.04170117899775505, "learning_rate": 4.553119549958035e-06, "loss": 0.0028, "step": 17400 }, { "epoch": 362.7083333333333, "grad_norm": 0.03316984698176384, "learning_rate": 4.518712453860385e-06, "loss": 0.0023, "step": 17410 }, { "epoch": 362.9166666666667, "grad_norm": 0.042703256011009216, "learning_rate": 4.484429701866205e-06, "loss": 0.0021, "step": 17420 }, { "epoch": 363.125, "grad_norm": 0.036555033177137375, "learning_rate": 4.4502713877031975e-06, "loss": 0.002, "step": 17430 }, { "epoch": 363.3333333333333, "grad_norm": 0.04144371300935745, "learning_rate": 4.416237604758911e-06, "loss": 0.0025, "step": 17440 }, { "epoch": 363.5416666666667, "grad_norm": 0.044862985610961914, "learning_rate": 4.3823284460804025e-06, "loss": 0.0018, "step": 17450 }, { "epoch": 363.75, "grad_norm": 0.03991415724158287, "learning_rate": 4.348544004374011e-06, "loss": 0.0027, "step": 17460 }, { "epoch": 363.9583333333333, "grad_norm": 0.05762990936636925, "learning_rate": 4.314884372005123e-06, "loss": 0.0022, "step": 17470 }, { "epoch": 364.1666666666667, "grad_norm": 0.042648982256650925, "learning_rate": 4.281349640997867e-06, "loss": 0.0023, "step": 17480 }, { "epoch": 364.375, "grad_norm": 0.033760979771614075, "learning_rate": 4.247939903034942e-06, "loss": 0.0025, "step": 17490 }, { "epoch": 364.5833333333333, "grad_norm": 0.03304198384284973, "learning_rate": 4.214655249457284e-06, "loss": 0.0021, "step": 17500 }, { "epoch": 364.7916666666667, "grad_norm": 0.03655177727341652, "learning_rate": 4.181495771263855e-06, "loss": 0.0022, "step": 17510 }, { "epoch": 365.0, "grad_norm": 0.11526524275541306, "learning_rate": 4.148461559111427e-06, "loss": 0.0021, "step": 17520 }, { "epoch": 365.2083333333333, "grad_norm": 0.036561932414770126, "learning_rate": 4.115552703314252e-06, "loss": 0.0025, "step": 17530 }, { "epoch": 365.4166666666667, "grad_norm": 0.03851766511797905, "learning_rate": 4.082769293843886e-06, "loss": 0.0021, "step": 17540 }, { "epoch": 365.625, "grad_norm": 0.0480390340089798, "learning_rate": 4.050111420328939e-06, "loss": 0.0023, "step": 17550 }, { "epoch": 365.8333333333333, "grad_norm": 0.0472773052752018, "learning_rate": 4.017579172054764e-06, "loss": 0.0023, "step": 17560 }, { "epoch": 366.0416666666667, "grad_norm": 0.056714631617069244, "learning_rate": 3.985172637963308e-06, "loss": 0.0023, "step": 17570 }, { "epoch": 366.25, "grad_norm": 0.04593655467033386, "learning_rate": 3.952891906652784e-06, "loss": 0.0021, "step": 17580 }, { "epoch": 366.4583333333333, "grad_norm": 0.05360660329461098, "learning_rate": 3.920737066377478e-06, "loss": 0.0023, "step": 17590 }, { "epoch": 366.6666666666667, "grad_norm": 0.03195400908589363, "learning_rate": 3.888708205047509e-06, "loss": 0.002, "step": 17600 }, { "epoch": 366.875, "grad_norm": 0.041891686618328094, "learning_rate": 3.856805410228542e-06, "loss": 0.0024, "step": 17610 }, { "epoch": 367.0833333333333, "grad_norm": 0.03165426105260849, "learning_rate": 3.82502876914162e-06, "loss": 0.002, "step": 17620 }, { "epoch": 367.2916666666667, "grad_norm": 0.03991840407252312, "learning_rate": 3.7933783686628586e-06, "loss": 0.0023, "step": 17630 }, { "epoch": 367.5, "grad_norm": 0.0348382368683815, "learning_rate": 3.7618542953232306e-06, "loss": 0.0021, "step": 17640 }, { "epoch": 367.7083333333333, "grad_norm": 0.04337253049015999, "learning_rate": 3.7304566353083658e-06, "loss": 0.0026, "step": 17650 }, { "epoch": 367.9166666666667, "grad_norm": 0.05279451608657837, "learning_rate": 3.6991854744582555e-06, "loss": 0.0025, "step": 17660 }, { "epoch": 368.125, "grad_norm": 0.03435814753174782, "learning_rate": 3.6680408982670777e-06, "loss": 0.0022, "step": 17670 }, { "epoch": 368.3333333333333, "grad_norm": 0.03720401972532272, "learning_rate": 3.637022991882899e-06, "loss": 0.0022, "step": 17680 }, { "epoch": 368.5416666666667, "grad_norm": 0.040080104023218155, "learning_rate": 3.606131840107485e-06, "loss": 0.0027, "step": 17690 }, { "epoch": 368.75, "grad_norm": 0.04588537663221359, "learning_rate": 3.575367527396084e-06, "loss": 0.0023, "step": 17700 }, { "epoch": 368.9583333333333, "grad_norm": 0.03778941184282303, "learning_rate": 3.5447301378571386e-06, "loss": 0.0022, "step": 17710 }, { "epoch": 369.1666666666667, "grad_norm": 0.04077978804707527, "learning_rate": 3.514219755252113e-06, "loss": 0.0024, "step": 17720 }, { "epoch": 369.375, "grad_norm": 0.04314003139734268, "learning_rate": 3.4838364629952213e-06, "loss": 0.0024, "step": 17730 }, { "epoch": 369.5833333333333, "grad_norm": 0.04476908966898918, "learning_rate": 3.4535803441532123e-06, "loss": 0.0025, "step": 17740 }, { "epoch": 369.7916666666667, "grad_norm": 0.04438066855072975, "learning_rate": 3.4234514814451836e-06, "loss": 0.0024, "step": 17750 }, { "epoch": 370.0, "grad_norm": 0.04908529669046402, "learning_rate": 3.393449957242273e-06, "loss": 0.0019, "step": 17760 }, { "epoch": 370.2083333333333, "grad_norm": 0.0371428020298481, "learning_rate": 3.363575853567524e-06, "loss": 0.0017, "step": 17770 }, { "epoch": 370.4166666666667, "grad_norm": 0.04163696989417076, "learning_rate": 3.3338292520955826e-06, "loss": 0.0021, "step": 17780 }, { "epoch": 370.625, "grad_norm": 0.05355500057339668, "learning_rate": 3.304210234152516e-06, "loss": 0.002, "step": 17790 }, { "epoch": 370.8333333333333, "grad_norm": 0.027307573705911636, "learning_rate": 3.2747188807155993e-06, "loss": 0.0018, "step": 17800 }, { "epoch": 371.0416666666667, "grad_norm": 0.04169232398271561, "learning_rate": 3.2453552724130643e-06, "loss": 0.0023, "step": 17810 }, { "epoch": 371.25, "grad_norm": 0.04392676427960396, "learning_rate": 3.216119489523889e-06, "loss": 0.0021, "step": 17820 }, { "epoch": 371.4583333333333, "grad_norm": 0.03937486559152603, "learning_rate": 3.1870116119775917e-06, "loss": 0.0024, "step": 17830 }, { "epoch": 371.6666666666667, "grad_norm": 0.03655584156513214, "learning_rate": 3.158031719353999e-06, "loss": 0.0021, "step": 17840 }, { "epoch": 371.875, "grad_norm": 0.03620961681008339, "learning_rate": 3.1291798908830273e-06, "loss": 0.0025, "step": 17850 }, { "epoch": 372.0833333333333, "grad_norm": 0.04524962231516838, "learning_rate": 3.1004562054444853e-06, "loss": 0.0023, "step": 17860 }, { "epoch": 372.2916666666667, "grad_norm": 0.04375336319208145, "learning_rate": 3.071860741567806e-06, "loss": 0.0026, "step": 17870 }, { "epoch": 372.5, "grad_norm": 0.03226980194449425, "learning_rate": 3.04339357743193e-06, "loss": 0.0021, "step": 17880 }, { "epoch": 372.7083333333333, "grad_norm": 0.03566453978419304, "learning_rate": 3.0150547908649628e-06, "loss": 0.002, "step": 17890 }, { "epoch": 372.9166666666667, "grad_norm": 0.035638228058815, "learning_rate": 2.9868444593440957e-06, "loss": 0.0024, "step": 17900 }, { "epoch": 373.125, "grad_norm": 0.04439307376742363, "learning_rate": 2.9587626599952846e-06, "loss": 0.0023, "step": 17910 }, { "epoch": 373.3333333333333, "grad_norm": 0.038856931030750275, "learning_rate": 2.930809469593082e-06, "loss": 0.0026, "step": 17920 }, { "epoch": 373.5416666666667, "grad_norm": 0.027996543794870377, "learning_rate": 2.9029849645604733e-06, "loss": 0.0021, "step": 17930 }, { "epoch": 373.75, "grad_norm": 0.03151009604334831, "learning_rate": 2.8752892209685632e-06, "loss": 0.0025, "step": 17940 }, { "epoch": 373.9583333333333, "grad_norm": 0.029355639591813087, "learning_rate": 2.847722314536483e-06, "loss": 0.002, "step": 17950 }, { "epoch": 374.1666666666667, "grad_norm": 0.040553126484155655, "learning_rate": 2.820284320631078e-06, "loss": 0.0021, "step": 17960 }, { "epoch": 374.375, "grad_norm": 0.0331062488257885, "learning_rate": 2.792975314266788e-06, "loss": 0.0023, "step": 17970 }, { "epoch": 374.5833333333333, "grad_norm": 0.03457307443022728, "learning_rate": 2.7657953701054007e-06, "loss": 0.0021, "step": 17980 }, { "epoch": 374.7916666666667, "grad_norm": 0.0421091727912426, "learning_rate": 2.7387445624558306e-06, "loss": 0.0018, "step": 17990 }, { "epoch": 375.0, "grad_norm": 0.058508459478616714, "learning_rate": 2.7118229652739747e-06, "loss": 0.0023, "step": 18000 }, { "epoch": 375.2083333333333, "grad_norm": 0.03807145357131958, "learning_rate": 2.6850306521624236e-06, "loss": 0.0023, "step": 18010 }, { "epoch": 375.4166666666667, "grad_norm": 0.02720445767045021, "learning_rate": 2.6583676963703507e-06, "loss": 0.0022, "step": 18020 }, { "epoch": 375.625, "grad_norm": 0.030694467946887016, "learning_rate": 2.631834170793268e-06, "loss": 0.0024, "step": 18030 }, { "epoch": 375.8333333333333, "grad_norm": 0.028445202857255936, "learning_rate": 2.6054301479728036e-06, "loss": 0.0024, "step": 18040 }, { "epoch": 376.0416666666667, "grad_norm": 0.0342307910323143, "learning_rate": 2.579155700096575e-06, "loss": 0.0025, "step": 18050 }, { "epoch": 376.25, "grad_norm": 0.03717619925737381, "learning_rate": 2.5530108989978873e-06, "loss": 0.0023, "step": 18060 }, { "epoch": 376.4583333333333, "grad_norm": 0.04320511594414711, "learning_rate": 2.5269958161556416e-06, "loss": 0.0027, "step": 18070 }, { "epoch": 376.6666666666667, "grad_norm": 0.04309137538075447, "learning_rate": 2.5011105226940888e-06, "loss": 0.0025, "step": 18080 }, { "epoch": 376.875, "grad_norm": 0.049670182168483734, "learning_rate": 2.4753550893826248e-06, "loss": 0.0022, "step": 18090 }, { "epoch": 377.0833333333333, "grad_norm": 0.0415947362780571, "learning_rate": 2.4497295866356296e-06, "loss": 0.0025, "step": 18100 }, { "epoch": 377.2916666666667, "grad_norm": 0.02895042486488819, "learning_rate": 2.424234084512228e-06, "loss": 0.0022, "step": 18110 }, { "epoch": 377.5, "grad_norm": 0.02983659878373146, "learning_rate": 2.3988686527161687e-06, "loss": 0.0023, "step": 18120 }, { "epoch": 377.7083333333333, "grad_norm": 0.029268156737089157, "learning_rate": 2.373633360595573e-06, "loss": 0.0018, "step": 18130 }, { "epoch": 377.9166666666667, "grad_norm": 0.03823433071374893, "learning_rate": 2.3485282771427585e-06, "loss": 0.0022, "step": 18140 }, { "epoch": 378.125, "grad_norm": 0.031691551208496094, "learning_rate": 2.3235534709940665e-06, "loss": 0.0022, "step": 18150 }, { "epoch": 378.3333333333333, "grad_norm": 0.03704288974404335, "learning_rate": 2.2987090104296617e-06, "loss": 0.0021, "step": 18160 }, { "epoch": 378.5416666666667, "grad_norm": 0.03289808705449104, "learning_rate": 2.273994963373355e-06, "loss": 0.0022, "step": 18170 }, { "epoch": 378.75, "grad_norm": 0.039457909762859344, "learning_rate": 2.249411397392409e-06, "loss": 0.0027, "step": 18180 }, { "epoch": 378.9583333333333, "grad_norm": 0.03868713602423668, "learning_rate": 2.2249583796973506e-06, "loss": 0.0024, "step": 18190 }, { "epoch": 379.1666666666667, "grad_norm": 0.04700281098484993, "learning_rate": 2.200635977141796e-06, "loss": 0.0023, "step": 18200 }, { "epoch": 379.375, "grad_norm": 0.03713856637477875, "learning_rate": 2.17644425622226e-06, "loss": 0.002, "step": 18210 }, { "epoch": 379.5833333333333, "grad_norm": 0.03795616328716278, "learning_rate": 2.152383283077991e-06, "loss": 0.0021, "step": 18220 }, { "epoch": 379.7916666666667, "grad_norm": 0.04125731810927391, "learning_rate": 2.128453123490781e-06, "loss": 0.0023, "step": 18230 }, { "epoch": 380.0, "grad_norm": 0.12374388426542282, "learning_rate": 2.1046538428847462e-06, "loss": 0.0022, "step": 18240 }, { "epoch": 380.2083333333333, "grad_norm": 0.028573790565133095, "learning_rate": 2.0809855063262273e-06, "loss": 0.0027, "step": 18250 }, { "epoch": 380.4166666666667, "grad_norm": 0.04701973870396614, "learning_rate": 2.057448178523558e-06, "loss": 0.0021, "step": 18260 }, { "epoch": 380.625, "grad_norm": 0.04453616216778755, "learning_rate": 2.034041923826885e-06, "loss": 0.0017, "step": 18270 }, { "epoch": 380.8333333333333, "grad_norm": 0.02759821154177189, "learning_rate": 2.0107668062280204e-06, "loss": 0.0023, "step": 18280 }, { "epoch": 381.0416666666667, "grad_norm": 0.03152336925268173, "learning_rate": 1.9876228893602357e-06, "loss": 0.0021, "step": 18290 }, { "epoch": 381.25, "grad_norm": 0.03433407470583916, "learning_rate": 1.9646102364981266e-06, "loss": 0.0023, "step": 18300 }, { "epoch": 381.4583333333333, "grad_norm": 0.03305524215102196, "learning_rate": 1.9417289105574053e-06, "loss": 0.0026, "step": 18310 }, { "epoch": 381.6666666666667, "grad_norm": 0.045243822038173676, "learning_rate": 1.9189789740947427e-06, "loss": 0.0021, "step": 18320 }, { "epoch": 381.875, "grad_norm": 0.04011641815304756, "learning_rate": 1.896360489307597e-06, "loss": 0.0021, "step": 18330 }, { "epoch": 382.0833333333333, "grad_norm": 0.03905303031206131, "learning_rate": 1.8738735180340362e-06, "loss": 0.0026, "step": 18340 }, { "epoch": 382.2916666666667, "grad_norm": 0.0297701358795166, "learning_rate": 1.8515181217525824e-06, "loss": 0.0024, "step": 18350 }, { "epoch": 382.5, "grad_norm": 0.027204394340515137, "learning_rate": 1.8292943615820457e-06, "loss": 0.002, "step": 18360 }, { "epoch": 382.7083333333333, "grad_norm": 0.025961054489016533, "learning_rate": 1.8072022982813296e-06, "loss": 0.0023, "step": 18370 }, { "epoch": 382.9166666666667, "grad_norm": 0.030801644548773766, "learning_rate": 1.7852419922492925e-06, "loss": 0.002, "step": 18380 }, { "epoch": 383.125, "grad_norm": 0.036587830632925034, "learning_rate": 1.763413503524569e-06, "loss": 0.0024, "step": 18390 }, { "epoch": 383.3333333333333, "grad_norm": 0.03696326166391373, "learning_rate": 1.7417168917854165e-06, "loss": 0.0022, "step": 18400 }, { "epoch": 383.5416666666667, "grad_norm": 0.036935802549123764, "learning_rate": 1.720152216349552e-06, "loss": 0.0021, "step": 18410 }, { "epoch": 383.75, "grad_norm": 0.032349441200494766, "learning_rate": 1.6987195361739595e-06, "loss": 0.0021, "step": 18420 }, { "epoch": 383.9583333333333, "grad_norm": 0.03682123124599457, "learning_rate": 1.6774189098547832e-06, "loss": 0.0022, "step": 18430 }, { "epoch": 384.1666666666667, "grad_norm": 0.03195015341043472, "learning_rate": 1.6562503956271069e-06, "loss": 0.0022, "step": 18440 }, { "epoch": 384.375, "grad_norm": 0.03742985427379608, "learning_rate": 1.6352140513648417e-06, "loss": 0.0027, "step": 18450 }, { "epoch": 384.5833333333333, "grad_norm": 0.035667192190885544, "learning_rate": 1.6143099345805712e-06, "loss": 0.0023, "step": 18460 }, { "epoch": 384.7916666666667, "grad_norm": 0.03503498435020447, "learning_rate": 1.5935381024253293e-06, "loss": 0.0019, "step": 18470 }, { "epoch": 385.0, "grad_norm": 0.129625141620636, "learning_rate": 1.572898611688517e-06, "loss": 0.0025, "step": 18480 }, { "epoch": 385.2083333333333, "grad_norm": 0.033766862004995346, "learning_rate": 1.5523915187977133e-06, "loss": 0.0024, "step": 18490 }, { "epoch": 385.4166666666667, "grad_norm": 0.0371013805270195, "learning_rate": 1.532016879818532e-06, "loss": 0.0022, "step": 18500 }, { "epoch": 385.625, "grad_norm": 0.027599340304732323, "learning_rate": 1.51177475045447e-06, "loss": 0.0018, "step": 18510 }, { "epoch": 385.8333333333333, "grad_norm": 0.04553314298391342, "learning_rate": 1.4916651860467035e-06, "loss": 0.002, "step": 18520 }, { "epoch": 386.0416666666667, "grad_norm": 0.042905423790216446, "learning_rate": 1.471688241574043e-06, "loss": 0.0026, "step": 18530 }, { "epoch": 386.25, "grad_norm": 0.025275690481066704, "learning_rate": 1.451843971652672e-06, "loss": 0.0024, "step": 18540 }, { "epoch": 386.4583333333333, "grad_norm": 0.036387886852025986, "learning_rate": 1.432132430536076e-06, "loss": 0.0019, "step": 18550 }, { "epoch": 386.6666666666667, "grad_norm": 0.03415093198418617, "learning_rate": 1.412553672114869e-06, "loss": 0.0019, "step": 18560 }, { "epoch": 386.875, "grad_norm": 0.03451400622725487, "learning_rate": 1.3931077499166056e-06, "loss": 0.0021, "step": 18570 }, { "epoch": 387.0833333333333, "grad_norm": 0.026355978101491928, "learning_rate": 1.3737947171057085e-06, "loss": 0.002, "step": 18580 }, { "epoch": 387.2916666666667, "grad_norm": 0.02610265463590622, "learning_rate": 1.3546146264832582e-06, "loss": 0.0022, "step": 18590 }, { "epoch": 387.5, "grad_norm": 0.024829568341374397, "learning_rate": 1.3355675304869086e-06, "loss": 0.0019, "step": 18600 }, { "epoch": 387.7083333333333, "grad_norm": 0.03522351756691933, "learning_rate": 1.3166534811906827e-06, "loss": 0.0024, "step": 18610 }, { "epoch": 387.9166666666667, "grad_norm": 0.029161622747778893, "learning_rate": 1.2978725303048666e-06, "loss": 0.0024, "step": 18620 }, { "epoch": 388.125, "grad_norm": 0.03241637721657753, "learning_rate": 1.2792247291758762e-06, "loss": 0.0023, "step": 18630 }, { "epoch": 388.3333333333333, "grad_norm": 0.039831649512052536, "learning_rate": 1.2607101287860635e-06, "loss": 0.0025, "step": 18640 }, { "epoch": 388.5416666666667, "grad_norm": 0.030734151601791382, "learning_rate": 1.2423287797536654e-06, "loss": 0.0019, "step": 18650 }, { "epoch": 388.75, "grad_norm": 0.034900274127721786, "learning_rate": 1.2240807323325776e-06, "loss": 0.0023, "step": 18660 }, { "epoch": 388.9583333333333, "grad_norm": 0.031939614564180374, "learning_rate": 1.205966036412254e-06, "loss": 0.0025, "step": 18670 }, { "epoch": 389.1666666666667, "grad_norm": 0.03573926165699959, "learning_rate": 1.1879847415175949e-06, "loss": 0.0028, "step": 18680 }, { "epoch": 389.375, "grad_norm": 0.034920547157526016, "learning_rate": 1.1701368968087712e-06, "loss": 0.0025, "step": 18690 }, { "epoch": 389.5833333333333, "grad_norm": 0.03278207406401634, "learning_rate": 1.1524225510811116e-06, "loss": 0.0018, "step": 18700 }, { "epoch": 389.7916666666667, "grad_norm": 0.03344083949923515, "learning_rate": 1.1348417527649535e-06, "loss": 0.0021, "step": 18710 }, { "epoch": 390.0, "grad_norm": 0.037179455161094666, "learning_rate": 1.1173945499255268e-06, "loss": 0.002, "step": 18720 }, { "epoch": 390.2083333333333, "grad_norm": 0.04027610644698143, "learning_rate": 1.1000809902628307e-06, "loss": 0.0022, "step": 18730 }, { "epoch": 390.4166666666667, "grad_norm": 0.039214469492435455, "learning_rate": 1.082901121111468e-06, "loss": 0.0021, "step": 18740 }, { "epoch": 390.625, "grad_norm": 0.032263606786727905, "learning_rate": 1.0658549894405456e-06, "loss": 0.0024, "step": 18750 }, { "epoch": 390.8333333333333, "grad_norm": 0.023681435734033585, "learning_rate": 1.0489426418535342e-06, "loss": 0.0022, "step": 18760 }, { "epoch": 391.0416666666667, "grad_norm": 0.0358334556221962, "learning_rate": 1.0321641245881474e-06, "loss": 0.0025, "step": 18770 }, { "epoch": 391.25, "grad_norm": 0.03269588202238083, "learning_rate": 1.015519483516214e-06, "loss": 0.0022, "step": 18780 }, { "epoch": 391.4583333333333, "grad_norm": 0.05176329240202904, "learning_rate": 9.990087641435443e-07, "loss": 0.0022, "step": 18790 }, { "epoch": 391.6666666666667, "grad_norm": 0.0369400791823864, "learning_rate": 9.826320116098132e-07, "loss": 0.0024, "step": 18800 }, { "epoch": 391.875, "grad_norm": 0.026125159114599228, "learning_rate": 9.663892706884447e-07, "loss": 0.0021, "step": 18810 }, { "epoch": 392.0833333333333, "grad_norm": 0.03739047795534134, "learning_rate": 9.502805857864616e-07, "loss": 0.0018, "step": 18820 }, { "epoch": 392.2916666666667, "grad_norm": 0.034019835293293, "learning_rate": 9.34306000944396e-07, "loss": 0.0022, "step": 18830 }, { "epoch": 392.5, "grad_norm": 0.0310186967253685, "learning_rate": 9.184655598361624e-07, "loss": 0.0019, "step": 18840 }, { "epoch": 392.7083333333333, "grad_norm": 0.01604192703962326, "learning_rate": 9.027593057689076e-07, "loss": 0.0022, "step": 18850 }, { "epoch": 392.9166666666667, "grad_norm": 0.03417332097887993, "learning_rate": 8.871872816829441e-07, "loss": 0.002, "step": 18860 }, { "epoch": 393.125, "grad_norm": 0.03340284898877144, "learning_rate": 8.717495301515777e-07, "loss": 0.0022, "step": 18870 }, { "epoch": 393.3333333333333, "grad_norm": 0.03791556879878044, "learning_rate": 8.564460933810415e-07, "loss": 0.0022, "step": 18880 }, { "epoch": 393.5416666666667, "grad_norm": 0.026340683922171593, "learning_rate": 8.412770132103453e-07, "loss": 0.0022, "step": 18890 }, { "epoch": 393.75, "grad_norm": 0.04177844151854515, "learning_rate": 8.262423311111711e-07, "loss": 0.0019, "step": 18900 }, { "epoch": 393.9583333333333, "grad_norm": 0.047845903784036636, "learning_rate": 8.113420881877665e-07, "loss": 0.0026, "step": 18910 }, { "epoch": 394.1666666666667, "grad_norm": 0.032452814280986786, "learning_rate": 7.965763251768288e-07, "loss": 0.0022, "step": 18920 }, { "epoch": 394.375, "grad_norm": 0.03246057406067848, "learning_rate": 7.819450824473995e-07, "loss": 0.0029, "step": 18930 }, { "epoch": 394.5833333333333, "grad_norm": 0.029568137601017952, "learning_rate": 7.674484000007198e-07, "loss": 0.0023, "step": 18940 }, { "epoch": 394.7916666666667, "grad_norm": 0.03551599383354187, "learning_rate": 7.530863174701752e-07, "loss": 0.0022, "step": 18950 }, { "epoch": 395.0, "grad_norm": 0.06950263679027557, "learning_rate": 7.38858874121151e-07, "loss": 0.0027, "step": 18960 }, { "epoch": 395.2083333333333, "grad_norm": 0.037167374044656754, "learning_rate": 7.247661088509328e-07, "loss": 0.0022, "step": 18970 }, { "epoch": 395.4166666666667, "grad_norm": 0.037457630038261414, "learning_rate": 7.108080601886002e-07, "loss": 0.0018, "step": 18980 }, { "epoch": 395.625, "grad_norm": 0.024080263450741768, "learning_rate": 6.969847662949336e-07, "loss": 0.0021, "step": 18990 }, { "epoch": 395.8333333333333, "grad_norm": 0.02998734824359417, "learning_rate": 6.832962649622798e-07, "loss": 0.0024, "step": 19000 }, { "epoch": 396.0416666666667, "grad_norm": 0.03870801255106926, "learning_rate": 6.697425936144863e-07, "loss": 0.0024, "step": 19010 }, { "epoch": 396.25, "grad_norm": 0.03827463462948799, "learning_rate": 6.563237893067731e-07, "loss": 0.0021, "step": 19020 }, { "epoch": 396.4583333333333, "grad_norm": 0.035307981073856354, "learning_rate": 6.430398887256328e-07, "loss": 0.0022, "step": 19030 }, { "epoch": 396.6666666666667, "grad_norm": 0.03650249168276787, "learning_rate": 6.298909281887478e-07, "loss": 0.0021, "step": 19040 }, { "epoch": 396.875, "grad_norm": 0.04243432357907295, "learning_rate": 6.168769436448673e-07, "loss": 0.0024, "step": 19050 }, { "epoch": 397.0833333333333, "grad_norm": 0.035344406962394714, "learning_rate": 6.03997970673742e-07, "loss": 0.0017, "step": 19060 }, { "epoch": 397.2916666666667, "grad_norm": 0.03215443342924118, "learning_rate": 5.912540444859782e-07, "loss": 0.0021, "step": 19070 }, { "epoch": 397.5, "grad_norm": 0.02770916558802128, "learning_rate": 5.786451999229837e-07, "loss": 0.0021, "step": 19080 }, { "epoch": 397.7083333333333, "grad_norm": 0.03123968094587326, "learning_rate": 5.661714714568722e-07, "loss": 0.002, "step": 19090 }, { "epoch": 397.9166666666667, "grad_norm": 0.03131438419222832, "learning_rate": 5.538328931903259e-07, "loss": 0.0021, "step": 19100 }, { "epoch": 398.125, "grad_norm": 0.030749494209885597, "learning_rate": 5.416294988565551e-07, "loss": 0.0019, "step": 19110 }, { "epoch": 398.3333333333333, "grad_norm": 0.020433280616998672, "learning_rate": 5.29561321819172e-07, "loss": 0.0022, "step": 19120 }, { "epoch": 398.5416666666667, "grad_norm": 0.03724398836493492, "learning_rate": 5.176283950721061e-07, "loss": 0.0021, "step": 19130 }, { "epoch": 398.75, "grad_norm": 0.03264552727341652, "learning_rate": 5.058307512395332e-07, "loss": 0.0019, "step": 19140 }, { "epoch": 398.9583333333333, "grad_norm": 0.0349113754928112, "learning_rate": 4.941684225757526e-07, "loss": 0.002, "step": 19150 }, { "epoch": 399.1666666666667, "grad_norm": 0.03573959320783615, "learning_rate": 4.826414409651314e-07, "loss": 0.003, "step": 19160 }, { "epoch": 399.375, "grad_norm": 0.030069148167967796, "learning_rate": 4.712498379219943e-07, "loss": 0.0021, "step": 19170 }, { "epoch": 399.5833333333333, "grad_norm": 0.03583100065588951, "learning_rate": 4.599936445905506e-07, "loss": 0.0021, "step": 19180 }, { "epoch": 399.7916666666667, "grad_norm": 0.0376141183078289, "learning_rate": 4.4887289174480594e-07, "loss": 0.0025, "step": 19190 }, { "epoch": 400.0, "grad_norm": 0.022444048896431923, "learning_rate": 4.378876097884621e-07, "loss": 0.0025, "step": 19200 }, { "epoch": 400.2083333333333, "grad_norm": 0.03713817894458771, "learning_rate": 4.2703782875487264e-07, "loss": 0.0023, "step": 19210 }, { "epoch": 400.4166666666667, "grad_norm": 0.043583355844020844, "learning_rate": 4.163235783069208e-07, "loss": 0.0022, "step": 19220 }, { "epoch": 400.625, "grad_norm": 0.029123913496732712, "learning_rate": 4.057448877369585e-07, "loss": 0.0019, "step": 19230 }, { "epoch": 400.8333333333333, "grad_norm": 0.03594908118247986, "learning_rate": 3.9530178596672295e-07, "loss": 0.0024, "step": 19240 }, { "epoch": 401.0416666666667, "grad_norm": 0.03663420304656029, "learning_rate": 3.849943015472479e-07, "loss": 0.002, "step": 19250 }, { "epoch": 401.25, "grad_norm": 0.043277088552713394, "learning_rate": 3.748224626588137e-07, "loss": 0.0025, "step": 19260 }, { "epoch": 401.4583333333333, "grad_norm": 0.0323638953268528, "learning_rate": 3.647862971108307e-07, "loss": 0.0023, "step": 19270 }, { "epoch": 401.6666666666667, "grad_norm": 0.03618833050131798, "learning_rate": 3.5488583234179473e-07, "loss": 0.0023, "step": 19280 }, { "epoch": 401.875, "grad_norm": 0.028808696195483208, "learning_rate": 3.4512109541920413e-07, "loss": 0.0019, "step": 19290 }, { "epoch": 402.0833333333333, "grad_norm": 0.029727797955274582, "learning_rate": 3.354921130394706e-07, "loss": 0.0024, "step": 19300 }, { "epoch": 402.2916666666667, "grad_norm": 0.042544227093458176, "learning_rate": 3.259989115278639e-07, "loss": 0.0022, "step": 19310 }, { "epoch": 402.5, "grad_norm": 0.04080936312675476, "learning_rate": 3.1664151683843403e-07, "loss": 0.0025, "step": 19320 }, { "epoch": 402.7083333333333, "grad_norm": 0.03800532594323158, "learning_rate": 3.074199545539447e-07, "loss": 0.0025, "step": 19330 }, { "epoch": 402.9166666666667, "grad_norm": 0.03367067128419876, "learning_rate": 2.983342498857955e-07, "loss": 0.0024, "step": 19340 }, { "epoch": 403.125, "grad_norm": 0.027799447998404503, "learning_rate": 2.893844276739499e-07, "loss": 0.0017, "step": 19350 }, { "epoch": 403.3333333333333, "grad_norm": 0.05468932166695595, "learning_rate": 2.8057051238688514e-07, "loss": 0.0026, "step": 19360 }, { "epoch": 403.5416666666667, "grad_norm": 0.03317876532673836, "learning_rate": 2.71892528121509e-07, "loss": 0.0022, "step": 19370 }, { "epoch": 403.75, "grad_norm": 0.030584169551730156, "learning_rate": 2.633504986030988e-07, "loss": 0.0023, "step": 19380 }, { "epoch": 403.9583333333333, "grad_norm": 0.03608851879835129, "learning_rate": 2.549444471852347e-07, "loss": 0.0023, "step": 19390 }, { "epoch": 404.1666666666667, "grad_norm": 0.04443041980266571, "learning_rate": 2.4667439684974423e-07, "loss": 0.0026, "step": 19400 }, { "epoch": 404.375, "grad_norm": 0.03110492415726185, "learning_rate": 2.3854037020662467e-07, "loss": 0.0025, "step": 19410 }, { "epoch": 404.5833333333333, "grad_norm": 0.02544378861784935, "learning_rate": 2.3054238949399288e-07, "loss": 0.0022, "step": 19420 }, { "epoch": 404.7916666666667, "grad_norm": 0.03453519940376282, "learning_rate": 2.2268047657802993e-07, "loss": 0.002, "step": 19430 }, { "epoch": 405.0, "grad_norm": 0.04696349427103996, "learning_rate": 2.149546529529034e-07, "loss": 0.0022, "step": 19440 }, { "epoch": 405.2083333333333, "grad_norm": 0.031163934618234634, "learning_rate": 2.0736493974071736e-07, "loss": 0.0021, "step": 19450 }, { "epoch": 405.4166666666667, "grad_norm": 0.02757657691836357, "learning_rate": 1.9991135769145686e-07, "loss": 0.0022, "step": 19460 }, { "epoch": 405.625, "grad_norm": 0.033655859529972076, "learning_rate": 1.9259392718293245e-07, "loss": 0.0018, "step": 19470 }, { "epoch": 405.8333333333333, "grad_norm": 0.03624411299824715, "learning_rate": 1.8541266822072467e-07, "loss": 0.002, "step": 19480 }, { "epoch": 406.0416666666667, "grad_norm": 0.028986508026719093, "learning_rate": 1.7836760043811184e-07, "loss": 0.0017, "step": 19490 }, { "epoch": 406.25, "grad_norm": 0.03074164316058159, "learning_rate": 1.7145874309604792e-07, "loss": 0.0022, "step": 19500 }, { "epoch": 406.4583333333333, "grad_norm": 0.036166321486234665, "learning_rate": 1.6468611508308474e-07, "loss": 0.0025, "step": 19510 }, { "epoch": 406.6666666666667, "grad_norm": 0.03383767604827881, "learning_rate": 1.5804973491532204e-07, "loss": 0.0024, "step": 19520 }, { "epoch": 406.875, "grad_norm": 0.026431892067193985, "learning_rate": 1.5154962073637424e-07, "loss": 0.0023, "step": 19530 }, { "epoch": 407.0833333333333, "grad_norm": 0.028430840000510216, "learning_rate": 1.4518579031730372e-07, "loss": 0.0019, "step": 19540 }, { "epoch": 407.2916666666667, "grad_norm": 0.02700425125658512, "learning_rate": 1.389582610565876e-07, "loss": 0.0022, "step": 19550 }, { "epoch": 407.5, "grad_norm": 0.027069712057709694, "learning_rate": 1.3286704998003995e-07, "loss": 0.0017, "step": 19560 }, { "epoch": 407.7083333333333, "grad_norm": 0.026499491184949875, "learning_rate": 1.2691217374080632e-07, "loss": 0.0016, "step": 19570 }, { "epoch": 407.9166666666667, "grad_norm": 0.03666827082633972, "learning_rate": 1.2109364861929705e-07, "loss": 0.0021, "step": 19580 }, { "epoch": 408.125, "grad_norm": 0.03833390772342682, "learning_rate": 1.1541149052312628e-07, "loss": 0.0023, "step": 19590 }, { "epoch": 408.3333333333333, "grad_norm": 0.02623102255165577, "learning_rate": 1.0986571498710074e-07, "loss": 0.0021, "step": 19600 }, { "epoch": 408.5416666666667, "grad_norm": 0.031359851360321045, "learning_rate": 1.0445633717316438e-07, "loss": 0.0021, "step": 19610 }, { "epoch": 408.75, "grad_norm": 0.03923841565847397, "learning_rate": 9.918337187034277e-08, "loss": 0.0023, "step": 19620 }, { "epoch": 408.9583333333333, "grad_norm": 0.02967957593500614, "learning_rate": 9.404683349472643e-08, "loss": 0.002, "step": 19630 }, { "epoch": 409.1666666666667, "grad_norm": 0.04307668283581734, "learning_rate": 8.904673608940983e-08, "loss": 0.0022, "step": 19640 }, { "epoch": 409.375, "grad_norm": 0.030880721285939217, "learning_rate": 8.418309332447471e-08, "loss": 0.0027, "step": 19650 }, { "epoch": 409.5833333333333, "grad_norm": 0.03873138129711151, "learning_rate": 7.945591849692902e-08, "loss": 0.0019, "step": 19660 }, { "epoch": 409.7916666666667, "grad_norm": 0.03836046904325485, "learning_rate": 7.486522453069578e-08, "loss": 0.0026, "step": 19670 }, { "epoch": 410.0, "grad_norm": 0.05250455066561699, "learning_rate": 7.041102397655208e-08, "loss": 0.0027, "step": 19680 }, { "epoch": 410.2083333333333, "grad_norm": 0.03501856327056885, "learning_rate": 6.609332901210685e-08, "loss": 0.0025, "step": 19690 }, { "epoch": 410.4166666666667, "grad_norm": 0.0385134220123291, "learning_rate": 6.191215144178419e-08, "loss": 0.0023, "step": 19700 }, { "epoch": 410.625, "grad_norm": 0.0354873426258564, "learning_rate": 5.786750269675678e-08, "loss": 0.0022, "step": 19710 }, { "epoch": 410.8333333333333, "grad_norm": 0.03622839227318764, "learning_rate": 5.395939383494031e-08, "loss": 0.0023, "step": 19720 }, { "epoch": 411.0416666666667, "grad_norm": 0.03686443343758583, "learning_rate": 5.018783554095463e-08, "loss": 0.0018, "step": 19730 }, { "epoch": 411.25, "grad_norm": 0.02922217547893524, "learning_rate": 4.655283812610156e-08, "loss": 0.0024, "step": 19740 }, { "epoch": 411.4583333333333, "grad_norm": 0.03318090736865997, "learning_rate": 4.305441152831491e-08, "loss": 0.0024, "step": 19750 }, { "epoch": 411.6666666666667, "grad_norm": 0.02171194925904274, "learning_rate": 3.9692565312171584e-08, "loss": 0.0021, "step": 19760 }, { "epoch": 411.875, "grad_norm": 0.026762375608086586, "learning_rate": 3.6467308668824975e-08, "loss": 0.0023, "step": 19770 }, { "epoch": 412.0833333333333, "grad_norm": 0.027004165574908257, "learning_rate": 3.3378650416004964e-08, "loss": 0.0021, "step": 19780 }, { "epoch": 412.2916666666667, "grad_norm": 0.021965159103274345, "learning_rate": 3.042659899797906e-08, "loss": 0.0019, "step": 19790 }, { "epoch": 412.5, "grad_norm": 0.02534130960702896, "learning_rate": 2.76111624855524e-08, "loss": 0.0023, "step": 19800 }, { "epoch": 412.7083333333333, "grad_norm": 0.03912100940942764, "learning_rate": 2.4932348576017784e-08, "loss": 0.0017, "step": 19810 }, { "epoch": 412.9166666666667, "grad_norm": 0.034938447177410126, "learning_rate": 2.239016459314458e-08, "loss": 0.0023, "step": 19820 }, { "epoch": 413.125, "grad_norm": 0.04029494896531105, "learning_rate": 1.9984617487173174e-08, "loss": 0.0021, "step": 19830 }, { "epoch": 413.3333333333333, "grad_norm": 0.03153638169169426, "learning_rate": 1.7715713834776105e-08, "loss": 0.0024, "step": 19840 }, { "epoch": 413.5416666666667, "grad_norm": 0.03406175971031189, "learning_rate": 1.5583459839046964e-08, "loss": 0.0023, "step": 19850 }, { "epoch": 413.75, "grad_norm": 0.02551075629889965, "learning_rate": 1.3587861329489304e-08, "loss": 0.002, "step": 19860 }, { "epoch": 413.9583333333333, "grad_norm": 0.03695292770862579, "learning_rate": 1.1728923761994415e-08, "loss": 0.002, "step": 19870 }, { "epoch": 414.1666666666667, "grad_norm": 0.034140344709157944, "learning_rate": 1.0006652218819135e-08, "loss": 0.0016, "step": 19880 }, { "epoch": 414.375, "grad_norm": 0.028377609327435493, "learning_rate": 8.421051408596947e-09, "loss": 0.0023, "step": 19890 }, { "epoch": 414.5833333333333, "grad_norm": 0.031116917729377747, "learning_rate": 6.972125666299123e-09, "loss": 0.0027, "step": 19900 }, { "epoch": 414.7916666666667, "grad_norm": 0.032290324568748474, "learning_rate": 5.659878953229169e-09, "loss": 0.0022, "step": 19910 }, { "epoch": 415.0, "grad_norm": 0.09553946554660797, "learning_rate": 4.48431485701728e-09, "loss": 0.0019, "step": 19920 }, { "epoch": 415.2083333333333, "grad_norm": 0.03037126734852791, "learning_rate": 3.4454365916203322e-09, "loss": 0.0022, "step": 19930 }, { "epoch": 415.4166666666667, "grad_norm": 0.045324359089136124, "learning_rate": 2.5432469972830332e-09, "loss": 0.0023, "step": 19940 }, { "epoch": 415.625, "grad_norm": 0.026113033294677734, "learning_rate": 1.7777485405601203e-09, "loss": 0.0018, "step": 19950 }, { "epoch": 415.8333333333333, "grad_norm": 0.04240957647562027, "learning_rate": 1.1489433142941597e-09, "loss": 0.0023, "step": 19960 }, { "epoch": 416.0416666666667, "grad_norm": 0.03473423793911934, "learning_rate": 6.568330376210963e-10, "loss": 0.0022, "step": 19970 }, { "epoch": 416.25, "grad_norm": 0.03003408946096897, "learning_rate": 3.0141905594249787e-10, "loss": 0.002, "step": 19980 }, { "epoch": 416.4583333333333, "grad_norm": 0.033858392387628555, "learning_rate": 8.270234094776008e-11, "loss": 0.0023, "step": 19990 }, { "epoch": 416.6666666666667, "grad_norm": 0.030017733573913574, "learning_rate": 6.834906085551041e-13, "loss": 0.002, "step": 20000 } ], "logging_steps": 10, "max_steps": 20000, "num_input_tokens_seen": 0, "num_train_epochs": 417, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 512, "trial_name": null, "trial_params": null }