bobo_groot_n1 / trainer_state.json
ibru's picture
Upload folder using huggingface_hub
ac37205 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 20.833333333333332,
"eval_steps": 500,
"global_step": 10000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.020833333333333332,
"grad_norm": 0.5712802410125732,
"learning_rate": 2.0000000000000003e-06,
"loss": 1.2353,
"step": 10
},
{
"epoch": 0.041666666666666664,
"grad_norm": 0.4432624280452728,
"learning_rate": 4.000000000000001e-06,
"loss": 1.3046,
"step": 20
},
{
"epoch": 0.0625,
"grad_norm": 0.40406811237335205,
"learning_rate": 6e-06,
"loss": 1.3525,
"step": 30
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.5075733661651611,
"learning_rate": 8.000000000000001e-06,
"loss": 1.2482,
"step": 40
},
{
"epoch": 0.10416666666666667,
"grad_norm": 0.543536365032196,
"learning_rate": 1e-05,
"loss": 1.1572,
"step": 50
},
{
"epoch": 0.125,
"grad_norm": 0.49635010957717896,
"learning_rate": 1.2e-05,
"loss": 1.2206,
"step": 60
},
{
"epoch": 0.14583333333333334,
"grad_norm": 0.5479629039764404,
"learning_rate": 1.4000000000000001e-05,
"loss": 0.9868,
"step": 70
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.4761858284473419,
"learning_rate": 1.6000000000000003e-05,
"loss": 0.9651,
"step": 80
},
{
"epoch": 0.1875,
"grad_norm": 0.5013508796691895,
"learning_rate": 1.8e-05,
"loss": 0.7967,
"step": 90
},
{
"epoch": 0.20833333333333334,
"grad_norm": 0.5219478011131287,
"learning_rate": 2e-05,
"loss": 0.6818,
"step": 100
},
{
"epoch": 0.22916666666666666,
"grad_norm": 0.38396820425987244,
"learning_rate": 2.2000000000000003e-05,
"loss": 0.5786,
"step": 110
},
{
"epoch": 0.25,
"grad_norm": 0.4274996519088745,
"learning_rate": 2.4e-05,
"loss": 0.4518,
"step": 120
},
{
"epoch": 0.2708333333333333,
"grad_norm": 0.3955512046813965,
"learning_rate": 2.6000000000000002e-05,
"loss": 0.4033,
"step": 130
},
{
"epoch": 0.2916666666666667,
"grad_norm": 0.3096176087856293,
"learning_rate": 2.8000000000000003e-05,
"loss": 0.3677,
"step": 140
},
{
"epoch": 0.3125,
"grad_norm": 0.30808889865875244,
"learning_rate": 3e-05,
"loss": 0.3219,
"step": 150
},
{
"epoch": 0.3333333333333333,
"grad_norm": 0.2835131287574768,
"learning_rate": 3.2000000000000005e-05,
"loss": 0.3306,
"step": 160
},
{
"epoch": 0.3541666666666667,
"grad_norm": 0.39547616243362427,
"learning_rate": 3.4000000000000007e-05,
"loss": 0.3294,
"step": 170
},
{
"epoch": 0.375,
"grad_norm": 0.3801705539226532,
"learning_rate": 3.6e-05,
"loss": 0.3112,
"step": 180
},
{
"epoch": 0.3958333333333333,
"grad_norm": 0.3237359821796417,
"learning_rate": 3.8e-05,
"loss": 0.2771,
"step": 190
},
{
"epoch": 0.4166666666666667,
"grad_norm": 0.32737982273101807,
"learning_rate": 4e-05,
"loss": 0.2887,
"step": 200
},
{
"epoch": 0.4375,
"grad_norm": 0.2855188846588135,
"learning_rate": 4.2e-05,
"loss": 0.2602,
"step": 210
},
{
"epoch": 0.4583333333333333,
"grad_norm": 0.3789673447608948,
"learning_rate": 4.4000000000000006e-05,
"loss": 0.2551,
"step": 220
},
{
"epoch": 0.4791666666666667,
"grad_norm": 0.3325900137424469,
"learning_rate": 4.600000000000001e-05,
"loss": 0.2406,
"step": 230
},
{
"epoch": 0.5,
"grad_norm": 0.3865416944026947,
"learning_rate": 4.8e-05,
"loss": 0.2361,
"step": 240
},
{
"epoch": 0.5208333333333334,
"grad_norm": 0.33023643493652344,
"learning_rate": 5e-05,
"loss": 0.2349,
"step": 250
},
{
"epoch": 0.5416666666666666,
"grad_norm": 0.35536086559295654,
"learning_rate": 5.2000000000000004e-05,
"loss": 0.2205,
"step": 260
},
{
"epoch": 0.5625,
"grad_norm": 0.4194355905056,
"learning_rate": 5.4000000000000005e-05,
"loss": 0.2352,
"step": 270
},
{
"epoch": 0.5833333333333334,
"grad_norm": 0.4418402314186096,
"learning_rate": 5.6000000000000006e-05,
"loss": 0.1984,
"step": 280
},
{
"epoch": 0.6041666666666666,
"grad_norm": 0.6294600367546082,
"learning_rate": 5.8e-05,
"loss": 0.2294,
"step": 290
},
{
"epoch": 0.625,
"grad_norm": 0.38821548223495483,
"learning_rate": 6e-05,
"loss": 0.2027,
"step": 300
},
{
"epoch": 0.6458333333333334,
"grad_norm": 0.34604135155677795,
"learning_rate": 6.2e-05,
"loss": 0.2091,
"step": 310
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.34750574827194214,
"learning_rate": 6.400000000000001e-05,
"loss": 0.1956,
"step": 320
},
{
"epoch": 0.6875,
"grad_norm": 0.36665627360343933,
"learning_rate": 6.6e-05,
"loss": 0.1946,
"step": 330
},
{
"epoch": 0.7083333333333334,
"grad_norm": 0.2869899570941925,
"learning_rate": 6.800000000000001e-05,
"loss": 0.1686,
"step": 340
},
{
"epoch": 0.7291666666666666,
"grad_norm": 0.2892889976501465,
"learning_rate": 7e-05,
"loss": 0.1807,
"step": 350
},
{
"epoch": 0.75,
"grad_norm": 0.43622446060180664,
"learning_rate": 7.2e-05,
"loss": 0.1788,
"step": 360
},
{
"epoch": 0.7708333333333334,
"grad_norm": 0.3504660427570343,
"learning_rate": 7.4e-05,
"loss": 0.1614,
"step": 370
},
{
"epoch": 0.7916666666666666,
"grad_norm": 0.49165523052215576,
"learning_rate": 7.6e-05,
"loss": 0.1664,
"step": 380
},
{
"epoch": 0.8125,
"grad_norm": 0.524911105632782,
"learning_rate": 7.800000000000001e-05,
"loss": 0.1643,
"step": 390
},
{
"epoch": 0.8333333333333334,
"grad_norm": 0.3354795277118683,
"learning_rate": 8e-05,
"loss": 0.1559,
"step": 400
},
{
"epoch": 0.8541666666666666,
"grad_norm": 0.36271512508392334,
"learning_rate": 8.2e-05,
"loss": 0.1603,
"step": 410
},
{
"epoch": 0.875,
"grad_norm": 0.3612838387489319,
"learning_rate": 8.4e-05,
"loss": 0.1604,
"step": 420
},
{
"epoch": 0.8958333333333334,
"grad_norm": 0.3812621831893921,
"learning_rate": 8.6e-05,
"loss": 0.1513,
"step": 430
},
{
"epoch": 0.9166666666666666,
"grad_norm": 0.4501417577266693,
"learning_rate": 8.800000000000001e-05,
"loss": 0.1506,
"step": 440
},
{
"epoch": 0.9375,
"grad_norm": 0.3173256516456604,
"learning_rate": 9e-05,
"loss": 0.1503,
"step": 450
},
{
"epoch": 0.9583333333333334,
"grad_norm": 0.36029666662216187,
"learning_rate": 9.200000000000001e-05,
"loss": 0.156,
"step": 460
},
{
"epoch": 0.9791666666666666,
"grad_norm": 0.39666202664375305,
"learning_rate": 9.4e-05,
"loss": 0.1519,
"step": 470
},
{
"epoch": 1.0,
"grad_norm": 0.5281791687011719,
"learning_rate": 9.6e-05,
"loss": 0.1446,
"step": 480
},
{
"epoch": 1.0208333333333333,
"grad_norm": 0.3308173418045044,
"learning_rate": 9.8e-05,
"loss": 0.1366,
"step": 490
},
{
"epoch": 1.0416666666666667,
"grad_norm": 0.30894652009010315,
"learning_rate": 0.0001,
"loss": 0.1328,
"step": 500
},
{
"epoch": 1.0625,
"grad_norm": 0.4123728275299072,
"learning_rate": 9.999972660400536e-05,
"loss": 0.1373,
"step": 510
},
{
"epoch": 1.0833333333333333,
"grad_norm": 0.26810720562934875,
"learning_rate": 9.999890641901125e-05,
"loss": 0.1228,
"step": 520
},
{
"epoch": 1.1041666666666667,
"grad_norm": 0.42416492104530334,
"learning_rate": 9.999753945398704e-05,
"loss": 0.1402,
"step": 530
},
{
"epoch": 1.125,
"grad_norm": 0.3639088273048401,
"learning_rate": 9.99956257238817e-05,
"loss": 0.1249,
"step": 540
},
{
"epoch": 1.1458333333333333,
"grad_norm": 0.2935086190700531,
"learning_rate": 9.999316524962345e-05,
"loss": 0.1342,
"step": 550
},
{
"epoch": 1.1666666666666667,
"grad_norm": 0.29809266328811646,
"learning_rate": 9.999015805811965e-05,
"loss": 0.1193,
"step": 560
},
{
"epoch": 1.1875,
"grad_norm": 0.3292215168476105,
"learning_rate": 9.998660418225645e-05,
"loss": 0.1066,
"step": 570
},
{
"epoch": 1.2083333333333333,
"grad_norm": 0.3413059413433075,
"learning_rate": 9.998250366089848e-05,
"loss": 0.1219,
"step": 580
},
{
"epoch": 1.2291666666666667,
"grad_norm": 0.3150234818458557,
"learning_rate": 9.997785653888835e-05,
"loss": 0.1226,
"step": 590
},
{
"epoch": 1.25,
"grad_norm": 0.3413054645061493,
"learning_rate": 9.997266286704631e-05,
"loss": 0.1202,
"step": 600
},
{
"epoch": 1.2708333333333333,
"grad_norm": 0.412722647190094,
"learning_rate": 9.996692270216947e-05,
"loss": 0.1222,
"step": 610
},
{
"epoch": 1.2916666666666667,
"grad_norm": 0.2636623978614807,
"learning_rate": 9.996063610703137e-05,
"loss": 0.1123,
"step": 620
},
{
"epoch": 1.3125,
"grad_norm": 0.3020671606063843,
"learning_rate": 9.995380315038119e-05,
"loss": 0.1128,
"step": 630
},
{
"epoch": 1.3333333333333333,
"grad_norm": 0.3055395483970642,
"learning_rate": 9.994642390694308e-05,
"loss": 0.1091,
"step": 640
},
{
"epoch": 1.3541666666666667,
"grad_norm": 0.3779659569263458,
"learning_rate": 9.993849845741524e-05,
"loss": 0.1208,
"step": 650
},
{
"epoch": 1.375,
"grad_norm": 0.4711195230484009,
"learning_rate": 9.993002688846913e-05,
"loss": 0.1165,
"step": 660
},
{
"epoch": 1.3958333333333333,
"grad_norm": 0.256693571805954,
"learning_rate": 9.992100929274846e-05,
"loss": 0.1185,
"step": 670
},
{
"epoch": 1.4166666666666667,
"grad_norm": 0.38072532415390015,
"learning_rate": 9.991144576886823e-05,
"loss": 0.1142,
"step": 680
},
{
"epoch": 1.4375,
"grad_norm": 0.31933581829071045,
"learning_rate": 9.990133642141359e-05,
"loss": 0.1083,
"step": 690
},
{
"epoch": 1.4583333333333333,
"grad_norm": 0.3114969730377197,
"learning_rate": 9.989068136093873e-05,
"loss": 0.1075,
"step": 700
},
{
"epoch": 1.4791666666666667,
"grad_norm": 0.3455674648284912,
"learning_rate": 9.987948070396571e-05,
"loss": 0.1189,
"step": 710
},
{
"epoch": 1.5,
"grad_norm": 0.33146438002586365,
"learning_rate": 9.986773457298311e-05,
"loss": 0.1054,
"step": 720
},
{
"epoch": 1.5208333333333335,
"grad_norm": 0.3065161108970642,
"learning_rate": 9.985544309644475e-05,
"loss": 0.1032,
"step": 730
},
{
"epoch": 1.5416666666666665,
"grad_norm": 0.38725510239601135,
"learning_rate": 9.984260640876821e-05,
"loss": 0.097,
"step": 740
},
{
"epoch": 1.5625,
"grad_norm": 0.32791706919670105,
"learning_rate": 9.98292246503335e-05,
"loss": 0.1008,
"step": 750
},
{
"epoch": 1.5833333333333335,
"grad_norm": 0.34981703758239746,
"learning_rate": 9.981529796748134e-05,
"loss": 0.0956,
"step": 760
},
{
"epoch": 1.6041666666666665,
"grad_norm": 0.3093942701816559,
"learning_rate": 9.980082651251175e-05,
"loss": 0.1054,
"step": 770
},
{
"epoch": 1.625,
"grad_norm": 0.30290845036506653,
"learning_rate": 9.97858104436822e-05,
"loss": 0.1079,
"step": 780
},
{
"epoch": 1.6458333333333335,
"grad_norm": 0.3575012981891632,
"learning_rate": 9.977024992520602e-05,
"loss": 0.1037,
"step": 790
},
{
"epoch": 1.6666666666666665,
"grad_norm": 0.2697035074234009,
"learning_rate": 9.975414512725057e-05,
"loss": 0.0998,
"step": 800
},
{
"epoch": 1.6875,
"grad_norm": 0.3098699152469635,
"learning_rate": 9.973749622593534e-05,
"loss": 0.102,
"step": 810
},
{
"epoch": 1.7083333333333335,
"grad_norm": 0.43280744552612305,
"learning_rate": 9.972030340333001e-05,
"loss": 0.1022,
"step": 820
},
{
"epoch": 1.7291666666666665,
"grad_norm": 0.4108767807483673,
"learning_rate": 9.970256684745258e-05,
"loss": 0.101,
"step": 830
},
{
"epoch": 1.75,
"grad_norm": 0.34355419874191284,
"learning_rate": 9.968428675226714e-05,
"loss": 0.0943,
"step": 840
},
{
"epoch": 1.7708333333333335,
"grad_norm": 0.33007073402404785,
"learning_rate": 9.966546331768191e-05,
"loss": 0.1124,
"step": 850
},
{
"epoch": 1.7916666666666665,
"grad_norm": 0.2797167897224426,
"learning_rate": 9.964609674954696e-05,
"loss": 0.0945,
"step": 860
},
{
"epoch": 1.8125,
"grad_norm": 0.3793611526489258,
"learning_rate": 9.962618725965196e-05,
"loss": 0.093,
"step": 870
},
{
"epoch": 1.8333333333333335,
"grad_norm": 0.35163822770118713,
"learning_rate": 9.96057350657239e-05,
"loss": 0.0967,
"step": 880
},
{
"epoch": 1.8541666666666665,
"grad_norm": 0.28550562262535095,
"learning_rate": 9.95847403914247e-05,
"loss": 0.0961,
"step": 890
},
{
"epoch": 1.875,
"grad_norm": 0.2862968146800995,
"learning_rate": 9.956320346634876e-05,
"loss": 0.1006,
"step": 900
},
{
"epoch": 1.8958333333333335,
"grad_norm": 0.29589930176734924,
"learning_rate": 9.954112452602045e-05,
"loss": 0.0844,
"step": 910
},
{
"epoch": 1.9166666666666665,
"grad_norm": 0.35761862993240356,
"learning_rate": 9.95185038118915e-05,
"loss": 0.089,
"step": 920
},
{
"epoch": 1.9375,
"grad_norm": 0.21639415621757507,
"learning_rate": 9.949534157133844e-05,
"loss": 0.0873,
"step": 930
},
{
"epoch": 1.9583333333333335,
"grad_norm": 0.22971071302890778,
"learning_rate": 9.94716380576598e-05,
"loss": 0.0859,
"step": 940
},
{
"epoch": 1.9791666666666665,
"grad_norm": 0.42926573753356934,
"learning_rate": 9.944739353007344e-05,
"loss": 0.0901,
"step": 950
},
{
"epoch": 2.0,
"grad_norm": 0.38621583580970764,
"learning_rate": 9.942260825371358e-05,
"loss": 0.0852,
"step": 960
},
{
"epoch": 2.0208333333333335,
"grad_norm": 0.18208271265029907,
"learning_rate": 9.939728249962807e-05,
"loss": 0.0866,
"step": 970
},
{
"epoch": 2.0416666666666665,
"grad_norm": 0.4486900568008423,
"learning_rate": 9.937141654477528e-05,
"loss": 0.0962,
"step": 980
},
{
"epoch": 2.0625,
"grad_norm": 0.37927910685539246,
"learning_rate": 9.934501067202117e-05,
"loss": 0.0907,
"step": 990
},
{
"epoch": 2.0833333333333335,
"grad_norm": 0.3539460301399231,
"learning_rate": 9.931806517013612e-05,
"loss": 0.0881,
"step": 1000
},
{
"epoch": 2.1041666666666665,
"grad_norm": 0.2473289519548416,
"learning_rate": 9.929058033379181e-05,
"loss": 0.0819,
"step": 1010
},
{
"epoch": 2.125,
"grad_norm": 0.322482168674469,
"learning_rate": 9.926255646355804e-05,
"loss": 0.0806,
"step": 1020
},
{
"epoch": 2.1458333333333335,
"grad_norm": 0.28534042835235596,
"learning_rate": 9.923399386589933e-05,
"loss": 0.0865,
"step": 1030
},
{
"epoch": 2.1666666666666665,
"grad_norm": 0.3318226635456085,
"learning_rate": 9.92048928531717e-05,
"loss": 0.0913,
"step": 1040
},
{
"epoch": 2.1875,
"grad_norm": 0.29245731234550476,
"learning_rate": 9.917525374361912e-05,
"loss": 0.0807,
"step": 1050
},
{
"epoch": 2.2083333333333335,
"grad_norm": 0.3240273892879486,
"learning_rate": 9.914507686137019e-05,
"loss": 0.0901,
"step": 1060
},
{
"epoch": 2.2291666666666665,
"grad_norm": 0.2937006950378418,
"learning_rate": 9.911436253643445e-05,
"loss": 0.0929,
"step": 1070
},
{
"epoch": 2.25,
"grad_norm": 0.19473260641098022,
"learning_rate": 9.90831111046988e-05,
"loss": 0.0877,
"step": 1080
},
{
"epoch": 2.2708333333333335,
"grad_norm": 0.23158523440361023,
"learning_rate": 9.905132290792394e-05,
"loss": 0.0785,
"step": 1090
},
{
"epoch": 2.2916666666666665,
"grad_norm": 0.39173424243927,
"learning_rate": 9.901899829374047e-05,
"loss": 0.0799,
"step": 1100
},
{
"epoch": 2.3125,
"grad_norm": 0.2652515172958374,
"learning_rate": 9.89861376156452e-05,
"loss": 0.0873,
"step": 1110
},
{
"epoch": 2.3333333333333335,
"grad_norm": 0.2860721945762634,
"learning_rate": 9.895274123299723e-05,
"loss": 0.085,
"step": 1120
},
{
"epoch": 2.3541666666666665,
"grad_norm": 0.2780362367630005,
"learning_rate": 9.891880951101407e-05,
"loss": 0.0888,
"step": 1130
},
{
"epoch": 2.375,
"grad_norm": 0.16782543063163757,
"learning_rate": 9.888434282076758e-05,
"loss": 0.0838,
"step": 1140
},
{
"epoch": 2.3958333333333335,
"grad_norm": 0.2574249505996704,
"learning_rate": 9.884934153917997e-05,
"loss": 0.0911,
"step": 1150
},
{
"epoch": 2.4166666666666665,
"grad_norm": 0.43154850602149963,
"learning_rate": 9.881380604901964e-05,
"loss": 0.0853,
"step": 1160
},
{
"epoch": 2.4375,
"grad_norm": 0.36470529437065125,
"learning_rate": 9.877773673889701e-05,
"loss": 0.0795,
"step": 1170
},
{
"epoch": 2.4583333333333335,
"grad_norm": 0.37350448966026306,
"learning_rate": 9.87411340032603e-05,
"loss": 0.0826,
"step": 1180
},
{
"epoch": 2.4791666666666665,
"grad_norm": 0.21771150827407837,
"learning_rate": 9.870399824239117e-05,
"loss": 0.0769,
"step": 1190
},
{
"epoch": 2.5,
"grad_norm": 0.30865246057510376,
"learning_rate": 9.86663298624003e-05,
"loss": 0.0835,
"step": 1200
},
{
"epoch": 2.5208333333333335,
"grad_norm": 0.252465158700943,
"learning_rate": 9.862812927522309e-05,
"loss": 0.0857,
"step": 1210
},
{
"epoch": 2.5416666666666665,
"grad_norm": 0.2315169870853424,
"learning_rate": 9.858939689861506e-05,
"loss": 0.0777,
"step": 1220
},
{
"epoch": 2.5625,
"grad_norm": 0.31083425879478455,
"learning_rate": 9.855013315614725e-05,
"loss": 0.0957,
"step": 1230
},
{
"epoch": 2.5833333333333335,
"grad_norm": 0.2780759036540985,
"learning_rate": 9.851033847720166e-05,
"loss": 0.077,
"step": 1240
},
{
"epoch": 2.6041666666666665,
"grad_norm": 0.20363084971904755,
"learning_rate": 9.847001329696653e-05,
"loss": 0.0836,
"step": 1250
},
{
"epoch": 2.625,
"grad_norm": 0.2512096166610718,
"learning_rate": 9.842915805643155e-05,
"loss": 0.0735,
"step": 1260
},
{
"epoch": 2.6458333333333335,
"grad_norm": 0.23748940229415894,
"learning_rate": 9.838777320238312e-05,
"loss": 0.0825,
"step": 1270
},
{
"epoch": 2.6666666666666665,
"grad_norm": 0.253743439912796,
"learning_rate": 9.834585918739936e-05,
"loss": 0.0807,
"step": 1280
},
{
"epoch": 2.6875,
"grad_norm": 0.28816473484039307,
"learning_rate": 9.830341646984521e-05,
"loss": 0.0879,
"step": 1290
},
{
"epoch": 2.7083333333333335,
"grad_norm": 0.19456538558006287,
"learning_rate": 9.826044551386744e-05,
"loss": 0.0757,
"step": 1300
},
{
"epoch": 2.7291666666666665,
"grad_norm": 0.3038620054721832,
"learning_rate": 9.821694678938953e-05,
"loss": 0.079,
"step": 1310
},
{
"epoch": 2.75,
"grad_norm": 0.2352106273174286,
"learning_rate": 9.817292077210659e-05,
"loss": 0.0823,
"step": 1320
},
{
"epoch": 2.7708333333333335,
"grad_norm": 0.26719608902931213,
"learning_rate": 9.812836794348004e-05,
"loss": 0.0714,
"step": 1330
},
{
"epoch": 2.7916666666666665,
"grad_norm": 0.34651756286621094,
"learning_rate": 9.808328879073251e-05,
"loss": 0.0777,
"step": 1340
},
{
"epoch": 2.8125,
"grad_norm": 0.4574543237686157,
"learning_rate": 9.803768380684242e-05,
"loss": 0.0782,
"step": 1350
},
{
"epoch": 2.8333333333333335,
"grad_norm": 0.3922979533672333,
"learning_rate": 9.799155349053851e-05,
"loss": 0.0743,
"step": 1360
},
{
"epoch": 2.8541666666666665,
"grad_norm": 0.5270682573318481,
"learning_rate": 9.794489834629455e-05,
"loss": 0.0792,
"step": 1370
},
{
"epoch": 2.875,
"grad_norm": 0.32153066992759705,
"learning_rate": 9.789771888432375e-05,
"loss": 0.0807,
"step": 1380
},
{
"epoch": 2.8958333333333335,
"grad_norm": 0.22497066855430603,
"learning_rate": 9.785001562057309e-05,
"loss": 0.0725,
"step": 1390
},
{
"epoch": 2.9166666666666665,
"grad_norm": 0.34180617332458496,
"learning_rate": 9.780178907671789e-05,
"loss": 0.0743,
"step": 1400
},
{
"epoch": 2.9375,
"grad_norm": 0.31628838181495667,
"learning_rate": 9.775303978015585e-05,
"loss": 0.072,
"step": 1410
},
{
"epoch": 2.9583333333333335,
"grad_norm": 0.2934205234050751,
"learning_rate": 9.77037682640015e-05,
"loss": 0.0808,
"step": 1420
},
{
"epoch": 2.9791666666666665,
"grad_norm": 0.41258537769317627,
"learning_rate": 9.765397506708023e-05,
"loss": 0.0713,
"step": 1430
},
{
"epoch": 3.0,
"grad_norm": 0.40045008063316345,
"learning_rate": 9.760366073392246e-05,
"loss": 0.0684,
"step": 1440
},
{
"epoch": 3.0208333333333335,
"grad_norm": 0.26449063420295715,
"learning_rate": 9.755282581475769e-05,
"loss": 0.0801,
"step": 1450
},
{
"epoch": 3.0416666666666665,
"grad_norm": 0.37949052453041077,
"learning_rate": 9.750147086550844e-05,
"loss": 0.0738,
"step": 1460
},
{
"epoch": 3.0625,
"grad_norm": 0.3161103129386902,
"learning_rate": 9.744959644778422e-05,
"loss": 0.072,
"step": 1470
},
{
"epoch": 3.0833333333333335,
"grad_norm": 0.20324279367923737,
"learning_rate": 9.739720312887535e-05,
"loss": 0.08,
"step": 1480
},
{
"epoch": 3.1041666666666665,
"grad_norm": 0.29232558608055115,
"learning_rate": 9.734429148174675e-05,
"loss": 0.0644,
"step": 1490
},
{
"epoch": 3.125,
"grad_norm": 0.28713753819465637,
"learning_rate": 9.729086208503174e-05,
"loss": 0.0859,
"step": 1500
},
{
"epoch": 3.1458333333333335,
"grad_norm": 0.25465258955955505,
"learning_rate": 9.723691552302562e-05,
"loss": 0.078,
"step": 1510
},
{
"epoch": 3.1666666666666665,
"grad_norm": 0.20603123307228088,
"learning_rate": 9.718245238567939e-05,
"loss": 0.0731,
"step": 1520
},
{
"epoch": 3.1875,
"grad_norm": 0.3969944417476654,
"learning_rate": 9.712747326859315e-05,
"loss": 0.0797,
"step": 1530
},
{
"epoch": 3.2083333333333335,
"grad_norm": 0.29579344391822815,
"learning_rate": 9.707197877300974e-05,
"loss": 0.082,
"step": 1540
},
{
"epoch": 3.2291666666666665,
"grad_norm": 0.3256957232952118,
"learning_rate": 9.701596950580806e-05,
"loss": 0.0781,
"step": 1550
},
{
"epoch": 3.25,
"grad_norm": 0.2633601725101471,
"learning_rate": 9.695944607949649e-05,
"loss": 0.065,
"step": 1560
},
{
"epoch": 3.2708333333333335,
"grad_norm": 0.17696920037269592,
"learning_rate": 9.690240911220618e-05,
"loss": 0.075,
"step": 1570
},
{
"epoch": 3.2916666666666665,
"grad_norm": 0.3057501018047333,
"learning_rate": 9.684485922768422e-05,
"loss": 0.0704,
"step": 1580
},
{
"epoch": 3.3125,
"grad_norm": 0.25194841623306274,
"learning_rate": 9.6786797055287e-05,
"loss": 0.0736,
"step": 1590
},
{
"epoch": 3.3333333333333335,
"grad_norm": 0.3173382878303528,
"learning_rate": 9.672822322997305e-05,
"loss": 0.0689,
"step": 1600
},
{
"epoch": 3.3541666666666665,
"grad_norm": 0.22837477922439575,
"learning_rate": 9.66691383922964e-05,
"loss": 0.0753,
"step": 1610
},
{
"epoch": 3.375,
"grad_norm": 0.26070430874824524,
"learning_rate": 9.660954318839933e-05,
"loss": 0.069,
"step": 1620
},
{
"epoch": 3.3958333333333335,
"grad_norm": 0.29458069801330566,
"learning_rate": 9.654943827000548e-05,
"loss": 0.0716,
"step": 1630
},
{
"epoch": 3.4166666666666665,
"grad_norm": 0.19707809388637543,
"learning_rate": 9.648882429441257e-05,
"loss": 0.0644,
"step": 1640
},
{
"epoch": 3.4375,
"grad_norm": 0.33838847279548645,
"learning_rate": 9.642770192448536e-05,
"loss": 0.0759,
"step": 1650
},
{
"epoch": 3.4583333333333335,
"grad_norm": 0.2788403034210205,
"learning_rate": 9.636607182864827e-05,
"loss": 0.0682,
"step": 1660
},
{
"epoch": 3.4791666666666665,
"grad_norm": 0.22954313457012177,
"learning_rate": 9.630393468087818e-05,
"loss": 0.0645,
"step": 1670
},
{
"epoch": 3.5,
"grad_norm": 0.24135327339172363,
"learning_rate": 9.624129116069694e-05,
"loss": 0.0744,
"step": 1680
},
{
"epoch": 3.5208333333333335,
"grad_norm": 0.22705936431884766,
"learning_rate": 9.617814195316411e-05,
"loss": 0.0728,
"step": 1690
},
{
"epoch": 3.5416666666666665,
"grad_norm": 0.2939307987689972,
"learning_rate": 9.611448774886924e-05,
"loss": 0.0646,
"step": 1700
},
{
"epoch": 3.5625,
"grad_norm": 0.31456202268600464,
"learning_rate": 9.605032924392457e-05,
"loss": 0.0684,
"step": 1710
},
{
"epoch": 3.5833333333333335,
"grad_norm": 0.23306606709957123,
"learning_rate": 9.598566713995718e-05,
"loss": 0.0704,
"step": 1720
},
{
"epoch": 3.6041666666666665,
"grad_norm": 0.29421374201774597,
"learning_rate": 9.59205021441015e-05,
"loss": 0.0731,
"step": 1730
},
{
"epoch": 3.625,
"grad_norm": 0.27085545659065247,
"learning_rate": 9.58548349689915e-05,
"loss": 0.0738,
"step": 1740
},
{
"epoch": 3.6458333333333335,
"grad_norm": 0.3011757433414459,
"learning_rate": 9.578866633275288e-05,
"loss": 0.0699,
"step": 1750
},
{
"epoch": 3.6666666666666665,
"grad_norm": 0.1997743397951126,
"learning_rate": 9.572199695899522e-05,
"loss": 0.075,
"step": 1760
},
{
"epoch": 3.6875,
"grad_norm": 0.246592178940773,
"learning_rate": 9.565482757680415e-05,
"loss": 0.0705,
"step": 1770
},
{
"epoch": 3.7083333333333335,
"grad_norm": 0.20437225699424744,
"learning_rate": 9.558715892073323e-05,
"loss": 0.0748,
"step": 1780
},
{
"epoch": 3.7291666666666665,
"grad_norm": 0.3391262888908386,
"learning_rate": 9.551899173079607e-05,
"loss": 0.077,
"step": 1790
},
{
"epoch": 3.75,
"grad_norm": 0.281211256980896,
"learning_rate": 9.545032675245813e-05,
"loss": 0.0705,
"step": 1800
},
{
"epoch": 3.7708333333333335,
"grad_norm": 0.3593650758266449,
"learning_rate": 9.538116473662861e-05,
"loss": 0.0668,
"step": 1810
},
{
"epoch": 3.7916666666666665,
"grad_norm": 0.1879791021347046,
"learning_rate": 9.531150643965223e-05,
"loss": 0.0676,
"step": 1820
},
{
"epoch": 3.8125,
"grad_norm": 0.21219395101070404,
"learning_rate": 9.524135262330098e-05,
"loss": 0.0647,
"step": 1830
},
{
"epoch": 3.8333333333333335,
"grad_norm": 0.3183116316795349,
"learning_rate": 9.517070405476575e-05,
"loss": 0.0634,
"step": 1840
},
{
"epoch": 3.8541666666666665,
"grad_norm": 0.28682222962379456,
"learning_rate": 9.509956150664796e-05,
"loss": 0.0646,
"step": 1850
},
{
"epoch": 3.875,
"grad_norm": 0.24012918770313263,
"learning_rate": 9.502792575695112e-05,
"loss": 0.0707,
"step": 1860
},
{
"epoch": 3.8958333333333335,
"grad_norm": 0.30853742361068726,
"learning_rate": 9.49557975890723e-05,
"loss": 0.065,
"step": 1870
},
{
"epoch": 3.9166666666666665,
"grad_norm": 0.195424884557724,
"learning_rate": 9.488317779179361e-05,
"loss": 0.0608,
"step": 1880
},
{
"epoch": 3.9375,
"grad_norm": 0.21382686495780945,
"learning_rate": 9.481006715927351e-05,
"loss": 0.0624,
"step": 1890
},
{
"epoch": 3.9583333333333335,
"grad_norm": 0.3102688789367676,
"learning_rate": 9.473646649103818e-05,
"loss": 0.0709,
"step": 1900
},
{
"epoch": 3.9791666666666665,
"grad_norm": 0.2577802538871765,
"learning_rate": 9.46623765919727e-05,
"loss": 0.0727,
"step": 1910
},
{
"epoch": 4.0,
"grad_norm": 0.3073917031288147,
"learning_rate": 9.458779827231237e-05,
"loss": 0.0702,
"step": 1920
},
{
"epoch": 4.020833333333333,
"grad_norm": 0.26779404282569885,
"learning_rate": 9.451273234763371e-05,
"loss": 0.0659,
"step": 1930
},
{
"epoch": 4.041666666666667,
"grad_norm": 0.24666723608970642,
"learning_rate": 9.443717963884569e-05,
"loss": 0.0741,
"step": 1940
},
{
"epoch": 4.0625,
"grad_norm": 0.2598995864391327,
"learning_rate": 9.43611409721806e-05,
"loss": 0.0639,
"step": 1950
},
{
"epoch": 4.083333333333333,
"grad_norm": 0.2048502266407013,
"learning_rate": 9.428461717918511e-05,
"loss": 0.058,
"step": 1960
},
{
"epoch": 4.104166666666667,
"grad_norm": 0.30026310682296753,
"learning_rate": 9.420760909671118e-05,
"loss": 0.0644,
"step": 1970
},
{
"epoch": 4.125,
"grad_norm": 0.2254793345928192,
"learning_rate": 9.413011756690685e-05,
"loss": 0.0695,
"step": 1980
},
{
"epoch": 4.145833333333333,
"grad_norm": 0.2455112487077713,
"learning_rate": 9.405214343720707e-05,
"loss": 0.0712,
"step": 1990
},
{
"epoch": 4.166666666666667,
"grad_norm": 0.24452751874923706,
"learning_rate": 9.397368756032445e-05,
"loss": 0.0575,
"step": 2000
},
{
"epoch": 4.1875,
"grad_norm": 0.271490216255188,
"learning_rate": 9.389475079423988e-05,
"loss": 0.0576,
"step": 2010
},
{
"epoch": 4.208333333333333,
"grad_norm": 0.20718179643154144,
"learning_rate": 9.381533400219318e-05,
"loss": 0.0598,
"step": 2020
},
{
"epoch": 4.229166666666667,
"grad_norm": 0.26649123430252075,
"learning_rate": 9.373543805267368e-05,
"loss": 0.0675,
"step": 2030
},
{
"epoch": 4.25,
"grad_norm": 0.2887789309024811,
"learning_rate": 9.365506381941066e-05,
"loss": 0.0697,
"step": 2040
},
{
"epoch": 4.270833333333333,
"grad_norm": 0.379747599363327,
"learning_rate": 9.357421218136386e-05,
"loss": 0.0671,
"step": 2050
},
{
"epoch": 4.291666666666667,
"grad_norm": 0.24359039962291718,
"learning_rate": 9.349288402271388e-05,
"loss": 0.0634,
"step": 2060
},
{
"epoch": 4.3125,
"grad_norm": 0.26673591136932373,
"learning_rate": 9.341108023285238e-05,
"loss": 0.0631,
"step": 2070
},
{
"epoch": 4.333333333333333,
"grad_norm": 0.2317454218864441,
"learning_rate": 9.332880170637252e-05,
"loss": 0.0631,
"step": 2080
},
{
"epoch": 4.354166666666667,
"grad_norm": 0.3269646465778351,
"learning_rate": 9.32460493430591e-05,
"loss": 0.0558,
"step": 2090
},
{
"epoch": 4.375,
"grad_norm": 0.22670741379261017,
"learning_rate": 9.316282404787871e-05,
"loss": 0.059,
"step": 2100
},
{
"epoch": 4.395833333333333,
"grad_norm": 0.27039453387260437,
"learning_rate": 9.30791267309698e-05,
"loss": 0.0542,
"step": 2110
},
{
"epoch": 4.416666666666667,
"grad_norm": 0.3565439283847809,
"learning_rate": 9.299495830763286e-05,
"loss": 0.0618,
"step": 2120
},
{
"epoch": 4.4375,
"grad_norm": 0.22678254544734955,
"learning_rate": 9.291031969832026e-05,
"loss": 0.0633,
"step": 2130
},
{
"epoch": 4.458333333333333,
"grad_norm": 0.2625988721847534,
"learning_rate": 9.282521182862629e-05,
"loss": 0.0615,
"step": 2140
},
{
"epoch": 4.479166666666667,
"grad_norm": 0.30497926473617554,
"learning_rate": 9.273963562927695e-05,
"loss": 0.0778,
"step": 2150
},
{
"epoch": 4.5,
"grad_norm": 0.22760331630706787,
"learning_rate": 9.265359203611987e-05,
"loss": 0.0575,
"step": 2160
},
{
"epoch": 4.520833333333333,
"grad_norm": 0.2656308710575104,
"learning_rate": 9.256708199011401e-05,
"loss": 0.0638,
"step": 2170
},
{
"epoch": 4.541666666666667,
"grad_norm": 0.2067960649728775,
"learning_rate": 9.248010643731935e-05,
"loss": 0.0562,
"step": 2180
},
{
"epoch": 4.5625,
"grad_norm": 0.21887032687664032,
"learning_rate": 9.239266632888659e-05,
"loss": 0.0657,
"step": 2190
},
{
"epoch": 4.583333333333333,
"grad_norm": 0.305982768535614,
"learning_rate": 9.230476262104677e-05,
"loss": 0.0634,
"step": 2200
},
{
"epoch": 4.604166666666667,
"grad_norm": 0.25816601514816284,
"learning_rate": 9.221639627510076e-05,
"loss": 0.0559,
"step": 2210
},
{
"epoch": 4.625,
"grad_norm": 0.3034866452217102,
"learning_rate": 9.212756825740873e-05,
"loss": 0.0629,
"step": 2220
},
{
"epoch": 4.645833333333333,
"grad_norm": 0.225479394197464,
"learning_rate": 9.20382795393797e-05,
"loss": 0.0601,
"step": 2230
},
{
"epoch": 4.666666666666667,
"grad_norm": 0.3092559576034546,
"learning_rate": 9.194853109746074e-05,
"loss": 0.0588,
"step": 2240
},
{
"epoch": 4.6875,
"grad_norm": 0.25218334794044495,
"learning_rate": 9.185832391312644e-05,
"loss": 0.0624,
"step": 2250
},
{
"epoch": 4.708333333333333,
"grad_norm": 0.2973797917366028,
"learning_rate": 9.176765897286813e-05,
"loss": 0.0601,
"step": 2260
},
{
"epoch": 4.729166666666667,
"grad_norm": 0.2519341707229614,
"learning_rate": 9.167653726818305e-05,
"loss": 0.0564,
"step": 2270
},
{
"epoch": 4.75,
"grad_norm": 0.2949662208557129,
"learning_rate": 9.158495979556358e-05,
"loss": 0.0687,
"step": 2280
},
{
"epoch": 4.770833333333333,
"grad_norm": 0.17965540289878845,
"learning_rate": 9.14929275564863e-05,
"loss": 0.0641,
"step": 2290
},
{
"epoch": 4.791666666666667,
"grad_norm": 0.23875364661216736,
"learning_rate": 9.140044155740101e-05,
"loss": 0.0524,
"step": 2300
},
{
"epoch": 4.8125,
"grad_norm": 0.28078049421310425,
"learning_rate": 9.130750280971978e-05,
"loss": 0.0662,
"step": 2310
},
{
"epoch": 4.833333333333333,
"grad_norm": 0.25002536177635193,
"learning_rate": 9.121411232980588e-05,
"loss": 0.0521,
"step": 2320
},
{
"epoch": 4.854166666666667,
"grad_norm": 0.19856375455856323,
"learning_rate": 9.112027113896262e-05,
"loss": 0.0662,
"step": 2330
},
{
"epoch": 4.875,
"grad_norm": 0.20989863574504852,
"learning_rate": 9.102598026342222e-05,
"loss": 0.0642,
"step": 2340
},
{
"epoch": 4.895833333333333,
"grad_norm": 0.2387610673904419,
"learning_rate": 9.093124073433463e-05,
"loss": 0.063,
"step": 2350
},
{
"epoch": 4.916666666666667,
"grad_norm": 0.32933273911476135,
"learning_rate": 9.083605358775612e-05,
"loss": 0.0627,
"step": 2360
},
{
"epoch": 4.9375,
"grad_norm": 0.38782161474227905,
"learning_rate": 9.074041986463808e-05,
"loss": 0.0613,
"step": 2370
},
{
"epoch": 4.958333333333333,
"grad_norm": 0.20130065083503723,
"learning_rate": 9.064434061081562e-05,
"loss": 0.054,
"step": 2380
},
{
"epoch": 4.979166666666667,
"grad_norm": 0.17160147428512573,
"learning_rate": 9.0547816876996e-05,
"loss": 0.0654,
"step": 2390
},
{
"epoch": 5.0,
"grad_norm": 0.35171496868133545,
"learning_rate": 9.045084971874738e-05,
"loss": 0.0658,
"step": 2400
},
{
"epoch": 5.020833333333333,
"grad_norm": 0.16831085085868835,
"learning_rate": 9.035344019648702e-05,
"loss": 0.0508,
"step": 2410
},
{
"epoch": 5.041666666666667,
"grad_norm": 0.17995953559875488,
"learning_rate": 9.025558937546988e-05,
"loss": 0.0571,
"step": 2420
},
{
"epoch": 5.0625,
"grad_norm": 0.19575315713882446,
"learning_rate": 9.015729832577681e-05,
"loss": 0.0596,
"step": 2430
},
{
"epoch": 5.083333333333333,
"grad_norm": 0.1493072807788849,
"learning_rate": 9.005856812230304e-05,
"loss": 0.0541,
"step": 2440
},
{
"epoch": 5.104166666666667,
"grad_norm": 0.22525647282600403,
"learning_rate": 8.995939984474624e-05,
"loss": 0.0572,
"step": 2450
},
{
"epoch": 5.125,
"grad_norm": 0.3696461319923401,
"learning_rate": 8.98597945775948e-05,
"loss": 0.0571,
"step": 2460
},
{
"epoch": 5.145833333333333,
"grad_norm": 0.2887597978115082,
"learning_rate": 8.975975341011596e-05,
"loss": 0.0518,
"step": 2470
},
{
"epoch": 5.166666666666667,
"grad_norm": 0.20684699714183807,
"learning_rate": 8.965927743634391e-05,
"loss": 0.059,
"step": 2480
},
{
"epoch": 5.1875,
"grad_norm": 0.31182733178138733,
"learning_rate": 8.955836775506776e-05,
"loss": 0.0516,
"step": 2490
},
{
"epoch": 5.208333333333333,
"grad_norm": 0.2731056809425354,
"learning_rate": 8.945702546981969e-05,
"loss": 0.057,
"step": 2500
},
{
"epoch": 5.229166666666667,
"grad_norm": 0.36009490489959717,
"learning_rate": 8.935525168886262e-05,
"loss": 0.056,
"step": 2510
},
{
"epoch": 5.25,
"grad_norm": 0.3038497865200043,
"learning_rate": 8.92530475251784e-05,
"loss": 0.0543,
"step": 2520
},
{
"epoch": 5.270833333333333,
"grad_norm": 0.1461966633796692,
"learning_rate": 8.91504140964553e-05,
"loss": 0.0566,
"step": 2530
},
{
"epoch": 5.291666666666667,
"grad_norm": 0.22562798857688904,
"learning_rate": 8.90473525250761e-05,
"loss": 0.0608,
"step": 2540
},
{
"epoch": 5.3125,
"grad_norm": 0.30006659030914307,
"learning_rate": 8.894386393810563e-05,
"loss": 0.0675,
"step": 2550
},
{
"epoch": 5.333333333333333,
"grad_norm": 0.16184063255786896,
"learning_rate": 8.883994946727849e-05,
"loss": 0.0553,
"step": 2560
},
{
"epoch": 5.354166666666667,
"grad_norm": 0.2308872491121292,
"learning_rate": 8.873561024898668e-05,
"loss": 0.0566,
"step": 2570
},
{
"epoch": 5.375,
"grad_norm": 0.33821049332618713,
"learning_rate": 8.863084742426719e-05,
"loss": 0.0562,
"step": 2580
},
{
"epoch": 5.395833333333333,
"grad_norm": 0.29942095279693604,
"learning_rate": 8.852566213878947e-05,
"loss": 0.0658,
"step": 2590
},
{
"epoch": 5.416666666666667,
"grad_norm": 0.1915530562400818,
"learning_rate": 8.842005554284296e-05,
"loss": 0.0549,
"step": 2600
},
{
"epoch": 5.4375,
"grad_norm": 0.257016122341156,
"learning_rate": 8.831402879132446e-05,
"loss": 0.0571,
"step": 2610
},
{
"epoch": 5.458333333333333,
"grad_norm": 0.2739509642124176,
"learning_rate": 8.820758304372557e-05,
"loss": 0.0559,
"step": 2620
},
{
"epoch": 5.479166666666667,
"grad_norm": 0.3152376711368561,
"learning_rate": 8.810071946411989e-05,
"loss": 0.0486,
"step": 2630
},
{
"epoch": 5.5,
"grad_norm": 0.23179279267787933,
"learning_rate": 8.799343922115044e-05,
"loss": 0.0502,
"step": 2640
},
{
"epoch": 5.520833333333333,
"grad_norm": 0.25594186782836914,
"learning_rate": 8.788574348801675e-05,
"loss": 0.057,
"step": 2650
},
{
"epoch": 5.541666666666667,
"grad_norm": 0.2627776861190796,
"learning_rate": 8.77776334424621e-05,
"loss": 0.0669,
"step": 2660
},
{
"epoch": 5.5625,
"grad_norm": 0.1960115134716034,
"learning_rate": 8.766911026676064e-05,
"loss": 0.0613,
"step": 2670
},
{
"epoch": 5.583333333333333,
"grad_norm": 0.17280827462673187,
"learning_rate": 8.756017514770443e-05,
"loss": 0.0598,
"step": 2680
},
{
"epoch": 5.604166666666667,
"grad_norm": 0.27976927161216736,
"learning_rate": 8.745082927659047e-05,
"loss": 0.0477,
"step": 2690
},
{
"epoch": 5.625,
"grad_norm": 0.20411022007465363,
"learning_rate": 8.73410738492077e-05,
"loss": 0.0644,
"step": 2700
},
{
"epoch": 5.645833333333333,
"grad_norm": 0.2056054323911667,
"learning_rate": 8.723091006582389e-05,
"loss": 0.0558,
"step": 2710
},
{
"epoch": 5.666666666666667,
"grad_norm": 0.1785743236541748,
"learning_rate": 8.71203391311725e-05,
"loss": 0.0596,
"step": 2720
},
{
"epoch": 5.6875,
"grad_norm": 0.162923201918602,
"learning_rate": 8.700936225443959e-05,
"loss": 0.0537,
"step": 2730
},
{
"epoch": 5.708333333333333,
"grad_norm": 0.31077900528907776,
"learning_rate": 8.689798064925049e-05,
"loss": 0.061,
"step": 2740
},
{
"epoch": 5.729166666666667,
"grad_norm": 0.19991479814052582,
"learning_rate": 8.678619553365659e-05,
"loss": 0.0497,
"step": 2750
},
{
"epoch": 5.75,
"grad_norm": 0.2934041917324066,
"learning_rate": 8.6674008130122e-05,
"loss": 0.0578,
"step": 2760
},
{
"epoch": 5.770833333333333,
"grad_norm": 0.19904303550720215,
"learning_rate": 8.656141966551019e-05,
"loss": 0.0568,
"step": 2770
},
{
"epoch": 5.791666666666667,
"grad_norm": 0.2990000247955322,
"learning_rate": 8.644843137107059e-05,
"loss": 0.0526,
"step": 2780
},
{
"epoch": 5.8125,
"grad_norm": 0.15075786411762238,
"learning_rate": 8.633504448242505e-05,
"loss": 0.0515,
"step": 2790
},
{
"epoch": 5.833333333333333,
"grad_norm": 0.21086309850215912,
"learning_rate": 8.622126023955446e-05,
"loss": 0.0533,
"step": 2800
},
{
"epoch": 5.854166666666667,
"grad_norm": 0.2507677972316742,
"learning_rate": 8.610707988678503e-05,
"loss": 0.0542,
"step": 2810
},
{
"epoch": 5.875,
"grad_norm": 0.16625888645648956,
"learning_rate": 8.599250467277483e-05,
"loss": 0.0533,
"step": 2820
},
{
"epoch": 5.895833333333333,
"grad_norm": 0.24702179431915283,
"learning_rate": 8.587753585050004e-05,
"loss": 0.0534,
"step": 2830
},
{
"epoch": 5.916666666666667,
"grad_norm": 0.20405326783657074,
"learning_rate": 8.576217467724128e-05,
"loss": 0.0564,
"step": 2840
},
{
"epoch": 5.9375,
"grad_norm": 0.22098389267921448,
"learning_rate": 8.564642241456986e-05,
"loss": 0.0589,
"step": 2850
},
{
"epoch": 5.958333333333333,
"grad_norm": 0.2992077171802521,
"learning_rate": 8.553028032833397e-05,
"loss": 0.051,
"step": 2860
},
{
"epoch": 5.979166666666667,
"grad_norm": 0.22971950471401215,
"learning_rate": 8.541374968864487e-05,
"loss": 0.05,
"step": 2870
},
{
"epoch": 6.0,
"grad_norm": 0.19986356794834137,
"learning_rate": 8.529683176986295e-05,
"loss": 0.0488,
"step": 2880
},
{
"epoch": 6.020833333333333,
"grad_norm": 0.18404853343963623,
"learning_rate": 8.517952785058385e-05,
"loss": 0.0496,
"step": 2890
},
{
"epoch": 6.041666666666667,
"grad_norm": 0.22865642607212067,
"learning_rate": 8.506183921362443e-05,
"loss": 0.0551,
"step": 2900
},
{
"epoch": 6.0625,
"grad_norm": 0.33640816807746887,
"learning_rate": 8.494376714600878e-05,
"loss": 0.0631,
"step": 2910
},
{
"epoch": 6.083333333333333,
"grad_norm": 0.27387309074401855,
"learning_rate": 8.482531293895412e-05,
"loss": 0.0478,
"step": 2920
},
{
"epoch": 6.104166666666667,
"grad_norm": 0.27359068393707275,
"learning_rate": 8.470647788785665e-05,
"loss": 0.0502,
"step": 2930
},
{
"epoch": 6.125,
"grad_norm": 0.2842683494091034,
"learning_rate": 8.458726329227747e-05,
"loss": 0.057,
"step": 2940
},
{
"epoch": 6.145833333333333,
"grad_norm": 0.26530441641807556,
"learning_rate": 8.44676704559283e-05,
"loss": 0.0507,
"step": 2950
},
{
"epoch": 6.166666666666667,
"grad_norm": 0.2461036890745163,
"learning_rate": 8.434770068665723e-05,
"loss": 0.06,
"step": 2960
},
{
"epoch": 6.1875,
"grad_norm": 0.15848632156848907,
"learning_rate": 8.422735529643444e-05,
"loss": 0.0528,
"step": 2970
},
{
"epoch": 6.208333333333333,
"grad_norm": 0.31197741627693176,
"learning_rate": 8.410663560133784e-05,
"loss": 0.0585,
"step": 2980
},
{
"epoch": 6.229166666666667,
"grad_norm": 0.24464961886405945,
"learning_rate": 8.398554292153866e-05,
"loss": 0.0519,
"step": 2990
},
{
"epoch": 6.25,
"grad_norm": 0.2479836791753769,
"learning_rate": 8.386407858128706e-05,
"loss": 0.054,
"step": 3000
},
{
"epoch": 6.270833333333333,
"grad_norm": 0.2722799777984619,
"learning_rate": 8.37422439088976e-05,
"loss": 0.0556,
"step": 3010
},
{
"epoch": 6.291666666666667,
"grad_norm": 0.21395736932754517,
"learning_rate": 8.362004023673474e-05,
"loss": 0.0623,
"step": 3020
},
{
"epoch": 6.3125,
"grad_norm": 0.18791121244430542,
"learning_rate": 8.349746890119826e-05,
"loss": 0.0498,
"step": 3030
},
{
"epoch": 6.333333333333333,
"grad_norm": 0.19878436625003815,
"learning_rate": 8.337453124270863e-05,
"loss": 0.051,
"step": 3040
},
{
"epoch": 6.354166666666667,
"grad_norm": 0.20424553751945496,
"learning_rate": 8.32512286056924e-05,
"loss": 0.0458,
"step": 3050
},
{
"epoch": 6.375,
"grad_norm": 0.2852227985858917,
"learning_rate": 8.31275623385675e-05,
"loss": 0.0592,
"step": 3060
},
{
"epoch": 6.395833333333333,
"grad_norm": 0.19160036742687225,
"learning_rate": 8.300353379372834e-05,
"loss": 0.0588,
"step": 3070
},
{
"epoch": 6.416666666666667,
"grad_norm": 0.22774095833301544,
"learning_rate": 8.287914432753123e-05,
"loss": 0.0545,
"step": 3080
},
{
"epoch": 6.4375,
"grad_norm": 0.38672950863838196,
"learning_rate": 8.275439530027948e-05,
"loss": 0.0556,
"step": 3090
},
{
"epoch": 6.458333333333333,
"grad_norm": 0.28046780824661255,
"learning_rate": 8.262928807620843e-05,
"loss": 0.0587,
"step": 3100
},
{
"epoch": 6.479166666666667,
"grad_norm": 0.2667509913444519,
"learning_rate": 8.250382402347065e-05,
"loss": 0.0588,
"step": 3110
},
{
"epoch": 6.5,
"grad_norm": 0.33412522077560425,
"learning_rate": 8.237800451412095e-05,
"loss": 0.0599,
"step": 3120
},
{
"epoch": 6.520833333333333,
"grad_norm": 0.1729501336812973,
"learning_rate": 8.225183092410128e-05,
"loss": 0.052,
"step": 3130
},
{
"epoch": 6.541666666666667,
"grad_norm": 0.13118429481983185,
"learning_rate": 8.212530463322583e-05,
"loss": 0.0564,
"step": 3140
},
{
"epoch": 6.5625,
"grad_norm": 0.19928762316703796,
"learning_rate": 8.199842702516583e-05,
"loss": 0.0551,
"step": 3150
},
{
"epoch": 6.583333333333333,
"grad_norm": 0.1139163076877594,
"learning_rate": 8.18711994874345e-05,
"loss": 0.05,
"step": 3160
},
{
"epoch": 6.604166666666667,
"grad_norm": 0.18016424775123596,
"learning_rate": 8.174362341137177e-05,
"loss": 0.0512,
"step": 3170
},
{
"epoch": 6.625,
"grad_norm": 0.2455376386642456,
"learning_rate": 8.161570019212921e-05,
"loss": 0.0535,
"step": 3180
},
{
"epoch": 6.645833333333333,
"grad_norm": 0.2456337809562683,
"learning_rate": 8.148743122865463e-05,
"loss": 0.0494,
"step": 3190
},
{
"epoch": 6.666666666666667,
"grad_norm": 0.19081375002861023,
"learning_rate": 8.135881792367686e-05,
"loss": 0.0642,
"step": 3200
},
{
"epoch": 6.6875,
"grad_norm": 0.18129488825798035,
"learning_rate": 8.12298616836904e-05,
"loss": 0.0581,
"step": 3210
},
{
"epoch": 6.708333333333333,
"grad_norm": 0.21184127032756805,
"learning_rate": 8.110056391894005e-05,
"loss": 0.0504,
"step": 3220
},
{
"epoch": 6.729166666666667,
"grad_norm": 0.42624956369400024,
"learning_rate": 8.097092604340542e-05,
"loss": 0.0566,
"step": 3230
},
{
"epoch": 6.75,
"grad_norm": 0.13590912520885468,
"learning_rate": 8.084094947478556e-05,
"loss": 0.0448,
"step": 3240
},
{
"epoch": 6.770833333333333,
"grad_norm": 0.26878491044044495,
"learning_rate": 8.07106356344834e-05,
"loss": 0.0486,
"step": 3250
},
{
"epoch": 6.791666666666667,
"grad_norm": 0.2239430993795395,
"learning_rate": 8.057998594759022e-05,
"loss": 0.057,
"step": 3260
},
{
"epoch": 6.8125,
"grad_norm": 0.26898056268692017,
"learning_rate": 8.044900184287007e-05,
"loss": 0.0515,
"step": 3270
},
{
"epoch": 6.833333333333333,
"grad_norm": 0.2961832582950592,
"learning_rate": 8.031768475274413e-05,
"loss": 0.0499,
"step": 3280
},
{
"epoch": 6.854166666666667,
"grad_norm": 0.32980307936668396,
"learning_rate": 8.018603611327504e-05,
"loss": 0.052,
"step": 3290
},
{
"epoch": 6.875,
"grad_norm": 0.1965520977973938,
"learning_rate": 8.005405736415126e-05,
"loss": 0.0434,
"step": 3300
},
{
"epoch": 6.895833333333333,
"grad_norm": 0.23696592450141907,
"learning_rate": 7.992174994867123e-05,
"loss": 0.0416,
"step": 3310
},
{
"epoch": 6.916666666666667,
"grad_norm": 0.19276441633701324,
"learning_rate": 7.978911531372765e-05,
"loss": 0.0512,
"step": 3320
},
{
"epoch": 6.9375,
"grad_norm": 0.347258985042572,
"learning_rate": 7.965615490979163e-05,
"loss": 0.0481,
"step": 3330
},
{
"epoch": 6.958333333333333,
"grad_norm": 0.27975815534591675,
"learning_rate": 7.952287019089685e-05,
"loss": 0.0486,
"step": 3340
},
{
"epoch": 6.979166666666667,
"grad_norm": 0.2909054458141327,
"learning_rate": 7.938926261462366e-05,
"loss": 0.0516,
"step": 3350
},
{
"epoch": 7.0,
"grad_norm": 0.35416579246520996,
"learning_rate": 7.925533364208309e-05,
"loss": 0.052,
"step": 3360
},
{
"epoch": 7.020833333333333,
"grad_norm": 0.23169547319412231,
"learning_rate": 7.912108473790092e-05,
"loss": 0.0572,
"step": 3370
},
{
"epoch": 7.041666666666667,
"grad_norm": 0.15997090935707092,
"learning_rate": 7.898651737020166e-05,
"loss": 0.0484,
"step": 3380
},
{
"epoch": 7.0625,
"grad_norm": 0.1840064525604248,
"learning_rate": 7.88516330105925e-05,
"loss": 0.0557,
"step": 3390
},
{
"epoch": 7.083333333333333,
"grad_norm": 0.20743203163146973,
"learning_rate": 7.871643313414718e-05,
"loss": 0.0464,
"step": 3400
},
{
"epoch": 7.104166666666667,
"grad_norm": 0.1931951940059662,
"learning_rate": 7.858091921938988e-05,
"loss": 0.0584,
"step": 3410
},
{
"epoch": 7.125,
"grad_norm": 0.1620691567659378,
"learning_rate": 7.844509274827907e-05,
"loss": 0.0526,
"step": 3420
},
{
"epoch": 7.145833333333333,
"grad_norm": 0.19966144859790802,
"learning_rate": 7.830895520619128e-05,
"loss": 0.0497,
"step": 3430
},
{
"epoch": 7.166666666666667,
"grad_norm": 0.33056026697158813,
"learning_rate": 7.817250808190483e-05,
"loss": 0.0454,
"step": 3440
},
{
"epoch": 7.1875,
"grad_norm": 0.17656965553760529,
"learning_rate": 7.803575286758364e-05,
"loss": 0.0479,
"step": 3450
},
{
"epoch": 7.208333333333333,
"grad_norm": 0.2836000621318817,
"learning_rate": 7.789869105876083e-05,
"loss": 0.0528,
"step": 3460
},
{
"epoch": 7.229166666666667,
"grad_norm": 0.26270195841789246,
"learning_rate": 7.776132415432234e-05,
"loss": 0.0486,
"step": 3470
},
{
"epoch": 7.25,
"grad_norm": 0.22928914427757263,
"learning_rate": 7.762365365649067e-05,
"loss": 0.0441,
"step": 3480
},
{
"epoch": 7.270833333333333,
"grad_norm": 0.2707754075527191,
"learning_rate": 7.748568107080832e-05,
"loss": 0.0509,
"step": 3490
},
{
"epoch": 7.291666666666667,
"grad_norm": 0.24163918197155,
"learning_rate": 7.734740790612136e-05,
"loss": 0.058,
"step": 3500
},
{
"epoch": 7.3125,
"grad_norm": 0.2887519598007202,
"learning_rate": 7.720883567456298e-05,
"loss": 0.0532,
"step": 3510
},
{
"epoch": 7.333333333333333,
"grad_norm": 0.17884305119514465,
"learning_rate": 7.70699658915369e-05,
"loss": 0.0457,
"step": 3520
},
{
"epoch": 7.354166666666667,
"grad_norm": 0.21325179934501648,
"learning_rate": 7.693080007570084e-05,
"loss": 0.0434,
"step": 3530
},
{
"epoch": 7.375,
"grad_norm": 0.18805336952209473,
"learning_rate": 7.679133974894983e-05,
"loss": 0.0492,
"step": 3540
},
{
"epoch": 7.395833333333333,
"grad_norm": 0.2082250714302063,
"learning_rate": 7.66515864363997e-05,
"loss": 0.054,
"step": 3550
},
{
"epoch": 7.416666666666667,
"grad_norm": 0.23594920337200165,
"learning_rate": 7.651154166637025e-05,
"loss": 0.0519,
"step": 3560
},
{
"epoch": 7.4375,
"grad_norm": 0.30293792486190796,
"learning_rate": 7.637120697036866e-05,
"loss": 0.0515,
"step": 3570
},
{
"epoch": 7.458333333333333,
"grad_norm": 0.22353586554527283,
"learning_rate": 7.623058388307269e-05,
"loss": 0.0492,
"step": 3580
},
{
"epoch": 7.479166666666667,
"grad_norm": 0.17080843448638916,
"learning_rate": 7.608967394231387e-05,
"loss": 0.0532,
"step": 3590
},
{
"epoch": 7.5,
"grad_norm": 0.20430722832679749,
"learning_rate": 7.594847868906076e-05,
"loss": 0.046,
"step": 3600
},
{
"epoch": 7.520833333333333,
"grad_norm": 0.2533716857433319,
"learning_rate": 7.580699966740201e-05,
"loss": 0.0506,
"step": 3610
},
{
"epoch": 7.541666666666667,
"grad_norm": 0.27399206161499023,
"learning_rate": 7.566523842452958e-05,
"loss": 0.0506,
"step": 3620
},
{
"epoch": 7.5625,
"grad_norm": 0.22438126802444458,
"learning_rate": 7.552319651072164e-05,
"loss": 0.051,
"step": 3630
},
{
"epoch": 7.583333333333333,
"grad_norm": 0.12401247769594193,
"learning_rate": 7.538087547932585e-05,
"loss": 0.0482,
"step": 3640
},
{
"epoch": 7.604166666666667,
"grad_norm": 0.17836348712444305,
"learning_rate": 7.52382768867422e-05,
"loss": 0.0479,
"step": 3650
},
{
"epoch": 7.625,
"grad_norm": 0.1784362494945526,
"learning_rate": 7.509540229240601e-05,
"loss": 0.0472,
"step": 3660
},
{
"epoch": 7.645833333333333,
"grad_norm": 0.2113669365644455,
"learning_rate": 7.495225325877103e-05,
"loss": 0.0494,
"step": 3670
},
{
"epoch": 7.666666666666667,
"grad_norm": 0.21031108498573303,
"learning_rate": 7.480883135129211e-05,
"loss": 0.0462,
"step": 3680
},
{
"epoch": 7.6875,
"grad_norm": 0.20441193878650665,
"learning_rate": 7.466513813840825e-05,
"loss": 0.0508,
"step": 3690
},
{
"epoch": 7.708333333333333,
"grad_norm": 0.22074037790298462,
"learning_rate": 7.452117519152542e-05,
"loss": 0.05,
"step": 3700
},
{
"epoch": 7.729166666666667,
"grad_norm": 0.2839852273464203,
"learning_rate": 7.437694408499933e-05,
"loss": 0.0501,
"step": 3710
},
{
"epoch": 7.75,
"grad_norm": 0.2460620403289795,
"learning_rate": 7.423244639611826e-05,
"loss": 0.0527,
"step": 3720
},
{
"epoch": 7.770833333333333,
"grad_norm": 0.2610677182674408,
"learning_rate": 7.408768370508576e-05,
"loss": 0.0451,
"step": 3730
},
{
"epoch": 7.791666666666667,
"grad_norm": 0.21664959192276,
"learning_rate": 7.394265759500348e-05,
"loss": 0.051,
"step": 3740
},
{
"epoch": 7.8125,
"grad_norm": 0.17678774893283844,
"learning_rate": 7.379736965185368e-05,
"loss": 0.0509,
"step": 3750
},
{
"epoch": 7.833333333333333,
"grad_norm": 0.2611595690250397,
"learning_rate": 7.365182146448205e-05,
"loss": 0.0418,
"step": 3760
},
{
"epoch": 7.854166666666667,
"grad_norm": 0.2205267995595932,
"learning_rate": 7.350601462458024e-05,
"loss": 0.0532,
"step": 3770
},
{
"epoch": 7.875,
"grad_norm": 0.21233738958835602,
"learning_rate": 7.335995072666848e-05,
"loss": 0.0489,
"step": 3780
},
{
"epoch": 7.895833333333333,
"grad_norm": 0.22973224520683289,
"learning_rate": 7.32136313680782e-05,
"loss": 0.045,
"step": 3790
},
{
"epoch": 7.916666666666667,
"grad_norm": 0.2883082330226898,
"learning_rate": 7.30670581489344e-05,
"loss": 0.0447,
"step": 3800
},
{
"epoch": 7.9375,
"grad_norm": 0.26208218932151794,
"learning_rate": 7.292023267213835e-05,
"loss": 0.047,
"step": 3810
},
{
"epoch": 7.958333333333333,
"grad_norm": 0.21999841928482056,
"learning_rate": 7.277315654334997e-05,
"loss": 0.0507,
"step": 3820
},
{
"epoch": 7.979166666666667,
"grad_norm": 0.3113929033279419,
"learning_rate": 7.262583137097018e-05,
"loss": 0.0505,
"step": 3830
},
{
"epoch": 8.0,
"grad_norm": 0.30518674850463867,
"learning_rate": 7.247825876612353e-05,
"loss": 0.0479,
"step": 3840
},
{
"epoch": 8.020833333333334,
"grad_norm": 0.18710266053676605,
"learning_rate": 7.233044034264034e-05,
"loss": 0.0483,
"step": 3850
},
{
"epoch": 8.041666666666666,
"grad_norm": 0.26212358474731445,
"learning_rate": 7.218237771703921e-05,
"loss": 0.0517,
"step": 3860
},
{
"epoch": 8.0625,
"grad_norm": 0.23527061939239502,
"learning_rate": 7.203407250850928e-05,
"loss": 0.0531,
"step": 3870
},
{
"epoch": 8.083333333333334,
"grad_norm": 0.19504660367965698,
"learning_rate": 7.188552633889259e-05,
"loss": 0.0493,
"step": 3880
},
{
"epoch": 8.104166666666666,
"grad_norm": 0.1593329906463623,
"learning_rate": 7.173674083266624e-05,
"loss": 0.0442,
"step": 3890
},
{
"epoch": 8.125,
"grad_norm": 0.270129531621933,
"learning_rate": 7.158771761692464e-05,
"loss": 0.0538,
"step": 3900
},
{
"epoch": 8.145833333333334,
"grad_norm": 0.22113825380802155,
"learning_rate": 7.143845832136188e-05,
"loss": 0.0518,
"step": 3910
},
{
"epoch": 8.166666666666666,
"grad_norm": 0.25669917464256287,
"learning_rate": 7.128896457825364e-05,
"loss": 0.0468,
"step": 3920
},
{
"epoch": 8.1875,
"grad_norm": 0.24919012188911438,
"learning_rate": 7.113923802243957e-05,
"loss": 0.0449,
"step": 3930
},
{
"epoch": 8.208333333333334,
"grad_norm": 0.22066769003868103,
"learning_rate": 7.09892802913053e-05,
"loss": 0.0488,
"step": 3940
},
{
"epoch": 8.229166666666666,
"grad_norm": 0.14869259297847748,
"learning_rate": 7.083909302476453e-05,
"loss": 0.0501,
"step": 3950
},
{
"epoch": 8.25,
"grad_norm": 0.24340423941612244,
"learning_rate": 7.068867786524116e-05,
"loss": 0.0495,
"step": 3960
},
{
"epoch": 8.270833333333334,
"grad_norm": 0.26488855481147766,
"learning_rate": 7.053803645765128e-05,
"loss": 0.0436,
"step": 3970
},
{
"epoch": 8.291666666666666,
"grad_norm": 0.1781073361635208,
"learning_rate": 7.038717044938519e-05,
"loss": 0.0482,
"step": 3980
},
{
"epoch": 8.3125,
"grad_norm": 0.21294355392456055,
"learning_rate": 7.023608149028937e-05,
"loss": 0.0436,
"step": 3990
},
{
"epoch": 8.333333333333334,
"grad_norm": 0.26423192024230957,
"learning_rate": 7.008477123264848e-05,
"loss": 0.0489,
"step": 4000
},
{
"epoch": 8.354166666666666,
"grad_norm": 0.31145504117012024,
"learning_rate": 6.993324133116726e-05,
"loss": 0.0474,
"step": 4010
},
{
"epoch": 8.375,
"grad_norm": 0.18576444685459137,
"learning_rate": 6.978149344295242e-05,
"loss": 0.0456,
"step": 4020
},
{
"epoch": 8.395833333333334,
"grad_norm": 0.1888401359319687,
"learning_rate": 6.962952922749457e-05,
"loss": 0.0479,
"step": 4030
},
{
"epoch": 8.416666666666666,
"grad_norm": 0.20155051350593567,
"learning_rate": 6.947735034665002e-05,
"loss": 0.0492,
"step": 4040
},
{
"epoch": 8.4375,
"grad_norm": 0.19216452538967133,
"learning_rate": 6.932495846462261e-05,
"loss": 0.0467,
"step": 4050
},
{
"epoch": 8.458333333333334,
"grad_norm": 0.18663518130779266,
"learning_rate": 6.917235524794558e-05,
"loss": 0.0471,
"step": 4060
},
{
"epoch": 8.479166666666666,
"grad_norm": 0.285762757062912,
"learning_rate": 6.901954236546323e-05,
"loss": 0.0526,
"step": 4070
},
{
"epoch": 8.5,
"grad_norm": 0.12023583799600601,
"learning_rate": 6.886652148831279e-05,
"loss": 0.0418,
"step": 4080
},
{
"epoch": 8.520833333333334,
"grad_norm": 0.2189977616071701,
"learning_rate": 6.871329428990602e-05,
"loss": 0.0482,
"step": 4090
},
{
"epoch": 8.541666666666666,
"grad_norm": 0.259148508310318,
"learning_rate": 6.855986244591104e-05,
"loss": 0.0487,
"step": 4100
},
{
"epoch": 8.5625,
"grad_norm": 0.3006899058818817,
"learning_rate": 6.840622763423391e-05,
"loss": 0.0462,
"step": 4110
},
{
"epoch": 8.583333333333334,
"grad_norm": 0.17823457717895508,
"learning_rate": 6.825239153500029e-05,
"loss": 0.0446,
"step": 4120
},
{
"epoch": 8.604166666666666,
"grad_norm": 0.2890760600566864,
"learning_rate": 6.809835583053715e-05,
"loss": 0.0483,
"step": 4130
},
{
"epoch": 8.625,
"grad_norm": 0.2661435306072235,
"learning_rate": 6.794412220535426e-05,
"loss": 0.0451,
"step": 4140
},
{
"epoch": 8.645833333333334,
"grad_norm": 0.20998653769493103,
"learning_rate": 6.778969234612584e-05,
"loss": 0.0508,
"step": 4150
},
{
"epoch": 8.666666666666666,
"grad_norm": 0.23018722236156464,
"learning_rate": 6.763506794167208e-05,
"loss": 0.0383,
"step": 4160
},
{
"epoch": 8.6875,
"grad_norm": 0.2272096574306488,
"learning_rate": 6.748025068294067e-05,
"loss": 0.0454,
"step": 4170
},
{
"epoch": 8.708333333333334,
"grad_norm": 0.16684843599796295,
"learning_rate": 6.732524226298841e-05,
"loss": 0.0533,
"step": 4180
},
{
"epoch": 8.729166666666666,
"grad_norm": 0.19425426423549652,
"learning_rate": 6.71700443769625e-05,
"loss": 0.0492,
"step": 4190
},
{
"epoch": 8.75,
"grad_norm": 0.23464734852313995,
"learning_rate": 6.701465872208216e-05,
"loss": 0.0514,
"step": 4200
},
{
"epoch": 8.770833333333334,
"grad_norm": 0.24427248537540436,
"learning_rate": 6.685908699762002e-05,
"loss": 0.0455,
"step": 4210
},
{
"epoch": 8.791666666666666,
"grad_norm": 0.19908004999160767,
"learning_rate": 6.670333090488356e-05,
"loss": 0.0451,
"step": 4220
},
{
"epoch": 8.8125,
"grad_norm": 0.1977444887161255,
"learning_rate": 6.654739214719641e-05,
"loss": 0.0444,
"step": 4230
},
{
"epoch": 8.833333333333334,
"grad_norm": 0.1939217746257782,
"learning_rate": 6.639127242987988e-05,
"loss": 0.0472,
"step": 4240
},
{
"epoch": 8.854166666666666,
"grad_norm": 0.23702214658260345,
"learning_rate": 6.623497346023418e-05,
"loss": 0.0479,
"step": 4250
},
{
"epoch": 8.875,
"grad_norm": 0.24079830944538116,
"learning_rate": 6.607849694751977e-05,
"loss": 0.0516,
"step": 4260
},
{
"epoch": 8.895833333333334,
"grad_norm": 0.14849868416786194,
"learning_rate": 6.592184460293877e-05,
"loss": 0.0429,
"step": 4270
},
{
"epoch": 8.916666666666666,
"grad_norm": 0.14669269323349,
"learning_rate": 6.576501813961609e-05,
"loss": 0.0464,
"step": 4280
},
{
"epoch": 8.9375,
"grad_norm": 0.1892845332622528,
"learning_rate": 6.56080192725808e-05,
"loss": 0.0448,
"step": 4290
},
{
"epoch": 8.958333333333334,
"grad_norm": 0.2720951735973358,
"learning_rate": 6.545084971874738e-05,
"loss": 0.0469,
"step": 4300
},
{
"epoch": 8.979166666666666,
"grad_norm": 0.42531394958496094,
"learning_rate": 6.529351119689688e-05,
"loss": 0.0421,
"step": 4310
},
{
"epoch": 9.0,
"grad_norm": 0.263864666223526,
"learning_rate": 6.513600542765817e-05,
"loss": 0.0466,
"step": 4320
},
{
"epoch": 9.020833333333334,
"grad_norm": 0.26266640424728394,
"learning_rate": 6.497833413348909e-05,
"loss": 0.0422,
"step": 4330
},
{
"epoch": 9.041666666666666,
"grad_norm": 0.20382165908813477,
"learning_rate": 6.48204990386577e-05,
"loss": 0.0357,
"step": 4340
},
{
"epoch": 9.0625,
"grad_norm": 0.23681896924972534,
"learning_rate": 6.466250186922325e-05,
"loss": 0.0485,
"step": 4350
},
{
"epoch": 9.083333333333334,
"grad_norm": 0.24817602336406708,
"learning_rate": 6.450434435301751e-05,
"loss": 0.0406,
"step": 4360
},
{
"epoch": 9.104166666666666,
"grad_norm": 0.2470203936100006,
"learning_rate": 6.43460282196257e-05,
"loss": 0.0455,
"step": 4370
},
{
"epoch": 9.125,
"grad_norm": 0.16725751757621765,
"learning_rate": 6.418755520036775e-05,
"loss": 0.0418,
"step": 4380
},
{
"epoch": 9.145833333333334,
"grad_norm": 0.17291924357414246,
"learning_rate": 6.402892702827916e-05,
"loss": 0.044,
"step": 4390
},
{
"epoch": 9.166666666666666,
"grad_norm": 0.2706625163555145,
"learning_rate": 6.387014543809223e-05,
"loss": 0.0543,
"step": 4400
},
{
"epoch": 9.1875,
"grad_norm": 0.2189723700284958,
"learning_rate": 6.371121216621698e-05,
"loss": 0.0487,
"step": 4410
},
{
"epoch": 9.208333333333334,
"grad_norm": 0.23476912081241608,
"learning_rate": 6.355212895072223e-05,
"loss": 0.0484,
"step": 4420
},
{
"epoch": 9.229166666666666,
"grad_norm": 0.18557274341583252,
"learning_rate": 6.339289753131649e-05,
"loss": 0.0459,
"step": 4430
},
{
"epoch": 9.25,
"grad_norm": 0.20507971942424774,
"learning_rate": 6.323351964932908e-05,
"loss": 0.043,
"step": 4440
},
{
"epoch": 9.270833333333334,
"grad_norm": 0.20149551331996918,
"learning_rate": 6.307399704769099e-05,
"loss": 0.0505,
"step": 4450
},
{
"epoch": 9.291666666666666,
"grad_norm": 0.16381600499153137,
"learning_rate": 6.291433147091583e-05,
"loss": 0.0436,
"step": 4460
},
{
"epoch": 9.3125,
"grad_norm": 0.24549932777881622,
"learning_rate": 6.275452466508077e-05,
"loss": 0.0438,
"step": 4470
},
{
"epoch": 9.333333333333334,
"grad_norm": 0.15507693588733673,
"learning_rate": 6.259457837780742e-05,
"loss": 0.0433,
"step": 4480
},
{
"epoch": 9.354166666666666,
"grad_norm": 0.199483722448349,
"learning_rate": 6.243449435824276e-05,
"loss": 0.041,
"step": 4490
},
{
"epoch": 9.375,
"grad_norm": 0.17188148200511932,
"learning_rate": 6.227427435703997e-05,
"loss": 0.0504,
"step": 4500
},
{
"epoch": 9.395833333333334,
"grad_norm": 0.23068276047706604,
"learning_rate": 6.211392012633932e-05,
"loss": 0.0464,
"step": 4510
},
{
"epoch": 9.416666666666666,
"grad_norm": 0.21441690623760223,
"learning_rate": 6.195343341974899e-05,
"loss": 0.0484,
"step": 4520
},
{
"epoch": 9.4375,
"grad_norm": 0.13120320439338684,
"learning_rate": 6.179281599232591e-05,
"loss": 0.0395,
"step": 4530
},
{
"epoch": 9.458333333333334,
"grad_norm": 0.19601130485534668,
"learning_rate": 6.163206960055651e-05,
"loss": 0.0405,
"step": 4540
},
{
"epoch": 9.479166666666666,
"grad_norm": 0.26348334550857544,
"learning_rate": 6.147119600233758e-05,
"loss": 0.0409,
"step": 4550
},
{
"epoch": 9.5,
"grad_norm": 0.1722290962934494,
"learning_rate": 6.131019695695702e-05,
"loss": 0.0392,
"step": 4560
},
{
"epoch": 9.520833333333334,
"grad_norm": 0.19188344478607178,
"learning_rate": 6.11490742250746e-05,
"loss": 0.0423,
"step": 4570
},
{
"epoch": 9.541666666666666,
"grad_norm": 0.15979404747486115,
"learning_rate": 6.0987829568702656e-05,
"loss": 0.0416,
"step": 4580
},
{
"epoch": 9.5625,
"grad_norm": 0.1957653909921646,
"learning_rate": 6.0826464751186994e-05,
"loss": 0.0457,
"step": 4590
},
{
"epoch": 9.583333333333334,
"grad_norm": 0.1783294528722763,
"learning_rate": 6.066498153718735e-05,
"loss": 0.0449,
"step": 4600
},
{
"epoch": 9.604166666666666,
"grad_norm": 0.28254982829093933,
"learning_rate": 6.05033816926583e-05,
"loss": 0.0446,
"step": 4610
},
{
"epoch": 9.625,
"grad_norm": 0.29281267523765564,
"learning_rate": 6.034166698482984e-05,
"loss": 0.0395,
"step": 4620
},
{
"epoch": 9.645833333333334,
"grad_norm": 0.18072371184825897,
"learning_rate": 6.017983918218812e-05,
"loss": 0.0481,
"step": 4630
},
{
"epoch": 9.666666666666666,
"grad_norm": 0.18428587913513184,
"learning_rate": 6.001790005445607e-05,
"loss": 0.0402,
"step": 4640
},
{
"epoch": 9.6875,
"grad_norm": 0.17016282677650452,
"learning_rate": 5.985585137257401e-05,
"loss": 0.0477,
"step": 4650
},
{
"epoch": 9.708333333333334,
"grad_norm": 0.17313967645168304,
"learning_rate": 5.969369490868042e-05,
"loss": 0.0492,
"step": 4660
},
{
"epoch": 9.729166666666666,
"grad_norm": 0.3263380229473114,
"learning_rate": 5.953143243609235e-05,
"loss": 0.0511,
"step": 4670
},
{
"epoch": 9.75,
"grad_norm": 0.23494060337543488,
"learning_rate": 5.9369065729286245e-05,
"loss": 0.0441,
"step": 4680
},
{
"epoch": 9.770833333333334,
"grad_norm": 0.17909765243530273,
"learning_rate": 5.9206596563878357e-05,
"loss": 0.0443,
"step": 4690
},
{
"epoch": 9.791666666666666,
"grad_norm": 0.25222522020339966,
"learning_rate": 5.90440267166055e-05,
"loss": 0.0478,
"step": 4700
},
{
"epoch": 9.8125,
"grad_norm": 0.23123560845851898,
"learning_rate": 5.888135796530544e-05,
"loss": 0.0417,
"step": 4710
},
{
"epoch": 9.833333333333334,
"grad_norm": 0.2341155707836151,
"learning_rate": 5.871859208889759e-05,
"loss": 0.046,
"step": 4720
},
{
"epoch": 9.854166666666666,
"grad_norm": 0.2579653859138489,
"learning_rate": 5.85557308673635e-05,
"loss": 0.0469,
"step": 4730
},
{
"epoch": 9.875,
"grad_norm": 0.17647035419940948,
"learning_rate": 5.8392776081727385e-05,
"loss": 0.0403,
"step": 4740
},
{
"epoch": 9.895833333333334,
"grad_norm": 0.1749514639377594,
"learning_rate": 5.8229729514036705e-05,
"loss": 0.0439,
"step": 4750
},
{
"epoch": 9.916666666666666,
"grad_norm": 0.23397527635097504,
"learning_rate": 5.8066592947342555e-05,
"loss": 0.0437,
"step": 4760
},
{
"epoch": 9.9375,
"grad_norm": 0.18928822875022888,
"learning_rate": 5.7903368165680327e-05,
"loss": 0.0443,
"step": 4770
},
{
"epoch": 9.958333333333334,
"grad_norm": 0.1895478218793869,
"learning_rate": 5.7740056954050084e-05,
"loss": 0.0468,
"step": 4780
},
{
"epoch": 9.979166666666666,
"grad_norm": 0.17620734870433807,
"learning_rate": 5.757666109839702e-05,
"loss": 0.0491,
"step": 4790
},
{
"epoch": 10.0,
"grad_norm": 0.19584999978542328,
"learning_rate": 5.74131823855921e-05,
"loss": 0.0376,
"step": 4800
},
{
"epoch": 10.020833333333334,
"grad_norm": 0.17567752301692963,
"learning_rate": 5.72496226034123e-05,
"loss": 0.046,
"step": 4810
},
{
"epoch": 10.041666666666666,
"grad_norm": 0.2471524477005005,
"learning_rate": 5.7085983540521216e-05,
"loss": 0.0456,
"step": 4820
},
{
"epoch": 10.0625,
"grad_norm": 0.22308869659900665,
"learning_rate": 5.692226698644938e-05,
"loss": 0.0456,
"step": 4830
},
{
"epoch": 10.083333333333334,
"grad_norm": 0.28350821137428284,
"learning_rate": 5.675847473157485e-05,
"loss": 0.0515,
"step": 4840
},
{
"epoch": 10.104166666666666,
"grad_norm": 0.19321610033512115,
"learning_rate": 5.6594608567103456e-05,
"loss": 0.0458,
"step": 4850
},
{
"epoch": 10.125,
"grad_norm": 0.2354840636253357,
"learning_rate": 5.6430670285049314e-05,
"loss": 0.0395,
"step": 4860
},
{
"epoch": 10.145833333333334,
"grad_norm": 0.2242346554994583,
"learning_rate": 5.6266661678215216e-05,
"loss": 0.0452,
"step": 4870
},
{
"epoch": 10.166666666666666,
"grad_norm": 0.19859901070594788,
"learning_rate": 5.6102584540173006e-05,
"loss": 0.0427,
"step": 4880
},
{
"epoch": 10.1875,
"grad_norm": 0.2990339696407318,
"learning_rate": 5.5938440665244006e-05,
"loss": 0.0443,
"step": 4890
},
{
"epoch": 10.208333333333334,
"grad_norm": 0.17451122403144836,
"learning_rate": 5.577423184847932e-05,
"loss": 0.0464,
"step": 4900
},
{
"epoch": 10.229166666666666,
"grad_norm": 0.27011385560035706,
"learning_rate": 5.560995988564023e-05,
"loss": 0.0432,
"step": 4910
},
{
"epoch": 10.25,
"grad_norm": 0.20278741419315338,
"learning_rate": 5.544562657317863e-05,
"loss": 0.041,
"step": 4920
},
{
"epoch": 10.270833333333334,
"grad_norm": 0.19786055386066437,
"learning_rate": 5.52812337082173e-05,
"loss": 0.0448,
"step": 4930
},
{
"epoch": 10.291666666666666,
"grad_norm": 0.19475369155406952,
"learning_rate": 5.511678308853026e-05,
"loss": 0.0407,
"step": 4940
},
{
"epoch": 10.3125,
"grad_norm": 0.18051603436470032,
"learning_rate": 5.495227651252315e-05,
"loss": 0.0402,
"step": 4950
},
{
"epoch": 10.333333333333334,
"grad_norm": 0.2484702616930008,
"learning_rate": 5.478771577921351e-05,
"loss": 0.0438,
"step": 4960
},
{
"epoch": 10.354166666666666,
"grad_norm": 0.22432544827461243,
"learning_rate": 5.462310268821118e-05,
"loss": 0.0461,
"step": 4970
},
{
"epoch": 10.375,
"grad_norm": 0.18664902448654175,
"learning_rate": 5.445843903969854e-05,
"loss": 0.0488,
"step": 4980
},
{
"epoch": 10.395833333333334,
"grad_norm": 0.15875597298145294,
"learning_rate": 5.4293726634410855e-05,
"loss": 0.0453,
"step": 4990
},
{
"epoch": 10.416666666666666,
"grad_norm": 0.241317018866539,
"learning_rate": 5.4128967273616625e-05,
"loss": 0.0426,
"step": 5000
},
{
"epoch": 10.4375,
"grad_norm": 0.25186699628829956,
"learning_rate": 5.396416275909779e-05,
"loss": 0.0422,
"step": 5010
},
{
"epoch": 10.458333333333334,
"grad_norm": 0.210428386926651,
"learning_rate": 5.379931489313016e-05,
"loss": 0.0447,
"step": 5020
},
{
"epoch": 10.479166666666666,
"grad_norm": 0.18129436671733856,
"learning_rate": 5.363442547846356e-05,
"loss": 0.0486,
"step": 5030
},
{
"epoch": 10.5,
"grad_norm": 0.1484909951686859,
"learning_rate": 5.3469496318302204e-05,
"loss": 0.0379,
"step": 5040
},
{
"epoch": 10.520833333333334,
"grad_norm": 0.20055051147937775,
"learning_rate": 5.330452921628497e-05,
"loss": 0.0458,
"step": 5050
},
{
"epoch": 10.541666666666666,
"grad_norm": 0.1339893490076065,
"learning_rate": 5.313952597646568e-05,
"loss": 0.0393,
"step": 5060
},
{
"epoch": 10.5625,
"grad_norm": 0.20396846532821655,
"learning_rate": 5.297448840329329e-05,
"loss": 0.0397,
"step": 5070
},
{
"epoch": 10.583333333333334,
"grad_norm": 0.13719069957733154,
"learning_rate": 5.280941830159227e-05,
"loss": 0.0399,
"step": 5080
},
{
"epoch": 10.604166666666666,
"grad_norm": 0.19255420565605164,
"learning_rate": 5.264431747654284e-05,
"loss": 0.0405,
"step": 5090
},
{
"epoch": 10.625,
"grad_norm": 0.22163689136505127,
"learning_rate": 5.247918773366112e-05,
"loss": 0.0473,
"step": 5100
},
{
"epoch": 10.645833333333334,
"grad_norm": 0.23657256364822388,
"learning_rate": 5.231403087877955e-05,
"loss": 0.0426,
"step": 5110
},
{
"epoch": 10.666666666666666,
"grad_norm": 0.2585020363330841,
"learning_rate": 5.214884871802703e-05,
"loss": 0.0487,
"step": 5120
},
{
"epoch": 10.6875,
"grad_norm": 0.17085853219032288,
"learning_rate": 5.198364305780922e-05,
"loss": 0.0407,
"step": 5130
},
{
"epoch": 10.708333333333334,
"grad_norm": 0.1590132862329483,
"learning_rate": 5.1818415704788725e-05,
"loss": 0.0368,
"step": 5140
},
{
"epoch": 10.729166666666666,
"grad_norm": 0.15811192989349365,
"learning_rate": 5.165316846586541e-05,
"loss": 0.0412,
"step": 5150
},
{
"epoch": 10.75,
"grad_norm": 0.20628100633621216,
"learning_rate": 5.148790314815663e-05,
"loss": 0.0429,
"step": 5160
},
{
"epoch": 10.770833333333334,
"grad_norm": 0.18603432178497314,
"learning_rate": 5.132262155897739e-05,
"loss": 0.0379,
"step": 5170
},
{
"epoch": 10.791666666666666,
"grad_norm": 0.27321115136146545,
"learning_rate": 5.1157325505820694e-05,
"loss": 0.0395,
"step": 5180
},
{
"epoch": 10.8125,
"grad_norm": 0.22894440591335297,
"learning_rate": 5.0992016796337686e-05,
"loss": 0.0424,
"step": 5190
},
{
"epoch": 10.833333333333334,
"grad_norm": 0.12385181337594986,
"learning_rate": 5.0826697238317935e-05,
"loss": 0.0461,
"step": 5200
},
{
"epoch": 10.854166666666666,
"grad_norm": 0.2319619506597519,
"learning_rate": 5.066136863966963e-05,
"loss": 0.043,
"step": 5210
},
{
"epoch": 10.875,
"grad_norm": 0.28764697909355164,
"learning_rate": 5.0496032808399815e-05,
"loss": 0.0408,
"step": 5220
},
{
"epoch": 10.895833333333334,
"grad_norm": 0.21275018155574799,
"learning_rate": 5.033069155259471e-05,
"loss": 0.044,
"step": 5230
},
{
"epoch": 10.916666666666666,
"grad_norm": 0.22453029453754425,
"learning_rate": 5.016534668039976e-05,
"loss": 0.0399,
"step": 5240
},
{
"epoch": 10.9375,
"grad_norm": 0.1953059583902359,
"learning_rate": 5e-05,
"loss": 0.0409,
"step": 5250
},
{
"epoch": 10.958333333333334,
"grad_norm": 0.14878690242767334,
"learning_rate": 4.9834653319600246e-05,
"loss": 0.0398,
"step": 5260
},
{
"epoch": 10.979166666666666,
"grad_norm": 0.2492102086544037,
"learning_rate": 4.96693084474053e-05,
"loss": 0.0499,
"step": 5270
},
{
"epoch": 11.0,
"grad_norm": 0.3848576247692108,
"learning_rate": 4.950396719160018e-05,
"loss": 0.0419,
"step": 5280
},
{
"epoch": 11.020833333333334,
"grad_norm": 0.18382327258586884,
"learning_rate": 4.93386313603304e-05,
"loss": 0.0432,
"step": 5290
},
{
"epoch": 11.041666666666666,
"grad_norm": 0.25166767835617065,
"learning_rate": 4.917330276168208e-05,
"loss": 0.0411,
"step": 5300
},
{
"epoch": 11.0625,
"grad_norm": 0.14504221081733704,
"learning_rate": 4.9007983203662326e-05,
"loss": 0.0386,
"step": 5310
},
{
"epoch": 11.083333333333334,
"grad_norm": 0.15644173324108124,
"learning_rate": 4.884267449417931e-05,
"loss": 0.046,
"step": 5320
},
{
"epoch": 11.104166666666666,
"grad_norm": 0.17497499287128448,
"learning_rate": 4.867737844102261e-05,
"loss": 0.0367,
"step": 5330
},
{
"epoch": 11.125,
"grad_norm": 0.12207230180501938,
"learning_rate": 4.851209685184338e-05,
"loss": 0.041,
"step": 5340
},
{
"epoch": 11.145833333333334,
"grad_norm": 0.19345144927501678,
"learning_rate": 4.834683153413459e-05,
"loss": 0.0407,
"step": 5350
},
{
"epoch": 11.166666666666666,
"grad_norm": 0.1600380539894104,
"learning_rate": 4.818158429521129e-05,
"loss": 0.043,
"step": 5360
},
{
"epoch": 11.1875,
"grad_norm": 0.20394577085971832,
"learning_rate": 4.801635694219079e-05,
"loss": 0.0428,
"step": 5370
},
{
"epoch": 11.208333333333334,
"grad_norm": 0.21752101182937622,
"learning_rate": 4.785115128197298e-05,
"loss": 0.0413,
"step": 5380
},
{
"epoch": 11.229166666666666,
"grad_norm": 0.1963369995355606,
"learning_rate": 4.7685969121220456e-05,
"loss": 0.04,
"step": 5390
},
{
"epoch": 11.25,
"grad_norm": 0.2457231879234314,
"learning_rate": 4.7520812266338885e-05,
"loss": 0.0394,
"step": 5400
},
{
"epoch": 11.270833333333334,
"grad_norm": 0.26521575450897217,
"learning_rate": 4.735568252345718e-05,
"loss": 0.046,
"step": 5410
},
{
"epoch": 11.291666666666666,
"grad_norm": 0.24490521848201752,
"learning_rate": 4.7190581698407725e-05,
"loss": 0.0389,
"step": 5420
},
{
"epoch": 11.3125,
"grad_norm": 0.19071172177791595,
"learning_rate": 4.702551159670672e-05,
"loss": 0.0379,
"step": 5430
},
{
"epoch": 11.333333333333334,
"grad_norm": 0.1720157265663147,
"learning_rate": 4.6860474023534335e-05,
"loss": 0.0358,
"step": 5440
},
{
"epoch": 11.354166666666666,
"grad_norm": 0.1971021145582199,
"learning_rate": 4.669547078371504e-05,
"loss": 0.0425,
"step": 5450
},
{
"epoch": 11.375,
"grad_norm": 0.16216221451759338,
"learning_rate": 4.65305036816978e-05,
"loss": 0.0398,
"step": 5460
},
{
"epoch": 11.395833333333334,
"grad_norm": 0.3896409869194031,
"learning_rate": 4.6365574521536445e-05,
"loss": 0.0443,
"step": 5470
},
{
"epoch": 11.416666666666666,
"grad_norm": 0.2199966162443161,
"learning_rate": 4.620068510686985e-05,
"loss": 0.0381,
"step": 5480
},
{
"epoch": 11.4375,
"grad_norm": 0.1703164428472519,
"learning_rate": 4.60358372409022e-05,
"loss": 0.0388,
"step": 5490
},
{
"epoch": 11.458333333333334,
"grad_norm": 0.1450280249118805,
"learning_rate": 4.5871032726383386e-05,
"loss": 0.035,
"step": 5500
},
{
"epoch": 11.479166666666666,
"grad_norm": 0.2720458209514618,
"learning_rate": 4.570627336558915e-05,
"loss": 0.0386,
"step": 5510
},
{
"epoch": 11.5,
"grad_norm": 0.1641550362110138,
"learning_rate": 4.554156096030149e-05,
"loss": 0.0427,
"step": 5520
},
{
"epoch": 11.520833333333334,
"grad_norm": 0.22372999787330627,
"learning_rate": 4.537689731178883e-05,
"loss": 0.0379,
"step": 5530
},
{
"epoch": 11.541666666666666,
"grad_norm": 0.2067866027355194,
"learning_rate": 4.5212284220786494e-05,
"loss": 0.0475,
"step": 5540
},
{
"epoch": 11.5625,
"grad_norm": 0.1630556732416153,
"learning_rate": 4.504772348747687e-05,
"loss": 0.0429,
"step": 5550
},
{
"epoch": 11.583333333333334,
"grad_norm": 0.16432788968086243,
"learning_rate": 4.488321691146975e-05,
"loss": 0.0393,
"step": 5560
},
{
"epoch": 11.604166666666666,
"grad_norm": 0.17831680178642273,
"learning_rate": 4.471876629178273e-05,
"loss": 0.0366,
"step": 5570
},
{
"epoch": 11.625,
"grad_norm": 0.2123539000749588,
"learning_rate": 4.4554373426821374e-05,
"loss": 0.0412,
"step": 5580
},
{
"epoch": 11.645833333333334,
"grad_norm": 0.2609133720397949,
"learning_rate": 4.439004011435979e-05,
"loss": 0.0427,
"step": 5590
},
{
"epoch": 11.666666666666666,
"grad_norm": 0.25508642196655273,
"learning_rate": 4.4225768151520694e-05,
"loss": 0.042,
"step": 5600
},
{
"epoch": 11.6875,
"grad_norm": 0.21042585372924805,
"learning_rate": 4.406155933475599e-05,
"loss": 0.0436,
"step": 5610
},
{
"epoch": 11.708333333333334,
"grad_norm": 0.18732571601867676,
"learning_rate": 4.3897415459827e-05,
"loss": 0.037,
"step": 5620
},
{
"epoch": 11.729166666666666,
"grad_norm": 0.18312667310237885,
"learning_rate": 4.373333832178478e-05,
"loss": 0.0407,
"step": 5630
},
{
"epoch": 11.75,
"grad_norm": 0.16135013103485107,
"learning_rate": 4.3569329714950704e-05,
"loss": 0.0354,
"step": 5640
},
{
"epoch": 11.770833333333334,
"grad_norm": 0.13367682695388794,
"learning_rate": 4.3405391432896555e-05,
"loss": 0.044,
"step": 5650
},
{
"epoch": 11.791666666666666,
"grad_norm": 0.18768717348575592,
"learning_rate": 4.324152526842517e-05,
"loss": 0.0369,
"step": 5660
},
{
"epoch": 11.8125,
"grad_norm": 0.1540452241897583,
"learning_rate": 4.307773301355062e-05,
"loss": 0.0394,
"step": 5670
},
{
"epoch": 11.833333333333334,
"grad_norm": 0.2887902855873108,
"learning_rate": 4.291401645947879e-05,
"loss": 0.0397,
"step": 5680
},
{
"epoch": 11.854166666666666,
"grad_norm": 0.37716343998908997,
"learning_rate": 4.275037739658771e-05,
"loss": 0.0427,
"step": 5690
},
{
"epoch": 11.875,
"grad_norm": 0.23013059794902802,
"learning_rate": 4.2586817614407895e-05,
"loss": 0.0429,
"step": 5700
},
{
"epoch": 11.895833333333334,
"grad_norm": 0.1979239135980606,
"learning_rate": 4.2423338901602985e-05,
"loss": 0.0388,
"step": 5710
},
{
"epoch": 11.916666666666666,
"grad_norm": 0.16653117537498474,
"learning_rate": 4.2259943045949934e-05,
"loss": 0.0492,
"step": 5720
},
{
"epoch": 11.9375,
"grad_norm": 0.2162189930677414,
"learning_rate": 4.209663183431969e-05,
"loss": 0.0442,
"step": 5730
},
{
"epoch": 11.958333333333334,
"grad_norm": 0.19394119083881378,
"learning_rate": 4.1933407052657456e-05,
"loss": 0.0431,
"step": 5740
},
{
"epoch": 11.979166666666666,
"grad_norm": 0.25315889716148376,
"learning_rate": 4.17702704859633e-05,
"loss": 0.0399,
"step": 5750
},
{
"epoch": 12.0,
"grad_norm": 0.33700859546661377,
"learning_rate": 4.160722391827262e-05,
"loss": 0.0408,
"step": 5760
},
{
"epoch": 12.020833333333334,
"grad_norm": 0.20825780928134918,
"learning_rate": 4.14442691326365e-05,
"loss": 0.0395,
"step": 5770
},
{
"epoch": 12.041666666666666,
"grad_norm": 0.1547510176897049,
"learning_rate": 4.1281407911102425e-05,
"loss": 0.0354,
"step": 5780
},
{
"epoch": 12.0625,
"grad_norm": 0.18649132549762726,
"learning_rate": 4.111864203469457e-05,
"loss": 0.0397,
"step": 5790
},
{
"epoch": 12.083333333333334,
"grad_norm": 0.17303578555583954,
"learning_rate": 4.095597328339452e-05,
"loss": 0.0386,
"step": 5800
},
{
"epoch": 12.104166666666666,
"grad_norm": 0.22204063832759857,
"learning_rate": 4.079340343612165e-05,
"loss": 0.0378,
"step": 5810
},
{
"epoch": 12.125,
"grad_norm": 0.17748937010765076,
"learning_rate": 4.063093427071376e-05,
"loss": 0.0396,
"step": 5820
},
{
"epoch": 12.145833333333334,
"grad_norm": 0.13429847359657288,
"learning_rate": 4.046856756390767e-05,
"loss": 0.039,
"step": 5830
},
{
"epoch": 12.166666666666666,
"grad_norm": 0.18121349811553955,
"learning_rate": 4.0306305091319595e-05,
"loss": 0.0421,
"step": 5840
},
{
"epoch": 12.1875,
"grad_norm": 0.20254682004451752,
"learning_rate": 4.0144148627425993e-05,
"loss": 0.0406,
"step": 5850
},
{
"epoch": 12.208333333333334,
"grad_norm": 0.13965128362178802,
"learning_rate": 3.9982099945543945e-05,
"loss": 0.0426,
"step": 5860
},
{
"epoch": 12.229166666666666,
"grad_norm": 0.23334594070911407,
"learning_rate": 3.982016081781189e-05,
"loss": 0.0401,
"step": 5870
},
{
"epoch": 12.25,
"grad_norm": 0.29574814438819885,
"learning_rate": 3.965833301517017e-05,
"loss": 0.0368,
"step": 5880
},
{
"epoch": 12.270833333333334,
"grad_norm": 0.15830658376216888,
"learning_rate": 3.949661830734172e-05,
"loss": 0.0498,
"step": 5890
},
{
"epoch": 12.291666666666666,
"grad_norm": 0.11797461658716202,
"learning_rate": 3.933501846281267e-05,
"loss": 0.034,
"step": 5900
},
{
"epoch": 12.3125,
"grad_norm": 0.17256031930446625,
"learning_rate": 3.917353524881302e-05,
"loss": 0.0473,
"step": 5910
},
{
"epoch": 12.333333333333334,
"grad_norm": 0.1115083396434784,
"learning_rate": 3.901217043129735e-05,
"loss": 0.0356,
"step": 5920
},
{
"epoch": 12.354166666666666,
"grad_norm": 0.24546393752098083,
"learning_rate": 3.8850925774925425e-05,
"loss": 0.0363,
"step": 5930
},
{
"epoch": 12.375,
"grad_norm": 0.16720516979694366,
"learning_rate": 3.8689803043043e-05,
"loss": 0.0369,
"step": 5940
},
{
"epoch": 12.395833333333334,
"grad_norm": 0.1878960281610489,
"learning_rate": 3.852880399766243e-05,
"loss": 0.0385,
"step": 5950
},
{
"epoch": 12.416666666666666,
"grad_norm": 0.2697995901107788,
"learning_rate": 3.836793039944349e-05,
"loss": 0.0372,
"step": 5960
},
{
"epoch": 12.4375,
"grad_norm": 0.2137763500213623,
"learning_rate": 3.820718400767409e-05,
"loss": 0.0352,
"step": 5970
},
{
"epoch": 12.458333333333334,
"grad_norm": 0.12412809580564499,
"learning_rate": 3.8046566580251e-05,
"loss": 0.0385,
"step": 5980
},
{
"epoch": 12.479166666666666,
"grad_norm": 0.16106805205345154,
"learning_rate": 3.788607987366069e-05,
"loss": 0.0374,
"step": 5990
},
{
"epoch": 12.5,
"grad_norm": 0.20143009722232819,
"learning_rate": 3.772572564296005e-05,
"loss": 0.0399,
"step": 6000
},
{
"epoch": 12.520833333333334,
"grad_norm": 0.2611088454723358,
"learning_rate": 3.756550564175727e-05,
"loss": 0.0378,
"step": 6010
},
{
"epoch": 12.541666666666666,
"grad_norm": 0.19968561828136444,
"learning_rate": 3.74054216221926e-05,
"loss": 0.0336,
"step": 6020
},
{
"epoch": 12.5625,
"grad_norm": 0.2946498394012451,
"learning_rate": 3.7245475334919246e-05,
"loss": 0.0419,
"step": 6030
},
{
"epoch": 12.583333333333334,
"grad_norm": 0.24810166656970978,
"learning_rate": 3.7085668529084184e-05,
"loss": 0.0369,
"step": 6040
},
{
"epoch": 12.604166666666666,
"grad_norm": 0.17250268161296844,
"learning_rate": 3.6926002952309016e-05,
"loss": 0.0389,
"step": 6050
},
{
"epoch": 12.625,
"grad_norm": 0.18926459550857544,
"learning_rate": 3.676648035067093e-05,
"loss": 0.0381,
"step": 6060
},
{
"epoch": 12.645833333333334,
"grad_norm": 0.16701489686965942,
"learning_rate": 3.6607102468683526e-05,
"loss": 0.0372,
"step": 6070
},
{
"epoch": 12.666666666666666,
"grad_norm": 0.27794161438941956,
"learning_rate": 3.6447871049277796e-05,
"loss": 0.0476,
"step": 6080
},
{
"epoch": 12.6875,
"grad_norm": 0.15059830248355865,
"learning_rate": 3.628878783378302e-05,
"loss": 0.0365,
"step": 6090
},
{
"epoch": 12.708333333333334,
"grad_norm": 0.18658536672592163,
"learning_rate": 3.612985456190778e-05,
"loss": 0.0409,
"step": 6100
},
{
"epoch": 12.729166666666666,
"grad_norm": 0.20055310428142548,
"learning_rate": 3.597107297172084e-05,
"loss": 0.0309,
"step": 6110
},
{
"epoch": 12.75,
"grad_norm": 0.1511124223470688,
"learning_rate": 3.581244479963225e-05,
"loss": 0.0389,
"step": 6120
},
{
"epoch": 12.770833333333334,
"grad_norm": 0.19505897164344788,
"learning_rate": 3.5653971780374295e-05,
"loss": 0.0376,
"step": 6130
},
{
"epoch": 12.791666666666666,
"grad_norm": 0.26128458976745605,
"learning_rate": 3.5495655646982505e-05,
"loss": 0.0436,
"step": 6140
},
{
"epoch": 12.8125,
"grad_norm": 0.19015803933143616,
"learning_rate": 3.533749813077677e-05,
"loss": 0.0337,
"step": 6150
},
{
"epoch": 12.833333333333334,
"grad_norm": 0.18475806713104248,
"learning_rate": 3.517950096134232e-05,
"loss": 0.0394,
"step": 6160
},
{
"epoch": 12.854166666666666,
"grad_norm": 0.199330672621727,
"learning_rate": 3.5021665866510925e-05,
"loss": 0.0393,
"step": 6170
},
{
"epoch": 12.875,
"grad_norm": 0.1968792825937271,
"learning_rate": 3.4863994572341843e-05,
"loss": 0.0428,
"step": 6180
},
{
"epoch": 12.895833333333334,
"grad_norm": 0.2163507491350174,
"learning_rate": 3.470648880310313e-05,
"loss": 0.0396,
"step": 6190
},
{
"epoch": 12.916666666666666,
"grad_norm": 0.1362553834915161,
"learning_rate": 3.4549150281252636e-05,
"loss": 0.0415,
"step": 6200
},
{
"epoch": 12.9375,
"grad_norm": 0.15272819995880127,
"learning_rate": 3.439198072741921e-05,
"loss": 0.0371,
"step": 6210
},
{
"epoch": 12.958333333333334,
"grad_norm": 0.1750105768442154,
"learning_rate": 3.423498186038393e-05,
"loss": 0.0391,
"step": 6220
},
{
"epoch": 12.979166666666666,
"grad_norm": 0.17547383904457092,
"learning_rate": 3.407815539706124e-05,
"loss": 0.036,
"step": 6230
},
{
"epoch": 13.0,
"grad_norm": 0.2598505914211273,
"learning_rate": 3.392150305248024e-05,
"loss": 0.038,
"step": 6240
},
{
"epoch": 13.020833333333334,
"grad_norm": 0.2553529739379883,
"learning_rate": 3.3765026539765834e-05,
"loss": 0.0387,
"step": 6250
},
{
"epoch": 13.041666666666666,
"grad_norm": 0.17663992941379547,
"learning_rate": 3.360872757012011e-05,
"loss": 0.0389,
"step": 6260
},
{
"epoch": 13.0625,
"grad_norm": 0.2314099818468094,
"learning_rate": 3.3452607852803584e-05,
"loss": 0.0434,
"step": 6270
},
{
"epoch": 13.083333333333334,
"grad_norm": 0.17751750349998474,
"learning_rate": 3.329666909511645e-05,
"loss": 0.0383,
"step": 6280
},
{
"epoch": 13.104166666666666,
"grad_norm": 0.1711682230234146,
"learning_rate": 3.3140913002379995e-05,
"loss": 0.0441,
"step": 6290
},
{
"epoch": 13.125,
"grad_norm": 0.1765744388103485,
"learning_rate": 3.298534127791785e-05,
"loss": 0.0361,
"step": 6300
},
{
"epoch": 13.145833333333334,
"grad_norm": 0.14884302020072937,
"learning_rate": 3.282995562303754e-05,
"loss": 0.0392,
"step": 6310
},
{
"epoch": 13.166666666666666,
"grad_norm": 0.23284494876861572,
"learning_rate": 3.267475773701161e-05,
"loss": 0.0414,
"step": 6320
},
{
"epoch": 13.1875,
"grad_norm": 0.21358659863471985,
"learning_rate": 3.251974931705933e-05,
"loss": 0.0389,
"step": 6330
},
{
"epoch": 13.208333333333334,
"grad_norm": 0.2136419266462326,
"learning_rate": 3.236493205832795e-05,
"loss": 0.0394,
"step": 6340
},
{
"epoch": 13.229166666666666,
"grad_norm": 0.17444035410881042,
"learning_rate": 3.221030765387417e-05,
"loss": 0.0335,
"step": 6350
},
{
"epoch": 13.25,
"grad_norm": 0.12927989661693573,
"learning_rate": 3.205587779464576e-05,
"loss": 0.0297,
"step": 6360
},
{
"epoch": 13.270833333333334,
"grad_norm": 0.20504234731197357,
"learning_rate": 3.190164416946285e-05,
"loss": 0.0398,
"step": 6370
},
{
"epoch": 13.291666666666666,
"grad_norm": 0.1620664894580841,
"learning_rate": 3.1747608464999725e-05,
"loss": 0.0357,
"step": 6380
},
{
"epoch": 13.3125,
"grad_norm": 0.18466980755329132,
"learning_rate": 3.1593772365766105e-05,
"loss": 0.0384,
"step": 6390
},
{
"epoch": 13.333333333333334,
"grad_norm": 0.19365406036376953,
"learning_rate": 3.144013755408895e-05,
"loss": 0.0379,
"step": 6400
},
{
"epoch": 13.354166666666666,
"grad_norm": 0.22242169082164764,
"learning_rate": 3.128670571009399e-05,
"loss": 0.0378,
"step": 6410
},
{
"epoch": 13.375,
"grad_norm": 0.19277265667915344,
"learning_rate": 3.113347851168721e-05,
"loss": 0.0394,
"step": 6420
},
{
"epoch": 13.395833333333334,
"grad_norm": 0.15475115180015564,
"learning_rate": 3.098045763453678e-05,
"loss": 0.0341,
"step": 6430
},
{
"epoch": 13.416666666666666,
"grad_norm": 0.24574577808380127,
"learning_rate": 3.082764475205442e-05,
"loss": 0.036,
"step": 6440
},
{
"epoch": 13.4375,
"grad_norm": 0.1253107488155365,
"learning_rate": 3.0675041535377405e-05,
"loss": 0.0354,
"step": 6450
},
{
"epoch": 13.458333333333334,
"grad_norm": 0.19683432579040527,
"learning_rate": 3.052264965335e-05,
"loss": 0.0333,
"step": 6460
},
{
"epoch": 13.479166666666666,
"grad_norm": 0.2121218889951706,
"learning_rate": 3.0370470772505433e-05,
"loss": 0.0363,
"step": 6470
},
{
"epoch": 13.5,
"grad_norm": 0.14255274832248688,
"learning_rate": 3.0218506557047598e-05,
"loss": 0.0425,
"step": 6480
},
{
"epoch": 13.520833333333334,
"grad_norm": 0.14524437487125397,
"learning_rate": 3.006675866883275e-05,
"loss": 0.035,
"step": 6490
},
{
"epoch": 13.541666666666666,
"grad_norm": 0.17796678841114044,
"learning_rate": 2.991522876735154e-05,
"loss": 0.0369,
"step": 6500
},
{
"epoch": 13.5625,
"grad_norm": 0.276693731546402,
"learning_rate": 2.976391850971065e-05,
"loss": 0.0405,
"step": 6510
},
{
"epoch": 13.583333333333334,
"grad_norm": 0.1899837702512741,
"learning_rate": 2.9612829550614836e-05,
"loss": 0.0391,
"step": 6520
},
{
"epoch": 13.604166666666666,
"grad_norm": 0.17294272780418396,
"learning_rate": 2.9461963542348737e-05,
"loss": 0.0433,
"step": 6530
},
{
"epoch": 13.625,
"grad_norm": 0.17909543216228485,
"learning_rate": 2.931132213475884e-05,
"loss": 0.0326,
"step": 6540
},
{
"epoch": 13.645833333333334,
"grad_norm": 0.14403104782104492,
"learning_rate": 2.916090697523549e-05,
"loss": 0.0357,
"step": 6550
},
{
"epoch": 13.666666666666666,
"grad_norm": 0.2349185347557068,
"learning_rate": 2.9010719708694722e-05,
"loss": 0.04,
"step": 6560
},
{
"epoch": 13.6875,
"grad_norm": 0.23521877825260162,
"learning_rate": 2.8860761977560436e-05,
"loss": 0.0384,
"step": 6570
},
{
"epoch": 13.708333333333334,
"grad_norm": 0.16321514546871185,
"learning_rate": 2.8711035421746367e-05,
"loss": 0.0465,
"step": 6580
},
{
"epoch": 13.729166666666666,
"grad_norm": 0.1888456791639328,
"learning_rate": 2.8561541678638142e-05,
"loss": 0.0389,
"step": 6590
},
{
"epoch": 13.75,
"grad_norm": 0.12604469060897827,
"learning_rate": 2.8412282383075363e-05,
"loss": 0.0377,
"step": 6600
},
{
"epoch": 13.770833333333334,
"grad_norm": 0.13205738365650177,
"learning_rate": 2.8263259167333777e-05,
"loss": 0.0353,
"step": 6610
},
{
"epoch": 13.791666666666666,
"grad_norm": 0.13578617572784424,
"learning_rate": 2.811447366110741e-05,
"loss": 0.0353,
"step": 6620
},
{
"epoch": 13.8125,
"grad_norm": 0.20386967062950134,
"learning_rate": 2.7965927491490705e-05,
"loss": 0.0356,
"step": 6630
},
{
"epoch": 13.833333333333334,
"grad_norm": 0.18563248217105865,
"learning_rate": 2.7817622282960815e-05,
"loss": 0.0422,
"step": 6640
},
{
"epoch": 13.854166666666666,
"grad_norm": 0.13876503705978394,
"learning_rate": 2.766955965735968e-05,
"loss": 0.0372,
"step": 6650
},
{
"epoch": 13.875,
"grad_norm": 0.1998944729566574,
"learning_rate": 2.7521741233876496e-05,
"loss": 0.0345,
"step": 6660
},
{
"epoch": 13.895833333333334,
"grad_norm": 0.09204313904047012,
"learning_rate": 2.7374168629029813e-05,
"loss": 0.0333,
"step": 6670
},
{
"epoch": 13.916666666666666,
"grad_norm": 0.21691344678401947,
"learning_rate": 2.7226843456650037e-05,
"loss": 0.0377,
"step": 6680
},
{
"epoch": 13.9375,
"grad_norm": 0.1491704136133194,
"learning_rate": 2.707976732786166e-05,
"loss": 0.0389,
"step": 6690
},
{
"epoch": 13.958333333333334,
"grad_norm": 0.17232492566108704,
"learning_rate": 2.693294185106562e-05,
"loss": 0.0389,
"step": 6700
},
{
"epoch": 13.979166666666666,
"grad_norm": 0.2585275173187256,
"learning_rate": 2.6786368631921836e-05,
"loss": 0.0324,
"step": 6710
},
{
"epoch": 14.0,
"grad_norm": 0.31349268555641174,
"learning_rate": 2.6640049273331515e-05,
"loss": 0.0379,
"step": 6720
},
{
"epoch": 14.020833333333334,
"grad_norm": 0.21207097172737122,
"learning_rate": 2.6493985375419778e-05,
"loss": 0.0331,
"step": 6730
},
{
"epoch": 14.041666666666666,
"grad_norm": 0.2716270089149475,
"learning_rate": 2.6348178535517966e-05,
"loss": 0.0399,
"step": 6740
},
{
"epoch": 14.0625,
"grad_norm": 0.22059811651706696,
"learning_rate": 2.6202630348146324e-05,
"loss": 0.0412,
"step": 6750
},
{
"epoch": 14.083333333333334,
"grad_norm": 0.15869638323783875,
"learning_rate": 2.6057342404996522e-05,
"loss": 0.0328,
"step": 6760
},
{
"epoch": 14.104166666666666,
"grad_norm": 0.19988775253295898,
"learning_rate": 2.591231629491423e-05,
"loss": 0.0359,
"step": 6770
},
{
"epoch": 14.125,
"grad_norm": 0.1618472784757614,
"learning_rate": 2.5767553603881767e-05,
"loss": 0.0306,
"step": 6780
},
{
"epoch": 14.145833333333334,
"grad_norm": 0.2341802716255188,
"learning_rate": 2.562305591500069e-05,
"loss": 0.0363,
"step": 6790
},
{
"epoch": 14.166666666666666,
"grad_norm": 0.22032411396503448,
"learning_rate": 2.547882480847461e-05,
"loss": 0.0374,
"step": 6800
},
{
"epoch": 14.1875,
"grad_norm": 0.2002587914466858,
"learning_rate": 2.5334861861591753e-05,
"loss": 0.0417,
"step": 6810
},
{
"epoch": 14.208333333333334,
"grad_norm": 0.1493261754512787,
"learning_rate": 2.5191168648707887e-05,
"loss": 0.038,
"step": 6820
},
{
"epoch": 14.229166666666666,
"grad_norm": 0.12463536113500595,
"learning_rate": 2.5047746741228978e-05,
"loss": 0.0306,
"step": 6830
},
{
"epoch": 14.25,
"grad_norm": 0.1263580024242401,
"learning_rate": 2.490459770759398e-05,
"loss": 0.0303,
"step": 6840
},
{
"epoch": 14.270833333333334,
"grad_norm": 0.11605334281921387,
"learning_rate": 2.476172311325783e-05,
"loss": 0.035,
"step": 6850
},
{
"epoch": 14.291666666666666,
"grad_norm": 0.14916780591011047,
"learning_rate": 2.4619124520674146e-05,
"loss": 0.0306,
"step": 6860
},
{
"epoch": 14.3125,
"grad_norm": 0.11922206729650497,
"learning_rate": 2.447680348927837e-05,
"loss": 0.0387,
"step": 6870
},
{
"epoch": 14.333333333333334,
"grad_norm": 0.2507418692111969,
"learning_rate": 2.433476157547044e-05,
"loss": 0.0377,
"step": 6880
},
{
"epoch": 14.354166666666666,
"grad_norm": 0.22429078817367554,
"learning_rate": 2.419300033259798e-05,
"loss": 0.0474,
"step": 6890
},
{
"epoch": 14.375,
"grad_norm": 0.24157516658306122,
"learning_rate": 2.405152131093926e-05,
"loss": 0.0363,
"step": 6900
},
{
"epoch": 14.395833333333334,
"grad_norm": 0.38413891196250916,
"learning_rate": 2.3910326057686127e-05,
"loss": 0.0411,
"step": 6910
},
{
"epoch": 14.416666666666666,
"grad_norm": 0.22351625561714172,
"learning_rate": 2.3769416116927335e-05,
"loss": 0.0401,
"step": 6920
},
{
"epoch": 14.4375,
"grad_norm": 0.18442459404468536,
"learning_rate": 2.362879302963135e-05,
"loss": 0.0404,
"step": 6930
},
{
"epoch": 14.458333333333334,
"grad_norm": 0.4082157611846924,
"learning_rate": 2.3488458333629777e-05,
"loss": 0.0329,
"step": 6940
},
{
"epoch": 14.479166666666666,
"grad_norm": 0.21980011463165283,
"learning_rate": 2.3348413563600325e-05,
"loss": 0.0366,
"step": 6950
},
{
"epoch": 14.5,
"grad_norm": 0.17586643993854523,
"learning_rate": 2.3208660251050158e-05,
"loss": 0.0387,
"step": 6960
},
{
"epoch": 14.520833333333334,
"grad_norm": 0.15730033814907074,
"learning_rate": 2.3069199924299174e-05,
"loss": 0.0336,
"step": 6970
},
{
"epoch": 14.541666666666666,
"grad_norm": 0.19087393581867218,
"learning_rate": 2.29300341084631e-05,
"loss": 0.035,
"step": 6980
},
{
"epoch": 14.5625,
"grad_norm": 0.18095408380031586,
"learning_rate": 2.279116432543705e-05,
"loss": 0.0355,
"step": 6990
},
{
"epoch": 14.583333333333334,
"grad_norm": 0.2578522562980652,
"learning_rate": 2.2652592093878666e-05,
"loss": 0.0345,
"step": 7000
},
{
"epoch": 14.604166666666666,
"grad_norm": 0.20171664655208588,
"learning_rate": 2.251431892919171e-05,
"loss": 0.0356,
"step": 7010
},
{
"epoch": 14.625,
"grad_norm": 0.3004615902900696,
"learning_rate": 2.237634634350934e-05,
"loss": 0.0368,
"step": 7020
},
{
"epoch": 14.645833333333334,
"grad_norm": 0.16451160609722137,
"learning_rate": 2.2238675845677663e-05,
"loss": 0.0319,
"step": 7030
},
{
"epoch": 14.666666666666666,
"grad_norm": 0.27891501784324646,
"learning_rate": 2.2101308941239203e-05,
"loss": 0.0361,
"step": 7040
},
{
"epoch": 14.6875,
"grad_norm": 0.10866022855043411,
"learning_rate": 2.196424713241637e-05,
"loss": 0.0356,
"step": 7050
},
{
"epoch": 14.708333333333334,
"grad_norm": 0.15736782550811768,
"learning_rate": 2.182749191809518e-05,
"loss": 0.0449,
"step": 7060
},
{
"epoch": 14.729166666666666,
"grad_norm": 0.14991992712020874,
"learning_rate": 2.1691044793808734e-05,
"loss": 0.0336,
"step": 7070
},
{
"epoch": 14.75,
"grad_norm": 0.23279936611652374,
"learning_rate": 2.1554907251720945e-05,
"loss": 0.0327,
"step": 7080
},
{
"epoch": 14.770833333333334,
"grad_norm": 0.19482247531414032,
"learning_rate": 2.1419080780610123e-05,
"loss": 0.035,
"step": 7090
},
{
"epoch": 14.791666666666666,
"grad_norm": 0.16053085029125214,
"learning_rate": 2.128356686585282e-05,
"loss": 0.0322,
"step": 7100
},
{
"epoch": 14.8125,
"grad_norm": 0.17333699762821198,
"learning_rate": 2.1148366989407496e-05,
"loss": 0.0348,
"step": 7110
},
{
"epoch": 14.833333333333334,
"grad_norm": 0.20065756142139435,
"learning_rate": 2.1013482629798333e-05,
"loss": 0.0344,
"step": 7120
},
{
"epoch": 14.854166666666666,
"grad_norm": 0.2283259928226471,
"learning_rate": 2.0878915262099098e-05,
"loss": 0.0332,
"step": 7130
},
{
"epoch": 14.875,
"grad_norm": 0.19784249365329742,
"learning_rate": 2.0744666357916925e-05,
"loss": 0.0374,
"step": 7140
},
{
"epoch": 14.895833333333334,
"grad_norm": 0.1944170594215393,
"learning_rate": 2.061073738537635e-05,
"loss": 0.0379,
"step": 7150
},
{
"epoch": 14.916666666666666,
"grad_norm": 0.15928591787815094,
"learning_rate": 2.0477129809103147e-05,
"loss": 0.0408,
"step": 7160
},
{
"epoch": 14.9375,
"grad_norm": 0.21307940781116486,
"learning_rate": 2.0343845090208368e-05,
"loss": 0.0385,
"step": 7170
},
{
"epoch": 14.958333333333334,
"grad_norm": 0.1387159526348114,
"learning_rate": 2.0210884686272368e-05,
"loss": 0.0327,
"step": 7180
},
{
"epoch": 14.979166666666666,
"grad_norm": 0.21682381629943848,
"learning_rate": 2.0078250051328784e-05,
"loss": 0.0436,
"step": 7190
},
{
"epoch": 15.0,
"grad_norm": 0.3708045482635498,
"learning_rate": 1.9945942635848748e-05,
"loss": 0.034,
"step": 7200
},
{
"epoch": 15.020833333333334,
"grad_norm": 0.17879103124141693,
"learning_rate": 1.981396388672496e-05,
"loss": 0.0314,
"step": 7210
},
{
"epoch": 15.041666666666666,
"grad_norm": 0.21308660507202148,
"learning_rate": 1.9682315247255894e-05,
"loss": 0.0338,
"step": 7220
},
{
"epoch": 15.0625,
"grad_norm": 0.17053188383579254,
"learning_rate": 1.9550998157129946e-05,
"loss": 0.036,
"step": 7230
},
{
"epoch": 15.083333333333334,
"grad_norm": 0.1819431036710739,
"learning_rate": 1.942001405240979e-05,
"loss": 0.0336,
"step": 7240
},
{
"epoch": 15.104166666666666,
"grad_norm": 0.14159807562828064,
"learning_rate": 1.928936436551661e-05,
"loss": 0.0366,
"step": 7250
},
{
"epoch": 15.125,
"grad_norm": 0.23496906459331512,
"learning_rate": 1.9159050525214452e-05,
"loss": 0.0363,
"step": 7260
},
{
"epoch": 15.145833333333334,
"grad_norm": 0.21902140974998474,
"learning_rate": 1.9029073956594606e-05,
"loss": 0.0359,
"step": 7270
},
{
"epoch": 15.166666666666666,
"grad_norm": 0.1490468978881836,
"learning_rate": 1.8899436081059975e-05,
"loss": 0.0336,
"step": 7280
},
{
"epoch": 15.1875,
"grad_norm": 0.1414002925157547,
"learning_rate": 1.877013831630961e-05,
"loss": 0.0281,
"step": 7290
},
{
"epoch": 15.208333333333334,
"grad_norm": 0.30052894353866577,
"learning_rate": 1.8641182076323148e-05,
"loss": 0.0375,
"step": 7300
},
{
"epoch": 15.229166666666666,
"grad_norm": 0.2560082972049713,
"learning_rate": 1.851256877134538e-05,
"loss": 0.0355,
"step": 7310
},
{
"epoch": 15.25,
"grad_norm": 0.13596679270267487,
"learning_rate": 1.838429980787081e-05,
"loss": 0.0371,
"step": 7320
},
{
"epoch": 15.270833333333334,
"grad_norm": 0.15120552480220795,
"learning_rate": 1.8256376588628238e-05,
"loss": 0.0335,
"step": 7330
},
{
"epoch": 15.291666666666666,
"grad_norm": 0.19444897770881653,
"learning_rate": 1.8128800512565513e-05,
"loss": 0.0365,
"step": 7340
},
{
"epoch": 15.3125,
"grad_norm": 0.1597200185060501,
"learning_rate": 1.800157297483417e-05,
"loss": 0.0333,
"step": 7350
},
{
"epoch": 15.333333333333334,
"grad_norm": 0.15598775446414948,
"learning_rate": 1.787469536677419e-05,
"loss": 0.0332,
"step": 7360
},
{
"epoch": 15.354166666666666,
"grad_norm": 0.17735296487808228,
"learning_rate": 1.774816907589873e-05,
"loss": 0.0358,
"step": 7370
},
{
"epoch": 15.375,
"grad_norm": 0.1667356789112091,
"learning_rate": 1.7621995485879062e-05,
"loss": 0.0324,
"step": 7380
},
{
"epoch": 15.395833333333334,
"grad_norm": 0.17198875546455383,
"learning_rate": 1.749617597652934e-05,
"loss": 0.0342,
"step": 7390
},
{
"epoch": 15.416666666666666,
"grad_norm": 0.13327492773532867,
"learning_rate": 1.7370711923791567e-05,
"loss": 0.0381,
"step": 7400
},
{
"epoch": 15.4375,
"grad_norm": 0.14324255287647247,
"learning_rate": 1.7245604699720535e-05,
"loss": 0.0363,
"step": 7410
},
{
"epoch": 15.458333333333334,
"grad_norm": 0.12375563383102417,
"learning_rate": 1.712085567246878e-05,
"loss": 0.0293,
"step": 7420
},
{
"epoch": 15.479166666666666,
"grad_norm": 0.18987584114074707,
"learning_rate": 1.699646620627168e-05,
"loss": 0.0379,
"step": 7430
},
{
"epoch": 15.5,
"grad_norm": 0.29758167266845703,
"learning_rate": 1.6872437661432517e-05,
"loss": 0.037,
"step": 7440
},
{
"epoch": 15.520833333333334,
"grad_norm": 0.17801667749881744,
"learning_rate": 1.6748771394307585e-05,
"loss": 0.033,
"step": 7450
},
{
"epoch": 15.541666666666666,
"grad_norm": 0.18180030584335327,
"learning_rate": 1.662546875729138e-05,
"loss": 0.0312,
"step": 7460
},
{
"epoch": 15.5625,
"grad_norm": 0.14685310423374176,
"learning_rate": 1.6502531098801753e-05,
"loss": 0.0385,
"step": 7470
},
{
"epoch": 15.583333333333334,
"grad_norm": 0.2291467934846878,
"learning_rate": 1.637995976326527e-05,
"loss": 0.0325,
"step": 7480
},
{
"epoch": 15.604166666666666,
"grad_norm": 0.1897166520357132,
"learning_rate": 1.62577560911024e-05,
"loss": 0.0389,
"step": 7490
},
{
"epoch": 15.625,
"grad_norm": 0.1944008767604828,
"learning_rate": 1.6135921418712956e-05,
"loss": 0.0335,
"step": 7500
},
{
"epoch": 15.645833333333334,
"grad_norm": 0.27378949522972107,
"learning_rate": 1.6014457078461353e-05,
"loss": 0.038,
"step": 7510
},
{
"epoch": 15.666666666666666,
"grad_norm": 0.25739747285842896,
"learning_rate": 1.5893364398662176e-05,
"loss": 0.0315,
"step": 7520
},
{
"epoch": 15.6875,
"grad_norm": 0.14477567374706268,
"learning_rate": 1.5772644703565565e-05,
"loss": 0.0361,
"step": 7530
},
{
"epoch": 15.708333333333334,
"grad_norm": 0.142717182636261,
"learning_rate": 1.5652299313342773e-05,
"loss": 0.034,
"step": 7540
},
{
"epoch": 15.729166666666666,
"grad_norm": 0.1424303650856018,
"learning_rate": 1.553232954407171e-05,
"loss": 0.0316,
"step": 7550
},
{
"epoch": 15.75,
"grad_norm": 0.18298421800136566,
"learning_rate": 1.5412736707722537e-05,
"loss": 0.0333,
"step": 7560
},
{
"epoch": 15.770833333333334,
"grad_norm": 0.12771207094192505,
"learning_rate": 1.5293522112143373e-05,
"loss": 0.0337,
"step": 7570
},
{
"epoch": 15.791666666666666,
"grad_norm": 0.3018227219581604,
"learning_rate": 1.517468706104589e-05,
"loss": 0.0372,
"step": 7580
},
{
"epoch": 15.8125,
"grad_norm": 0.21921075880527496,
"learning_rate": 1.5056232853991209e-05,
"loss": 0.0382,
"step": 7590
},
{
"epoch": 15.833333333333334,
"grad_norm": 0.1828688681125641,
"learning_rate": 1.4938160786375572e-05,
"loss": 0.0352,
"step": 7600
},
{
"epoch": 15.854166666666666,
"grad_norm": 0.18489907681941986,
"learning_rate": 1.4820472149416154e-05,
"loss": 0.0339,
"step": 7610
},
{
"epoch": 15.875,
"grad_norm": 0.14749230444431305,
"learning_rate": 1.470316823013707e-05,
"loss": 0.0338,
"step": 7620
},
{
"epoch": 15.895833333333334,
"grad_norm": 0.17167989909648895,
"learning_rate": 1.4586250311355132e-05,
"loss": 0.0352,
"step": 7630
},
{
"epoch": 15.916666666666666,
"grad_norm": 0.1753416210412979,
"learning_rate": 1.4469719671666043e-05,
"loss": 0.0338,
"step": 7640
},
{
"epoch": 15.9375,
"grad_norm": 0.11780905723571777,
"learning_rate": 1.435357758543015e-05,
"loss": 0.0371,
"step": 7650
},
{
"epoch": 15.958333333333334,
"grad_norm": 0.14981669187545776,
"learning_rate": 1.4237825322758736e-05,
"loss": 0.0331,
"step": 7660
},
{
"epoch": 15.979166666666666,
"grad_norm": 0.19261877238750458,
"learning_rate": 1.412246414949997e-05,
"loss": 0.0336,
"step": 7670
},
{
"epoch": 16.0,
"grad_norm": 0.29280322790145874,
"learning_rate": 1.4007495327225162e-05,
"loss": 0.0348,
"step": 7680
},
{
"epoch": 16.020833333333332,
"grad_norm": 0.17434559762477875,
"learning_rate": 1.389292011321498e-05,
"loss": 0.0316,
"step": 7690
},
{
"epoch": 16.041666666666668,
"grad_norm": 0.18764066696166992,
"learning_rate": 1.3778739760445552e-05,
"loss": 0.0337,
"step": 7700
},
{
"epoch": 16.0625,
"grad_norm": 0.2059665024280548,
"learning_rate": 1.3664955517574968e-05,
"loss": 0.0348,
"step": 7710
},
{
"epoch": 16.083333333333332,
"grad_norm": 0.15280863642692566,
"learning_rate": 1.3551568628929434e-05,
"loss": 0.0323,
"step": 7720
},
{
"epoch": 16.104166666666668,
"grad_norm": 0.1486819088459015,
"learning_rate": 1.343858033448982e-05,
"loss": 0.0347,
"step": 7730
},
{
"epoch": 16.125,
"grad_norm": 0.1927894651889801,
"learning_rate": 1.3325991869878013e-05,
"loss": 0.035,
"step": 7740
},
{
"epoch": 16.145833333333332,
"grad_norm": 0.11955563724040985,
"learning_rate": 1.3213804466343421e-05,
"loss": 0.0329,
"step": 7750
},
{
"epoch": 16.166666666666668,
"grad_norm": 0.16345830261707306,
"learning_rate": 1.3102019350749528e-05,
"loss": 0.0359,
"step": 7760
},
{
"epoch": 16.1875,
"grad_norm": 0.2789859175682068,
"learning_rate": 1.299063774556042e-05,
"loss": 0.0328,
"step": 7770
},
{
"epoch": 16.208333333333332,
"grad_norm": 0.21761833131313324,
"learning_rate": 1.2879660868827508e-05,
"loss": 0.0301,
"step": 7780
},
{
"epoch": 16.229166666666668,
"grad_norm": 0.14734092354774475,
"learning_rate": 1.2769089934176126e-05,
"loss": 0.0322,
"step": 7790
},
{
"epoch": 16.25,
"grad_norm": 0.2599899470806122,
"learning_rate": 1.2658926150792322e-05,
"loss": 0.0313,
"step": 7800
},
{
"epoch": 16.270833333333332,
"grad_norm": 0.1787201315164566,
"learning_rate": 1.2549170723409549e-05,
"loss": 0.0339,
"step": 7810
},
{
"epoch": 16.291666666666668,
"grad_norm": 0.16388441622257233,
"learning_rate": 1.243982485229559e-05,
"loss": 0.0346,
"step": 7820
},
{
"epoch": 16.3125,
"grad_norm": 0.18000830709934235,
"learning_rate": 1.233088973323937e-05,
"loss": 0.04,
"step": 7830
},
{
"epoch": 16.333333333333332,
"grad_norm": 0.17897577583789825,
"learning_rate": 1.2222366557537911e-05,
"loss": 0.0399,
"step": 7840
},
{
"epoch": 16.354166666666668,
"grad_norm": 0.22064079344272614,
"learning_rate": 1.2114256511983274e-05,
"loss": 0.0318,
"step": 7850
},
{
"epoch": 16.375,
"grad_norm": 0.18616275489330292,
"learning_rate": 1.2006560778849578e-05,
"loss": 0.0304,
"step": 7860
},
{
"epoch": 16.395833333333332,
"grad_norm": 0.13920727372169495,
"learning_rate": 1.1899280535880119e-05,
"loss": 0.0316,
"step": 7870
},
{
"epoch": 16.416666666666668,
"grad_norm": 0.23855414986610413,
"learning_rate": 1.1792416956274444e-05,
"loss": 0.0315,
"step": 7880
},
{
"epoch": 16.4375,
"grad_norm": 0.20827260613441467,
"learning_rate": 1.1685971208675539e-05,
"loss": 0.0325,
"step": 7890
},
{
"epoch": 16.458333333333332,
"grad_norm": 0.19448751211166382,
"learning_rate": 1.157994445715706e-05,
"loss": 0.0354,
"step": 7900
},
{
"epoch": 16.479166666666668,
"grad_norm": 0.14408908784389496,
"learning_rate": 1.1474337861210543e-05,
"loss": 0.0339,
"step": 7910
},
{
"epoch": 16.5,
"grad_norm": 0.2209048867225647,
"learning_rate": 1.1369152575732822e-05,
"loss": 0.036,
"step": 7920
},
{
"epoch": 16.520833333333332,
"grad_norm": 0.1276281476020813,
"learning_rate": 1.1264389751013326e-05,
"loss": 0.0338,
"step": 7930
},
{
"epoch": 16.541666666666668,
"grad_norm": 0.16983328759670258,
"learning_rate": 1.1160050532721528e-05,
"loss": 0.0356,
"step": 7940
},
{
"epoch": 16.5625,
"grad_norm": 0.224867045879364,
"learning_rate": 1.1056136061894384e-05,
"loss": 0.0363,
"step": 7950
},
{
"epoch": 16.583333333333332,
"grad_norm": 0.19840490818023682,
"learning_rate": 1.095264747492391e-05,
"loss": 0.0412,
"step": 7960
},
{
"epoch": 16.604166666666668,
"grad_norm": 0.15883027017116547,
"learning_rate": 1.0849585903544706e-05,
"loss": 0.0415,
"step": 7970
},
{
"epoch": 16.625,
"grad_norm": 0.14518824219703674,
"learning_rate": 1.0746952474821614e-05,
"loss": 0.0352,
"step": 7980
},
{
"epoch": 16.645833333333332,
"grad_norm": 0.18514308333396912,
"learning_rate": 1.0644748311137376e-05,
"loss": 0.0433,
"step": 7990
},
{
"epoch": 16.666666666666668,
"grad_norm": 0.1748477965593338,
"learning_rate": 1.0542974530180327e-05,
"loss": 0.0378,
"step": 8000
},
{
"epoch": 16.6875,
"grad_norm": 0.17043419182300568,
"learning_rate": 1.0441632244932237e-05,
"loss": 0.0332,
"step": 8010
},
{
"epoch": 16.708333333333332,
"grad_norm": 0.24716496467590332,
"learning_rate": 1.0340722563656107e-05,
"loss": 0.0349,
"step": 8020
},
{
"epoch": 16.729166666666668,
"grad_norm": 0.1788455843925476,
"learning_rate": 1.0240246589884044e-05,
"loss": 0.0339,
"step": 8030
},
{
"epoch": 16.75,
"grad_norm": 0.21836072206497192,
"learning_rate": 1.0140205422405214e-05,
"loss": 0.0399,
"step": 8040
},
{
"epoch": 16.770833333333332,
"grad_norm": 0.13819825649261475,
"learning_rate": 1.0040600155253765e-05,
"loss": 0.032,
"step": 8050
},
{
"epoch": 16.791666666666668,
"grad_norm": 0.14727181196212769,
"learning_rate": 9.941431877696955e-06,
"loss": 0.033,
"step": 8060
},
{
"epoch": 16.8125,
"grad_norm": 0.3028770685195923,
"learning_rate": 9.842701674223187e-06,
"loss": 0.0348,
"step": 8070
},
{
"epoch": 16.833333333333332,
"grad_norm": 0.1468600183725357,
"learning_rate": 9.744410624530148e-06,
"loss": 0.0296,
"step": 8080
},
{
"epoch": 16.854166666666668,
"grad_norm": 0.14955639839172363,
"learning_rate": 9.646559803512994e-06,
"loss": 0.0335,
"step": 8090
},
{
"epoch": 16.875,
"grad_norm": 0.3067767024040222,
"learning_rate": 9.549150281252633e-06,
"loss": 0.0311,
"step": 8100
},
{
"epoch": 16.895833333333332,
"grad_norm": 0.1653410643339157,
"learning_rate": 9.452183123004e-06,
"loss": 0.0322,
"step": 8110
},
{
"epoch": 16.916666666666668,
"grad_norm": 0.38487905263900757,
"learning_rate": 9.355659389184396e-06,
"loss": 0.0324,
"step": 8120
},
{
"epoch": 16.9375,
"grad_norm": 0.1474359631538391,
"learning_rate": 9.259580135361929e-06,
"loss": 0.0306,
"step": 8130
},
{
"epoch": 16.958333333333332,
"grad_norm": 0.1430114060640335,
"learning_rate": 9.163946412243896e-06,
"loss": 0.0306,
"step": 8140
},
{
"epoch": 16.979166666666668,
"grad_norm": 0.17467962205410004,
"learning_rate": 9.068759265665384e-06,
"loss": 0.0376,
"step": 8150
},
{
"epoch": 17.0,
"grad_norm": 0.16724301874637604,
"learning_rate": 8.974019736577777e-06,
"loss": 0.0348,
"step": 8160
},
{
"epoch": 17.020833333333332,
"grad_norm": 0.14975309371948242,
"learning_rate": 8.879728861037384e-06,
"loss": 0.0306,
"step": 8170
},
{
"epoch": 17.041666666666668,
"grad_norm": 0.17851698398590088,
"learning_rate": 8.785887670194138e-06,
"loss": 0.0322,
"step": 8180
},
{
"epoch": 17.0625,
"grad_norm": 0.1703353375196457,
"learning_rate": 8.692497190280224e-06,
"loss": 0.0324,
"step": 8190
},
{
"epoch": 17.083333333333332,
"grad_norm": 0.2298639714717865,
"learning_rate": 8.599558442598998e-06,
"loss": 0.0352,
"step": 8200
},
{
"epoch": 17.104166666666668,
"grad_norm": 0.15811441838741302,
"learning_rate": 8.507072443513702e-06,
"loss": 0.0317,
"step": 8210
},
{
"epoch": 17.125,
"grad_norm": 0.21073931455612183,
"learning_rate": 8.415040204436426e-06,
"loss": 0.0341,
"step": 8220
},
{
"epoch": 17.145833333333332,
"grad_norm": 0.15325315296649933,
"learning_rate": 8.323462731816961e-06,
"loss": 0.0331,
"step": 8230
},
{
"epoch": 17.166666666666668,
"grad_norm": 0.14133264124393463,
"learning_rate": 8.232341027131885e-06,
"loss": 0.0373,
"step": 8240
},
{
"epoch": 17.1875,
"grad_norm": 0.2085970789194107,
"learning_rate": 8.141676086873572e-06,
"loss": 0.031,
"step": 8250
},
{
"epoch": 17.208333333333332,
"grad_norm": 0.18166519701480865,
"learning_rate": 8.051468902539272e-06,
"loss": 0.0321,
"step": 8260
},
{
"epoch": 17.229166666666668,
"grad_norm": 0.17954124510288239,
"learning_rate": 7.96172046062032e-06,
"loss": 0.0313,
"step": 8270
},
{
"epoch": 17.25,
"grad_norm": 0.1591859608888626,
"learning_rate": 7.872431742591268e-06,
"loss": 0.0423,
"step": 8280
},
{
"epoch": 17.270833333333332,
"grad_norm": 0.19576288759708405,
"learning_rate": 7.783603724899257e-06,
"loss": 0.034,
"step": 8290
},
{
"epoch": 17.291666666666668,
"grad_norm": 0.16259166598320007,
"learning_rate": 7.695237378953223e-06,
"loss": 0.031,
"step": 8300
},
{
"epoch": 17.3125,
"grad_norm": 0.2567852735519409,
"learning_rate": 7.607333671113409e-06,
"loss": 0.0319,
"step": 8310
},
{
"epoch": 17.333333333333332,
"grad_norm": 0.1433526873588562,
"learning_rate": 7.519893562680663e-06,
"loss": 0.0387,
"step": 8320
},
{
"epoch": 17.354166666666668,
"grad_norm": 0.12833265960216522,
"learning_rate": 7.432918009885997e-06,
"loss": 0.0356,
"step": 8330
},
{
"epoch": 17.375,
"grad_norm": 0.18633872270584106,
"learning_rate": 7.3464079638801365e-06,
"loss": 0.0372,
"step": 8340
},
{
"epoch": 17.395833333333332,
"grad_norm": 0.19157272577285767,
"learning_rate": 7.260364370723044e-06,
"loss": 0.0328,
"step": 8350
},
{
"epoch": 17.416666666666668,
"grad_norm": 0.14308947324752808,
"learning_rate": 7.174788171373731e-06,
"loss": 0.034,
"step": 8360
},
{
"epoch": 17.4375,
"grad_norm": 0.15091511607170105,
"learning_rate": 7.089680301679752e-06,
"loss": 0.032,
"step": 8370
},
{
"epoch": 17.458333333333332,
"grad_norm": 0.17052793502807617,
"learning_rate": 7.005041692367154e-06,
"loss": 0.0269,
"step": 8380
},
{
"epoch": 17.479166666666668,
"grad_norm": 0.1326158493757248,
"learning_rate": 6.92087326903022e-06,
"loss": 0.0353,
"step": 8390
},
{
"epoch": 17.5,
"grad_norm": 0.1644575148820877,
"learning_rate": 6.837175952121306e-06,
"loss": 0.0314,
"step": 8400
},
{
"epoch": 17.520833333333332,
"grad_norm": 0.1430823653936386,
"learning_rate": 6.753950656940905e-06,
"loss": 0.0254,
"step": 8410
},
{
"epoch": 17.541666666666668,
"grad_norm": 0.20929637551307678,
"learning_rate": 6.671198293627479e-06,
"loss": 0.0329,
"step": 8420
},
{
"epoch": 17.5625,
"grad_norm": 0.16513291001319885,
"learning_rate": 6.588919767147639e-06,
"loss": 0.0295,
"step": 8430
},
{
"epoch": 17.583333333333332,
"grad_norm": 0.2245665341615677,
"learning_rate": 6.5071159772861436e-06,
"loss": 0.0324,
"step": 8440
},
{
"epoch": 17.604166666666668,
"grad_norm": 0.16559205949306488,
"learning_rate": 6.425787818636131e-06,
"loss": 0.0301,
"step": 8450
},
{
"epoch": 17.625,
"grad_norm": 0.19494593143463135,
"learning_rate": 6.344936180589351e-06,
"loss": 0.0319,
"step": 8460
},
{
"epoch": 17.645833333333332,
"grad_norm": 0.22981615364551544,
"learning_rate": 6.264561947326331e-06,
"loss": 0.0301,
"step": 8470
},
{
"epoch": 17.666666666666668,
"grad_norm": 0.107606902718544,
"learning_rate": 6.184665997806832e-06,
"loss": 0.032,
"step": 8480
},
{
"epoch": 17.6875,
"grad_norm": 0.21070224046707153,
"learning_rate": 6.1052492057601275e-06,
"loss": 0.0412,
"step": 8490
},
{
"epoch": 17.708333333333332,
"grad_norm": 0.19031378626823425,
"learning_rate": 6.026312439675552e-06,
"loss": 0.0358,
"step": 8500
},
{
"epoch": 17.729166666666668,
"grad_norm": 0.19321215152740479,
"learning_rate": 5.947856562792925e-06,
"loss": 0.0292,
"step": 8510
},
{
"epoch": 17.75,
"grad_norm": 0.16616252064704895,
"learning_rate": 5.869882433093155e-06,
"loss": 0.0356,
"step": 8520
},
{
"epoch": 17.770833333333332,
"grad_norm": 0.15638171136379242,
"learning_rate": 5.79239090328883e-06,
"loss": 0.0312,
"step": 8530
},
{
"epoch": 17.791666666666668,
"grad_norm": 0.2161197066307068,
"learning_rate": 5.715382820814885e-06,
"loss": 0.0315,
"step": 8540
},
{
"epoch": 17.8125,
"grad_norm": 0.18795347213745117,
"learning_rate": 5.6388590278194096e-06,
"loss": 0.0317,
"step": 8550
},
{
"epoch": 17.833333333333332,
"grad_norm": 0.15534399449825287,
"learning_rate": 5.562820361154314e-06,
"loss": 0.0332,
"step": 8560
},
{
"epoch": 17.854166666666668,
"grad_norm": 0.16690361499786377,
"learning_rate": 5.48726765236629e-06,
"loss": 0.0314,
"step": 8570
},
{
"epoch": 17.875,
"grad_norm": 0.26291123032569885,
"learning_rate": 5.412201727687644e-06,
"loss": 0.0379,
"step": 8580
},
{
"epoch": 17.895833333333332,
"grad_norm": 0.18499770760536194,
"learning_rate": 5.337623408027293e-06,
"loss": 0.0293,
"step": 8590
},
{
"epoch": 17.916666666666668,
"grad_norm": 0.18224544823169708,
"learning_rate": 5.263533508961827e-06,
"loss": 0.0331,
"step": 8600
},
{
"epoch": 17.9375,
"grad_norm": 0.1336999535560608,
"learning_rate": 5.1899328407264855e-06,
"loss": 0.0371,
"step": 8610
},
{
"epoch": 17.958333333333332,
"grad_norm": 0.2066693902015686,
"learning_rate": 5.116822208206396e-06,
"loss": 0.036,
"step": 8620
},
{
"epoch": 17.979166666666668,
"grad_norm": 0.27295708656311035,
"learning_rate": 5.044202410927706e-06,
"loss": 0.0332,
"step": 8630
},
{
"epoch": 18.0,
"grad_norm": 0.3093808889389038,
"learning_rate": 4.972074243048897e-06,
"loss": 0.0364,
"step": 8640
},
{
"epoch": 18.020833333333332,
"grad_norm": 0.13390128314495087,
"learning_rate": 4.900438493352055e-06,
"loss": 0.0307,
"step": 8650
},
{
"epoch": 18.041666666666668,
"grad_norm": 0.20206564664840698,
"learning_rate": 4.829295945234258e-06,
"loss": 0.0354,
"step": 8660
},
{
"epoch": 18.0625,
"grad_norm": 0.1990128606557846,
"learning_rate": 4.758647376699032e-06,
"loss": 0.0303,
"step": 8670
},
{
"epoch": 18.083333333333332,
"grad_norm": 0.31685084104537964,
"learning_rate": 4.688493560347773e-06,
"loss": 0.0328,
"step": 8680
},
{
"epoch": 18.104166666666668,
"grad_norm": 0.16394484043121338,
"learning_rate": 4.618835263371396e-06,
"loss": 0.0367,
"step": 8690
},
{
"epoch": 18.125,
"grad_norm": 0.24125359952449799,
"learning_rate": 4.549673247541875e-06,
"loss": 0.0298,
"step": 8700
},
{
"epoch": 18.145833333333332,
"grad_norm": 0.17618513107299805,
"learning_rate": 4.48100826920394e-06,
"loss": 0.0318,
"step": 8710
},
{
"epoch": 18.166666666666668,
"grad_norm": 0.13456808030605316,
"learning_rate": 4.412841079266777e-06,
"loss": 0.027,
"step": 8720
},
{
"epoch": 18.1875,
"grad_norm": 0.20114630460739136,
"learning_rate": 4.3451724231958644e-06,
"loss": 0.0336,
"step": 8730
},
{
"epoch": 18.208333333333332,
"grad_norm": 0.19448570907115936,
"learning_rate": 4.27800304100478e-06,
"loss": 0.0333,
"step": 8740
},
{
"epoch": 18.229166666666668,
"grad_norm": 0.22494345903396606,
"learning_rate": 4.2113336672471245e-06,
"loss": 0.037,
"step": 8750
},
{
"epoch": 18.25,
"grad_norm": 0.19884195923805237,
"learning_rate": 4.145165031008508e-06,
"loss": 0.0302,
"step": 8760
},
{
"epoch": 18.270833333333332,
"grad_norm": 0.21482793986797333,
"learning_rate": 4.079497855898501e-06,
"loss": 0.035,
"step": 8770
},
{
"epoch": 18.291666666666668,
"grad_norm": 0.18211424350738525,
"learning_rate": 4.01433286004283e-06,
"loss": 0.0325,
"step": 8780
},
{
"epoch": 18.3125,
"grad_norm": 0.18658918142318726,
"learning_rate": 3.949670756075447e-06,
"loss": 0.0338,
"step": 8790
},
{
"epoch": 18.333333333333332,
"grad_norm": 0.14777681231498718,
"learning_rate": 3.885512251130763e-06,
"loss": 0.0343,
"step": 8800
},
{
"epoch": 18.354166666666668,
"grad_norm": 0.18653449416160583,
"learning_rate": 3.821858046835913e-06,
"loss": 0.0348,
"step": 8810
},
{
"epoch": 18.375,
"grad_norm": 0.14548705518245697,
"learning_rate": 3.75870883930306e-06,
"loss": 0.0301,
"step": 8820
},
{
"epoch": 18.395833333333332,
"grad_norm": 0.20936094224452972,
"learning_rate": 3.696065319121833e-06,
"loss": 0.0325,
"step": 8830
},
{
"epoch": 18.416666666666668,
"grad_norm": 0.21354569494724274,
"learning_rate": 3.6339281713517303e-06,
"loss": 0.0375,
"step": 8840
},
{
"epoch": 18.4375,
"grad_norm": 0.1711226850748062,
"learning_rate": 3.5722980755146517e-06,
"loss": 0.0322,
"step": 8850
},
{
"epoch": 18.458333333333332,
"grad_norm": 0.11110875010490417,
"learning_rate": 3.511175705587433e-06,
"loss": 0.0364,
"step": 8860
},
{
"epoch": 18.479166666666668,
"grad_norm": 0.25910326838493347,
"learning_rate": 3.4505617299945336e-06,
"loss": 0.0357,
"step": 8870
},
{
"epoch": 18.5,
"grad_norm": 0.24128733575344086,
"learning_rate": 3.390456811600673e-06,
"loss": 0.0306,
"step": 8880
},
{
"epoch": 18.520833333333332,
"grad_norm": 0.15856292843818665,
"learning_rate": 3.3308616077036115e-06,
"loss": 0.032,
"step": 8890
},
{
"epoch": 18.541666666666668,
"grad_norm": 0.24794311821460724,
"learning_rate": 3.271776770026963e-06,
"loss": 0.0295,
"step": 8900
},
{
"epoch": 18.5625,
"grad_norm": 0.2193899005651474,
"learning_rate": 3.213202944713023e-06,
"loss": 0.0345,
"step": 8910
},
{
"epoch": 18.583333333333332,
"grad_norm": 0.1675347238779068,
"learning_rate": 3.155140772315773e-06,
"loss": 0.0313,
"step": 8920
},
{
"epoch": 18.604166666666668,
"grad_norm": 0.17640578746795654,
"learning_rate": 3.0975908877938277e-06,
"loss": 0.0325,
"step": 8930
},
{
"epoch": 18.625,
"grad_norm": 0.16503232717514038,
"learning_rate": 3.040553920503503e-06,
"loss": 0.0305,
"step": 8940
},
{
"epoch": 18.645833333333332,
"grad_norm": 0.22779154777526855,
"learning_rate": 2.9840304941919415e-06,
"loss": 0.0311,
"step": 8950
},
{
"epoch": 18.666666666666668,
"grad_norm": 0.20752200484275818,
"learning_rate": 2.928021226990263e-06,
"loss": 0.0379,
"step": 8960
},
{
"epoch": 18.6875,
"grad_norm": 0.25029054284095764,
"learning_rate": 2.8725267314068495e-06,
"loss": 0.0313,
"step": 8970
},
{
"epoch": 18.708333333333332,
"grad_norm": 0.1501133143901825,
"learning_rate": 2.817547614320615e-06,
"loss": 0.0306,
"step": 8980
},
{
"epoch": 18.729166666666668,
"grad_norm": 0.14609061181545258,
"learning_rate": 2.7630844769743757e-06,
"loss": 0.0348,
"step": 8990
},
{
"epoch": 18.75,
"grad_norm": 0.17063935101032257,
"learning_rate": 2.7091379149682685e-06,
"loss": 0.0356,
"step": 9000
},
{
"epoch": 18.770833333333332,
"grad_norm": 0.15772214531898499,
"learning_rate": 2.6557085182532582e-06,
"loss": 0.037,
"step": 9010
},
{
"epoch": 18.791666666666668,
"grad_norm": 0.17870227992534637,
"learning_rate": 2.602796871124663e-06,
"loss": 0.0306,
"step": 9020
},
{
"epoch": 18.8125,
"grad_norm": 0.1352458894252777,
"learning_rate": 2.5504035522157854e-06,
"loss": 0.0269,
"step": 9030
},
{
"epoch": 18.833333333333332,
"grad_norm": 0.13433943688869476,
"learning_rate": 2.4985291344915674e-06,
"loss": 0.0336,
"step": 9040
},
{
"epoch": 18.854166666666668,
"grad_norm": 0.13748623430728912,
"learning_rate": 2.4471741852423237e-06,
"loss": 0.031,
"step": 9050
},
{
"epoch": 18.875,
"grad_norm": 0.14584968984127045,
"learning_rate": 2.3963392660775575e-06,
"loss": 0.034,
"step": 9060
},
{
"epoch": 18.895833333333332,
"grad_norm": 0.17508484423160553,
"learning_rate": 2.3460249329197824e-06,
"loss": 0.034,
"step": 9070
},
{
"epoch": 18.916666666666668,
"grad_norm": 0.29237616062164307,
"learning_rate": 2.296231735998511e-06,
"loss": 0.0356,
"step": 9080
},
{
"epoch": 18.9375,
"grad_norm": 0.19162213802337646,
"learning_rate": 2.2469602198441573e-06,
"loss": 0.0281,
"step": 9090
},
{
"epoch": 18.958333333333332,
"grad_norm": 0.147079199552536,
"learning_rate": 2.1982109232821178e-06,
"loss": 0.0313,
"step": 9100
},
{
"epoch": 18.979166666666668,
"grad_norm": 0.13137395679950714,
"learning_rate": 2.149984379426906e-06,
"loss": 0.0399,
"step": 9110
},
{
"epoch": 19.0,
"grad_norm": 0.4080326557159424,
"learning_rate": 2.102281115676258e-06,
"loss": 0.038,
"step": 9120
},
{
"epoch": 19.020833333333332,
"grad_norm": 0.13633409142494202,
"learning_rate": 2.0551016537054493e-06,
"loss": 0.0331,
"step": 9130
},
{
"epoch": 19.041666666666668,
"grad_norm": 0.13765296339988708,
"learning_rate": 2.008446509461498e-06,
"loss": 0.0263,
"step": 9140
},
{
"epoch": 19.0625,
"grad_norm": 0.23236972093582153,
"learning_rate": 1.962316193157593e-06,
"loss": 0.0328,
"step": 9150
},
{
"epoch": 19.083333333333332,
"grad_norm": 0.15789905190467834,
"learning_rate": 1.91671120926748e-06,
"loss": 0.0367,
"step": 9160
},
{
"epoch": 19.104166666666668,
"grad_norm": 0.13010896742343903,
"learning_rate": 1.8716320565199618e-06,
"loss": 0.0297,
"step": 9170
},
{
"epoch": 19.125,
"grad_norm": 0.15396663546562195,
"learning_rate": 1.8270792278934302e-06,
"loss": 0.0383,
"step": 9180
},
{
"epoch": 19.145833333333332,
"grad_norm": 0.18995301425457,
"learning_rate": 1.7830532106104747e-06,
"loss": 0.0325,
"step": 9190
},
{
"epoch": 19.166666666666668,
"grad_norm": 0.18019302189350128,
"learning_rate": 1.7395544861325718e-06,
"loss": 0.0284,
"step": 9200
},
{
"epoch": 19.1875,
"grad_norm": 0.18761536478996277,
"learning_rate": 1.696583530154794e-06,
"loss": 0.0338,
"step": 9210
},
{
"epoch": 19.208333333333332,
"grad_norm": 0.2118709832429886,
"learning_rate": 1.6541408126006463e-06,
"loss": 0.03,
"step": 9220
},
{
"epoch": 19.229166666666668,
"grad_norm": 0.1725333034992218,
"learning_rate": 1.6122267976168781e-06,
"loss": 0.0372,
"step": 9230
},
{
"epoch": 19.25,
"grad_norm": 0.18301089107990265,
"learning_rate": 1.5708419435684462e-06,
"loss": 0.0324,
"step": 9240
},
{
"epoch": 19.270833333333332,
"grad_norm": 0.11558585613965988,
"learning_rate": 1.5299867030334814e-06,
"loss": 0.0328,
"step": 9250
},
{
"epoch": 19.291666666666668,
"grad_norm": 0.1680075079202652,
"learning_rate": 1.4896615227983468e-06,
"loss": 0.0323,
"step": 9260
},
{
"epoch": 19.3125,
"grad_norm": 0.13936129212379456,
"learning_rate": 1.4498668438527597e-06,
"loss": 0.0317,
"step": 9270
},
{
"epoch": 19.333333333333332,
"grad_norm": 0.24704353511333466,
"learning_rate": 1.4106031013849496e-06,
"loss": 0.0335,
"step": 9280
},
{
"epoch": 19.354166666666668,
"grad_norm": 0.11719508469104767,
"learning_rate": 1.3718707247769135e-06,
"loss": 0.0275,
"step": 9290
},
{
"epoch": 19.375,
"grad_norm": 0.18378089368343353,
"learning_rate": 1.333670137599713e-06,
"loss": 0.0291,
"step": 9300
},
{
"epoch": 19.395833333333332,
"grad_norm": 0.30711549520492554,
"learning_rate": 1.2960017576088446e-06,
"loss": 0.0365,
"step": 9310
},
{
"epoch": 19.416666666666668,
"grad_norm": 0.41542425751686096,
"learning_rate": 1.2588659967397e-06,
"loss": 0.0317,
"step": 9320
},
{
"epoch": 19.4375,
"grad_norm": 0.16232679784297943,
"learning_rate": 1.222263261102985e-06,
"loss": 0.0314,
"step": 9330
},
{
"epoch": 19.458333333333332,
"grad_norm": 0.22481182217597961,
"learning_rate": 1.1861939509803687e-06,
"loss": 0.0347,
"step": 9340
},
{
"epoch": 19.479166666666668,
"grad_norm": 0.1459631323814392,
"learning_rate": 1.1506584608200367e-06,
"loss": 0.0317,
"step": 9350
},
{
"epoch": 19.5,
"grad_norm": 0.2111710160970688,
"learning_rate": 1.1156571792324211e-06,
"loss": 0.0293,
"step": 9360
},
{
"epoch": 19.520833333333332,
"grad_norm": 0.1639842689037323,
"learning_rate": 1.0811904889859336e-06,
"loss": 0.0318,
"step": 9370
},
{
"epoch": 19.541666666666668,
"grad_norm": 0.14058507978916168,
"learning_rate": 1.0472587670027678e-06,
"loss": 0.0401,
"step": 9380
},
{
"epoch": 19.5625,
"grad_norm": 0.17518417537212372,
"learning_rate": 1.0138623843548078e-06,
"loss": 0.0349,
"step": 9390
},
{
"epoch": 19.583333333333332,
"grad_norm": 0.15717728435993195,
"learning_rate": 9.810017062595322e-07,
"loss": 0.0319,
"step": 9400
},
{
"epoch": 19.604166666666668,
"grad_norm": 0.23628921806812286,
"learning_rate": 9.486770920760668e-07,
"loss": 0.0327,
"step": 9410
},
{
"epoch": 19.625,
"grad_norm": 0.16475990414619446,
"learning_rate": 9.168888953011989e-07,
"loss": 0.0282,
"step": 9420
},
{
"epoch": 19.645833333333332,
"grad_norm": 0.13366751372814178,
"learning_rate": 8.856374635655695e-07,
"loss": 0.0315,
"step": 9430
},
{
"epoch": 19.666666666666668,
"grad_norm": 0.2342182844877243,
"learning_rate": 8.549231386298151e-07,
"loss": 0.0303,
"step": 9440
},
{
"epoch": 19.6875,
"grad_norm": 0.17857497930526733,
"learning_rate": 8.247462563808817e-07,
"loss": 0.0376,
"step": 9450
},
{
"epoch": 19.708333333333332,
"grad_norm": 0.09750518202781677,
"learning_rate": 7.951071468283167e-07,
"loss": 0.0326,
"step": 9460
},
{
"epoch": 19.729166666666668,
"grad_norm": 0.14700888097286224,
"learning_rate": 7.66006134100672e-07,
"loss": 0.0338,
"step": 9470
},
{
"epoch": 19.75,
"grad_norm": 0.19283577799797058,
"learning_rate": 7.374435364419674e-07,
"loss": 0.0297,
"step": 9480
},
{
"epoch": 19.770833333333332,
"grad_norm": 0.17570871114730835,
"learning_rate": 7.094196662081831e-07,
"loss": 0.0298,
"step": 9490
},
{
"epoch": 19.791666666666668,
"grad_norm": 0.15083159506320953,
"learning_rate": 6.819348298638839e-07,
"loss": 0.0337,
"step": 9500
},
{
"epoch": 19.8125,
"grad_norm": 0.21180565655231476,
"learning_rate": 6.549893279788277e-07,
"loss": 0.0362,
"step": 9510
},
{
"epoch": 19.833333333333332,
"grad_norm": 0.1290484517812729,
"learning_rate": 6.285834552247128e-07,
"loss": 0.0288,
"step": 9520
},
{
"epoch": 19.854166666666668,
"grad_norm": 0.20939485728740692,
"learning_rate": 6.027175003719354e-07,
"loss": 0.0394,
"step": 9530
},
{
"epoch": 19.875,
"grad_norm": 0.20585738122463226,
"learning_rate": 5.773917462864264e-07,
"loss": 0.034,
"step": 9540
},
{
"epoch": 19.895833333333332,
"grad_norm": 0.1653178483247757,
"learning_rate": 5.526064699265753e-07,
"loss": 0.035,
"step": 9550
},
{
"epoch": 19.916666666666668,
"grad_norm": 0.19663727283477783,
"learning_rate": 5.283619423401998e-07,
"loss": 0.0333,
"step": 9560
},
{
"epoch": 19.9375,
"grad_norm": 0.1678989678621292,
"learning_rate": 5.046584286615697e-07,
"loss": 0.0369,
"step": 9570
},
{
"epoch": 19.958333333333332,
"grad_norm": 0.28280648589134216,
"learning_rate": 4.814961881085045e-07,
"loss": 0.0337,
"step": 9580
},
{
"epoch": 19.979166666666668,
"grad_norm": 0.199066624045372,
"learning_rate": 4.5887547397955864e-07,
"loss": 0.0348,
"step": 9590
},
{
"epoch": 20.0,
"grad_norm": 0.24922700226306915,
"learning_rate": 4.367965336512403e-07,
"loss": 0.0276,
"step": 9600
},
{
"epoch": 20.020833333333332,
"grad_norm": 0.16354601085186005,
"learning_rate": 4.1525960857530243e-07,
"loss": 0.0308,
"step": 9610
},
{
"epoch": 20.041666666666668,
"grad_norm": 0.24178677797317505,
"learning_rate": 3.9426493427611177e-07,
"loss": 0.0371,
"step": 9620
},
{
"epoch": 20.0625,
"grad_norm": 0.18796806037425995,
"learning_rate": 3.738127403480507e-07,
"loss": 0.0388,
"step": 9630
},
{
"epoch": 20.083333333333332,
"grad_norm": 0.20693808794021606,
"learning_rate": 3.5390325045304706e-07,
"loss": 0.0333,
"step": 9640
},
{
"epoch": 20.104166666666668,
"grad_norm": 0.18679924309253693,
"learning_rate": 3.3453668231809286e-07,
"loss": 0.031,
"step": 9650
},
{
"epoch": 20.125,
"grad_norm": 0.10266103595495224,
"learning_rate": 3.157132477328628e-07,
"loss": 0.0299,
"step": 9660
},
{
"epoch": 20.145833333333332,
"grad_norm": 0.18884888291358948,
"learning_rate": 2.9743315254743833e-07,
"loss": 0.0364,
"step": 9670
},
{
"epoch": 20.166666666666668,
"grad_norm": 0.20858243107795715,
"learning_rate": 2.796965966699927e-07,
"loss": 0.0353,
"step": 9680
},
{
"epoch": 20.1875,
"grad_norm": 0.2836136817932129,
"learning_rate": 2.625037740646763e-07,
"loss": 0.0339,
"step": 9690
},
{
"epoch": 20.208333333333332,
"grad_norm": 0.1977325975894928,
"learning_rate": 2.458548727494292e-07,
"loss": 0.029,
"step": 9700
},
{
"epoch": 20.229166666666668,
"grad_norm": 0.21082016825675964,
"learning_rate": 2.2975007479397738e-07,
"loss": 0.0312,
"step": 9710
},
{
"epoch": 20.25,
"grad_norm": 0.22530245780944824,
"learning_rate": 2.1418955631781202e-07,
"loss": 0.0361,
"step": 9720
},
{
"epoch": 20.270833333333332,
"grad_norm": 0.11725817620754242,
"learning_rate": 1.9917348748826335e-07,
"loss": 0.0309,
"step": 9730
},
{
"epoch": 20.291666666666668,
"grad_norm": 0.23259659111499786,
"learning_rate": 1.847020325186577e-07,
"loss": 0.0356,
"step": 9740
},
{
"epoch": 20.3125,
"grad_norm": 0.25922563672065735,
"learning_rate": 1.7077534966650766e-07,
"loss": 0.0352,
"step": 9750
},
{
"epoch": 20.333333333333332,
"grad_norm": 0.160082146525383,
"learning_rate": 1.5739359123178587e-07,
"loss": 0.0315,
"step": 9760
},
{
"epoch": 20.354166666666668,
"grad_norm": 0.1723332554101944,
"learning_rate": 1.4455690355525964e-07,
"loss": 0.03,
"step": 9770
},
{
"epoch": 20.375,
"grad_norm": 0.39016783237457275,
"learning_rate": 1.3226542701689215e-07,
"loss": 0.0333,
"step": 9780
},
{
"epoch": 20.395833333333332,
"grad_norm": 0.17745746672153473,
"learning_rate": 1.2051929603428825e-07,
"loss": 0.0335,
"step": 9790
},
{
"epoch": 20.416666666666668,
"grad_norm": 0.19119124114513397,
"learning_rate": 1.0931863906127327e-07,
"loss": 0.0371,
"step": 9800
},
{
"epoch": 20.4375,
"grad_norm": 0.19665691256523132,
"learning_rate": 9.866357858642205e-08,
"loss": 0.0301,
"step": 9810
},
{
"epoch": 20.458333333333332,
"grad_norm": 0.2378683239221573,
"learning_rate": 8.855423113177664e-08,
"loss": 0.0339,
"step": 9820
},
{
"epoch": 20.479166666666668,
"grad_norm": 0.21455919742584229,
"learning_rate": 7.899070725153613e-08,
"loss": 0.0301,
"step": 9830
},
{
"epoch": 20.5,
"grad_norm": 0.1403769999742508,
"learning_rate": 6.997311153086883e-08,
"loss": 0.0348,
"step": 9840
},
{
"epoch": 20.520833333333332,
"grad_norm": 0.1677563339471817,
"learning_rate": 6.150154258476315e-08,
"loss": 0.0294,
"step": 9850
},
{
"epoch": 20.541666666666668,
"grad_norm": 0.22757263481616974,
"learning_rate": 5.3576093056922906e-08,
"loss": 0.0371,
"step": 9860
},
{
"epoch": 20.5625,
"grad_norm": 0.14663146436214447,
"learning_rate": 4.619684961881254e-08,
"loss": 0.0344,
"step": 9870
},
{
"epoch": 20.583333333333332,
"grad_norm": 0.205908864736557,
"learning_rate": 3.936389296864129e-08,
"loss": 0.0275,
"step": 9880
},
{
"epoch": 20.604166666666668,
"grad_norm": 0.12263581156730652,
"learning_rate": 3.3077297830541584e-08,
"loss": 0.0306,
"step": 9890
},
{
"epoch": 20.625,
"grad_norm": 0.24407680332660675,
"learning_rate": 2.7337132953697554e-08,
"loss": 0.0353,
"step": 9900
},
{
"epoch": 20.645833333333332,
"grad_norm": 0.17561787366867065,
"learning_rate": 2.214346111164556e-08,
"loss": 0.0343,
"step": 9910
},
{
"epoch": 20.666666666666668,
"grad_norm": 0.28819283843040466,
"learning_rate": 1.749633910153592e-08,
"loss": 0.0353,
"step": 9920
},
{
"epoch": 20.6875,
"grad_norm": 0.12137261778116226,
"learning_rate": 1.3395817743561134e-08,
"loss": 0.0355,
"step": 9930
},
{
"epoch": 20.708333333333332,
"grad_norm": 0.15780037641525269,
"learning_rate": 9.841941880361916e-09,
"loss": 0.0292,
"step": 9940
},
{
"epoch": 20.729166666666668,
"grad_norm": 0.15066218376159668,
"learning_rate": 6.834750376549792e-09,
"loss": 0.0332,
"step": 9950
},
{
"epoch": 20.75,
"grad_norm": 0.17980065941810608,
"learning_rate": 4.3742761183018784e-09,
"loss": 0.0339,
"step": 9960
},
{
"epoch": 20.770833333333332,
"grad_norm": 0.18489395081996918,
"learning_rate": 2.4605460129556445e-09,
"loss": 0.0353,
"step": 9970
},
{
"epoch": 20.791666666666668,
"grad_norm": 0.16273553669452667,
"learning_rate": 1.0935809887702154e-09,
"loss": 0.0326,
"step": 9980
},
{
"epoch": 20.8125,
"grad_norm": 0.21852363646030426,
"learning_rate": 2.7339599464326627e-10,
"loss": 0.0297,
"step": 9990
},
{
"epoch": 20.833333333333332,
"grad_norm": 0.09543376415967941,
"learning_rate": 0.0,
"loss": 0.0322,
"step": 10000
}
],
"logging_steps": 10,
"max_steps": 10000,
"num_input_tokens_seen": 0,
"num_train_epochs": 21,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 7.191112056860797e+17,
"train_batch_size": 32,
"trial_name": null,
"trial_params": null
}