gpt2_ACoT / last-checkpoint /trainer_state.json
ccore's picture
Training in progress, epoch 1, checkpoint
babf9ae verified
{
"best_global_step": 3750,
"best_metric": 1.2504782676696777,
"best_model_checkpoint": "./opt_thinker_ckpts2/checkpoint-3750",
"epoch": 1.0,
"eval_steps": 500,
"global_step": 3750,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0026666666666666666,
"grad_norm": 6.286426067352295,
"learning_rate": 9.999990447200757e-05,
"loss": 6.7607,
"step": 10
},
{
"epoch": 0.005333333333333333,
"grad_norm": 2.730654001235962,
"learning_rate": 9.999943658067851e-05,
"loss": 4.4154,
"step": 20
},
{
"epoch": 0.008,
"grad_norm": 1.77164626121521,
"learning_rate": 9.999857878369916e-05,
"loss": 3.8931,
"step": 30
},
{
"epoch": 0.010666666666666666,
"grad_norm": 3.252326250076294,
"learning_rate": 9.999733108775878e-05,
"loss": 3.4388,
"step": 40
},
{
"epoch": 0.013333333333333334,
"grad_norm": 2.5271928310394287,
"learning_rate": 9.999569350258718e-05,
"loss": 3.0766,
"step": 50
},
{
"epoch": 0.016,
"grad_norm": 1.8989768028259277,
"learning_rate": 9.999366604095457e-05,
"loss": 2.8264,
"step": 60
},
{
"epoch": 0.018666666666666668,
"grad_norm": 1.4198805093765259,
"learning_rate": 9.99912487186715e-05,
"loss": 2.6803,
"step": 70
},
{
"epoch": 0.021333333333333333,
"grad_norm": 2.800062417984009,
"learning_rate": 9.998844155458873e-05,
"loss": 2.59,
"step": 80
},
{
"epoch": 0.024,
"grad_norm": 2.0975475311279297,
"learning_rate": 9.99852445705971e-05,
"loss": 2.5508,
"step": 90
},
{
"epoch": 0.02666666666666667,
"grad_norm": 1.5416148900985718,
"learning_rate": 9.998165779162734e-05,
"loss": 2.4994,
"step": 100
},
{
"epoch": 0.029333333333333333,
"grad_norm": 1.3961434364318848,
"learning_rate": 9.997768124564984e-05,
"loss": 2.4914,
"step": 110
},
{
"epoch": 0.032,
"grad_norm": 1.2222368717193604,
"learning_rate": 9.997331496367455e-05,
"loss": 2.4866,
"step": 120
},
{
"epoch": 0.034666666666666665,
"grad_norm": 0.9815042614936829,
"learning_rate": 9.996855897975056e-05,
"loss": 2.4695,
"step": 130
},
{
"epoch": 0.037333333333333336,
"grad_norm": 1.144066333770752,
"learning_rate": 9.996341333096604e-05,
"loss": 2.4337,
"step": 140
},
{
"epoch": 0.04,
"grad_norm": 1.1434224843978882,
"learning_rate": 9.995787805744779e-05,
"loss": 2.4352,
"step": 150
},
{
"epoch": 0.042666666666666665,
"grad_norm": 1.166247844696045,
"learning_rate": 9.995195320236092e-05,
"loss": 2.4205,
"step": 160
},
{
"epoch": 0.04533333333333334,
"grad_norm": 1.4209767580032349,
"learning_rate": 9.994563881190873e-05,
"loss": 2.4107,
"step": 170
},
{
"epoch": 0.048,
"grad_norm": 1.3130854368209839,
"learning_rate": 9.993893493533202e-05,
"loss": 2.3894,
"step": 180
},
{
"epoch": 0.050666666666666665,
"grad_norm": 1.4318203926086426,
"learning_rate": 9.993184162490902e-05,
"loss": 2.3622,
"step": 190
},
{
"epoch": 0.05333333333333334,
"grad_norm": 1.2723395824432373,
"learning_rate": 9.99243589359548e-05,
"loss": 2.3501,
"step": 200
},
{
"epoch": 0.056,
"grad_norm": 1.3708051443099976,
"learning_rate": 9.991648692682083e-05,
"loss": 2.3412,
"step": 210
},
{
"epoch": 0.058666666666666666,
"grad_norm": 1.464943528175354,
"learning_rate": 9.990822565889464e-05,
"loss": 2.2964,
"step": 220
},
{
"epoch": 0.06133333333333333,
"grad_norm": 1.24631667137146,
"learning_rate": 9.989957519659925e-05,
"loss": 2.2851,
"step": 230
},
{
"epoch": 0.064,
"grad_norm": 1.2437673807144165,
"learning_rate": 9.989053560739273e-05,
"loss": 2.2555,
"step": 240
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.992102861404419,
"learning_rate": 9.988110696176756e-05,
"loss": 2.2529,
"step": 250
},
{
"epoch": 0.06933333333333333,
"grad_norm": 1.2269656658172607,
"learning_rate": 9.987128933325025e-05,
"loss": 2.2134,
"step": 260
},
{
"epoch": 0.072,
"grad_norm": 1.2673137187957764,
"learning_rate": 9.986108279840063e-05,
"loss": 2.1895,
"step": 270
},
{
"epoch": 0.07466666666666667,
"grad_norm": 1.2057632207870483,
"learning_rate": 9.985048743681132e-05,
"loss": 2.1588,
"step": 280
},
{
"epoch": 0.07733333333333334,
"grad_norm": 1.1784793138504028,
"learning_rate": 9.983950333110705e-05,
"loss": 2.1601,
"step": 290
},
{
"epoch": 0.08,
"grad_norm": 1.3942134380340576,
"learning_rate": 9.982813056694412e-05,
"loss": 2.1571,
"step": 300
},
{
"epoch": 0.08266666666666667,
"grad_norm": 1.2116832733154297,
"learning_rate": 9.981636923300959e-05,
"loss": 2.1414,
"step": 310
},
{
"epoch": 0.08533333333333333,
"grad_norm": 1.4112406969070435,
"learning_rate": 9.980421942102074e-05,
"loss": 2.1527,
"step": 320
},
{
"epoch": 0.088,
"grad_norm": 1.3844280242919922,
"learning_rate": 9.979168122572422e-05,
"loss": 2.1086,
"step": 330
},
{
"epoch": 0.09066666666666667,
"grad_norm": 1.470893144607544,
"learning_rate": 9.977875474489541e-05,
"loss": 2.0626,
"step": 340
},
{
"epoch": 0.09333333333333334,
"grad_norm": 1.4093472957611084,
"learning_rate": 9.976544007933759e-05,
"loss": 2.063,
"step": 350
},
{
"epoch": 0.096,
"grad_norm": 1.1979631185531616,
"learning_rate": 9.975173733288121e-05,
"loss": 2.034,
"step": 360
},
{
"epoch": 0.09866666666666667,
"grad_norm": 1.1466786861419678,
"learning_rate": 9.973764661238305e-05,
"loss": 2.0889,
"step": 370
},
{
"epoch": 0.10133333333333333,
"grad_norm": 1.5562443733215332,
"learning_rate": 9.972316802772535e-05,
"loss": 2.0057,
"step": 380
},
{
"epoch": 0.104,
"grad_norm": 1.2504980564117432,
"learning_rate": 9.970830169181505e-05,
"loss": 2.0281,
"step": 390
},
{
"epoch": 0.10666666666666667,
"grad_norm": 1.133342981338501,
"learning_rate": 9.969304772058278e-05,
"loss": 2.0296,
"step": 400
},
{
"epoch": 0.10933333333333334,
"grad_norm": 1.129353642463684,
"learning_rate": 9.967740623298214e-05,
"loss": 2.043,
"step": 410
},
{
"epoch": 0.112,
"grad_norm": 1.637911081314087,
"learning_rate": 9.966137735098853e-05,
"loss": 2.016,
"step": 420
},
{
"epoch": 0.11466666666666667,
"grad_norm": 1.3589582443237305,
"learning_rate": 9.964496119959841e-05,
"loss": 1.9813,
"step": 430
},
{
"epoch": 0.11733333333333333,
"grad_norm": 1.3092073202133179,
"learning_rate": 9.962815790682824e-05,
"loss": 1.998,
"step": 440
},
{
"epoch": 0.12,
"grad_norm": 1.298972725868225,
"learning_rate": 9.961096760371348e-05,
"loss": 1.9426,
"step": 450
},
{
"epoch": 0.12266666666666666,
"grad_norm": 1.3443470001220703,
"learning_rate": 9.959339042430753e-05,
"loss": 1.9601,
"step": 460
},
{
"epoch": 0.12533333333333332,
"grad_norm": 1.1859084367752075,
"learning_rate": 9.95754265056808e-05,
"loss": 1.9198,
"step": 470
},
{
"epoch": 0.128,
"grad_norm": 1.2819511890411377,
"learning_rate": 9.955707598791952e-05,
"loss": 1.9349,
"step": 480
},
{
"epoch": 0.13066666666666665,
"grad_norm": 1.308677077293396,
"learning_rate": 9.953833901412471e-05,
"loss": 1.9333,
"step": 490
},
{
"epoch": 0.13333333333333333,
"grad_norm": 1.1830692291259766,
"learning_rate": 9.951921573041107e-05,
"loss": 1.8758,
"step": 500
},
{
"epoch": 0.136,
"grad_norm": 1.4402300119400024,
"learning_rate": 9.94997062859058e-05,
"loss": 1.8712,
"step": 510
},
{
"epoch": 0.13866666666666666,
"grad_norm": 1.3303618431091309,
"learning_rate": 9.947981083274746e-05,
"loss": 1.8946,
"step": 520
},
{
"epoch": 0.14133333333333334,
"grad_norm": 1.2645699977874756,
"learning_rate": 9.945952952608479e-05,
"loss": 1.886,
"step": 530
},
{
"epoch": 0.144,
"grad_norm": 1.2825655937194824,
"learning_rate": 9.943886252407551e-05,
"loss": 1.8562,
"step": 540
},
{
"epoch": 0.14666666666666667,
"grad_norm": 1.4373561143875122,
"learning_rate": 9.941780998788506e-05,
"loss": 1.8806,
"step": 550
},
{
"epoch": 0.14933333333333335,
"grad_norm": 1.3520197868347168,
"learning_rate": 9.939637208168531e-05,
"loss": 1.8826,
"step": 560
},
{
"epoch": 0.152,
"grad_norm": 1.3516879081726074,
"learning_rate": 9.937454897265337e-05,
"loss": 1.8638,
"step": 570
},
{
"epoch": 0.15466666666666667,
"grad_norm": 1.3336915969848633,
"learning_rate": 9.935234083097027e-05,
"loss": 1.8313,
"step": 580
},
{
"epoch": 0.15733333333333333,
"grad_norm": 1.1621264219284058,
"learning_rate": 9.932974782981951e-05,
"loss": 1.8002,
"step": 590
},
{
"epoch": 0.16,
"grad_norm": 1.2616889476776123,
"learning_rate": 9.930677014538587e-05,
"loss": 1.815,
"step": 600
},
{
"epoch": 0.16266666666666665,
"grad_norm": 1.3532363176345825,
"learning_rate": 9.928340795685394e-05,
"loss": 1.8435,
"step": 610
},
{
"epoch": 0.16533333333333333,
"grad_norm": 2.149549722671509,
"learning_rate": 9.925966144640677e-05,
"loss": 1.7896,
"step": 620
},
{
"epoch": 0.168,
"grad_norm": 1.2242093086242676,
"learning_rate": 9.923553079922443e-05,
"loss": 1.773,
"step": 630
},
{
"epoch": 0.17066666666666666,
"grad_norm": 1.2656044960021973,
"learning_rate": 9.921101620348252e-05,
"loss": 1.8128,
"step": 640
},
{
"epoch": 0.17333333333333334,
"grad_norm": 1.2624038457870483,
"learning_rate": 9.918611785035081e-05,
"loss": 1.8131,
"step": 650
},
{
"epoch": 0.176,
"grad_norm": 1.3800233602523804,
"learning_rate": 9.916083593399166e-05,
"loss": 1.8317,
"step": 660
},
{
"epoch": 0.17866666666666667,
"grad_norm": 1.2271778583526611,
"learning_rate": 9.913517065155852e-05,
"loss": 1.7392,
"step": 670
},
{
"epoch": 0.18133333333333335,
"grad_norm": 1.3525445461273193,
"learning_rate": 9.910912220319441e-05,
"loss": 1.7696,
"step": 680
},
{
"epoch": 0.184,
"grad_norm": 1.2507288455963135,
"learning_rate": 9.908269079203039e-05,
"loss": 1.6989,
"step": 690
},
{
"epoch": 0.18666666666666668,
"grad_norm": 1.370218276977539,
"learning_rate": 9.90558766241839e-05,
"loss": 1.7366,
"step": 700
},
{
"epoch": 0.18933333333333333,
"grad_norm": 1.2349491119384766,
"learning_rate": 9.902867990875719e-05,
"loss": 1.7456,
"step": 710
},
{
"epoch": 0.192,
"grad_norm": 1.2522363662719727,
"learning_rate": 9.900110085783572e-05,
"loss": 1.7311,
"step": 720
},
{
"epoch": 0.19466666666666665,
"grad_norm": 1.2445602416992188,
"learning_rate": 9.897313968648649e-05,
"loss": 1.7744,
"step": 730
},
{
"epoch": 0.19733333333333333,
"grad_norm": 1.347185730934143,
"learning_rate": 9.89447966127563e-05,
"loss": 1.7823,
"step": 740
},
{
"epoch": 0.2,
"grad_norm": 1.3751951456069946,
"learning_rate": 9.891607185767018e-05,
"loss": 1.7992,
"step": 750
},
{
"epoch": 0.20266666666666666,
"grad_norm": 1.3779850006103516,
"learning_rate": 9.888696564522948e-05,
"loss": 1.7366,
"step": 760
},
{
"epoch": 0.20533333333333334,
"grad_norm": 1.2008346319198608,
"learning_rate": 9.885747820241032e-05,
"loss": 1.714,
"step": 770
},
{
"epoch": 0.208,
"grad_norm": 1.1520583629608154,
"learning_rate": 9.882760975916172e-05,
"loss": 1.7091,
"step": 780
},
{
"epoch": 0.21066666666666667,
"grad_norm": 1.256103754043579,
"learning_rate": 9.879736054840378e-05,
"loss": 1.7122,
"step": 790
},
{
"epoch": 0.21333333333333335,
"grad_norm": 1.2325780391693115,
"learning_rate": 9.87667308060259e-05,
"loss": 1.7168,
"step": 800
},
{
"epoch": 0.216,
"grad_norm": 1.1750184297561646,
"learning_rate": 9.873572077088502e-05,
"loss": 1.6875,
"step": 810
},
{
"epoch": 0.21866666666666668,
"grad_norm": 1.2128427028656006,
"learning_rate": 9.870433068480358e-05,
"loss": 1.6825,
"step": 820
},
{
"epoch": 0.22133333333333333,
"grad_norm": 1.4052956104278564,
"learning_rate": 9.867256079256779e-05,
"loss": 1.6743,
"step": 830
},
{
"epoch": 0.224,
"grad_norm": 1.446097493171692,
"learning_rate": 9.864041134192563e-05,
"loss": 1.7194,
"step": 840
},
{
"epoch": 0.22666666666666666,
"grad_norm": 1.2423707246780396,
"learning_rate": 9.860788258358502e-05,
"loss": 1.6572,
"step": 850
},
{
"epoch": 0.22933333333333333,
"grad_norm": 1.2467008829116821,
"learning_rate": 9.857497477121171e-05,
"loss": 1.6961,
"step": 860
},
{
"epoch": 0.232,
"grad_norm": 1.4434629678726196,
"learning_rate": 9.854168816142746e-05,
"loss": 1.6961,
"step": 870
},
{
"epoch": 0.23466666666666666,
"grad_norm": 1.1657633781433105,
"learning_rate": 9.850802301380793e-05,
"loss": 1.6695,
"step": 880
},
{
"epoch": 0.23733333333333334,
"grad_norm": 1.2234739065170288,
"learning_rate": 9.847397959088069e-05,
"loss": 1.5881,
"step": 890
},
{
"epoch": 0.24,
"grad_norm": 1.290128469467163,
"learning_rate": 9.84395581581232e-05,
"loss": 1.6933,
"step": 900
},
{
"epoch": 0.24266666666666667,
"grad_norm": 1.199971318244934,
"learning_rate": 9.840475898396074e-05,
"loss": 1.6479,
"step": 910
},
{
"epoch": 0.24533333333333332,
"grad_norm": 1.188962459564209,
"learning_rate": 9.83695823397642e-05,
"loss": 1.6686,
"step": 920
},
{
"epoch": 0.248,
"grad_norm": 1.3920986652374268,
"learning_rate": 9.833402849984815e-05,
"loss": 1.6873,
"step": 930
},
{
"epoch": 0.25066666666666665,
"grad_norm": 1.2816208600997925,
"learning_rate": 9.829809774146859e-05,
"loss": 1.6143,
"step": 940
},
{
"epoch": 0.25333333333333335,
"grad_norm": 1.2212066650390625,
"learning_rate": 9.826179034482074e-05,
"loss": 1.6173,
"step": 950
},
{
"epoch": 0.256,
"grad_norm": 1.1105986833572388,
"learning_rate": 9.822510659303703e-05,
"loss": 1.6216,
"step": 960
},
{
"epoch": 0.25866666666666666,
"grad_norm": 1.3695571422576904,
"learning_rate": 9.818804677218472e-05,
"loss": 1.7096,
"step": 970
},
{
"epoch": 0.2613333333333333,
"grad_norm": 1.3604527711868286,
"learning_rate": 9.815061117126369e-05,
"loss": 1.6349,
"step": 980
},
{
"epoch": 0.264,
"grad_norm": 1.3433711528778076,
"learning_rate": 9.811280008220432e-05,
"loss": 1.647,
"step": 990
},
{
"epoch": 0.26666666666666666,
"grad_norm": 1.2954343557357788,
"learning_rate": 9.807461379986506e-05,
"loss": 1.6453,
"step": 1000
},
{
"epoch": 0.2693333333333333,
"grad_norm": 1.236398696899414,
"learning_rate": 9.803605262203022e-05,
"loss": 1.6163,
"step": 1010
},
{
"epoch": 0.272,
"grad_norm": 1.2126185894012451,
"learning_rate": 9.79971168494076e-05,
"loss": 1.6242,
"step": 1020
},
{
"epoch": 0.27466666666666667,
"grad_norm": 1.0889825820922852,
"learning_rate": 9.795780678562618e-05,
"loss": 1.6601,
"step": 1030
},
{
"epoch": 0.2773333333333333,
"grad_norm": 1.2359286546707153,
"learning_rate": 9.791812273723373e-05,
"loss": 1.6531,
"step": 1040
},
{
"epoch": 0.28,
"grad_norm": 1.1991182565689087,
"learning_rate": 9.787806501369445e-05,
"loss": 1.5602,
"step": 1050
},
{
"epoch": 0.2826666666666667,
"grad_norm": 1.263185739517212,
"learning_rate": 9.78376339273865e-05,
"loss": 1.6371,
"step": 1060
},
{
"epoch": 0.2853333333333333,
"grad_norm": 1.2973644733428955,
"learning_rate": 9.77968297935996e-05,
"loss": 1.6556,
"step": 1070
},
{
"epoch": 0.288,
"grad_norm": 1.0786491632461548,
"learning_rate": 9.775565293053261e-05,
"loss": 1.631,
"step": 1080
},
{
"epoch": 0.2906666666666667,
"grad_norm": 1.143127202987671,
"learning_rate": 9.771410365929097e-05,
"loss": 1.6083,
"step": 1090
},
{
"epoch": 0.29333333333333333,
"grad_norm": 1.3138456344604492,
"learning_rate": 9.767218230388422e-05,
"loss": 1.6347,
"step": 1100
},
{
"epoch": 0.296,
"grad_norm": 1.1803919076919556,
"learning_rate": 9.762988919122355e-05,
"loss": 1.6011,
"step": 1110
},
{
"epoch": 0.2986666666666667,
"grad_norm": 1.1952447891235352,
"learning_rate": 9.758722465111912e-05,
"loss": 1.5892,
"step": 1120
},
{
"epoch": 0.30133333333333334,
"grad_norm": 1.177064061164856,
"learning_rate": 9.754418901627759e-05,
"loss": 1.6529,
"step": 1130
},
{
"epoch": 0.304,
"grad_norm": 1.1240631341934204,
"learning_rate": 9.75007826222995e-05,
"loss": 1.5742,
"step": 1140
},
{
"epoch": 0.30666666666666664,
"grad_norm": 1.281684160232544,
"learning_rate": 9.745700580767659e-05,
"loss": 1.5985,
"step": 1150
},
{
"epoch": 0.30933333333333335,
"grad_norm": 1.4122151136398315,
"learning_rate": 9.74128589137893e-05,
"loss": 1.5748,
"step": 1160
},
{
"epoch": 0.312,
"grad_norm": 1.2664381265640259,
"learning_rate": 9.736834228490397e-05,
"loss": 1.5995,
"step": 1170
},
{
"epoch": 0.31466666666666665,
"grad_norm": 1.1780527830123901,
"learning_rate": 9.73234562681702e-05,
"loss": 1.5841,
"step": 1180
},
{
"epoch": 0.31733333333333336,
"grad_norm": 1.4098230600357056,
"learning_rate": 9.727820121361814e-05,
"loss": 1.6568,
"step": 1190
},
{
"epoch": 0.32,
"grad_norm": 1.3192808628082275,
"learning_rate": 9.723257747415584e-05,
"loss": 1.5708,
"step": 1200
},
{
"epoch": 0.32266666666666666,
"grad_norm": 1.1481376886367798,
"learning_rate": 9.718658540556638e-05,
"loss": 1.6019,
"step": 1210
},
{
"epoch": 0.3253333333333333,
"grad_norm": 1.1697850227355957,
"learning_rate": 9.714022536650513e-05,
"loss": 1.5946,
"step": 1220
},
{
"epoch": 0.328,
"grad_norm": 1.1633665561676025,
"learning_rate": 9.7093497718497e-05,
"loss": 1.6036,
"step": 1230
},
{
"epoch": 0.33066666666666666,
"grad_norm": 1.2343782186508179,
"learning_rate": 9.704640282593359e-05,
"loss": 1.4848,
"step": 1240
},
{
"epoch": 0.3333333333333333,
"grad_norm": 1.189098596572876,
"learning_rate": 9.699894105607028e-05,
"loss": 1.5482,
"step": 1250
},
{
"epoch": 0.336,
"grad_norm": 1.2927459478378296,
"learning_rate": 9.695111277902353e-05,
"loss": 1.5279,
"step": 1260
},
{
"epoch": 0.33866666666666667,
"grad_norm": 1.0545989274978638,
"learning_rate": 9.690291836776786e-05,
"loss": 1.5565,
"step": 1270
},
{
"epoch": 0.3413333333333333,
"grad_norm": 1.180017352104187,
"learning_rate": 9.685435819813294e-05,
"loss": 1.5322,
"step": 1280
},
{
"epoch": 0.344,
"grad_norm": 1.082352638244629,
"learning_rate": 9.680543264880076e-05,
"loss": 1.5577,
"step": 1290
},
{
"epoch": 0.3466666666666667,
"grad_norm": 1.1044467687606812,
"learning_rate": 9.675614210130253e-05,
"loss": 1.531,
"step": 1300
},
{
"epoch": 0.34933333333333333,
"grad_norm": 1.295383334159851,
"learning_rate": 9.670648694001589e-05,
"loss": 1.5965,
"step": 1310
},
{
"epoch": 0.352,
"grad_norm": 1.1646699905395508,
"learning_rate": 9.665646755216175e-05,
"loss": 1.5956,
"step": 1320
},
{
"epoch": 0.3546666666666667,
"grad_norm": 1.2571942806243896,
"learning_rate": 9.660608432780132e-05,
"loss": 1.5509,
"step": 1330
},
{
"epoch": 0.35733333333333334,
"grad_norm": 1.290236473083496,
"learning_rate": 9.655533765983314e-05,
"loss": 1.5414,
"step": 1340
},
{
"epoch": 0.36,
"grad_norm": 1.4202523231506348,
"learning_rate": 9.65042279439899e-05,
"loss": 1.5092,
"step": 1350
},
{
"epoch": 0.3626666666666667,
"grad_norm": 1.1573994159698486,
"learning_rate": 9.645275557883544e-05,
"loss": 1.5769,
"step": 1360
},
{
"epoch": 0.36533333333333334,
"grad_norm": 1.198572039604187,
"learning_rate": 9.64009209657616e-05,
"loss": 1.492,
"step": 1370
},
{
"epoch": 0.368,
"grad_norm": 1.2762819528579712,
"learning_rate": 9.63487245089851e-05,
"loss": 1.5721,
"step": 1380
},
{
"epoch": 0.37066666666666664,
"grad_norm": 1.3239036798477173,
"learning_rate": 9.62961666155444e-05,
"loss": 1.4852,
"step": 1390
},
{
"epoch": 0.37333333333333335,
"grad_norm": 1.1535241603851318,
"learning_rate": 9.624324769529652e-05,
"loss": 1.5596,
"step": 1400
},
{
"epoch": 0.376,
"grad_norm": 1.2930402755737305,
"learning_rate": 9.618996816091381e-05,
"loss": 1.5028,
"step": 1410
},
{
"epoch": 0.37866666666666665,
"grad_norm": 1.4139798879623413,
"learning_rate": 9.613632842788079e-05,
"loss": 1.5275,
"step": 1420
},
{
"epoch": 0.38133333333333336,
"grad_norm": 1.1874589920043945,
"learning_rate": 9.608232891449086e-05,
"loss": 1.4494,
"step": 1430
},
{
"epoch": 0.384,
"grad_norm": 1.2668923139572144,
"learning_rate": 9.602797004184312e-05,
"loss": 1.5524,
"step": 1440
},
{
"epoch": 0.38666666666666666,
"grad_norm": 1.1389477252960205,
"learning_rate": 9.597325223383894e-05,
"loss": 1.4829,
"step": 1450
},
{
"epoch": 0.3893333333333333,
"grad_norm": 1.1770538091659546,
"learning_rate": 9.591817591717877e-05,
"loss": 1.5488,
"step": 1460
},
{
"epoch": 0.392,
"grad_norm": 1.1826292276382446,
"learning_rate": 9.586274152135884e-05,
"loss": 1.5018,
"step": 1470
},
{
"epoch": 0.39466666666666667,
"grad_norm": 1.308369517326355,
"learning_rate": 9.580694947866764e-05,
"loss": 1.4715,
"step": 1480
},
{
"epoch": 0.3973333333333333,
"grad_norm": 1.445573329925537,
"learning_rate": 9.575080022418276e-05,
"loss": 1.5207,
"step": 1490
},
{
"epoch": 0.4,
"grad_norm": 1.2460147142410278,
"learning_rate": 9.569429419576737e-05,
"loss": 1.5239,
"step": 1500
},
{
"epoch": 0.4026666666666667,
"grad_norm": 1.146437168121338,
"learning_rate": 9.563743183406682e-05,
"loss": 1.5354,
"step": 1510
},
{
"epoch": 0.4053333333333333,
"grad_norm": 1.2336937189102173,
"learning_rate": 9.558021358250523e-05,
"loss": 1.5475,
"step": 1520
},
{
"epoch": 0.408,
"grad_norm": 1.227339506149292,
"learning_rate": 9.552263988728203e-05,
"loss": 1.5021,
"step": 1530
},
{
"epoch": 0.4106666666666667,
"grad_norm": 1.155593752861023,
"learning_rate": 9.546471119736845e-05,
"loss": 1.5432,
"step": 1540
},
{
"epoch": 0.41333333333333333,
"grad_norm": 1.1381423473358154,
"learning_rate": 9.540642796450403e-05,
"loss": 1.4961,
"step": 1550
},
{
"epoch": 0.416,
"grad_norm": 1.2342126369476318,
"learning_rate": 9.534779064319318e-05,
"loss": 1.5291,
"step": 1560
},
{
"epoch": 0.4186666666666667,
"grad_norm": 1.175115704536438,
"learning_rate": 9.528879969070148e-05,
"loss": 1.4991,
"step": 1570
},
{
"epoch": 0.42133333333333334,
"grad_norm": 1.2292876243591309,
"learning_rate": 9.52294555670522e-05,
"loss": 1.4546,
"step": 1580
},
{
"epoch": 0.424,
"grad_norm": 1.1613503694534302,
"learning_rate": 9.516975873502279e-05,
"loss": 1.4555,
"step": 1590
},
{
"epoch": 0.4266666666666667,
"grad_norm": 1.2402660846710205,
"learning_rate": 9.510970966014112e-05,
"loss": 1.4706,
"step": 1600
},
{
"epoch": 0.42933333333333334,
"grad_norm": 1.1978907585144043,
"learning_rate": 9.504930881068192e-05,
"loss": 1.5074,
"step": 1610
},
{
"epoch": 0.432,
"grad_norm": 1.166059970855713,
"learning_rate": 9.498855665766317e-05,
"loss": 1.4788,
"step": 1620
},
{
"epoch": 0.43466666666666665,
"grad_norm": 1.349196434020996,
"learning_rate": 9.492745367484234e-05,
"loss": 1.495,
"step": 1630
},
{
"epoch": 0.43733333333333335,
"grad_norm": 1.2328778505325317,
"learning_rate": 9.486600033871278e-05,
"loss": 1.4726,
"step": 1640
},
{
"epoch": 0.44,
"grad_norm": 1.2029507160186768,
"learning_rate": 9.480419712849995e-05,
"loss": 1.4274,
"step": 1650
},
{
"epoch": 0.44266666666666665,
"grad_norm": 1.2431840896606445,
"learning_rate": 9.474204452615769e-05,
"loss": 1.5464,
"step": 1660
},
{
"epoch": 0.44533333333333336,
"grad_norm": 1.1831949949264526,
"learning_rate": 9.46795430163645e-05,
"loss": 1.5215,
"step": 1670
},
{
"epoch": 0.448,
"grad_norm": 1.2739088535308838,
"learning_rate": 9.461669308651968e-05,
"loss": 1.4899,
"step": 1680
},
{
"epoch": 0.45066666666666666,
"grad_norm": 1.137560486793518,
"learning_rate": 9.455349522673962e-05,
"loss": 1.5286,
"step": 1690
},
{
"epoch": 0.4533333333333333,
"grad_norm": 1.172641634941101,
"learning_rate": 9.448994992985393e-05,
"loss": 1.4518,
"step": 1700
},
{
"epoch": 0.456,
"grad_norm": 1.2709147930145264,
"learning_rate": 9.442605769140158e-05,
"loss": 1.4563,
"step": 1710
},
{
"epoch": 0.45866666666666667,
"grad_norm": 1.2252726554870605,
"learning_rate": 9.436181900962713e-05,
"loss": 1.5001,
"step": 1720
},
{
"epoch": 0.4613333333333333,
"grad_norm": 1.1632018089294434,
"learning_rate": 9.429723438547667e-05,
"loss": 1.4513,
"step": 1730
},
{
"epoch": 0.464,
"grad_norm": 1.4294410943984985,
"learning_rate": 9.423230432259409e-05,
"loss": 1.4529,
"step": 1740
},
{
"epoch": 0.4666666666666667,
"grad_norm": 1.282327651977539,
"learning_rate": 9.416702932731707e-05,
"loss": 1.4149,
"step": 1750
},
{
"epoch": 0.4693333333333333,
"grad_norm": 1.1762118339538574,
"learning_rate": 9.410140990867314e-05,
"loss": 1.4371,
"step": 1760
},
{
"epoch": 0.472,
"grad_norm": 1.172849178314209,
"learning_rate": 9.403544657837568e-05,
"loss": 1.499,
"step": 1770
},
{
"epoch": 0.4746666666666667,
"grad_norm": 1.1873059272766113,
"learning_rate": 9.396913985082003e-05,
"loss": 1.3897,
"step": 1780
},
{
"epoch": 0.47733333333333333,
"grad_norm": 1.2219440937042236,
"learning_rate": 9.390249024307935e-05,
"loss": 1.4432,
"step": 1790
},
{
"epoch": 0.48,
"grad_norm": 1.1377061605453491,
"learning_rate": 9.383549827490065e-05,
"loss": 1.5,
"step": 1800
},
{
"epoch": 0.4826666666666667,
"grad_norm": 1.138771653175354,
"learning_rate": 9.37681644687008e-05,
"loss": 1.4375,
"step": 1810
},
{
"epoch": 0.48533333333333334,
"grad_norm": 1.192325472831726,
"learning_rate": 9.370048934956232e-05,
"loss": 1.4332,
"step": 1820
},
{
"epoch": 0.488,
"grad_norm": 1.1880292892456055,
"learning_rate": 9.363247344522938e-05,
"loss": 1.4164,
"step": 1830
},
{
"epoch": 0.49066666666666664,
"grad_norm": 1.1453015804290771,
"learning_rate": 9.356411728610368e-05,
"loss": 1.4824,
"step": 1840
},
{
"epoch": 0.49333333333333335,
"grad_norm": 1.1983551979064941,
"learning_rate": 9.349542140524028e-05,
"loss": 1.4353,
"step": 1850
},
{
"epoch": 0.496,
"grad_norm": 1.1537418365478516,
"learning_rate": 9.342638633834345e-05,
"loss": 1.4802,
"step": 1860
},
{
"epoch": 0.49866666666666665,
"grad_norm": 1.3037590980529785,
"learning_rate": 9.335701262376249e-05,
"loss": 1.4076,
"step": 1870
},
{
"epoch": 0.5013333333333333,
"grad_norm": 1.2254606485366821,
"learning_rate": 9.32873008024876e-05,
"loss": 1.4637,
"step": 1880
},
{
"epoch": 0.504,
"grad_norm": 1.2124687433242798,
"learning_rate": 9.321725141814554e-05,
"loss": 1.455,
"step": 1890
},
{
"epoch": 0.5066666666666667,
"grad_norm": 1.2989321947097778,
"learning_rate": 9.314686501699547e-05,
"loss": 1.4277,
"step": 1900
},
{
"epoch": 0.5093333333333333,
"grad_norm": 1.3618190288543701,
"learning_rate": 9.307614214792474e-05,
"loss": 1.4756,
"step": 1910
},
{
"epoch": 0.512,
"grad_norm": 1.1907007694244385,
"learning_rate": 9.300508336244444e-05,
"loss": 1.4276,
"step": 1920
},
{
"epoch": 0.5146666666666667,
"grad_norm": 1.265552043914795,
"learning_rate": 9.293368921468525e-05,
"loss": 1.4414,
"step": 1930
},
{
"epoch": 0.5173333333333333,
"grad_norm": 1.1732559204101562,
"learning_rate": 9.286196026139311e-05,
"loss": 1.4596,
"step": 1940
},
{
"epoch": 0.52,
"grad_norm": 1.1664767265319824,
"learning_rate": 9.278989706192479e-05,
"loss": 1.4448,
"step": 1950
},
{
"epoch": 0.5226666666666666,
"grad_norm": 1.1823703050613403,
"learning_rate": 9.271750017824359e-05,
"loss": 1.4324,
"step": 1960
},
{
"epoch": 0.5253333333333333,
"grad_norm": 1.2507715225219727,
"learning_rate": 9.264477017491496e-05,
"loss": 1.4088,
"step": 1970
},
{
"epoch": 0.528,
"grad_norm": 1.1818293333053589,
"learning_rate": 9.257170761910207e-05,
"loss": 1.4422,
"step": 1980
},
{
"epoch": 0.5306666666666666,
"grad_norm": 1.162350058555603,
"learning_rate": 9.24983130805614e-05,
"loss": 1.3944,
"step": 1990
},
{
"epoch": 0.5333333333333333,
"grad_norm": 1.195662260055542,
"learning_rate": 9.242458713163833e-05,
"loss": 1.4334,
"step": 2000
},
{
"epoch": 0.536,
"grad_norm": 1.2335044145584106,
"learning_rate": 9.23505303472626e-05,
"loss": 1.429,
"step": 2010
},
{
"epoch": 0.5386666666666666,
"grad_norm": 1.2105525732040405,
"learning_rate": 9.22761433049439e-05,
"loss": 1.4464,
"step": 2020
},
{
"epoch": 0.5413333333333333,
"grad_norm": 1.1668081283569336,
"learning_rate": 9.220142658476731e-05,
"loss": 1.4045,
"step": 2030
},
{
"epoch": 0.544,
"grad_norm": 1.3013231754302979,
"learning_rate": 9.212638076938886e-05,
"loss": 1.4209,
"step": 2040
},
{
"epoch": 0.5466666666666666,
"grad_norm": 1.1668587923049927,
"learning_rate": 9.205100644403085e-05,
"loss": 1.4069,
"step": 2050
},
{
"epoch": 0.5493333333333333,
"grad_norm": 1.120519995689392,
"learning_rate": 9.197530419647743e-05,
"loss": 1.4079,
"step": 2060
},
{
"epoch": 0.552,
"grad_norm": 1.221240520477295,
"learning_rate": 9.189927461706994e-05,
"loss": 1.3758,
"step": 2070
},
{
"epoch": 0.5546666666666666,
"grad_norm": 1.1907252073287964,
"learning_rate": 9.182291829870231e-05,
"loss": 1.3916,
"step": 2080
},
{
"epoch": 0.5573333333333333,
"grad_norm": 1.157230257987976,
"learning_rate": 9.174623583681644e-05,
"loss": 1.424,
"step": 2090
},
{
"epoch": 0.56,
"grad_norm": 1.243390679359436,
"learning_rate": 9.166922782939758e-05,
"loss": 1.3785,
"step": 2100
},
{
"epoch": 0.5626666666666666,
"grad_norm": 1.35386323928833,
"learning_rate": 9.159189487696964e-05,
"loss": 1.4214,
"step": 2110
},
{
"epoch": 0.5653333333333334,
"grad_norm": 1.233632206916809,
"learning_rate": 9.151423758259053e-05,
"loss": 1.4112,
"step": 2120
},
{
"epoch": 0.568,
"grad_norm": 1.2785305976867676,
"learning_rate": 9.14362565518474e-05,
"loss": 1.5029,
"step": 2130
},
{
"epoch": 0.5706666666666667,
"grad_norm": 1.1489568948745728,
"learning_rate": 9.135795239285201e-05,
"loss": 1.3647,
"step": 2140
},
{
"epoch": 0.5733333333333334,
"grad_norm": 1.408315658569336,
"learning_rate": 9.127932571623592e-05,
"loss": 1.4112,
"step": 2150
},
{
"epoch": 0.576,
"grad_norm": 1.2435559034347534,
"learning_rate": 9.120037713514575e-05,
"loss": 1.4089,
"step": 2160
},
{
"epoch": 0.5786666666666667,
"grad_norm": 1.0883207321166992,
"learning_rate": 9.112110726523841e-05,
"loss": 1.4465,
"step": 2170
},
{
"epoch": 0.5813333333333334,
"grad_norm": 1.1969690322875977,
"learning_rate": 9.104151672467624e-05,
"loss": 1.3992,
"step": 2180
},
{
"epoch": 0.584,
"grad_norm": 1.17844820022583,
"learning_rate": 9.096160613412228e-05,
"loss": 1.4339,
"step": 2190
},
{
"epoch": 0.5866666666666667,
"grad_norm": 1.1998530626296997,
"learning_rate": 9.088137611673537e-05,
"loss": 1.4133,
"step": 2200
},
{
"epoch": 0.5893333333333334,
"grad_norm": 1.2088191509246826,
"learning_rate": 9.08008272981653e-05,
"loss": 1.4172,
"step": 2210
},
{
"epoch": 0.592,
"grad_norm": 1.2235163450241089,
"learning_rate": 9.071996030654793e-05,
"loss": 1.3962,
"step": 2220
},
{
"epoch": 0.5946666666666667,
"grad_norm": 1.1096335649490356,
"learning_rate": 9.063877577250031e-05,
"loss": 1.3679,
"step": 2230
},
{
"epoch": 0.5973333333333334,
"grad_norm": 1.0746153593063354,
"learning_rate": 9.055727432911573e-05,
"loss": 1.3846,
"step": 2240
},
{
"epoch": 0.6,
"grad_norm": 1.1154844760894775,
"learning_rate": 9.047545661195885e-05,
"loss": 1.3793,
"step": 2250
},
{
"epoch": 0.6026666666666667,
"grad_norm": 1.147965669631958,
"learning_rate": 9.039332325906065e-05,
"loss": 1.3821,
"step": 2260
},
{
"epoch": 0.6053333333333333,
"grad_norm": 1.1864081621170044,
"learning_rate": 9.031087491091349e-05,
"loss": 1.4008,
"step": 2270
},
{
"epoch": 0.608,
"grad_norm": 1.2398922443389893,
"learning_rate": 9.022811221046618e-05,
"loss": 1.3957,
"step": 2280
},
{
"epoch": 0.6106666666666667,
"grad_norm": 1.3095377683639526,
"learning_rate": 9.014503580311888e-05,
"loss": 1.3663,
"step": 2290
},
{
"epoch": 0.6133333333333333,
"grad_norm": 1.1142088174819946,
"learning_rate": 9.006164633671809e-05,
"loss": 1.3967,
"step": 2300
},
{
"epoch": 0.616,
"grad_norm": 1.2652512788772583,
"learning_rate": 8.997794446155165e-05,
"loss": 1.412,
"step": 2310
},
{
"epoch": 0.6186666666666667,
"grad_norm": 1.21256422996521,
"learning_rate": 8.989393083034355e-05,
"loss": 1.4748,
"step": 2320
},
{
"epoch": 0.6213333333333333,
"grad_norm": 1.2671364545822144,
"learning_rate": 8.9809606098249e-05,
"loss": 1.3837,
"step": 2330
},
{
"epoch": 0.624,
"grad_norm": 1.2155178785324097,
"learning_rate": 8.972497092284917e-05,
"loss": 1.3248,
"step": 2340
},
{
"epoch": 0.6266666666666667,
"grad_norm": 1.118476390838623,
"learning_rate": 8.96400259641462e-05,
"loss": 1.4082,
"step": 2350
},
{
"epoch": 0.6293333333333333,
"grad_norm": 1.1911672353744507,
"learning_rate": 8.95547718845579e-05,
"loss": 1.437,
"step": 2360
},
{
"epoch": 0.632,
"grad_norm": 1.18438720703125,
"learning_rate": 8.946920934891274e-05,
"loss": 1.3764,
"step": 2370
},
{
"epoch": 0.6346666666666667,
"grad_norm": 1.195906400680542,
"learning_rate": 8.938333902444454e-05,
"loss": 1.3683,
"step": 2380
},
{
"epoch": 0.6373333333333333,
"grad_norm": 1.2250769138336182,
"learning_rate": 8.929716158078733e-05,
"loss": 1.4469,
"step": 2390
},
{
"epoch": 0.64,
"grad_norm": 1.425670862197876,
"learning_rate": 8.921067768997018e-05,
"loss": 1.3741,
"step": 2400
},
{
"epoch": 0.6426666666666667,
"grad_norm": 1.19728684425354,
"learning_rate": 8.912388802641177e-05,
"loss": 1.3783,
"step": 2410
},
{
"epoch": 0.6453333333333333,
"grad_norm": 1.1674749851226807,
"learning_rate": 8.903679326691539e-05,
"loss": 1.3648,
"step": 2420
},
{
"epoch": 0.648,
"grad_norm": 1.2711080312728882,
"learning_rate": 8.894939409066344e-05,
"loss": 1.3503,
"step": 2430
},
{
"epoch": 0.6506666666666666,
"grad_norm": 1.1880507469177246,
"learning_rate": 8.886169117921225e-05,
"loss": 1.4124,
"step": 2440
},
{
"epoch": 0.6533333333333333,
"grad_norm": 1.2464922666549683,
"learning_rate": 8.877368521648678e-05,
"loss": 1.3559,
"step": 2450
},
{
"epoch": 0.656,
"grad_norm": 1.1443207263946533,
"learning_rate": 8.868537688877516e-05,
"loss": 1.3751,
"step": 2460
},
{
"epoch": 0.6586666666666666,
"grad_norm": 1.2191261053085327,
"learning_rate": 8.859676688472348e-05,
"loss": 1.3991,
"step": 2470
},
{
"epoch": 0.6613333333333333,
"grad_norm": 1.1666820049285889,
"learning_rate": 8.850785589533037e-05,
"loss": 1.3407,
"step": 2480
},
{
"epoch": 0.664,
"grad_norm": 1.1684051752090454,
"learning_rate": 8.841864461394158e-05,
"loss": 1.4139,
"step": 2490
},
{
"epoch": 0.6666666666666666,
"grad_norm": 1.1883134841918945,
"learning_rate": 8.832913373624457e-05,
"loss": 1.3635,
"step": 2500
},
{
"epoch": 0.6693333333333333,
"grad_norm": 1.1918388605117798,
"learning_rate": 8.82393239602632e-05,
"loss": 1.34,
"step": 2510
},
{
"epoch": 0.672,
"grad_norm": 1.144920825958252,
"learning_rate": 8.814921598635208e-05,
"loss": 1.3798,
"step": 2520
},
{
"epoch": 0.6746666666666666,
"grad_norm": 1.1421136856079102,
"learning_rate": 8.805881051719136e-05,
"loss": 1.3737,
"step": 2530
},
{
"epoch": 0.6773333333333333,
"grad_norm": 1.2488627433776855,
"learning_rate": 8.796810825778102e-05,
"loss": 1.4353,
"step": 2540
},
{
"epoch": 0.68,
"grad_norm": 1.1184425354003906,
"learning_rate": 8.787710991543548e-05,
"loss": 1.3935,
"step": 2550
},
{
"epoch": 0.6826666666666666,
"grad_norm": 1.1690922975540161,
"learning_rate": 8.778581619977811e-05,
"loss": 1.3794,
"step": 2560
},
{
"epoch": 0.6853333333333333,
"grad_norm": 1.1933445930480957,
"learning_rate": 8.769422782273562e-05,
"loss": 1.4017,
"step": 2570
},
{
"epoch": 0.688,
"grad_norm": 1.249361276626587,
"learning_rate": 8.760234549853262e-05,
"loss": 1.3615,
"step": 2580
},
{
"epoch": 0.6906666666666667,
"grad_norm": 1.183539867401123,
"learning_rate": 8.751016994368591e-05,
"loss": 1.3734,
"step": 2590
},
{
"epoch": 0.6933333333333334,
"grad_norm": 1.1280195713043213,
"learning_rate": 8.741770187699896e-05,
"loss": 1.3714,
"step": 2600
},
{
"epoch": 0.696,
"grad_norm": 1.3271329402923584,
"learning_rate": 8.732494201955636e-05,
"loss": 1.3659,
"step": 2610
},
{
"epoch": 0.6986666666666667,
"grad_norm": 1.1904630661010742,
"learning_rate": 8.72318910947181e-05,
"loss": 1.4339,
"step": 2620
},
{
"epoch": 0.7013333333333334,
"grad_norm": 1.2772647142410278,
"learning_rate": 8.713854982811398e-05,
"loss": 1.354,
"step": 2630
},
{
"epoch": 0.704,
"grad_norm": 1.143364429473877,
"learning_rate": 8.704491894763794e-05,
"loss": 1.3956,
"step": 2640
},
{
"epoch": 0.7066666666666667,
"grad_norm": 1.074783205986023,
"learning_rate": 8.695099918344242e-05,
"loss": 1.3713,
"step": 2650
},
{
"epoch": 0.7093333333333334,
"grad_norm": 1.098419189453125,
"learning_rate": 8.685679126793257e-05,
"loss": 1.3973,
"step": 2660
},
{
"epoch": 0.712,
"grad_norm": 1.2148680686950684,
"learning_rate": 8.67622959357607e-05,
"loss": 1.4006,
"step": 2670
},
{
"epoch": 0.7146666666666667,
"grad_norm": 1.2799890041351318,
"learning_rate": 8.666751392382033e-05,
"loss": 1.2927,
"step": 2680
},
{
"epoch": 0.7173333333333334,
"grad_norm": 1.1022305488586426,
"learning_rate": 8.657244597124066e-05,
"loss": 1.3543,
"step": 2690
},
{
"epoch": 0.72,
"grad_norm": 1.230270266532898,
"learning_rate": 8.647709281938066e-05,
"loss": 1.3373,
"step": 2700
},
{
"epoch": 0.7226666666666667,
"grad_norm": 1.2525948286056519,
"learning_rate": 8.63814552118234e-05,
"loss": 1.3487,
"step": 2710
},
{
"epoch": 0.7253333333333334,
"grad_norm": 1.1279513835906982,
"learning_rate": 8.628553389437011e-05,
"loss": 1.3146,
"step": 2720
},
{
"epoch": 0.728,
"grad_norm": 1.2988407611846924,
"learning_rate": 8.618932961503452e-05,
"loss": 1.369,
"step": 2730
},
{
"epoch": 0.7306666666666667,
"grad_norm": 1.216888189315796,
"learning_rate": 8.609284312403694e-05,
"loss": 1.3679,
"step": 2740
},
{
"epoch": 0.7333333333333333,
"grad_norm": 1.3001585006713867,
"learning_rate": 8.599607517379837e-05,
"loss": 1.3147,
"step": 2750
},
{
"epoch": 0.736,
"grad_norm": 1.3244261741638184,
"learning_rate": 8.589902651893474e-05,
"loss": 1.3516,
"step": 2760
},
{
"epoch": 0.7386666666666667,
"grad_norm": 1.1077255010604858,
"learning_rate": 8.580169791625097e-05,
"loss": 1.3184,
"step": 2770
},
{
"epoch": 0.7413333333333333,
"grad_norm": 1.138271450996399,
"learning_rate": 8.570409012473503e-05,
"loss": 1.2984,
"step": 2780
},
{
"epoch": 0.744,
"grad_norm": 1.1240977048873901,
"learning_rate": 8.560620390555212e-05,
"loss": 1.3757,
"step": 2790
},
{
"epoch": 0.7466666666666667,
"grad_norm": 1.1248799562454224,
"learning_rate": 8.550804002203862e-05,
"loss": 1.3438,
"step": 2800
},
{
"epoch": 0.7493333333333333,
"grad_norm": 1.5033018589019775,
"learning_rate": 8.54095992396962e-05,
"loss": 1.352,
"step": 2810
},
{
"epoch": 0.752,
"grad_norm": 1.2982832193374634,
"learning_rate": 8.531088232618588e-05,
"loss": 1.376,
"step": 2820
},
{
"epoch": 0.7546666666666667,
"grad_norm": 1.1549718379974365,
"learning_rate": 8.521189005132195e-05,
"loss": 1.3149,
"step": 2830
},
{
"epoch": 0.7573333333333333,
"grad_norm": 1.0971959829330444,
"learning_rate": 8.51126231870661e-05,
"loss": 1.3254,
"step": 2840
},
{
"epoch": 0.76,
"grad_norm": 1.1096560955047607,
"learning_rate": 8.501308250752124e-05,
"loss": 1.3935,
"step": 2850
},
{
"epoch": 0.7626666666666667,
"grad_norm": 1.1969677209854126,
"learning_rate": 8.49132687889256e-05,
"loss": 1.3743,
"step": 2860
},
{
"epoch": 0.7653333333333333,
"grad_norm": 1.2397490739822388,
"learning_rate": 8.48131828096466e-05,
"loss": 1.3961,
"step": 2870
},
{
"epoch": 0.768,
"grad_norm": 1.22797429561615,
"learning_rate": 8.471282535017481e-05,
"loss": 1.3147,
"step": 2880
},
{
"epoch": 0.7706666666666667,
"grad_norm": 1.199384093284607,
"learning_rate": 8.46121971931179e-05,
"loss": 1.3474,
"step": 2890
},
{
"epoch": 0.7733333333333333,
"grad_norm": 1.10110342502594,
"learning_rate": 8.451129912319437e-05,
"loss": 1.3391,
"step": 2900
},
{
"epoch": 0.776,
"grad_norm": 1.0967788696289062,
"learning_rate": 8.441013192722773e-05,
"loss": 1.3229,
"step": 2910
},
{
"epoch": 0.7786666666666666,
"grad_norm": 1.2486368417739868,
"learning_rate": 8.430869639414003e-05,
"loss": 1.3743,
"step": 2920
},
{
"epoch": 0.7813333333333333,
"grad_norm": 1.2607121467590332,
"learning_rate": 8.420699331494598e-05,
"loss": 1.3409,
"step": 2930
},
{
"epoch": 0.784,
"grad_norm": 1.1935935020446777,
"learning_rate": 8.410502348274659e-05,
"loss": 1.3466,
"step": 2940
},
{
"epoch": 0.7866666666666666,
"grad_norm": 1.1842153072357178,
"learning_rate": 8.400278769272307e-05,
"loss": 1.3723,
"step": 2950
},
{
"epoch": 0.7893333333333333,
"grad_norm": 1.217961072921753,
"learning_rate": 8.390028674213071e-05,
"loss": 1.3495,
"step": 2960
},
{
"epoch": 0.792,
"grad_norm": 1.1305698156356812,
"learning_rate": 8.379752143029248e-05,
"loss": 1.3578,
"step": 2970
},
{
"epoch": 0.7946666666666666,
"grad_norm": 1.1107988357543945,
"learning_rate": 8.369449255859293e-05,
"loss": 1.334,
"step": 2980
},
{
"epoch": 0.7973333333333333,
"grad_norm": 1.1656534671783447,
"learning_rate": 8.359120093047189e-05,
"loss": 1.3011,
"step": 2990
},
{
"epoch": 0.8,
"grad_norm": 1.155830979347229,
"learning_rate": 8.348764735141823e-05,
"loss": 1.3794,
"step": 3000
},
{
"epoch": 0.8026666666666666,
"grad_norm": 1.1797475814819336,
"learning_rate": 8.338383262896356e-05,
"loss": 1.2805,
"step": 3010
},
{
"epoch": 0.8053333333333333,
"grad_norm": 1.1246551275253296,
"learning_rate": 8.327975757267596e-05,
"loss": 1.2701,
"step": 3020
},
{
"epoch": 0.808,
"grad_norm": 1.1335570812225342,
"learning_rate": 8.31754229941536e-05,
"loss": 1.325,
"step": 3030
},
{
"epoch": 0.8106666666666666,
"grad_norm": 1.1327924728393555,
"learning_rate": 8.307082970701848e-05,
"loss": 1.3381,
"step": 3040
},
{
"epoch": 0.8133333333333334,
"grad_norm": 1.1487321853637695,
"learning_rate": 8.296597852691008e-05,
"loss": 1.2775,
"step": 3050
},
{
"epoch": 0.816,
"grad_norm": 1.1448324918746948,
"learning_rate": 8.286087027147898e-05,
"loss": 1.305,
"step": 3060
},
{
"epoch": 0.8186666666666667,
"grad_norm": 1.2130907773971558,
"learning_rate": 8.275550576038042e-05,
"loss": 1.3485,
"step": 3070
},
{
"epoch": 0.8213333333333334,
"grad_norm": 1.115325927734375,
"learning_rate": 8.264988581526806e-05,
"loss": 1.2794,
"step": 3080
},
{
"epoch": 0.824,
"grad_norm": 1.062768578529358,
"learning_rate": 8.254401125978743e-05,
"loss": 1.3022,
"step": 3090
},
{
"epoch": 0.8266666666666667,
"grad_norm": 1.2172695398330688,
"learning_rate": 8.243788291956959e-05,
"loss": 1.312,
"step": 3100
},
{
"epoch": 0.8293333333333334,
"grad_norm": 1.1970939636230469,
"learning_rate": 8.23315016222247e-05,
"loss": 1.3553,
"step": 3110
},
{
"epoch": 0.832,
"grad_norm": 1.2073640823364258,
"learning_rate": 8.222486819733539e-05,
"loss": 1.3561,
"step": 3120
},
{
"epoch": 0.8346666666666667,
"grad_norm": 1.2345161437988281,
"learning_rate": 8.211798347645061e-05,
"loss": 1.3028,
"step": 3130
},
{
"epoch": 0.8373333333333334,
"grad_norm": 1.1362279653549194,
"learning_rate": 8.201084829307886e-05,
"loss": 1.3622,
"step": 3140
},
{
"epoch": 0.84,
"grad_norm": 1.1313154697418213,
"learning_rate": 8.19034634826818e-05,
"loss": 1.3345,
"step": 3150
},
{
"epoch": 0.8426666666666667,
"grad_norm": 1.118726134300232,
"learning_rate": 8.179582988266778e-05,
"loss": 1.2477,
"step": 3160
},
{
"epoch": 0.8453333333333334,
"grad_norm": 1.130759596824646,
"learning_rate": 8.168794833238523e-05,
"loss": 1.2645,
"step": 3170
},
{
"epoch": 0.848,
"grad_norm": 1.1994197368621826,
"learning_rate": 8.157981967311614e-05,
"loss": 1.3527,
"step": 3180
},
{
"epoch": 0.8506666666666667,
"grad_norm": 1.224702000617981,
"learning_rate": 8.147144474806953e-05,
"loss": 1.3174,
"step": 3190
},
{
"epoch": 0.8533333333333334,
"grad_norm": 1.1868679523468018,
"learning_rate": 8.136282440237481e-05,
"loss": 1.3337,
"step": 3200
},
{
"epoch": 0.856,
"grad_norm": 1.2484469413757324,
"learning_rate": 8.125395948307528e-05,
"loss": 1.3065,
"step": 3210
},
{
"epoch": 0.8586666666666667,
"grad_norm": 1.0734128952026367,
"learning_rate": 8.114485083912143e-05,
"loss": 1.2936,
"step": 3220
},
{
"epoch": 0.8613333333333333,
"grad_norm": 1.0142780542373657,
"learning_rate": 8.10354993213644e-05,
"loss": 1.2767,
"step": 3230
},
{
"epoch": 0.864,
"grad_norm": 1.1119025945663452,
"learning_rate": 8.092590578254931e-05,
"loss": 1.2833,
"step": 3240
},
{
"epoch": 0.8666666666666667,
"grad_norm": 1.1215296983718872,
"learning_rate": 8.081607107730853e-05,
"loss": 1.2917,
"step": 3250
},
{
"epoch": 0.8693333333333333,
"grad_norm": 1.0993318557739258,
"learning_rate": 8.070599606215521e-05,
"loss": 1.3021,
"step": 3260
},
{
"epoch": 0.872,
"grad_norm": 1.1401952505111694,
"learning_rate": 8.05956815954764e-05,
"loss": 1.3555,
"step": 3270
},
{
"epoch": 0.8746666666666667,
"grad_norm": 1.17933189868927,
"learning_rate": 8.04851285375265e-05,
"loss": 1.2785,
"step": 3280
},
{
"epoch": 0.8773333333333333,
"grad_norm": 1.057431697845459,
"learning_rate": 8.037433775042043e-05,
"loss": 1.2789,
"step": 3290
},
{
"epoch": 0.88,
"grad_norm": 1.1540074348449707,
"learning_rate": 8.026331009812703e-05,
"loss": 1.2554,
"step": 3300
},
{
"epoch": 0.8826666666666667,
"grad_norm": 1.219326376914978,
"learning_rate": 8.015204644646221e-05,
"loss": 1.2975,
"step": 3310
},
{
"epoch": 0.8853333333333333,
"grad_norm": 1.1657817363739014,
"learning_rate": 8.004054766308231e-05,
"loss": 1.3263,
"step": 3320
},
{
"epoch": 0.888,
"grad_norm": 1.2057347297668457,
"learning_rate": 7.99288146174772e-05,
"loss": 1.3356,
"step": 3330
},
{
"epoch": 0.8906666666666667,
"grad_norm": 1.1602758169174194,
"learning_rate": 7.981684818096367e-05,
"loss": 1.358,
"step": 3340
},
{
"epoch": 0.8933333333333333,
"grad_norm": 1.2020142078399658,
"learning_rate": 7.970464922667842e-05,
"loss": 1.3373,
"step": 3350
},
{
"epoch": 0.896,
"grad_norm": 1.1278605461120605,
"learning_rate": 7.959221862957148e-05,
"loss": 1.2709,
"step": 3360
},
{
"epoch": 0.8986666666666666,
"grad_norm": 1.0559728145599365,
"learning_rate": 7.947955726639922e-05,
"loss": 1.2147,
"step": 3370
},
{
"epoch": 0.9013333333333333,
"grad_norm": 1.1655516624450684,
"learning_rate": 7.936666601571756e-05,
"loss": 1.3171,
"step": 3380
},
{
"epoch": 0.904,
"grad_norm": 1.1956201791763306,
"learning_rate": 7.925354575787517e-05,
"loss": 1.3017,
"step": 3390
},
{
"epoch": 0.9066666666666666,
"grad_norm": 1.3958219289779663,
"learning_rate": 7.914019737500655e-05,
"loss": 1.3462,
"step": 3400
},
{
"epoch": 0.9093333333333333,
"grad_norm": 1.2900673151016235,
"learning_rate": 7.902662175102513e-05,
"loss": 1.3352,
"step": 3410
},
{
"epoch": 0.912,
"grad_norm": 1.1758888959884644,
"learning_rate": 7.891281977161648e-05,
"loss": 1.3346,
"step": 3420
},
{
"epoch": 0.9146666666666666,
"grad_norm": 1.3672614097595215,
"learning_rate": 7.879879232423126e-05,
"loss": 1.2894,
"step": 3430
},
{
"epoch": 0.9173333333333333,
"grad_norm": 1.190148115158081,
"learning_rate": 7.868454029807843e-05,
"loss": 1.3287,
"step": 3440
},
{
"epoch": 0.92,
"grad_norm": 1.0812398195266724,
"learning_rate": 7.857006458411826e-05,
"loss": 1.3013,
"step": 3450
},
{
"epoch": 0.9226666666666666,
"grad_norm": 1.2536805868148804,
"learning_rate": 7.845536607505533e-05,
"loss": 1.2589,
"step": 3460
},
{
"epoch": 0.9253333333333333,
"grad_norm": 1.1588472127914429,
"learning_rate": 7.834044566533165e-05,
"loss": 1.3544,
"step": 3470
},
{
"epoch": 0.928,
"grad_norm": 1.2140400409698486,
"learning_rate": 7.822530425111969e-05,
"loss": 1.2724,
"step": 3480
},
{
"epoch": 0.9306666666666666,
"grad_norm": 1.1211223602294922,
"learning_rate": 7.810994273031531e-05,
"loss": 1.2946,
"step": 3490
},
{
"epoch": 0.9333333333333333,
"grad_norm": 1.2078744173049927,
"learning_rate": 7.799436200253082e-05,
"loss": 1.3128,
"step": 3500
},
{
"epoch": 0.936,
"grad_norm": 1.1453533172607422,
"learning_rate": 7.787856296908795e-05,
"loss": 1.2247,
"step": 3510
},
{
"epoch": 0.9386666666666666,
"grad_norm": 1.1772340536117554,
"learning_rate": 7.776254653301084e-05,
"loss": 1.3455,
"step": 3520
},
{
"epoch": 0.9413333333333334,
"grad_norm": 1.0937925577163696,
"learning_rate": 7.764631359901897e-05,
"loss": 1.2528,
"step": 3530
},
{
"epoch": 0.944,
"grad_norm": 1.1185276508331299,
"learning_rate": 7.752986507352008e-05,
"loss": 1.3069,
"step": 3540
},
{
"epoch": 0.9466666666666667,
"grad_norm": 1.1814966201782227,
"learning_rate": 7.741320186460318e-05,
"loss": 1.3261,
"step": 3550
},
{
"epoch": 0.9493333333333334,
"grad_norm": 1.1327582597732544,
"learning_rate": 7.729632488203142e-05,
"loss": 1.2472,
"step": 3560
},
{
"epoch": 0.952,
"grad_norm": 1.0911587476730347,
"learning_rate": 7.717923503723497e-05,
"loss": 1.3092,
"step": 3570
},
{
"epoch": 0.9546666666666667,
"grad_norm": 1.139471173286438,
"learning_rate": 7.706193324330395e-05,
"loss": 1.2943,
"step": 3580
},
{
"epoch": 0.9573333333333334,
"grad_norm": 1.1061944961547852,
"learning_rate": 7.694442041498134e-05,
"loss": 1.1979,
"step": 3590
},
{
"epoch": 0.96,
"grad_norm": 1.187041997909546,
"learning_rate": 7.682669746865577e-05,
"loss": 1.322,
"step": 3600
},
{
"epoch": 0.9626666666666667,
"grad_norm": 1.9649654626846313,
"learning_rate": 7.670876532235442e-05,
"loss": 1.3139,
"step": 3610
},
{
"epoch": 0.9653333333333334,
"grad_norm": 1.215530276298523,
"learning_rate": 7.659062489573585e-05,
"loss": 1.3205,
"step": 3620
},
{
"epoch": 0.968,
"grad_norm": 1.1127485036849976,
"learning_rate": 7.647227711008287e-05,
"loss": 1.2919,
"step": 3630
},
{
"epoch": 0.9706666666666667,
"grad_norm": 1.1428635120391846,
"learning_rate": 7.635372288829524e-05,
"loss": 1.2585,
"step": 3640
},
{
"epoch": 0.9733333333333334,
"grad_norm": 1.2314307689666748,
"learning_rate": 7.623496315488263e-05,
"loss": 1.2643,
"step": 3650
},
{
"epoch": 0.976,
"grad_norm": 1.1226931810379028,
"learning_rate": 7.61159988359573e-05,
"loss": 1.2592,
"step": 3660
},
{
"epoch": 0.9786666666666667,
"grad_norm": 1.0766570568084717,
"learning_rate": 7.599683085922689e-05,
"loss": 1.2805,
"step": 3670
},
{
"epoch": 0.9813333333333333,
"grad_norm": 1.1490188837051392,
"learning_rate": 7.587746015398723e-05,
"loss": 1.2819,
"step": 3680
},
{
"epoch": 0.984,
"grad_norm": 1.1576265096664429,
"learning_rate": 7.575788765111503e-05,
"loss": 1.2937,
"step": 3690
},
{
"epoch": 0.9866666666666667,
"grad_norm": 1.1509325504302979,
"learning_rate": 7.563811428306074e-05,
"loss": 1.2568,
"step": 3700
},
{
"epoch": 0.9893333333333333,
"grad_norm": 1.1188994646072388,
"learning_rate": 7.551814098384109e-05,
"loss": 1.2764,
"step": 3710
},
{
"epoch": 0.992,
"grad_norm": 1.1616812944412231,
"learning_rate": 7.539796868903199e-05,
"loss": 1.3026,
"step": 3720
},
{
"epoch": 0.9946666666666667,
"grad_norm": 1.218526840209961,
"learning_rate": 7.527759833576118e-05,
"loss": 1.2856,
"step": 3730
},
{
"epoch": 0.9973333333333333,
"grad_norm": 1.1440365314483643,
"learning_rate": 7.515703086270077e-05,
"loss": 1.2523,
"step": 3740
},
{
"epoch": 1.0,
"grad_norm": 1.1550425291061401,
"learning_rate": 7.50362672100602e-05,
"loss": 1.2658,
"step": 3750
},
{
"epoch": 1.0,
"eval_loss": 1.2504782676696777,
"eval_runtime": 531.8577,
"eval_samples_per_second": 9.401,
"eval_steps_per_second": 4.701,
"step": 3750
}
],
"logging_steps": 10,
"max_steps": 11250,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 500,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 4.7030756108544e+16,
"train_batch_size": 3,
"trial_name": null,
"trial_params": null
}