gpt2_ACoT / last-checkpoint /trainer_state.json

Training in progress, epoch 1, checkpoint

babf9ae verified 9 months ago

64.4 kB

	{
	"best_global_step": 3750,
	"best_metric": 1.2504782676696777,
	"best_model_checkpoint": "./opt_thinker_ckpts2/checkpoint-3750",
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 3750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0026666666666666666,
	"grad_norm": 6.286426067352295,
	"learning_rate": 9.999990447200757e-05,
	"loss": 6.7607,
	"step": 10
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 2.730654001235962,
	"learning_rate": 9.999943658067851e-05,
	"loss": 4.4154,
	"step": 20
	},
	{
	"epoch": 0.008,
	"grad_norm": 1.77164626121521,
	"learning_rate": 9.999857878369916e-05,
	"loss": 3.8931,
	"step": 30
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 3.252326250076294,
	"learning_rate": 9.999733108775878e-05,
	"loss": 3.4388,
	"step": 40
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 2.5271928310394287,
	"learning_rate": 9.999569350258718e-05,
	"loss": 3.0766,
	"step": 50
	},
	{
	"epoch": 0.016,
	"grad_norm": 1.8989768028259277,
	"learning_rate": 9.999366604095457e-05,
	"loss": 2.8264,
	"step": 60
	},
	{
	"epoch": 0.018666666666666668,
	"grad_norm": 1.4198805093765259,
	"learning_rate": 9.99912487186715e-05,
	"loss": 2.6803,
	"step": 70
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 2.800062417984009,
	"learning_rate": 9.998844155458873e-05,
	"loss": 2.59,
	"step": 80
	},
	{
	"epoch": 0.024,
	"grad_norm": 2.0975475311279297,
	"learning_rate": 9.99852445705971e-05,
	"loss": 2.5508,
	"step": 90
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 1.5416148900985718,
	"learning_rate": 9.998165779162734e-05,
	"loss": 2.4994,
	"step": 100
	},
	{
	"epoch": 0.029333333333333333,
	"grad_norm": 1.3961434364318848,
	"learning_rate": 9.997768124564984e-05,
	"loss": 2.4914,
	"step": 110
	},
	{
	"epoch": 0.032,
	"grad_norm": 1.2222368717193604,
	"learning_rate": 9.997331496367455e-05,
	"loss": 2.4866,
	"step": 120
	},
	{
	"epoch": 0.034666666666666665,
	"grad_norm": 0.9815042614936829,
	"learning_rate": 9.996855897975056e-05,
	"loss": 2.4695,
	"step": 130
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 1.144066333770752,
	"learning_rate": 9.996341333096604e-05,
	"loss": 2.4337,
	"step": 140
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.1434224843978882,
	"learning_rate": 9.995787805744779e-05,
	"loss": 2.4352,
	"step": 150
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 1.166247844696045,
	"learning_rate": 9.995195320236092e-05,
	"loss": 2.4205,
	"step": 160
	},
	{
	"epoch": 0.04533333333333334,
	"grad_norm": 1.4209767580032349,
	"learning_rate": 9.994563881190873e-05,
	"loss": 2.4107,
	"step": 170
	},
	{
	"epoch": 0.048,
	"grad_norm": 1.3130854368209839,
	"learning_rate": 9.993893493533202e-05,
	"loss": 2.3894,
	"step": 180
	},
	{
	"epoch": 0.050666666666666665,
	"grad_norm": 1.4318203926086426,
	"learning_rate": 9.993184162490902e-05,
	"loss": 2.3622,
	"step": 190
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 1.2723395824432373,
	"learning_rate": 9.99243589359548e-05,
	"loss": 2.3501,
	"step": 200
	},
	{
	"epoch": 0.056,
	"grad_norm": 1.3708051443099976,
	"learning_rate": 9.991648692682083e-05,
	"loss": 2.3412,
	"step": 210
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 1.464943528175354,
	"learning_rate": 9.990822565889464e-05,
	"loss": 2.2964,
	"step": 220
	},
	{
	"epoch": 0.06133333333333333,
	"grad_norm": 1.24631667137146,
	"learning_rate": 9.989957519659925e-05,
	"loss": 2.2851,
	"step": 230
	},
	{
	"epoch": 0.064,
	"grad_norm": 1.2437673807144165,
	"learning_rate": 9.989053560739273e-05,
	"loss": 2.2555,
	"step": 240
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.992102861404419,
	"learning_rate": 9.988110696176756e-05,
	"loss": 2.2529,
	"step": 250
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 1.2269656658172607,
	"learning_rate": 9.987128933325025e-05,
	"loss": 2.2134,
	"step": 260
	},
	{
	"epoch": 0.072,
	"grad_norm": 1.2673137187957764,
	"learning_rate": 9.986108279840063e-05,
	"loss": 2.1895,
	"step": 270
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 1.2057632207870483,
	"learning_rate": 9.985048743681132e-05,
	"loss": 2.1588,
	"step": 280
	},
	{
	"epoch": 0.07733333333333334,
	"grad_norm": 1.1784793138504028,
	"learning_rate": 9.983950333110705e-05,
	"loss": 2.1601,
	"step": 290
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.3942134380340576,
	"learning_rate": 9.982813056694412e-05,
	"loss": 2.1571,
	"step": 300
	},
	{
	"epoch": 0.08266666666666667,
	"grad_norm": 1.2116832733154297,
	"learning_rate": 9.981636923300959e-05,
	"loss": 2.1414,
	"step": 310
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 1.4112406969070435,
	"learning_rate": 9.980421942102074e-05,
	"loss": 2.1527,
	"step": 320
	},
	{
	"epoch": 0.088,
	"grad_norm": 1.3844280242919922,
	"learning_rate": 9.979168122572422e-05,
	"loss": 2.1086,
	"step": 330
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 1.470893144607544,
	"learning_rate": 9.977875474489541e-05,
	"loss": 2.0626,
	"step": 340
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 1.4093472957611084,
	"learning_rate": 9.976544007933759e-05,
	"loss": 2.063,
	"step": 350
	},
	{
	"epoch": 0.096,
	"grad_norm": 1.1979631185531616,
	"learning_rate": 9.975173733288121e-05,
	"loss": 2.034,
	"step": 360
	},
	{
	"epoch": 0.09866666666666667,
	"grad_norm": 1.1466786861419678,
	"learning_rate": 9.973764661238305e-05,
	"loss": 2.0889,
	"step": 370
	},
	{
	"epoch": 0.10133333333333333,
	"grad_norm": 1.5562443733215332,
	"learning_rate": 9.972316802772535e-05,
	"loss": 2.0057,
	"step": 380
	},
	{
	"epoch": 0.104,
	"grad_norm": 1.2504980564117432,
	"learning_rate": 9.970830169181505e-05,
	"loss": 2.0281,
	"step": 390
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 1.133342981338501,
	"learning_rate": 9.969304772058278e-05,
	"loss": 2.0296,
	"step": 400
	},
	{
	"epoch": 0.10933333333333334,
	"grad_norm": 1.129353642463684,
	"learning_rate": 9.967740623298214e-05,
	"loss": 2.043,
	"step": 410
	},
	{
	"epoch": 0.112,
	"grad_norm": 1.637911081314087,
	"learning_rate": 9.966137735098853e-05,
	"loss": 2.016,
	"step": 420
	},
	{
	"epoch": 0.11466666666666667,
	"grad_norm": 1.3589582443237305,
	"learning_rate": 9.964496119959841e-05,
	"loss": 1.9813,
	"step": 430
	},
	{
	"epoch": 0.11733333333333333,
	"grad_norm": 1.3092073202133179,
	"learning_rate": 9.962815790682824e-05,
	"loss": 1.998,
	"step": 440
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.298972725868225,
	"learning_rate": 9.961096760371348e-05,
	"loss": 1.9426,
	"step": 450
	},
	{
	"epoch": 0.12266666666666666,
	"grad_norm": 1.3443470001220703,
	"learning_rate": 9.959339042430753e-05,
	"loss": 1.9601,
	"step": 460
	},
	{
	"epoch": 0.12533333333333332,
	"grad_norm": 1.1859084367752075,
	"learning_rate": 9.95754265056808e-05,
	"loss": 1.9198,
	"step": 470
	},
	{
	"epoch": 0.128,
	"grad_norm": 1.2819511890411377,
	"learning_rate": 9.955707598791952e-05,
	"loss": 1.9349,
	"step": 480
	},
	{
	"epoch": 0.13066666666666665,
	"grad_norm": 1.308677077293396,
	"learning_rate": 9.953833901412471e-05,
	"loss": 1.9333,
	"step": 490
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 1.1830692291259766,
	"learning_rate": 9.951921573041107e-05,
	"loss": 1.8758,
	"step": 500
	},
	{
	"epoch": 0.136,
	"grad_norm": 1.4402300119400024,
	"learning_rate": 9.94997062859058e-05,
	"loss": 1.8712,
	"step": 510
	},
	{
	"epoch": 0.13866666666666666,
	"grad_norm": 1.3303618431091309,
	"learning_rate": 9.947981083274746e-05,
	"loss": 1.8946,
	"step": 520
	},
	{
	"epoch": 0.14133333333333334,
	"grad_norm": 1.2645699977874756,
	"learning_rate": 9.945952952608479e-05,
	"loss": 1.886,
	"step": 530
	},
	{
	"epoch": 0.144,
	"grad_norm": 1.2825655937194824,
	"learning_rate": 9.943886252407551e-05,
	"loss": 1.8562,
	"step": 540
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 1.4373561143875122,
	"learning_rate": 9.941780998788506e-05,
	"loss": 1.8806,
	"step": 550
	},
	{
	"epoch": 0.14933333333333335,
	"grad_norm": 1.3520197868347168,
	"learning_rate": 9.939637208168531e-05,
	"loss": 1.8826,
	"step": 560
	},
	{
	"epoch": 0.152,
	"grad_norm": 1.3516879081726074,
	"learning_rate": 9.937454897265337e-05,
	"loss": 1.8638,
	"step": 570
	},
	{
	"epoch": 0.15466666666666667,
	"grad_norm": 1.3336915969848633,
	"learning_rate": 9.935234083097027e-05,
	"loss": 1.8313,
	"step": 580
	},
	{
	"epoch": 0.15733333333333333,
	"grad_norm": 1.1621264219284058,
	"learning_rate": 9.932974782981951e-05,
	"loss": 1.8002,
	"step": 590
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.2616889476776123,
	"learning_rate": 9.930677014538587e-05,
	"loss": 1.815,
	"step": 600
	},
	{
	"epoch": 0.16266666666666665,
	"grad_norm": 1.3532363176345825,
	"learning_rate": 9.928340795685394e-05,
	"loss": 1.8435,
	"step": 610
	},
	{
	"epoch": 0.16533333333333333,
	"grad_norm": 2.149549722671509,
	"learning_rate": 9.925966144640677e-05,
	"loss": 1.7896,
	"step": 620
	},
	{
	"epoch": 0.168,
	"grad_norm": 1.2242093086242676,
	"learning_rate": 9.923553079922443e-05,
	"loss": 1.773,
	"step": 630
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 1.2656044960021973,
	"learning_rate": 9.921101620348252e-05,
	"loss": 1.8128,
	"step": 640
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 1.2624038457870483,
	"learning_rate": 9.918611785035081e-05,
	"loss": 1.8131,
	"step": 650
	},
	{
	"epoch": 0.176,
	"grad_norm": 1.3800233602523804,
	"learning_rate": 9.916083593399166e-05,
	"loss": 1.8317,
	"step": 660
	},
	{
	"epoch": 0.17866666666666667,
	"grad_norm": 1.2271778583526611,
	"learning_rate": 9.913517065155852e-05,
	"loss": 1.7392,
	"step": 670
	},
	{
	"epoch": 0.18133333333333335,
	"grad_norm": 1.3525445461273193,
	"learning_rate": 9.910912220319441e-05,
	"loss": 1.7696,
	"step": 680
	},
	{
	"epoch": 0.184,
	"grad_norm": 1.2507288455963135,
	"learning_rate": 9.908269079203039e-05,
	"loss": 1.6989,
	"step": 690
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 1.370218276977539,
	"learning_rate": 9.90558766241839e-05,
	"loss": 1.7366,
	"step": 700
	},
	{
	"epoch": 0.18933333333333333,
	"grad_norm": 1.2349491119384766,
	"learning_rate": 9.902867990875719e-05,
	"loss": 1.7456,
	"step": 710
	},
	{
	"epoch": 0.192,
	"grad_norm": 1.2522363662719727,
	"learning_rate": 9.900110085783572e-05,
	"loss": 1.7311,
	"step": 720
	},
	{
	"epoch": 0.19466666666666665,
	"grad_norm": 1.2445602416992188,
	"learning_rate": 9.897313968648649e-05,
	"loss": 1.7744,
	"step": 730
	},
	{
	"epoch": 0.19733333333333333,
	"grad_norm": 1.347185730934143,
	"learning_rate": 9.89447966127563e-05,
	"loss": 1.7823,
	"step": 740
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.3751951456069946,
	"learning_rate": 9.891607185767018e-05,
	"loss": 1.7992,
	"step": 750
	},
	{
	"epoch": 0.20266666666666666,
	"grad_norm": 1.3779850006103516,
	"learning_rate": 9.888696564522948e-05,
	"loss": 1.7366,
	"step": 760
	},
	{
	"epoch": 0.20533333333333334,
	"grad_norm": 1.2008346319198608,
	"learning_rate": 9.885747820241032e-05,
	"loss": 1.714,
	"step": 770
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.1520583629608154,
	"learning_rate": 9.882760975916172e-05,
	"loss": 1.7091,
	"step": 780
	},
	{
	"epoch": 0.21066666666666667,
	"grad_norm": 1.256103754043579,
	"learning_rate": 9.879736054840378e-05,
	"loss": 1.7122,
	"step": 790
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 1.2325780391693115,
	"learning_rate": 9.87667308060259e-05,
	"loss": 1.7168,
	"step": 800
	},
	{
	"epoch": 0.216,
	"grad_norm": 1.1750184297561646,
	"learning_rate": 9.873572077088502e-05,
	"loss": 1.6875,
	"step": 810
	},
	{
	"epoch": 0.21866666666666668,
	"grad_norm": 1.2128427028656006,
	"learning_rate": 9.870433068480358e-05,
	"loss": 1.6825,
	"step": 820
	},
	{
	"epoch": 0.22133333333333333,
	"grad_norm": 1.4052956104278564,
	"learning_rate": 9.867256079256779e-05,
	"loss": 1.6743,
	"step": 830
	},
	{
	"epoch": 0.224,
	"grad_norm": 1.446097493171692,
	"learning_rate": 9.864041134192563e-05,
	"loss": 1.7194,
	"step": 840
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 1.2423707246780396,
	"learning_rate": 9.860788258358502e-05,
	"loss": 1.6572,
	"step": 850
	},
	{
	"epoch": 0.22933333333333333,
	"grad_norm": 1.2467008829116821,
	"learning_rate": 9.857497477121171e-05,
	"loss": 1.6961,
	"step": 860
	},
	{
	"epoch": 0.232,
	"grad_norm": 1.4434629678726196,
	"learning_rate": 9.854168816142746e-05,
	"loss": 1.6961,
	"step": 870
	},
	{
	"epoch": 0.23466666666666666,
	"grad_norm": 1.1657633781433105,
	"learning_rate": 9.850802301380793e-05,
	"loss": 1.6695,
	"step": 880
	},
	{
	"epoch": 0.23733333333333334,
	"grad_norm": 1.2234739065170288,
	"learning_rate": 9.847397959088069e-05,
	"loss": 1.5881,
	"step": 890
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.290128469467163,
	"learning_rate": 9.84395581581232e-05,
	"loss": 1.6933,
	"step": 900
	},
	{
	"epoch": 0.24266666666666667,
	"grad_norm": 1.199971318244934,
	"learning_rate": 9.840475898396074e-05,
	"loss": 1.6479,
	"step": 910
	},
	{
	"epoch": 0.24533333333333332,
	"grad_norm": 1.188962459564209,
	"learning_rate": 9.83695823397642e-05,
	"loss": 1.6686,
	"step": 920
	},
	{
	"epoch": 0.248,
	"grad_norm": 1.3920986652374268,
	"learning_rate": 9.833402849984815e-05,
	"loss": 1.6873,
	"step": 930
	},
	{
	"epoch": 0.25066666666666665,
	"grad_norm": 1.2816208600997925,
	"learning_rate": 9.829809774146859e-05,
	"loss": 1.6143,
	"step": 940
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 1.2212066650390625,
	"learning_rate": 9.826179034482074e-05,
	"loss": 1.6173,
	"step": 950
	},
	{
	"epoch": 0.256,
	"grad_norm": 1.1105986833572388,
	"learning_rate": 9.822510659303703e-05,
	"loss": 1.6216,
	"step": 960
	},
	{
	"epoch": 0.25866666666666666,
	"grad_norm": 1.3695571422576904,
	"learning_rate": 9.818804677218472e-05,
	"loss": 1.7096,
	"step": 970
	},
	{
	"epoch": 0.2613333333333333,
	"grad_norm": 1.3604527711868286,
	"learning_rate": 9.815061117126369e-05,
	"loss": 1.6349,
	"step": 980
	},
	{
	"epoch": 0.264,
	"grad_norm": 1.3433711528778076,
	"learning_rate": 9.811280008220432e-05,
	"loss": 1.647,
	"step": 990
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 1.2954343557357788,
	"learning_rate": 9.807461379986506e-05,
	"loss": 1.6453,
	"step": 1000
	},
	{
	"epoch": 0.2693333333333333,
	"grad_norm": 1.236398696899414,
	"learning_rate": 9.803605262203022e-05,
	"loss": 1.6163,
	"step": 1010
	},
	{
	"epoch": 0.272,
	"grad_norm": 1.2126185894012451,
	"learning_rate": 9.79971168494076e-05,
	"loss": 1.6242,
	"step": 1020
	},
	{
	"epoch": 0.27466666666666667,
	"grad_norm": 1.0889825820922852,
	"learning_rate": 9.795780678562618e-05,
	"loss": 1.6601,
	"step": 1030
	},
	{
	"epoch": 0.2773333333333333,
	"grad_norm": 1.2359286546707153,
	"learning_rate": 9.791812273723373e-05,
	"loss": 1.6531,
	"step": 1040
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.1991182565689087,
	"learning_rate": 9.787806501369445e-05,
	"loss": 1.5602,
	"step": 1050
	},
	{
	"epoch": 0.2826666666666667,
	"grad_norm": 1.263185739517212,
	"learning_rate": 9.78376339273865e-05,
	"loss": 1.6371,
	"step": 1060
	},
	{
	"epoch": 0.2853333333333333,
	"grad_norm": 1.2973644733428955,
	"learning_rate": 9.77968297935996e-05,
	"loss": 1.6556,
	"step": 1070
	},
	{
	"epoch": 0.288,
	"grad_norm": 1.0786491632461548,
	"learning_rate": 9.775565293053261e-05,
	"loss": 1.631,
	"step": 1080
	},
	{
	"epoch": 0.2906666666666667,
	"grad_norm": 1.143127202987671,
	"learning_rate": 9.771410365929097e-05,
	"loss": 1.6083,
	"step": 1090
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 1.3138456344604492,
	"learning_rate": 9.767218230388422e-05,
	"loss": 1.6347,
	"step": 1100
	},
	{
	"epoch": 0.296,
	"grad_norm": 1.1803919076919556,
	"learning_rate": 9.762988919122355e-05,
	"loss": 1.6011,
	"step": 1110
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 1.1952447891235352,
	"learning_rate": 9.758722465111912e-05,
	"loss": 1.5892,
	"step": 1120
	},
	{
	"epoch": 0.30133333333333334,
	"grad_norm": 1.177064061164856,
	"learning_rate": 9.754418901627759e-05,
	"loss": 1.6529,
	"step": 1130
	},
	{
	"epoch": 0.304,
	"grad_norm": 1.1240631341934204,
	"learning_rate": 9.75007826222995e-05,
	"loss": 1.5742,
	"step": 1140
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 1.281684160232544,
	"learning_rate": 9.745700580767659e-05,
	"loss": 1.5985,
	"step": 1150
	},
	{
	"epoch": 0.30933333333333335,
	"grad_norm": 1.4122151136398315,
	"learning_rate": 9.74128589137893e-05,
	"loss": 1.5748,
	"step": 1160
	},
	{
	"epoch": 0.312,
	"grad_norm": 1.2664381265640259,
	"learning_rate": 9.736834228490397e-05,
	"loss": 1.5995,
	"step": 1170
	},
	{
	"epoch": 0.31466666666666665,
	"grad_norm": 1.1780527830123901,
	"learning_rate": 9.73234562681702e-05,
	"loss": 1.5841,
	"step": 1180
	},
	{
	"epoch": 0.31733333333333336,
	"grad_norm": 1.4098230600357056,
	"learning_rate": 9.727820121361814e-05,
	"loss": 1.6568,
	"step": 1190
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.3192808628082275,
	"learning_rate": 9.723257747415584e-05,
	"loss": 1.5708,
	"step": 1200
	},
	{
	"epoch": 0.32266666666666666,
	"grad_norm": 1.1481376886367798,
	"learning_rate": 9.718658540556638e-05,
	"loss": 1.6019,
	"step": 1210
	},
	{
	"epoch": 0.3253333333333333,
	"grad_norm": 1.1697850227355957,
	"learning_rate": 9.714022536650513e-05,
	"loss": 1.5946,
	"step": 1220
	},
	{
	"epoch": 0.328,
	"grad_norm": 1.1633665561676025,
	"learning_rate": 9.7093497718497e-05,
	"loss": 1.6036,
	"step": 1230
	},
	{
	"epoch": 0.33066666666666666,
	"grad_norm": 1.2343782186508179,
	"learning_rate": 9.704640282593359e-05,
	"loss": 1.4848,
	"step": 1240
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 1.189098596572876,
	"learning_rate": 9.699894105607028e-05,
	"loss": 1.5482,
	"step": 1250
	},
	{
	"epoch": 0.336,
	"grad_norm": 1.2927459478378296,
	"learning_rate": 9.695111277902353e-05,
	"loss": 1.5279,
	"step": 1260
	},
	{
	"epoch": 0.33866666666666667,
	"grad_norm": 1.0545989274978638,
	"learning_rate": 9.690291836776786e-05,
	"loss": 1.5565,
	"step": 1270
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 1.180017352104187,
	"learning_rate": 9.685435819813294e-05,
	"loss": 1.5322,
	"step": 1280
	},
	{
	"epoch": 0.344,
	"grad_norm": 1.082352638244629,
	"learning_rate": 9.680543264880076e-05,
	"loss": 1.5577,
	"step": 1290
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 1.1044467687606812,
	"learning_rate": 9.675614210130253e-05,
	"loss": 1.531,
	"step": 1300
	},
	{
	"epoch": 0.34933333333333333,
	"grad_norm": 1.295383334159851,
	"learning_rate": 9.670648694001589e-05,
	"loss": 1.5965,
	"step": 1310
	},
	{
	"epoch": 0.352,
	"grad_norm": 1.1646699905395508,
	"learning_rate": 9.665646755216175e-05,
	"loss": 1.5956,
	"step": 1320
	},
	{
	"epoch": 0.3546666666666667,
	"grad_norm": 1.2571942806243896,
	"learning_rate": 9.660608432780132e-05,
	"loss": 1.5509,
	"step": 1330
	},
	{
	"epoch": 0.35733333333333334,
	"grad_norm": 1.290236473083496,
	"learning_rate": 9.655533765983314e-05,
	"loss": 1.5414,
	"step": 1340
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.4202523231506348,
	"learning_rate": 9.65042279439899e-05,
	"loss": 1.5092,
	"step": 1350
	},
	{
	"epoch": 0.3626666666666667,
	"grad_norm": 1.1573994159698486,
	"learning_rate": 9.645275557883544e-05,
	"loss": 1.5769,
	"step": 1360
	},
	{
	"epoch": 0.36533333333333334,
	"grad_norm": 1.198572039604187,
	"learning_rate": 9.64009209657616e-05,
	"loss": 1.492,
	"step": 1370
	},
	{
	"epoch": 0.368,
	"grad_norm": 1.2762819528579712,
	"learning_rate": 9.63487245089851e-05,
	"loss": 1.5721,
	"step": 1380
	},
	{
	"epoch": 0.37066666666666664,
	"grad_norm": 1.3239036798477173,
	"learning_rate": 9.62961666155444e-05,
	"loss": 1.4852,
	"step": 1390
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 1.1535241603851318,
	"learning_rate": 9.624324769529652e-05,
	"loss": 1.5596,
	"step": 1400
	},
	{
	"epoch": 0.376,
	"grad_norm": 1.2930402755737305,
	"learning_rate": 9.618996816091381e-05,
	"loss": 1.5028,
	"step": 1410
	},
	{
	"epoch": 0.37866666666666665,
	"grad_norm": 1.4139798879623413,
	"learning_rate": 9.613632842788079e-05,
	"loss": 1.5275,
	"step": 1420
	},
	{
	"epoch": 0.38133333333333336,
	"grad_norm": 1.1874589920043945,
	"learning_rate": 9.608232891449086e-05,
	"loss": 1.4494,
	"step": 1430
	},
	{
	"epoch": 0.384,
	"grad_norm": 1.2668923139572144,
	"learning_rate": 9.602797004184312e-05,
	"loss": 1.5524,
	"step": 1440
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 1.1389477252960205,
	"learning_rate": 9.597325223383894e-05,
	"loss": 1.4829,
	"step": 1450
	},
	{
	"epoch": 0.3893333333333333,
	"grad_norm": 1.1770538091659546,
	"learning_rate": 9.591817591717877e-05,
	"loss": 1.5488,
	"step": 1460
	},
	{
	"epoch": 0.392,
	"grad_norm": 1.1826292276382446,
	"learning_rate": 9.586274152135884e-05,
	"loss": 1.5018,
	"step": 1470
	},
	{
	"epoch": 0.39466666666666667,
	"grad_norm": 1.308369517326355,
	"learning_rate": 9.580694947866764e-05,
	"loss": 1.4715,
	"step": 1480
	},
	{
	"epoch": 0.3973333333333333,
	"grad_norm": 1.445573329925537,
	"learning_rate": 9.575080022418276e-05,
	"loss": 1.5207,
	"step": 1490
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.2460147142410278,
	"learning_rate": 9.569429419576737e-05,
	"loss": 1.5239,
	"step": 1500
	},
	{
	"epoch": 0.4026666666666667,
	"grad_norm": 1.146437168121338,
	"learning_rate": 9.563743183406682e-05,
	"loss": 1.5354,
	"step": 1510
	},
	{
	"epoch": 0.4053333333333333,
	"grad_norm": 1.2336937189102173,
	"learning_rate": 9.558021358250523e-05,
	"loss": 1.5475,
	"step": 1520
	},
	{
	"epoch": 0.408,
	"grad_norm": 1.227339506149292,
	"learning_rate": 9.552263988728203e-05,
	"loss": 1.5021,
	"step": 1530
	},
	{
	"epoch": 0.4106666666666667,
	"grad_norm": 1.155593752861023,
	"learning_rate": 9.546471119736845e-05,
	"loss": 1.5432,
	"step": 1540
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 1.1381423473358154,
	"learning_rate": 9.540642796450403e-05,
	"loss": 1.4961,
	"step": 1550
	},
	{
	"epoch": 0.416,
	"grad_norm": 1.2342126369476318,
	"learning_rate": 9.534779064319318e-05,
	"loss": 1.5291,
	"step": 1560
	},
	{
	"epoch": 0.4186666666666667,
	"grad_norm": 1.175115704536438,
	"learning_rate": 9.528879969070148e-05,
	"loss": 1.4991,
	"step": 1570
	},
	{
	"epoch": 0.42133333333333334,
	"grad_norm": 1.2292876243591309,
	"learning_rate": 9.52294555670522e-05,
	"loss": 1.4546,
	"step": 1580
	},
	{
	"epoch": 0.424,
	"grad_norm": 1.1613503694534302,
	"learning_rate": 9.516975873502279e-05,
	"loss": 1.4555,
	"step": 1590
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 1.2402660846710205,
	"learning_rate": 9.510970966014112e-05,
	"loss": 1.4706,
	"step": 1600
	},
	{
	"epoch": 0.42933333333333334,
	"grad_norm": 1.1978907585144043,
	"learning_rate": 9.504930881068192e-05,
	"loss": 1.5074,
	"step": 1610
	},
	{
	"epoch": 0.432,
	"grad_norm": 1.166059970855713,
	"learning_rate": 9.498855665766317e-05,
	"loss": 1.4788,
	"step": 1620
	},
	{
	"epoch": 0.43466666666666665,
	"grad_norm": 1.349196434020996,
	"learning_rate": 9.492745367484234e-05,
	"loss": 1.495,
	"step": 1630
	},
	{
	"epoch": 0.43733333333333335,
	"grad_norm": 1.2328778505325317,
	"learning_rate": 9.486600033871278e-05,
	"loss": 1.4726,
	"step": 1640
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.2029507160186768,
	"learning_rate": 9.480419712849995e-05,
	"loss": 1.4274,
	"step": 1650
	},
	{
	"epoch": 0.44266666666666665,
	"grad_norm": 1.2431840896606445,
	"learning_rate": 9.474204452615769e-05,
	"loss": 1.5464,
	"step": 1660
	},
	{
	"epoch": 0.44533333333333336,
	"grad_norm": 1.1831949949264526,
	"learning_rate": 9.46795430163645e-05,
	"loss": 1.5215,
	"step": 1670
	},
	{
	"epoch": 0.448,
	"grad_norm": 1.2739088535308838,
	"learning_rate": 9.461669308651968e-05,
	"loss": 1.4899,
	"step": 1680
	},
	{
	"epoch": 0.45066666666666666,
	"grad_norm": 1.137560486793518,
	"learning_rate": 9.455349522673962e-05,
	"loss": 1.5286,
	"step": 1690
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 1.172641634941101,
	"learning_rate": 9.448994992985393e-05,
	"loss": 1.4518,
	"step": 1700
	},
	{
	"epoch": 0.456,
	"grad_norm": 1.2709147930145264,
	"learning_rate": 9.442605769140158e-05,
	"loss": 1.4563,
	"step": 1710
	},
	{
	"epoch": 0.45866666666666667,
	"grad_norm": 1.2252726554870605,
	"learning_rate": 9.436181900962713e-05,
	"loss": 1.5001,
	"step": 1720
	},
	{
	"epoch": 0.4613333333333333,
	"grad_norm": 1.1632018089294434,
	"learning_rate": 9.429723438547667e-05,
	"loss": 1.4513,
	"step": 1730
	},
	{
	"epoch": 0.464,
	"grad_norm": 1.4294410943984985,
	"learning_rate": 9.423230432259409e-05,
	"loss": 1.4529,
	"step": 1740
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 1.282327651977539,
	"learning_rate": 9.416702932731707e-05,
	"loss": 1.4149,
	"step": 1750
	},
	{
	"epoch": 0.4693333333333333,
	"grad_norm": 1.1762118339538574,
	"learning_rate": 9.410140990867314e-05,
	"loss": 1.4371,
	"step": 1760
	},
	{
	"epoch": 0.472,
	"grad_norm": 1.172849178314209,
	"learning_rate": 9.403544657837568e-05,
	"loss": 1.499,
	"step": 1770
	},
	{
	"epoch": 0.4746666666666667,
	"grad_norm": 1.1873059272766113,
	"learning_rate": 9.396913985082003e-05,
	"loss": 1.3897,
	"step": 1780
	},
	{
	"epoch": 0.47733333333333333,
	"grad_norm": 1.2219440937042236,
	"learning_rate": 9.390249024307935e-05,
	"loss": 1.4432,
	"step": 1790
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.1377061605453491,
	"learning_rate": 9.383549827490065e-05,
	"loss": 1.5,
	"step": 1800
	},
	{
	"epoch": 0.4826666666666667,
	"grad_norm": 1.138771653175354,
	"learning_rate": 9.37681644687008e-05,
	"loss": 1.4375,
	"step": 1810
	},
	{
	"epoch": 0.48533333333333334,
	"grad_norm": 1.192325472831726,
	"learning_rate": 9.370048934956232e-05,
	"loss": 1.4332,
	"step": 1820
	},
	{
	"epoch": 0.488,
	"grad_norm": 1.1880292892456055,
	"learning_rate": 9.363247344522938e-05,
	"loss": 1.4164,
	"step": 1830
	},
	{
	"epoch": 0.49066666666666664,
	"grad_norm": 1.1453015804290771,
	"learning_rate": 9.356411728610368e-05,
	"loss": 1.4824,
	"step": 1840
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 1.1983551979064941,
	"learning_rate": 9.349542140524028e-05,
	"loss": 1.4353,
	"step": 1850
	},
	{
	"epoch": 0.496,
	"grad_norm": 1.1537418365478516,
	"learning_rate": 9.342638633834345e-05,
	"loss": 1.4802,
	"step": 1860
	},
	{
	"epoch": 0.49866666666666665,
	"grad_norm": 1.3037590980529785,
	"learning_rate": 9.335701262376249e-05,
	"loss": 1.4076,
	"step": 1870
	},
	{
	"epoch": 0.5013333333333333,
	"grad_norm": 1.2254606485366821,
	"learning_rate": 9.32873008024876e-05,
	"loss": 1.4637,
	"step": 1880
	},
	{
	"epoch": 0.504,
	"grad_norm": 1.2124687433242798,
	"learning_rate": 9.321725141814554e-05,
	"loss": 1.455,
	"step": 1890
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 1.2989321947097778,
	"learning_rate": 9.314686501699547e-05,
	"loss": 1.4277,
	"step": 1900
	},
	{
	"epoch": 0.5093333333333333,
	"grad_norm": 1.3618190288543701,
	"learning_rate": 9.307614214792474e-05,
	"loss": 1.4756,
	"step": 1910
	},
	{
	"epoch": 0.512,
	"grad_norm": 1.1907007694244385,
	"learning_rate": 9.300508336244444e-05,
	"loss": 1.4276,
	"step": 1920
	},
	{
	"epoch": 0.5146666666666667,
	"grad_norm": 1.265552043914795,
	"learning_rate": 9.293368921468525e-05,
	"loss": 1.4414,
	"step": 1930
	},
	{
	"epoch": 0.5173333333333333,
	"grad_norm": 1.1732559204101562,
	"learning_rate": 9.286196026139311e-05,
	"loss": 1.4596,
	"step": 1940
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.1664767265319824,
	"learning_rate": 9.278989706192479e-05,
	"loss": 1.4448,
	"step": 1950
	},
	{
	"epoch": 0.5226666666666666,
	"grad_norm": 1.1823703050613403,
	"learning_rate": 9.271750017824359e-05,
	"loss": 1.4324,
	"step": 1960
	},
	{
	"epoch": 0.5253333333333333,
	"grad_norm": 1.2507715225219727,
	"learning_rate": 9.264477017491496e-05,
	"loss": 1.4088,
	"step": 1970
	},
	{
	"epoch": 0.528,
	"grad_norm": 1.1818293333053589,
	"learning_rate": 9.257170761910207e-05,
	"loss": 1.4422,
	"step": 1980
	},
	{
	"epoch": 0.5306666666666666,
	"grad_norm": 1.162350058555603,
	"learning_rate": 9.24983130805614e-05,
	"loss": 1.3944,
	"step": 1990
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 1.195662260055542,
	"learning_rate": 9.242458713163833e-05,
	"loss": 1.4334,
	"step": 2000
	},
	{
	"epoch": 0.536,
	"grad_norm": 1.2335044145584106,
	"learning_rate": 9.23505303472626e-05,
	"loss": 1.429,
	"step": 2010
	},
	{
	"epoch": 0.5386666666666666,
	"grad_norm": 1.2105525732040405,
	"learning_rate": 9.22761433049439e-05,
	"loss": 1.4464,
	"step": 2020
	},
	{
	"epoch": 0.5413333333333333,
	"grad_norm": 1.1668081283569336,
	"learning_rate": 9.220142658476731e-05,
	"loss": 1.4045,
	"step": 2030
	},
	{
	"epoch": 0.544,
	"grad_norm": 1.3013231754302979,
	"learning_rate": 9.212638076938886e-05,
	"loss": 1.4209,
	"step": 2040
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 1.1668587923049927,
	"learning_rate": 9.205100644403085e-05,
	"loss": 1.4069,
	"step": 2050
	},
	{
	"epoch": 0.5493333333333333,
	"grad_norm": 1.120519995689392,
	"learning_rate": 9.197530419647743e-05,
	"loss": 1.4079,
	"step": 2060
	},
	{
	"epoch": 0.552,
	"grad_norm": 1.221240520477295,
	"learning_rate": 9.189927461706994e-05,
	"loss": 1.3758,
	"step": 2070
	},
	{
	"epoch": 0.5546666666666666,
	"grad_norm": 1.1907252073287964,
	"learning_rate": 9.182291829870231e-05,
	"loss": 1.3916,
	"step": 2080
	},
	{
	"epoch": 0.5573333333333333,
	"grad_norm": 1.157230257987976,
	"learning_rate": 9.174623583681644e-05,
	"loss": 1.424,
	"step": 2090
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.243390679359436,
	"learning_rate": 9.166922782939758e-05,
	"loss": 1.3785,
	"step": 2100
	},
	{
	"epoch": 0.5626666666666666,
	"grad_norm": 1.35386323928833,
	"learning_rate": 9.159189487696964e-05,
	"loss": 1.4214,
	"step": 2110
	},
	{
	"epoch": 0.5653333333333334,
	"grad_norm": 1.233632206916809,
	"learning_rate": 9.151423758259053e-05,
	"loss": 1.4112,
	"step": 2120
	},
	{
	"epoch": 0.568,
	"grad_norm": 1.2785305976867676,
	"learning_rate": 9.14362565518474e-05,
	"loss": 1.5029,
	"step": 2130
	},
	{
	"epoch": 0.5706666666666667,
	"grad_norm": 1.1489568948745728,
	"learning_rate": 9.135795239285201e-05,
	"loss": 1.3647,
	"step": 2140
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 1.408315658569336,
	"learning_rate": 9.127932571623592e-05,
	"loss": 1.4112,
	"step": 2150
	},
	{
	"epoch": 0.576,
	"grad_norm": 1.2435559034347534,
	"learning_rate": 9.120037713514575e-05,
	"loss": 1.4089,
	"step": 2160
	},
	{
	"epoch": 0.5786666666666667,
	"grad_norm": 1.0883207321166992,
	"learning_rate": 9.112110726523841e-05,
	"loss": 1.4465,
	"step": 2170
	},
	{
	"epoch": 0.5813333333333334,
	"grad_norm": 1.1969690322875977,
	"learning_rate": 9.104151672467624e-05,
	"loss": 1.3992,
	"step": 2180
	},
	{
	"epoch": 0.584,
	"grad_norm": 1.17844820022583,
	"learning_rate": 9.096160613412228e-05,
	"loss": 1.4339,
	"step": 2190
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 1.1998530626296997,
	"learning_rate": 9.088137611673537e-05,
	"loss": 1.4133,
	"step": 2200
	},
	{
	"epoch": 0.5893333333333334,
	"grad_norm": 1.2088191509246826,
	"learning_rate": 9.08008272981653e-05,
	"loss": 1.4172,
	"step": 2210
	},
	{
	"epoch": 0.592,
	"grad_norm": 1.2235163450241089,
	"learning_rate": 9.071996030654793e-05,
	"loss": 1.3962,
	"step": 2220
	},
	{
	"epoch": 0.5946666666666667,
	"grad_norm": 1.1096335649490356,
	"learning_rate": 9.063877577250031e-05,
	"loss": 1.3679,
	"step": 2230
	},
	{
	"epoch": 0.5973333333333334,
	"grad_norm": 1.0746153593063354,
	"learning_rate": 9.055727432911573e-05,
	"loss": 1.3846,
	"step": 2240
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.1154844760894775,
	"learning_rate": 9.047545661195885e-05,
	"loss": 1.3793,
	"step": 2250
	},
	{
	"epoch": 0.6026666666666667,
	"grad_norm": 1.147965669631958,
	"learning_rate": 9.039332325906065e-05,
	"loss": 1.3821,
	"step": 2260
	},
	{
	"epoch": 0.6053333333333333,
	"grad_norm": 1.1864081621170044,
	"learning_rate": 9.031087491091349e-05,
	"loss": 1.4008,
	"step": 2270
	},
	{
	"epoch": 0.608,
	"grad_norm": 1.2398922443389893,
	"learning_rate": 9.022811221046618e-05,
	"loss": 1.3957,
	"step": 2280
	},
	{
	"epoch": 0.6106666666666667,
	"grad_norm": 1.3095377683639526,
	"learning_rate": 9.014503580311888e-05,
	"loss": 1.3663,
	"step": 2290
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 1.1142088174819946,
	"learning_rate": 9.006164633671809e-05,
	"loss": 1.3967,
	"step": 2300
	},
	{
	"epoch": 0.616,
	"grad_norm": 1.2652512788772583,
	"learning_rate": 8.997794446155165e-05,
	"loss": 1.412,
	"step": 2310
	},
	{
	"epoch": 0.6186666666666667,
	"grad_norm": 1.21256422996521,
	"learning_rate": 8.989393083034355e-05,
	"loss": 1.4748,
	"step": 2320
	},
	{
	"epoch": 0.6213333333333333,
	"grad_norm": 1.2671364545822144,
	"learning_rate": 8.9809606098249e-05,
	"loss": 1.3837,
	"step": 2330
	},
	{
	"epoch": 0.624,
	"grad_norm": 1.2155178785324097,
	"learning_rate": 8.972497092284917e-05,
	"loss": 1.3248,
	"step": 2340
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 1.118476390838623,
	"learning_rate": 8.96400259641462e-05,
	"loss": 1.4082,
	"step": 2350
	},
	{
	"epoch": 0.6293333333333333,
	"grad_norm": 1.1911672353744507,
	"learning_rate": 8.95547718845579e-05,
	"loss": 1.437,
	"step": 2360
	},
	{
	"epoch": 0.632,
	"grad_norm": 1.18438720703125,
	"learning_rate": 8.946920934891274e-05,
	"loss": 1.3764,
	"step": 2370
	},
	{
	"epoch": 0.6346666666666667,
	"grad_norm": 1.195906400680542,
	"learning_rate": 8.938333902444454e-05,
	"loss": 1.3683,
	"step": 2380
	},
	{
	"epoch": 0.6373333333333333,
	"grad_norm": 1.2250769138336182,
	"learning_rate": 8.929716158078733e-05,
	"loss": 1.4469,
	"step": 2390
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.425670862197876,
	"learning_rate": 8.921067768997018e-05,
	"loss": 1.3741,
	"step": 2400
	},
	{
	"epoch": 0.6426666666666667,
	"grad_norm": 1.19728684425354,
	"learning_rate": 8.912388802641177e-05,
	"loss": 1.3783,
	"step": 2410
	},
	{
	"epoch": 0.6453333333333333,
	"grad_norm": 1.1674749851226807,
	"learning_rate": 8.903679326691539e-05,
	"loss": 1.3648,
	"step": 2420
	},
	{
	"epoch": 0.648,
	"grad_norm": 1.2711080312728882,
	"learning_rate": 8.894939409066344e-05,
	"loss": 1.3503,
	"step": 2430
	},
	{
	"epoch": 0.6506666666666666,
	"grad_norm": 1.1880507469177246,
	"learning_rate": 8.886169117921225e-05,
	"loss": 1.4124,
	"step": 2440
	},
	{
	"epoch": 0.6533333333333333,
	"grad_norm": 1.2464922666549683,
	"learning_rate": 8.877368521648678e-05,
	"loss": 1.3559,
	"step": 2450
	},
	{
	"epoch": 0.656,
	"grad_norm": 1.1443207263946533,
	"learning_rate": 8.868537688877516e-05,
	"loss": 1.3751,
	"step": 2460
	},
	{
	"epoch": 0.6586666666666666,
	"grad_norm": 1.2191261053085327,
	"learning_rate": 8.859676688472348e-05,
	"loss": 1.3991,
	"step": 2470
	},
	{
	"epoch": 0.6613333333333333,
	"grad_norm": 1.1666820049285889,
	"learning_rate": 8.850785589533037e-05,
	"loss": 1.3407,
	"step": 2480
	},
	{
	"epoch": 0.664,
	"grad_norm": 1.1684051752090454,
	"learning_rate": 8.841864461394158e-05,
	"loss": 1.4139,
	"step": 2490
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 1.1883134841918945,
	"learning_rate": 8.832913373624457e-05,
	"loss": 1.3635,
	"step": 2500
	},
	{
	"epoch": 0.6693333333333333,
	"grad_norm": 1.1918388605117798,
	"learning_rate": 8.82393239602632e-05,
	"loss": 1.34,
	"step": 2510
	},
	{
	"epoch": 0.672,
	"grad_norm": 1.144920825958252,
	"learning_rate": 8.814921598635208e-05,
	"loss": 1.3798,
	"step": 2520
	},
	{
	"epoch": 0.6746666666666666,
	"grad_norm": 1.1421136856079102,
	"learning_rate": 8.805881051719136e-05,
	"loss": 1.3737,
	"step": 2530
	},
	{
	"epoch": 0.6773333333333333,
	"grad_norm": 1.2488627433776855,
	"learning_rate": 8.796810825778102e-05,
	"loss": 1.4353,
	"step": 2540
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.1184425354003906,
	"learning_rate": 8.787710991543548e-05,
	"loss": 1.3935,
	"step": 2550
	},
	{
	"epoch": 0.6826666666666666,
	"grad_norm": 1.1690922975540161,
	"learning_rate": 8.778581619977811e-05,
	"loss": 1.3794,
	"step": 2560
	},
	{
	"epoch": 0.6853333333333333,
	"grad_norm": 1.1933445930480957,
	"learning_rate": 8.769422782273562e-05,
	"loss": 1.4017,
	"step": 2570
	},
	{
	"epoch": 0.688,
	"grad_norm": 1.249361276626587,
	"learning_rate": 8.760234549853262e-05,
	"loss": 1.3615,
	"step": 2580
	},
	{
	"epoch": 0.6906666666666667,
	"grad_norm": 1.183539867401123,
	"learning_rate": 8.751016994368591e-05,
	"loss": 1.3734,
	"step": 2590
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 1.1280195713043213,
	"learning_rate": 8.741770187699896e-05,
	"loss": 1.3714,
	"step": 2600
	},
	{
	"epoch": 0.696,
	"grad_norm": 1.3271329402923584,
	"learning_rate": 8.732494201955636e-05,
	"loss": 1.3659,
	"step": 2610
	},
	{
	"epoch": 0.6986666666666667,
	"grad_norm": 1.1904630661010742,
	"learning_rate": 8.72318910947181e-05,
	"loss": 1.4339,
	"step": 2620
	},
	{
	"epoch": 0.7013333333333334,
	"grad_norm": 1.2772647142410278,
	"learning_rate": 8.713854982811398e-05,
	"loss": 1.354,
	"step": 2630
	},
	{
	"epoch": 0.704,
	"grad_norm": 1.143364429473877,
	"learning_rate": 8.704491894763794e-05,
	"loss": 1.3956,
	"step": 2640
	},
	{
	"epoch": 0.7066666666666667,
	"grad_norm": 1.074783205986023,
	"learning_rate": 8.695099918344242e-05,
	"loss": 1.3713,
	"step": 2650
	},
	{
	"epoch": 0.7093333333333334,
	"grad_norm": 1.098419189453125,
	"learning_rate": 8.685679126793257e-05,
	"loss": 1.3973,
	"step": 2660
	},
	{
	"epoch": 0.712,
	"grad_norm": 1.2148680686950684,
	"learning_rate": 8.67622959357607e-05,
	"loss": 1.4006,
	"step": 2670
	},
	{
	"epoch": 0.7146666666666667,
	"grad_norm": 1.2799890041351318,
	"learning_rate": 8.666751392382033e-05,
	"loss": 1.2927,
	"step": 2680
	},
	{
	"epoch": 0.7173333333333334,
	"grad_norm": 1.1022305488586426,
	"learning_rate": 8.657244597124066e-05,
	"loss": 1.3543,
	"step": 2690
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.230270266532898,
	"learning_rate": 8.647709281938066e-05,
	"loss": 1.3373,
	"step": 2700
	},
	{
	"epoch": 0.7226666666666667,
	"grad_norm": 1.2525948286056519,
	"learning_rate": 8.63814552118234e-05,
	"loss": 1.3487,
	"step": 2710
	},
	{
	"epoch": 0.7253333333333334,
	"grad_norm": 1.1279513835906982,
	"learning_rate": 8.628553389437011e-05,
	"loss": 1.3146,
	"step": 2720
	},
	{
	"epoch": 0.728,
	"grad_norm": 1.2988407611846924,
	"learning_rate": 8.618932961503452e-05,
	"loss": 1.369,
	"step": 2730
	},
	{
	"epoch": 0.7306666666666667,
	"grad_norm": 1.216888189315796,
	"learning_rate": 8.609284312403694e-05,
	"loss": 1.3679,
	"step": 2740
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 1.3001585006713867,
	"learning_rate": 8.599607517379837e-05,
	"loss": 1.3147,
	"step": 2750
	},
	{
	"epoch": 0.736,
	"grad_norm": 1.3244261741638184,
	"learning_rate": 8.589902651893474e-05,
	"loss": 1.3516,
	"step": 2760
	},
	{
	"epoch": 0.7386666666666667,
	"grad_norm": 1.1077255010604858,
	"learning_rate": 8.580169791625097e-05,
	"loss": 1.3184,
	"step": 2770
	},
	{
	"epoch": 0.7413333333333333,
	"grad_norm": 1.138271450996399,
	"learning_rate": 8.570409012473503e-05,
	"loss": 1.2984,
	"step": 2780
	},
	{
	"epoch": 0.744,
	"grad_norm": 1.1240977048873901,
	"learning_rate": 8.560620390555212e-05,
	"loss": 1.3757,
	"step": 2790
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 1.1248799562454224,
	"learning_rate": 8.550804002203862e-05,
	"loss": 1.3438,
	"step": 2800
	},
	{
	"epoch": 0.7493333333333333,
	"grad_norm": 1.5033018589019775,
	"learning_rate": 8.54095992396962e-05,
	"loss": 1.352,
	"step": 2810
	},
	{
	"epoch": 0.752,
	"grad_norm": 1.2982832193374634,
	"learning_rate": 8.531088232618588e-05,
	"loss": 1.376,
	"step": 2820
	},
	{
	"epoch": 0.7546666666666667,
	"grad_norm": 1.1549718379974365,
	"learning_rate": 8.521189005132195e-05,
	"loss": 1.3149,
	"step": 2830
	},
	{
	"epoch": 0.7573333333333333,
	"grad_norm": 1.0971959829330444,
	"learning_rate": 8.51126231870661e-05,
	"loss": 1.3254,
	"step": 2840
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.1096560955047607,
	"learning_rate": 8.501308250752124e-05,
	"loss": 1.3935,
	"step": 2850
	},
	{
	"epoch": 0.7626666666666667,
	"grad_norm": 1.1969677209854126,
	"learning_rate": 8.49132687889256e-05,
	"loss": 1.3743,
	"step": 2860
	},
	{
	"epoch": 0.7653333333333333,
	"grad_norm": 1.2397490739822388,
	"learning_rate": 8.48131828096466e-05,
	"loss": 1.3961,
	"step": 2870
	},
	{
	"epoch": 0.768,
	"grad_norm": 1.22797429561615,
	"learning_rate": 8.471282535017481e-05,
	"loss": 1.3147,
	"step": 2880
	},
	{
	"epoch": 0.7706666666666667,
	"grad_norm": 1.199384093284607,
	"learning_rate": 8.46121971931179e-05,
	"loss": 1.3474,
	"step": 2890
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 1.10110342502594,
	"learning_rate": 8.451129912319437e-05,
	"loss": 1.3391,
	"step": 2900
	},
	{
	"epoch": 0.776,
	"grad_norm": 1.0967788696289062,
	"learning_rate": 8.441013192722773e-05,
	"loss": 1.3229,
	"step": 2910
	},
	{
	"epoch": 0.7786666666666666,
	"grad_norm": 1.2486368417739868,
	"learning_rate": 8.430869639414003e-05,
	"loss": 1.3743,
	"step": 2920
	},
	{
	"epoch": 0.7813333333333333,
	"grad_norm": 1.2607121467590332,
	"learning_rate": 8.420699331494598e-05,
	"loss": 1.3409,
	"step": 2930
	},
	{
	"epoch": 0.784,
	"grad_norm": 1.1935935020446777,
	"learning_rate": 8.410502348274659e-05,
	"loss": 1.3466,
	"step": 2940
	},
	{
	"epoch": 0.7866666666666666,
	"grad_norm": 1.1842153072357178,
	"learning_rate": 8.400278769272307e-05,
	"loss": 1.3723,
	"step": 2950
	},
	{
	"epoch": 0.7893333333333333,
	"grad_norm": 1.217961072921753,
	"learning_rate": 8.390028674213071e-05,
	"loss": 1.3495,
	"step": 2960
	},
	{
	"epoch": 0.792,
	"grad_norm": 1.1305698156356812,
	"learning_rate": 8.379752143029248e-05,
	"loss": 1.3578,
	"step": 2970
	},
	{
	"epoch": 0.7946666666666666,
	"grad_norm": 1.1107988357543945,
	"learning_rate": 8.369449255859293e-05,
	"loss": 1.334,
	"step": 2980
	},
	{
	"epoch": 0.7973333333333333,
	"grad_norm": 1.1656534671783447,
	"learning_rate": 8.359120093047189e-05,
	"loss": 1.3011,
	"step": 2990
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.155830979347229,
	"learning_rate": 8.348764735141823e-05,
	"loss": 1.3794,
	"step": 3000
	},
	{
	"epoch": 0.8026666666666666,
	"grad_norm": 1.1797475814819336,
	"learning_rate": 8.338383262896356e-05,
	"loss": 1.2805,
	"step": 3010
	},
	{
	"epoch": 0.8053333333333333,
	"grad_norm": 1.1246551275253296,
	"learning_rate": 8.327975757267596e-05,
	"loss": 1.2701,
	"step": 3020
	},
	{
	"epoch": 0.808,
	"grad_norm": 1.1335570812225342,
	"learning_rate": 8.31754229941536e-05,
	"loss": 1.325,
	"step": 3030
	},
	{
	"epoch": 0.8106666666666666,
	"grad_norm": 1.1327924728393555,
	"learning_rate": 8.307082970701848e-05,
	"loss": 1.3381,
	"step": 3040
	},
	{
	"epoch": 0.8133333333333334,
	"grad_norm": 1.1487321853637695,
	"learning_rate": 8.296597852691008e-05,
	"loss": 1.2775,
	"step": 3050
	},
	{
	"epoch": 0.816,
	"grad_norm": 1.1448324918746948,
	"learning_rate": 8.286087027147898e-05,
	"loss": 1.305,
	"step": 3060
	},
	{
	"epoch": 0.8186666666666667,
	"grad_norm": 1.2130907773971558,
	"learning_rate": 8.275550576038042e-05,
	"loss": 1.3485,
	"step": 3070
	},
	{
	"epoch": 0.8213333333333334,
	"grad_norm": 1.115325927734375,
	"learning_rate": 8.264988581526806e-05,
	"loss": 1.2794,
	"step": 3080
	},
	{
	"epoch": 0.824,
	"grad_norm": 1.062768578529358,
	"learning_rate": 8.254401125978743e-05,
	"loss": 1.3022,
	"step": 3090
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 1.2172695398330688,
	"learning_rate": 8.243788291956959e-05,
	"loss": 1.312,
	"step": 3100
	},
	{
	"epoch": 0.8293333333333334,
	"grad_norm": 1.1970939636230469,
	"learning_rate": 8.23315016222247e-05,
	"loss": 1.3553,
	"step": 3110
	},
	{
	"epoch": 0.832,
	"grad_norm": 1.2073640823364258,
	"learning_rate": 8.222486819733539e-05,
	"loss": 1.3561,
	"step": 3120
	},
	{
	"epoch": 0.8346666666666667,
	"grad_norm": 1.2345161437988281,
	"learning_rate": 8.211798347645061e-05,
	"loss": 1.3028,
	"step": 3130
	},
	{
	"epoch": 0.8373333333333334,
	"grad_norm": 1.1362279653549194,
	"learning_rate": 8.201084829307886e-05,
	"loss": 1.3622,
	"step": 3140
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.1313154697418213,
	"learning_rate": 8.19034634826818e-05,
	"loss": 1.3345,
	"step": 3150
	},
	{
	"epoch": 0.8426666666666667,
	"grad_norm": 1.118726134300232,
	"learning_rate": 8.179582988266778e-05,
	"loss": 1.2477,
	"step": 3160
	},
	{
	"epoch": 0.8453333333333334,
	"grad_norm": 1.130759596824646,
	"learning_rate": 8.168794833238523e-05,
	"loss": 1.2645,
	"step": 3170
	},
	{
	"epoch": 0.848,
	"grad_norm": 1.1994197368621826,
	"learning_rate": 8.157981967311614e-05,
	"loss": 1.3527,
	"step": 3180
	},
	{
	"epoch": 0.8506666666666667,
	"grad_norm": 1.224702000617981,
	"learning_rate": 8.147144474806953e-05,
	"loss": 1.3174,
	"step": 3190
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 1.1868679523468018,
	"learning_rate": 8.136282440237481e-05,
	"loss": 1.3337,
	"step": 3200
	},
	{
	"epoch": 0.856,
	"grad_norm": 1.2484469413757324,
	"learning_rate": 8.125395948307528e-05,
	"loss": 1.3065,
	"step": 3210
	},
	{
	"epoch": 0.8586666666666667,
	"grad_norm": 1.0734128952026367,
	"learning_rate": 8.114485083912143e-05,
	"loss": 1.2936,
	"step": 3220
	},
	{
	"epoch": 0.8613333333333333,
	"grad_norm": 1.0142780542373657,
	"learning_rate": 8.10354993213644e-05,
	"loss": 1.2767,
	"step": 3230
	},
	{
	"epoch": 0.864,
	"grad_norm": 1.1119025945663452,
	"learning_rate": 8.092590578254931e-05,
	"loss": 1.2833,
	"step": 3240
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 1.1215296983718872,
	"learning_rate": 8.081607107730853e-05,
	"loss": 1.2917,
	"step": 3250
	},
	{
	"epoch": 0.8693333333333333,
	"grad_norm": 1.0993318557739258,
	"learning_rate": 8.070599606215521e-05,
	"loss": 1.3021,
	"step": 3260
	},
	{
	"epoch": 0.872,
	"grad_norm": 1.1401952505111694,
	"learning_rate": 8.05956815954764e-05,
	"loss": 1.3555,
	"step": 3270
	},
	{
	"epoch": 0.8746666666666667,
	"grad_norm": 1.17933189868927,
	"learning_rate": 8.04851285375265e-05,
	"loss": 1.2785,
	"step": 3280
	},
	{
	"epoch": 0.8773333333333333,
	"grad_norm": 1.057431697845459,
	"learning_rate": 8.037433775042043e-05,
	"loss": 1.2789,
	"step": 3290
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.1540074348449707,
	"learning_rate": 8.026331009812703e-05,
	"loss": 1.2554,
	"step": 3300
	},
	{
	"epoch": 0.8826666666666667,
	"grad_norm": 1.219326376914978,
	"learning_rate": 8.015204644646221e-05,
	"loss": 1.2975,
	"step": 3310
	},
	{
	"epoch": 0.8853333333333333,
	"grad_norm": 1.1657817363739014,
	"learning_rate": 8.004054766308231e-05,
	"loss": 1.3263,
	"step": 3320
	},
	{
	"epoch": 0.888,
	"grad_norm": 1.2057347297668457,
	"learning_rate": 7.99288146174772e-05,
	"loss": 1.3356,
	"step": 3330
	},
	{
	"epoch": 0.8906666666666667,
	"grad_norm": 1.1602758169174194,
	"learning_rate": 7.981684818096367e-05,
	"loss": 1.358,
	"step": 3340
	},
	{
	"epoch": 0.8933333333333333,
	"grad_norm": 1.2020142078399658,
	"learning_rate": 7.970464922667842e-05,
	"loss": 1.3373,
	"step": 3350
	},
	{
	"epoch": 0.896,
	"grad_norm": 1.1278605461120605,
	"learning_rate": 7.959221862957148e-05,
	"loss": 1.2709,
	"step": 3360
	},
	{
	"epoch": 0.8986666666666666,
	"grad_norm": 1.0559728145599365,
	"learning_rate": 7.947955726639922e-05,
	"loss": 1.2147,
	"step": 3370
	},
	{
	"epoch": 0.9013333333333333,
	"grad_norm": 1.1655516624450684,
	"learning_rate": 7.936666601571756e-05,
	"loss": 1.3171,
	"step": 3380
	},
	{
	"epoch": 0.904,
	"grad_norm": 1.1956201791763306,
	"learning_rate": 7.925354575787517e-05,
	"loss": 1.3017,
	"step": 3390
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 1.3958219289779663,
	"learning_rate": 7.914019737500655e-05,
	"loss": 1.3462,
	"step": 3400
	},
	{
	"epoch": 0.9093333333333333,
	"grad_norm": 1.2900673151016235,
	"learning_rate": 7.902662175102513e-05,
	"loss": 1.3352,
	"step": 3410
	},
	{
	"epoch": 0.912,
	"grad_norm": 1.1758888959884644,
	"learning_rate": 7.891281977161648e-05,
	"loss": 1.3346,
	"step": 3420
	},
	{
	"epoch": 0.9146666666666666,
	"grad_norm": 1.3672614097595215,
	"learning_rate": 7.879879232423126e-05,
	"loss": 1.2894,
	"step": 3430
	},
	{
	"epoch": 0.9173333333333333,
	"grad_norm": 1.190148115158081,
	"learning_rate": 7.868454029807843e-05,
	"loss": 1.3287,
	"step": 3440
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.0812398195266724,
	"learning_rate": 7.857006458411826e-05,
	"loss": 1.3013,
	"step": 3450
	},
	{
	"epoch": 0.9226666666666666,
	"grad_norm": 1.2536805868148804,
	"learning_rate": 7.845536607505533e-05,
	"loss": 1.2589,
	"step": 3460
	},
	{
	"epoch": 0.9253333333333333,
	"grad_norm": 1.1588472127914429,
	"learning_rate": 7.834044566533165e-05,
	"loss": 1.3544,
	"step": 3470
	},
	{
	"epoch": 0.928,
	"grad_norm": 1.2140400409698486,
	"learning_rate": 7.822530425111969e-05,
	"loss": 1.2724,
	"step": 3480
	},
	{
	"epoch": 0.9306666666666666,
	"grad_norm": 1.1211223602294922,
	"learning_rate": 7.810994273031531e-05,
	"loss": 1.2946,
	"step": 3490
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 1.2078744173049927,
	"learning_rate": 7.799436200253082e-05,
	"loss": 1.3128,
	"step": 3500
	},
	{
	"epoch": 0.936,
	"grad_norm": 1.1453533172607422,
	"learning_rate": 7.787856296908795e-05,
	"loss": 1.2247,
	"step": 3510
	},
	{
	"epoch": 0.9386666666666666,
	"grad_norm": 1.1772340536117554,
	"learning_rate": 7.776254653301084e-05,
	"loss": 1.3455,
	"step": 3520
	},
	{
	"epoch": 0.9413333333333334,
	"grad_norm": 1.0937925577163696,
	"learning_rate": 7.764631359901897e-05,
	"loss": 1.2528,
	"step": 3530
	},
	{
	"epoch": 0.944,
	"grad_norm": 1.1185276508331299,
	"learning_rate": 7.752986507352008e-05,
	"loss": 1.3069,
	"step": 3540
	},
	{
	"epoch": 0.9466666666666667,
	"grad_norm": 1.1814966201782227,
	"learning_rate": 7.741320186460318e-05,
	"loss": 1.3261,
	"step": 3550
	},
	{
	"epoch": 0.9493333333333334,
	"grad_norm": 1.1327582597732544,
	"learning_rate": 7.729632488203142e-05,
	"loss": 1.2472,
	"step": 3560
	},
	{
	"epoch": 0.952,
	"grad_norm": 1.0911587476730347,
	"learning_rate": 7.717923503723497e-05,
	"loss": 1.3092,
	"step": 3570
	},
	{
	"epoch": 0.9546666666666667,
	"grad_norm": 1.139471173286438,
	"learning_rate": 7.706193324330395e-05,
	"loss": 1.2943,
	"step": 3580
	},
	{
	"epoch": 0.9573333333333334,
	"grad_norm": 1.1061944961547852,
	"learning_rate": 7.694442041498134e-05,
	"loss": 1.1979,
	"step": 3590
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.187041997909546,
	"learning_rate": 7.682669746865577e-05,
	"loss": 1.322,
	"step": 3600
	},
	{
	"epoch": 0.9626666666666667,
	"grad_norm": 1.9649654626846313,
	"learning_rate": 7.670876532235442e-05,
	"loss": 1.3139,
	"step": 3610
	},
	{
	"epoch": 0.9653333333333334,
	"grad_norm": 1.215530276298523,
	"learning_rate": 7.659062489573585e-05,
	"loss": 1.3205,
	"step": 3620
	},
	{
	"epoch": 0.968,
	"grad_norm": 1.1127485036849976,
	"learning_rate": 7.647227711008287e-05,
	"loss": 1.2919,
	"step": 3630
	},
	{
	"epoch": 0.9706666666666667,
	"grad_norm": 1.1428635120391846,
	"learning_rate": 7.635372288829524e-05,
	"loss": 1.2585,
	"step": 3640
	},
	{
	"epoch": 0.9733333333333334,
	"grad_norm": 1.2314307689666748,
	"learning_rate": 7.623496315488263e-05,
	"loss": 1.2643,
	"step": 3650
	},
	{
	"epoch": 0.976,
	"grad_norm": 1.1226931810379028,
	"learning_rate": 7.61159988359573e-05,
	"loss": 1.2592,
	"step": 3660
	},
	{
	"epoch": 0.9786666666666667,
	"grad_norm": 1.0766570568084717,
	"learning_rate": 7.599683085922689e-05,
	"loss": 1.2805,
	"step": 3670
	},
	{
	"epoch": 0.9813333333333333,
	"grad_norm": 1.1490188837051392,
	"learning_rate": 7.587746015398723e-05,
	"loss": 1.2819,
	"step": 3680
	},
	{
	"epoch": 0.984,
	"grad_norm": 1.1576265096664429,
	"learning_rate": 7.575788765111503e-05,
	"loss": 1.2937,
	"step": 3690
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 1.1509325504302979,
	"learning_rate": 7.563811428306074e-05,
	"loss": 1.2568,
	"step": 3700
	},
	{
	"epoch": 0.9893333333333333,
	"grad_norm": 1.1188994646072388,
	"learning_rate": 7.551814098384109e-05,
	"loss": 1.2764,
	"step": 3710
	},
	{
	"epoch": 0.992,
	"grad_norm": 1.1616812944412231,
	"learning_rate": 7.539796868903199e-05,
	"loss": 1.3026,
	"step": 3720
	},
	{
	"epoch": 0.9946666666666667,
	"grad_norm": 1.218526840209961,
	"learning_rate": 7.527759833576118e-05,
	"loss": 1.2856,
	"step": 3730
	},
	{
	"epoch": 0.9973333333333333,
	"grad_norm": 1.1440365314483643,
	"learning_rate": 7.515703086270077e-05,
	"loss": 1.2523,
	"step": 3740
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.1550425291061401,
	"learning_rate": 7.50362672100602e-05,
	"loss": 1.2658,
	"step": 3750
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.2504782676696777,
	"eval_runtime": 531.8577,
	"eval_samples_per_second": 9.401,
	"eval_steps_per_second": 4.701,
	"step": 3750
	}
	],
	"logging_steps": 10,
	"max_steps": 11250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 4.7030756108544e+16,
	"train_batch_size": 3,
	"trial_name": null,
	"trial_params": null
	}