Training in progress, step 4650, checkpoint

3404b50 verified 11 months ago

88.6 kB

	{
	"best_metric": 1.2152043581008911,
	"best_model_checkpoint": "./output/checkpoint-4650",
	"epoch": 0.3073567321039064,
	"eval_steps": 150,
	"global_step": 4650,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0006609822195782933,
	"grad_norm": 7.413546562194824,
	"learning_rate": 2.2360679774997904e-06,
	"loss": 1.2392,
	"step": 10
	},
	{
	"epoch": 0.0013219644391565867,
	"grad_norm": 7.08538818359375,
	"learning_rate": 4.472135954999581e-06,
	"loss": 1.2951,
	"step": 20
	},
	{
	"epoch": 0.00198294665873488,
	"grad_norm": 15.173999786376953,
	"learning_rate": 6.70820393249937e-06,
	"loss": 1.3208,
	"step": 30
	},
	{
	"epoch": 0.0026439288783131733,
	"grad_norm": 7.055360317230225,
	"learning_rate": 8.944271909999161e-06,
	"loss": 1.2641,
	"step": 40
	},
	{
	"epoch": 0.003304911097891467,
	"grad_norm": 8.638155937194824,
	"learning_rate": 1.118033988749895e-05,
	"loss": 1.2835,
	"step": 50
	},
	{
	"epoch": 0.00396589331746976,
	"grad_norm": 7.482174396514893,
	"learning_rate": 1.341640786499874e-05,
	"loss": 1.1253,
	"step": 60
	},
	{
	"epoch": 0.0046268755370480535,
	"grad_norm": 11.88020133972168,
	"learning_rate": 1.565247584249853e-05,
	"loss": 1.1857,
	"step": 70
	},
	{
	"epoch": 0.005287857756626347,
	"grad_norm": 13.985732078552246,
	"learning_rate": 1.7888543819998323e-05,
	"loss": 1.3447,
	"step": 80
	},
	{
	"epoch": 0.00594883997620464,
	"grad_norm": 7.102285861968994,
	"learning_rate": 2.0124611797498112e-05,
	"loss": 1.3336,
	"step": 90
	},
	{
	"epoch": 0.006609822195782934,
	"grad_norm": 7.646865367889404,
	"learning_rate": 2.23606797749979e-05,
	"loss": 1.176,
	"step": 100
	},
	{
	"epoch": 0.007270804415361227,
	"grad_norm": 6.750139236450195,
	"learning_rate": 2.236044998500671e-05,
	"loss": 1.2429,
	"step": 110
	},
	{
	"epoch": 0.00793178663493952,
	"grad_norm": 10.000078201293945,
	"learning_rate": 2.235976062447891e-05,
	"loss": 1.3139,
	"step": 120
	},
	{
	"epoch": 0.008592768854517813,
	"grad_norm": 12.12943172454834,
	"learning_rate": 2.2358611721751407e-05,
	"loss": 1.3145,
	"step": 130
	},
	{
	"epoch": 0.009253751074096107,
	"grad_norm": 7.1956071853637695,
	"learning_rate": 2.2357003324051093e-05,
	"loss": 1.3055,
	"step": 140
	},
	{
	"epoch": 0.009914733293674401,
	"grad_norm": 6.159770965576172,
	"learning_rate": 2.23549354974929e-05,
	"loss": 1.3298,
	"step": 150
	},
	{
	"epoch": 0.009914733293674401,
	"eval_loss": 1.3606581687927246,
	"eval_runtime": 45.5267,
	"eval_samples_per_second": 11.005,
	"eval_steps_per_second": 11.005,
	"step": 150
	},
	{
	"epoch": 0.010575715513252693,
	"grad_norm": 15.24757194519043,
	"learning_rate": 2.2352408327077078e-05,
	"loss": 1.303,
	"step": 160
	},
	{
	"epoch": 0.011236697732830987,
	"grad_norm": 10.154984474182129,
	"learning_rate": 2.2349421916685704e-05,
	"loss": 1.2568,
	"step": 170
	},
	{
	"epoch": 0.01189767995240928,
	"grad_norm": 7.64827299118042,
	"learning_rate": 2.234597638907841e-05,
	"loss": 1.27,
	"step": 180
	},
	{
	"epoch": 0.012558662171987573,
	"grad_norm": 10.21170711517334,
	"learning_rate": 2.2342071885887346e-05,
	"loss": 1.2995,
	"step": 190
	},
	{
	"epoch": 0.013219644391565867,
	"grad_norm": 10.44480037689209,
	"learning_rate": 2.2337708567611343e-05,
	"loss": 1.3509,
	"step": 200
	},
	{
	"epoch": 0.01388062661114416,
	"grad_norm": 7.435905456542969,
	"learning_rate": 2.233288661360932e-05,
	"loss": 1.1597,
	"step": 210
	},
	{
	"epoch": 0.014541608830722454,
	"grad_norm": 16.616416931152344,
	"learning_rate": 2.232760622209293e-05,
	"loss": 1.2589,
	"step": 220
	},
	{
	"epoch": 0.015202591050300748,
	"grad_norm": 13.498307228088379,
	"learning_rate": 2.2321867610118378e-05,
	"loss": 1.3307,
	"step": 230
	},
	{
	"epoch": 0.01586357326987904,
	"grad_norm": 7.282419681549072,
	"learning_rate": 2.231567101357753e-05,
	"loss": 1.3213,
	"step": 240
	},
	{
	"epoch": 0.016524555489457332,
	"grad_norm": 12.302486419677734,
	"learning_rate": 2.2309016687188194e-05,
	"loss": 1.3124,
	"step": 250
	},
	{
	"epoch": 0.017185537709035626,
	"grad_norm": 8.877416610717773,
	"learning_rate": 2.230190490448367e-05,
	"loss": 1.1267,
	"step": 260
	},
	{
	"epoch": 0.01784651992861392,
	"grad_norm": 10.397753715515137,
	"learning_rate": 2.229433595780149e-05,
	"loss": 1.3197,
	"step": 270
	},
	{
	"epoch": 0.018507502148192214,
	"grad_norm": 9.187607765197754,
	"learning_rate": 2.2286310158271407e-05,
	"loss": 1.1703,
	"step": 280
	},
	{
	"epoch": 0.019168484367770508,
	"grad_norm": 7.458565711975098,
	"learning_rate": 2.22778278358026e-05,
	"loss": 1.2126,
	"step": 290
	},
	{
	"epoch": 0.019829466587348802,
	"grad_norm": 11.090981483459473,
	"learning_rate": 2.2268889339070124e-05,
	"loss": 1.1683,
	"step": 300
	},
	{
	"epoch": 0.019829466587348802,
	"eval_loss": 1.3488467931747437,
	"eval_runtime": 55.8106,
	"eval_samples_per_second": 8.977,
	"eval_steps_per_second": 8.977,
	"step": 300
	},
	{
	"epoch": 0.020490448806927093,
	"grad_norm": 10.89608383178711,
	"learning_rate": 2.2259495035500576e-05,
	"loss": 1.4133,
	"step": 310
	},
	{
	"epoch": 0.021151431026505386,
	"grad_norm": 7.514070510864258,
	"learning_rate": 2.2249645311256972e-05,
	"loss": 1.2241,
	"step": 320
	},
	{
	"epoch": 0.02181241324608368,
	"grad_norm": 12.841883659362793,
	"learning_rate": 2.2239340571222904e-05,
	"loss": 1.2928,
	"step": 330
	},
	{
	"epoch": 0.022473395465661974,
	"grad_norm": 13.028974533081055,
	"learning_rate": 2.2228581238985868e-05,
	"loss": 1.2704,
	"step": 340
	},
	{
	"epoch": 0.02313437768524027,
	"grad_norm": 11.415493965148926,
	"learning_rate": 2.2217367756819878e-05,
	"loss": 1.2951,
	"step": 350
	},
	{
	"epoch": 0.02379535990481856,
	"grad_norm": 14.492388725280762,
	"learning_rate": 2.2205700585667257e-05,
	"loss": 1.2643,
	"step": 360
	},
	{
	"epoch": 0.024456342124396853,
	"grad_norm": 10.009002685546875,
	"learning_rate": 2.2193580205119724e-05,
	"loss": 1.2515,
	"step": 370
	},
	{
	"epoch": 0.025117324343975147,
	"grad_norm": 8.66943073272705,
	"learning_rate": 2.2181007113398642e-05,
	"loss": 1.1653,
	"step": 380
	},
	{
	"epoch": 0.02577830656355344,
	"grad_norm": 13.82745361328125,
	"learning_rate": 2.216798182733457e-05,
	"loss": 1.3251,
	"step": 390
	},
	{
	"epoch": 0.026439288783131735,
	"grad_norm": 9.831866264343262,
	"learning_rate": 2.2154504882346002e-05,
	"loss": 1.3099,
	"step": 400
	},
	{
	"epoch": 0.02710027100271003,
	"grad_norm": 6.000834941864014,
	"learning_rate": 2.214057683241736e-05,
	"loss": 1.2919,
	"step": 410
	},
	{
	"epoch": 0.02776125322228832,
	"grad_norm": 5.438742160797119,
	"learning_rate": 2.2126198250076225e-05,
	"loss": 1.1859,
	"step": 420
	},
	{
	"epoch": 0.028422235441866613,
	"grad_norm": 11.776556968688965,
	"learning_rate": 2.2111369726369802e-05,
	"loss": 1.339,
	"step": 430
	},
	{
	"epoch": 0.029083217661444907,
	"grad_norm": 7.697872638702393,
	"learning_rate": 2.2096091870840613e-05,
	"loss": 1.2235,
	"step": 440
	},
	{
	"epoch": 0.0297441998810232,
	"grad_norm": 12.47408676147461,
	"learning_rate": 2.2080365311501466e-05,
	"loss": 1.0851,
	"step": 450
	},
	{
	"epoch": 0.0297441998810232,
	"eval_loss": 1.3441540002822876,
	"eval_runtime": 45.42,
	"eval_samples_per_second": 11.03,
	"eval_steps_per_second": 11.03,
	"step": 450
	},
	{
	"epoch": 0.030405182100601495,
	"grad_norm": 5.456786155700684,
	"learning_rate": 2.206419069480962e-05,
	"loss": 1.2224,
	"step": 460
	},
	{
	"epoch": 0.031066164320179786,
	"grad_norm": 17.571989059448242,
	"learning_rate": 2.2047568685640212e-05,
	"loss": 1.355,
	"step": 470
	},
	{
	"epoch": 0.03172714653975808,
	"grad_norm": 10.6810302734375,
	"learning_rate": 2.203049996725894e-05,
	"loss": 1.3274,
	"step": 480
	},
	{
	"epoch": 0.032388128759336374,
	"grad_norm": 7.424011707305908,
	"learning_rate": 2.2012985241293954e-05,
	"loss": 1.1497,
	"step": 490
	},
	{
	"epoch": 0.033049110978914664,
	"grad_norm": 12.73671817779541,
	"learning_rate": 2.1995025227707044e-05,
	"loss": 1.3728,
	"step": 500
	},
	{
	"epoch": 0.03371009319849296,
	"grad_norm": 8.181777000427246,
	"learning_rate": 2.1976620664764027e-05,
	"loss": 1.2332,
	"step": 510
	},
	{
	"epoch": 0.03437107541807125,
	"grad_norm": 13.738442420959473,
	"learning_rate": 2.1957772309004394e-05,
	"loss": 1.2833,
	"step": 520
	},
	{
	"epoch": 0.03503205763764955,
	"grad_norm": 13.703083992004395,
	"learning_rate": 2.1938480935210228e-05,
	"loss": 1.4239,
	"step": 530
	},
	{
	"epoch": 0.03569303985722784,
	"grad_norm": 7.870193004608154,
	"learning_rate": 2.1918747336374347e-05,
	"loss": 1.4103,
	"step": 540
	},
	{
	"epoch": 0.03635402207680613,
	"grad_norm": 8.396446228027344,
	"learning_rate": 2.189857232366771e-05,
	"loss": 1.2522,
	"step": 550
	},
	{
	"epoch": 0.03701500429638443,
	"grad_norm": 12.225940704345703,
	"learning_rate": 2.1877956726406063e-05,
	"loss": 1.3464,
	"step": 560
	},
	{
	"epoch": 0.03767598651596272,
	"grad_norm": 11.3760347366333,
	"learning_rate": 2.1856901392015874e-05,
	"loss": 1.2843,
	"step": 570
	},
	{
	"epoch": 0.038336968735541016,
	"grad_norm": 11.334436416625977,
	"learning_rate": 2.183540718599946e-05,
	"loss": 1.2579,
	"step": 580
	},
	{
	"epoch": 0.03899795095511931,
	"grad_norm": 10.890923500061035,
	"learning_rate": 2.1813474991899453e-05,
	"loss": 1.1799,
	"step": 590
	},
	{
	"epoch": 0.039658933174697604,
	"grad_norm": 9.872835159301758,
	"learning_rate": 2.1791105711262442e-05,
	"loss": 1.1629,
	"step": 600
	},
	{
	"epoch": 0.039658933174697604,
	"eval_loss": 1.3372266292572021,
	"eval_runtime": 56.8438,
	"eval_samples_per_second": 8.814,
	"eval_steps_per_second": 8.814,
	"step": 600
	},
	{
	"epoch": 0.040319915394275894,
	"grad_norm": 11.447709083557129,
	"learning_rate": 2.1768300263601945e-05,
	"loss": 1.2011,
	"step": 610
	},
	{
	"epoch": 0.040980897613854185,
	"grad_norm": 12.056636810302734,
	"learning_rate": 2.174505958636059e-05,
	"loss": 1.2068,
	"step": 620
	},
	{
	"epoch": 0.04164187983343248,
	"grad_norm": 8.074010848999023,
	"learning_rate": 2.1721384634871592e-05,
	"loss": 1.1598,
	"step": 630
	},
	{
	"epoch": 0.04230286205301077,
	"grad_norm": 11.10396957397461,
	"learning_rate": 2.169727638231948e-05,
	"loss": 1.0609,
	"step": 640
	},
	{
	"epoch": 0.04296384427258907,
	"grad_norm": 7.929290771484375,
	"learning_rate": 2.1672735819700084e-05,
	"loss": 1.1761,
	"step": 650
	},
	{
	"epoch": 0.04362482649216736,
	"grad_norm": 12.149751663208008,
	"learning_rate": 2.1647763955779823e-05,
	"loss": 1.35,
	"step": 660
	},
	{
	"epoch": 0.04428580871174565,
	"grad_norm": 12.335487365722656,
	"learning_rate": 2.1622361817054213e-05,
	"loss": 1.2615,
	"step": 670
	},
	{
	"epoch": 0.04494679093132395,
	"grad_norm": 10.838406562805176,
	"learning_rate": 2.1596530447705676e-05,
	"loss": 1.1423,
	"step": 680
	},
	{
	"epoch": 0.04560777315090224,
	"grad_norm": 11.29602336883545,
	"learning_rate": 2.157027090956064e-05,
	"loss": 1.2088,
	"step": 690
	},
	{
	"epoch": 0.04626875537048054,
	"grad_norm": 6.865326881408691,
	"learning_rate": 2.1543584282045862e-05,
	"loss": 1.2449,
	"step": 700
	},
	{
	"epoch": 0.04692973759005883,
	"grad_norm": 11.23728084564209,
	"learning_rate": 2.1516471662144077e-05,
	"loss": 1.3072,
	"step": 710
	},
	{
	"epoch": 0.04759071980963712,
	"grad_norm": 9.809483528137207,
	"learning_rate": 2.1488934164348898e-05,
	"loss": 1.2592,
	"step": 720
	},
	{
	"epoch": 0.048251702029215415,
	"grad_norm": 12.237908363342285,
	"learning_rate": 2.1460972920619e-05,
	"loss": 1.2014,
	"step": 730
	},
	{
	"epoch": 0.048912684248793706,
	"grad_norm": 12.795587539672852,
	"learning_rate": 2.143258908033159e-05,
	"loss": 1.2433,
	"step": 740
	},
	{
	"epoch": 0.049573666468372,
	"grad_norm": 13.611194610595703,
	"learning_rate": 2.140378381023518e-05,
	"loss": 1.2548,
	"step": 750
	},
	{
	"epoch": 0.049573666468372,
	"eval_loss": 1.3183883428573608,
	"eval_runtime": 55.6542,
	"eval_samples_per_second": 9.002,
	"eval_steps_per_second": 9.002,
	"step": 750
	},
	{
	"epoch": 0.050234648687950294,
	"grad_norm": 4.964775085449219,
	"learning_rate": 2.1374558294401597e-05,
	"loss": 1.2587,
	"step": 760
	},
	{
	"epoch": 0.050895630907528584,
	"grad_norm": 13.402926445007324,
	"learning_rate": 2.134491373417733e-05,
	"loss": 1.1855,
	"step": 770
	},
	{
	"epoch": 0.05155661312710688,
	"grad_norm": 8.38901138305664,
	"learning_rate": 2.1314851348134134e-05,
	"loss": 1.3289,
	"step": 780
	},
	{
	"epoch": 0.05221759534668517,
	"grad_norm": 6.840709686279297,
	"learning_rate": 2.1284372372018963e-05,
	"loss": 1.1234,
	"step": 790
	},
	{
	"epoch": 0.05287857756626347,
	"grad_norm": 6.543496608734131,
	"learning_rate": 2.125347805870314e-05,
	"loss": 1.2149,
	"step": 800
	},
	{
	"epoch": 0.05353955978584176,
	"grad_norm": 7.223635196685791,
	"learning_rate": 2.122216967813088e-05,
	"loss": 1.0977,
	"step": 810
	},
	{
	"epoch": 0.05420054200542006,
	"grad_norm": 10.436606407165527,
	"learning_rate": 2.1190448517267087e-05,
	"loss": 1.1564,
	"step": 820
	},
	{
	"epoch": 0.05486152422499835,
	"grad_norm": 17.590259552001953,
	"learning_rate": 2.115831588004444e-05,
	"loss": 1.3229,
	"step": 830
	},
	{
	"epoch": 0.05552250644457664,
	"grad_norm": 11.749155044555664,
	"learning_rate": 2.1125773087309798e-05,
	"loss": 1.2345,
	"step": 840
	},
	{
	"epoch": 0.056183488664154936,
	"grad_norm": 11.912696838378906,
	"learning_rate": 2.1092821476769906e-05,
	"loss": 1.1779,
	"step": 850
	},
	{
	"epoch": 0.05684447088373323,
	"grad_norm": 5.420770168304443,
	"learning_rate": 2.1059462402936416e-05,
	"loss": 1.2414,
	"step": 860
	},
	{
	"epoch": 0.057505453103311524,
	"grad_norm": 4.887539863586426,
	"learning_rate": 2.102569723707019e-05,
	"loss": 1.1046,
	"step": 870
	},
	{
	"epoch": 0.058166435322889815,
	"grad_norm": 9.325897216796875,
	"learning_rate": 2.0991527367124955e-05,
	"loss": 1.3145,
	"step": 880
	},
	{
	"epoch": 0.058827417542468105,
	"grad_norm": 14.635684967041016,
	"learning_rate": 2.095695419769022e-05,
	"loss": 1.3592,
	"step": 890
	},
	{
	"epoch": 0.0594883997620464,
	"grad_norm": 8.91545295715332,
	"learning_rate": 2.0921979149933576e-05,
	"loss": 1.3035,
	"step": 900
	},
	{
	"epoch": 0.0594883997620464,
	"eval_loss": 1.3120555877685547,
	"eval_runtime": 52.1726,
	"eval_samples_per_second": 9.603,
	"eval_steps_per_second": 9.603,
	"step": 900
	},
	{
	"epoch": 0.06014938198162469,
	"grad_norm": 6.539499759674072,
	"learning_rate": 2.0886603661542245e-05,
	"loss": 1.2819,
	"step": 910
	},
	{
	"epoch": 0.06081036420120299,
	"grad_norm": 5.03954553604126,
	"learning_rate": 2.0850829186663994e-05,
	"loss": 1.2467,
	"step": 920
	},
	{
	"epoch": 0.06147134642078128,
	"grad_norm": 12.52458381652832,
	"learning_rate": 2.0814657195847375e-05,
	"loss": 1.1568,
	"step": 930
	},
	{
	"epoch": 0.06213232864035957,
	"grad_norm": 11.251747131347656,
	"learning_rate": 2.077808917598125e-05,
	"loss": 1.1703,
	"step": 940
	},
	{
	"epoch": 0.06279331085993786,
	"grad_norm": 10.658408164978027,
	"learning_rate": 2.0741126630233687e-05,
	"loss": 1.1074,
	"step": 950
	},
	{
	"epoch": 0.06345429307951617,
	"grad_norm": 6.95957612991333,
	"learning_rate": 2.070377107799017e-05,
	"loss": 1.1635,
	"step": 960
	},
	{
	"epoch": 0.06411527529909446,
	"grad_norm": 10.898233413696289,
	"learning_rate": 2.0666024054791137e-05,
	"loss": 1.2801,
	"step": 970
	},
	{
	"epoch": 0.06477625751867275,
	"grad_norm": 12.640921592712402,
	"learning_rate": 2.0627887112268875e-05,
	"loss": 1.2982,
	"step": 980
	},
	{
	"epoch": 0.06543723973825104,
	"grad_norm": 6.845248699188232,
	"learning_rate": 2.0589361818083712e-05,
	"loss": 1.0552,
	"step": 990
	},
	{
	"epoch": 0.06609822195782933,
	"grad_norm": 12.774737358093262,
	"learning_rate": 2.0550449755859598e-05,
	"loss": 1.149,
	"step": 1000
	},
	{
	"epoch": 0.06675920417740763,
	"grad_norm": 12.460762977600098,
	"learning_rate": 2.0511152525119014e-05,
	"loss": 1.0864,
	"step": 1010
	},
	{
	"epoch": 0.06742018639698592,
	"grad_norm": 12.369227409362793,
	"learning_rate": 2.0471471741217183e-05,
	"loss": 1.2691,
	"step": 1020
	},
	{
	"epoch": 0.06808116861656421,
	"grad_norm": 15.577491760253906,
	"learning_rate": 2.0431409035275724e-05,
	"loss": 1.3091,
	"step": 1030
	},
	{
	"epoch": 0.0687421508361425,
	"grad_norm": 8.849650382995605,
	"learning_rate": 2.0390966054115558e-05,
	"loss": 1.2703,
	"step": 1040
	},
	{
	"epoch": 0.0694031330557208,
	"grad_norm": 13.82666015625,
	"learning_rate": 2.035014446018924e-05,
	"loss": 1.388,
	"step": 1050
	},
	{
	"epoch": 0.0694031330557208,
	"eval_loss": 1.303145170211792,
	"eval_runtime": 53.8965,
	"eval_samples_per_second": 9.296,
	"eval_steps_per_second": 9.296,
	"step": 1050
	},
	{
	"epoch": 0.0700641152752991,
	"grad_norm": 11.953422546386719,
	"learning_rate": 2.0308945931512606e-05,
	"loss": 1.1849,
	"step": 1060
	},
	{
	"epoch": 0.07072509749487739,
	"grad_norm": 6.583851337432861,
	"learning_rate": 2.0267372161595806e-05,
	"loss": 1.2334,
	"step": 1070
	},
	{
	"epoch": 0.07138607971445568,
	"grad_norm": 10.967381477355957,
	"learning_rate": 2.022542485937369e-05,
	"loss": 1.146,
	"step": 1080
	},
	{
	"epoch": 0.07204706193403397,
	"grad_norm": 11.6732177734375,
	"learning_rate": 2.0183105749135553e-05,
	"loss": 1.1601,
	"step": 1090
	},
	{
	"epoch": 0.07270804415361226,
	"grad_norm": 11.63559341430664,
	"learning_rate": 2.0140416570454266e-05,
	"loss": 1.2845,
	"step": 1100
	},
	{
	"epoch": 0.07336902637319057,
	"grad_norm": 8.482784271240234,
	"learning_rate": 2.0097359078114767e-05,
	"loss": 1.1344,
	"step": 1110
	},
	{
	"epoch": 0.07403000859276886,
	"grad_norm": 11.602831840515137,
	"learning_rate": 2.0053935042041915e-05,
	"loss": 1.2167,
	"step": 1120
	},
	{
	"epoch": 0.07469099081234715,
	"grad_norm": 6.016249179840088,
	"learning_rate": 2.001014624722775e-05,
	"loss": 1.2611,
	"step": 1130
	},
	{
	"epoch": 0.07535197303192544,
	"grad_norm": 6.9794020652771,
	"learning_rate": 1.996599449365813e-05,
	"loss": 1.0101,
	"step": 1140
	},
	{
	"epoch": 0.07601295525150373,
	"grad_norm": 10.84961986541748,
	"learning_rate": 1.9921481596238703e-05,
	"loss": 1.1906,
	"step": 1150
	},
	{
	"epoch": 0.07667393747108203,
	"grad_norm": 13.637924194335938,
	"learning_rate": 1.9876609384720335e-05,
	"loss": 1.2617,
	"step": 1160
	},
	{
	"epoch": 0.07733491969066032,
	"grad_norm": 11.967713356018066,
	"learning_rate": 1.9831379703623903e-05,
	"loss": 1.1903,
	"step": 1170
	},
	{
	"epoch": 0.07799590191023861,
	"grad_norm": 12.296497344970703,
	"learning_rate": 1.978579441216443e-05,
	"loss": 0.9757,
	"step": 1180
	},
	{
	"epoch": 0.0786568841298169,
	"grad_norm": 12.823221206665039,
	"learning_rate": 1.9739855384174708e-05,
	"loss": 1.2341,
	"step": 1190
	},
	{
	"epoch": 0.07931786634939521,
	"grad_norm": 9.349319458007812,
	"learning_rate": 1.969356450802825e-05,
	"loss": 1.1929,
	"step": 1200
	},
	{
	"epoch": 0.07931786634939521,
	"eval_loss": 1.3002644777297974,
	"eval_runtime": 46.8524,
	"eval_samples_per_second": 10.693,
	"eval_steps_per_second": 10.693,
	"step": 1200
	},
	{
	"epoch": 0.0799788485689735,
	"grad_norm": 6.869687080383301,
	"learning_rate": 1.964692368656166e-05,
	"loss": 0.9831,
	"step": 1210
	},
	{
	"epoch": 0.08063983078855179,
	"grad_norm": 12.35352897644043,
	"learning_rate": 1.9599934836996435e-05,
	"loss": 1.1827,
	"step": 1220
	},
	{
	"epoch": 0.08130081300813008,
	"grad_norm": 14.163335800170898,
	"learning_rate": 1.9552599890860126e-05,
	"loss": 1.2183,
	"step": 1230
	},
	{
	"epoch": 0.08196179522770837,
	"grad_norm": 14.357596397399902,
	"learning_rate": 1.9504920793906985e-05,
	"loss": 1.1122,
	"step": 1240
	},
	{
	"epoch": 0.08262277744728667,
	"grad_norm": 12.211373329162598,
	"learning_rate": 1.945689950603793e-05,
	"loss": 1.1785,
	"step": 1250
	},
	{
	"epoch": 0.08328375966686496,
	"grad_norm": 9.271207809448242,
	"learning_rate": 1.9408538001220032e-05,
	"loss": 1.3458,
	"step": 1260
	},
	{
	"epoch": 0.08394474188644326,
	"grad_norm": 8.985238075256348,
	"learning_rate": 1.9359838267405318e-05,
	"loss": 1.2764,
	"step": 1270
	},
	{
	"epoch": 0.08460572410602155,
	"grad_norm": 6.032650947570801,
	"learning_rate": 1.931080230644911e-05,
	"loss": 1.1252,
	"step": 1280
	},
	{
	"epoch": 0.08526670632559984,
	"grad_norm": 8.561097145080566,
	"learning_rate": 1.926143213402771e-05,
	"loss": 1.1761,
	"step": 1290
	},
	{
	"epoch": 0.08592768854517814,
	"grad_norm": 11.316914558410645,
	"learning_rate": 1.921172977955552e-05,
	"loss": 1.2844,
	"step": 1300
	},
	{
	"epoch": 0.08658867076475643,
	"grad_norm": 11.52777099609375,
	"learning_rate": 1.9161697286101677e-05,
	"loss": 1.3252,
	"step": 1310
	},
	{
	"epoch": 0.08724965298433472,
	"grad_norm": 7.112990379333496,
	"learning_rate": 1.9111336710306013e-05,
	"loss": 1.2886,
	"step": 1320
	},
	{
	"epoch": 0.08791063520391301,
	"grad_norm": 11.982434272766113,
	"learning_rate": 1.9060650122294554e-05,
	"loss": 1.2249,
	"step": 1330
	},
	{
	"epoch": 0.0885716174234913,
	"grad_norm": 5.956284046173096,
	"learning_rate": 1.9009639605594407e-05,
	"loss": 1.1993,
	"step": 1340
	},
	{
	"epoch": 0.08923259964306961,
	"grad_norm": 6.896420955657959,
	"learning_rate": 1.8958307257048116e-05,
	"loss": 1.2083,
	"step": 1350
	},
	{
	"epoch": 0.08923259964306961,
	"eval_loss": 1.2925916910171509,
	"eval_runtime": 53.3979,
	"eval_samples_per_second": 9.382,
	"eval_steps_per_second": 9.382,
	"step": 1350
	},
	{
	"epoch": 0.0898935818626479,
	"grad_norm": 11.231532096862793,
	"learning_rate": 1.890665518672748e-05,
	"loss": 1.3071,
	"step": 1360
	},
	{
	"epoch": 0.09055456408222619,
	"grad_norm": 8.269697189331055,
	"learning_rate": 1.88546855178468e-05,
	"loss": 1.3681,
	"step": 1370
	},
	{
	"epoch": 0.09121554630180448,
	"grad_norm": 9.768874168395996,
	"learning_rate": 1.880240038667561e-05,
	"loss": 1.1444,
	"step": 1380
	},
	{
	"epoch": 0.09187652852138277,
	"grad_norm": 12.701289176940918,
	"learning_rate": 1.874980194245087e-05,
	"loss": 1.2358,
	"step": 1390
	},
	{
	"epoch": 0.09253751074096107,
	"grad_norm": 7.481356620788574,
	"learning_rate": 1.8696892347288606e-05,
	"loss": 1.2474,
	"step": 1400
	},
	{
	"epoch": 0.09319849296053936,
	"grad_norm": 5.565570831298828,
	"learning_rate": 1.864367377609504e-05,
	"loss": 1.3041,
	"step": 1410
	},
	{
	"epoch": 0.09385947518011765,
	"grad_norm": 11.658685684204102,
	"learning_rate": 1.8590148416477198e-05,
	"loss": 1.2475,
	"step": 1420
	},
	{
	"epoch": 0.09452045739969595,
	"grad_norm": 7.721464157104492,
	"learning_rate": 1.8536318468652962e-05,
	"loss": 1.2889,
	"step": 1430
	},
	{
	"epoch": 0.09518143961927424,
	"grad_norm": 13.417887687683105,
	"learning_rate": 1.8482186145360648e-05,
	"loss": 1.0137,
	"step": 1440
	},
	{
	"epoch": 0.09584242183885254,
	"grad_norm": 12.11631965637207,
	"learning_rate": 1.8427753671768056e-05,
	"loss": 1.1422,
	"step": 1450
	},
	{
	"epoch": 0.09650340405843083,
	"grad_norm": 10.596673965454102,
	"learning_rate": 1.8373023285380966e-05,
	"loss": 1.3137,
	"step": 1460
	},
	{
	"epoch": 0.09716438627800912,
	"grad_norm": 7.0566558837890625,
	"learning_rate": 1.8317997235951204e-05,
	"loss": 1.1111,
	"step": 1470
	},
	{
	"epoch": 0.09782536849758741,
	"grad_norm": 11.534781455993652,
	"learning_rate": 1.8262677785384142e-05,
	"loss": 1.207,
	"step": 1480
	},
	{
	"epoch": 0.0984863507171657,
	"grad_norm": 10.579961776733398,
	"learning_rate": 1.8207067207645716e-05,
	"loss": 1.0107,
	"step": 1490
	},
	{
	"epoch": 0.099147332936744,
	"grad_norm": 11.584352493286133,
	"learning_rate": 1.815116778866897e-05,
	"loss": 1.3272,
	"step": 1500
	},
	{
	"epoch": 0.099147332936744,
	"eval_loss": 1.2920811176300049,
	"eval_runtime": 56.3843,
	"eval_samples_per_second": 8.885,
	"eval_steps_per_second": 8.885,
	"step": 1500
	},
	{
	"epoch": 0.0998083151563223,
	"grad_norm": 12.167766571044922,
	"learning_rate": 1.8094981826260064e-05,
	"loss": 1.1052,
	"step": 1510
	},
	{
	"epoch": 0.10046929737590059,
	"grad_norm": 6.422857284545898,
	"learning_rate": 1.8038511630003865e-05,
	"loss": 1.2341,
	"step": 1520
	},
	{
	"epoch": 0.10113027959547888,
	"grad_norm": 11.502632141113281,
	"learning_rate": 1.798175952116895e-05,
	"loss": 1.2251,
	"step": 1530
	},
	{
	"epoch": 0.10179126181505717,
	"grad_norm": 13.205157279968262,
	"learning_rate": 1.7924727832612227e-05,
	"loss": 1.2488,
	"step": 1540
	},
	{
	"epoch": 0.10245224403463547,
	"grad_norm": 7.521269798278809,
	"learning_rate": 1.786741890868305e-05,
	"loss": 1.2128,
	"step": 1550
	},
	{
	"epoch": 0.10311322625421376,
	"grad_norm": 7.006454944610596,
	"learning_rate": 1.7809835105126807e-05,
	"loss": 1.1772,
	"step": 1560
	},
	{
	"epoch": 0.10377420847379205,
	"grad_norm": 10.070454597473145,
	"learning_rate": 1.7751978788988123e-05,
	"loss": 1.2622,
	"step": 1570
	},
	{
	"epoch": 0.10443519069337034,
	"grad_norm": 5.716686248779297,
	"learning_rate": 1.7693852338513545e-05,
	"loss": 1.2284,
	"step": 1580
	},
	{
	"epoch": 0.10509617291294863,
	"grad_norm": 9.35854721069336,
	"learning_rate": 1.7635458143053794e-05,
	"loss": 1.1278,
	"step": 1590
	},
	{
	"epoch": 0.10575715513252694,
	"grad_norm": 8.222880363464355,
	"learning_rate": 1.7576798602965525e-05,
	"loss": 1.2629,
	"step": 1600
	},
	{
	"epoch": 0.10641813735210523,
	"grad_norm": 7.391974925994873,
	"learning_rate": 1.7517876129512677e-05,
	"loss": 1.1084,
	"step": 1610
	},
	{
	"epoch": 0.10707911957168352,
	"grad_norm": 9.882158279418945,
	"learning_rate": 1.7458693144767353e-05,
	"loss": 1.1754,
	"step": 1620
	},
	{
	"epoch": 0.10774010179126181,
	"grad_norm": 6.603885173797607,
	"learning_rate": 1.7399252081510248e-05,
	"loss": 1.2642,
	"step": 1630
	},
	{
	"epoch": 0.10840108401084012,
	"grad_norm": 9.928793907165527,
	"learning_rate": 1.733955538313066e-05,
	"loss": 1.2299,
	"step": 1640
	},
	{
	"epoch": 0.1090620662304184,
	"grad_norm": 13.607159614562988,
	"learning_rate": 1.7279605503526047e-05,
	"loss": 1.3297,
	"step": 1650
	},
	{
	"epoch": 0.1090620662304184,
	"eval_loss": 1.2833280563354492,
	"eval_runtime": 56.0628,
	"eval_samples_per_second": 8.936,
	"eval_steps_per_second": 8.936,
	"step": 1650
	},
	{
	"epoch": 0.1097230484499967,
	"grad_norm": 12.829073905944824,
	"learning_rate": 1.721940490700115e-05,
	"loss": 1.1734,
	"step": 1660
	},
	{
	"epoch": 0.11038403066957499,
	"grad_norm": 5.9544548988342285,
	"learning_rate": 1.7158956068166697e-05,
	"loss": 1.0935,
	"step": 1670
	},
	{
	"epoch": 0.11104501288915328,
	"grad_norm": 7.440855503082275,
	"learning_rate": 1.7098261471837696e-05,
	"loss": 1.22,
	"step": 1680
	},
	{
	"epoch": 0.11170599510873158,
	"grad_norm": 5.567168235778809,
	"learning_rate": 1.7037323612931272e-05,
	"loss": 1.1423,
	"step": 1690
	},
	{
	"epoch": 0.11236697732830987,
	"grad_norm": 5.937944412231445,
	"learning_rate": 1.697614499636414e-05,
	"loss": 1.148,
	"step": 1700
	},
	{
	"epoch": 0.11302795954788816,
	"grad_norm": 6.795397758483887,
	"learning_rate": 1.6914728136949594e-05,
	"loss": 1.2881,
	"step": 1710
	},
	{
	"epoch": 0.11368894176746645,
	"grad_norm": 8.981378555297852,
	"learning_rate": 1.6853075559294172e-05,
	"loss": 1.1772,
	"step": 1720
	},
	{
	"epoch": 0.11434992398704474,
	"grad_norm": 9.995403289794922,
	"learning_rate": 1.6791189797693877e-05,
	"loss": 1.1541,
	"step": 1730
	},
	{
	"epoch": 0.11501090620662305,
	"grad_norm": 12.851771354675293,
	"learning_rate": 1.6729073396029965e-05,
	"loss": 1.2167,
	"step": 1740
	},
	{
	"epoch": 0.11567188842620134,
	"grad_norm": 12.812955856323242,
	"learning_rate": 1.666672890766442e-05,
	"loss": 1.1763,
	"step": 1750
	},
	{
	"epoch": 0.11633287064577963,
	"grad_norm": 8.584874153137207,
	"learning_rate": 1.660415889533497e-05,
	"loss": 1.2797,
	"step": 1760
	},
	{
	"epoch": 0.11699385286535792,
	"grad_norm": 8.92071533203125,
	"learning_rate": 1.6541365931049757e-05,
	"loss": 1.23,
	"step": 1770
	},
	{
	"epoch": 0.11765483508493621,
	"grad_norm": 5.1022210121154785,
	"learning_rate": 1.6478352595981594e-05,
	"loss": 1.0536,
	"step": 1780
	},
	{
	"epoch": 0.11831581730451451,
	"grad_norm": 8.801514625549316,
	"learning_rate": 1.6415121480361884e-05,
	"loss": 1.0129,
	"step": 1790
	},
	{
	"epoch": 0.1189767995240928,
	"grad_norm": 11.475573539733887,
	"learning_rate": 1.635167518337413e-05,
	"loss": 1.2538,
	"step": 1800
	},
	{
	"epoch": 0.1189767995240928,
	"eval_loss": 1.278364896774292,
	"eval_runtime": 47.0777,
	"eval_samples_per_second": 10.642,
	"eval_steps_per_second": 10.642,
	"step": 1800
	},
	{
	"epoch": 0.1196377817436711,
	"grad_norm": 10.728155136108398,
	"learning_rate": 1.6288016313047095e-05,
	"loss": 1.2208,
	"step": 1810
	},
	{
	"epoch": 0.12029876396324939,
	"grad_norm": 12.165102005004883,
	"learning_rate": 1.6224147486147602e-05,
	"loss": 1.3179,
	"step": 1820
	},
	{
	"epoch": 0.12095974618282768,
	"grad_norm": 10.370355606079102,
	"learning_rate": 1.616007132807298e-05,
	"loss": 1.226,
	"step": 1830
	},
	{
	"epoch": 0.12162072840240598,
	"grad_norm": 13.64041519165039,
	"learning_rate": 1.6095790472743107e-05,
	"loss": 1.287,
	"step": 1840
	},
	{
	"epoch": 0.12228171062198427,
	"grad_norm": 9.342700958251953,
	"learning_rate": 1.6031307562492174e-05,
	"loss": 1.2169,
	"step": 1850
	},
	{
	"epoch": 0.12294269284156256,
	"grad_norm": 5.222902297973633,
	"learning_rate": 1.5966625247960068e-05,
	"loss": 1.2688,
	"step": 1860
	},
	{
	"epoch": 0.12360367506114085,
	"grad_norm": 6.980830669403076,
	"learning_rate": 1.5901746187983387e-05,
	"loss": 1.1797,
	"step": 1870
	},
	{
	"epoch": 0.12426465728071914,
	"grad_norm": 10.581820487976074,
	"learning_rate": 1.5836673049486175e-05,
	"loss": 1.1752,
	"step": 1880
	},
	{
	"epoch": 0.12492563950029745,
	"grad_norm": 10.523150444030762,
	"learning_rate": 1.577140850737029e-05,
	"loss": 1.2042,
	"step": 1890
	},
	{
	"epoch": 0.12558662171987572,
	"grad_norm": 6.221709251403809,
	"learning_rate": 1.5705955244405423e-05,
	"loss": 1.1912,
	"step": 1900
	},
	{
	"epoch": 0.12624760393945403,
	"grad_norm": 10.54680347442627,
	"learning_rate": 1.564031595111886e-05,
	"loss": 1.2476,
	"step": 1910
	},
	{
	"epoch": 0.12690858615903233,
	"grad_norm": 5.043491840362549,
	"learning_rate": 1.557449332568485e-05,
	"loss": 1.2221,
	"step": 1920
	},
	{
	"epoch": 0.1275695683786106,
	"grad_norm": 10.203733444213867,
	"learning_rate": 1.5508490073813722e-05,
	"loss": 1.1716,
	"step": 1930
	},
	{
	"epoch": 0.1282305505981889,
	"grad_norm": 7.249475955963135,
	"learning_rate": 1.5442308908640636e-05,
	"loss": 1.1548,
	"step": 1940
	},
	{
	"epoch": 0.1288915328177672,
	"grad_norm": 11.740514755249023,
	"learning_rate": 1.537595255061408e-05,
	"loss": 1.1863,
	"step": 1950
	},
	{
	"epoch": 0.1288915328177672,
	"eval_loss": 1.2681256532669067,
	"eval_runtime": 53.9387,
	"eval_samples_per_second": 9.288,
	"eval_steps_per_second": 9.288,
	"step": 1950
	},
	{
	"epoch": 0.1295525150373455,
	"grad_norm": 9.638320922851562,
	"learning_rate": 1.5309423727384037e-05,
	"loss": 1.2506,
	"step": 1960
	},
	{
	"epoch": 0.1302134972569238,
	"grad_norm": 7.702147483825684,
	"learning_rate": 1.5242725173689851e-05,
	"loss": 1.1908,
	"step": 1970
	},
	{
	"epoch": 0.13087447947650208,
	"grad_norm": 15.315128326416016,
	"learning_rate": 1.5175859631247827e-05,
	"loss": 1.1775,
	"step": 1980
	},
	{
	"epoch": 0.13153546169608038,
	"grad_norm": 6.902062892913818,
	"learning_rate": 1.5108829848638515e-05,
	"loss": 1.1696,
	"step": 1990
	},
	{
	"epoch": 0.13219644391565866,
	"grad_norm": 10.421862602233887,
	"learning_rate": 1.5041638581193741e-05,
	"loss": 1.1456,
	"step": 2000
	},
	{
	"epoch": 0.13285742613523696,
	"grad_norm": 12.304083824157715,
	"learning_rate": 1.4974288590883346e-05,
	"loss": 1.0899,
	"step": 2010
	},
	{
	"epoch": 0.13351840835481527,
	"grad_norm": 6.598790645599365,
	"learning_rate": 1.4906782646201634e-05,
	"loss": 1.1023,
	"step": 2020
	},
	{
	"epoch": 0.13417939057439354,
	"grad_norm": 10.214670181274414,
	"learning_rate": 1.4839123522053591e-05,
	"loss": 1.1551,
	"step": 2030
	},
	{
	"epoch": 0.13484037279397185,
	"grad_norm": 9.92830753326416,
	"learning_rate": 1.4771313999640806e-05,
	"loss": 1.1611,
	"step": 2040
	},
	{
	"epoch": 0.13550135501355012,
	"grad_norm": 11.352734565734863,
	"learning_rate": 1.4703356866347155e-05,
	"loss": 1.1261,
	"step": 2050
	},
	{
	"epoch": 0.13616233723312843,
	"grad_norm": 9.193647384643555,
	"learning_rate": 1.4635254915624214e-05,
	"loss": 1.1497,
	"step": 2060
	},
	{
	"epoch": 0.13682331945270673,
	"grad_norm": 8.309967994689941,
	"learning_rate": 1.4567010946876445e-05,
	"loss": 1.2163,
	"step": 2070
	},
	{
	"epoch": 0.137484301672285,
	"grad_norm": 9.005535125732422,
	"learning_rate": 1.4498627765346109e-05,
	"loss": 1.1769,
	"step": 2080
	},
	{
	"epoch": 0.1381452838918633,
	"grad_norm": 6.557043552398682,
	"learning_rate": 1.4430108181997962e-05,
	"loss": 1.093,
	"step": 2090
	},
	{
	"epoch": 0.1388062661114416,
	"grad_norm": 7.859200954437256,
	"learning_rate": 1.4361455013403695e-05,
	"loss": 1.2585,
	"step": 2100
	},
	{
	"epoch": 0.1388062661114416,
	"eval_loss": 1.2679221630096436,
	"eval_runtime": 46.9201,
	"eval_samples_per_second": 10.678,
	"eval_steps_per_second": 10.678,
	"step": 2100
	},
	{
	"epoch": 0.1394672483310199,
	"grad_norm": 12.011978149414062,
	"learning_rate": 1.4292671081626183e-05,
	"loss": 1.2173,
	"step": 2110
	},
	{
	"epoch": 0.1401282305505982,
	"grad_norm": 9.485074996948242,
	"learning_rate": 1.4223759214103443e-05,
	"loss": 1.2501,
	"step": 2120
	},
	{
	"epoch": 0.14078921277017648,
	"grad_norm": 11.757882118225098,
	"learning_rate": 1.4154722243532445e-05,
	"loss": 1.1974,
	"step": 2130
	},
	{
	"epoch": 0.14145019498975478,
	"grad_norm": 13.57962703704834,
	"learning_rate": 1.4085563007752654e-05,
	"loss": 1.1892,
	"step": 2140
	},
	{
	"epoch": 0.14211117720933306,
	"grad_norm": 9.708785057067871,
	"learning_rate": 1.4016284349629364e-05,
	"loss": 1.225,
	"step": 2150
	},
	{
	"epoch": 0.14277215942891136,
	"grad_norm": 10.492091178894043,
	"learning_rate": 1.3946889116936874e-05,
	"loss": 1.208,
	"step": 2160
	},
	{
	"epoch": 0.14343314164848966,
	"grad_norm": 7.376300811767578,
	"learning_rate": 1.3877380162241394e-05,
	"loss": 1.1689,
	"step": 2170
	},
	{
	"epoch": 0.14409412386806794,
	"grad_norm": 6.636634349822998,
	"learning_rate": 1.3807760342783804e-05,
	"loss": 1.1393,
	"step": 2180
	},
	{
	"epoch": 0.14475510608764625,
	"grad_norm": 12.17708969116211,
	"learning_rate": 1.37380325203622e-05,
	"loss": 1.2818,
	"step": 2190
	},
	{
	"epoch": 0.14541608830722452,
	"grad_norm": 12.49779987335205,
	"learning_rate": 1.3668199561214252e-05,
	"loss": 1.133,
	"step": 2200
	},
	{
	"epoch": 0.14607707052680283,
	"grad_norm": 6.741744518280029,
	"learning_rate": 1.35982643358994e-05,
	"loss": 1.1637,
	"step": 2210
	},
	{
	"epoch": 0.14673805274638113,
	"grad_norm": 9.643292427062988,
	"learning_rate": 1.3528229719180835e-05,
	"loss": 1.2758,
	"step": 2220
	},
	{
	"epoch": 0.1473990349659594,
	"grad_norm": 10.941937446594238,
	"learning_rate": 1.3458098589907348e-05,
	"loss": 1.268,
	"step": 2230
	},
	{
	"epoch": 0.1480600171855377,
	"grad_norm": 11.461699485778809,
	"learning_rate": 1.3387873830894973e-05,
	"loss": 1.0558,
	"step": 2240
	},
	{
	"epoch": 0.148720999405116,
	"grad_norm": 6.023902893066406,
	"learning_rate": 1.3317558328808506e-05,
	"loss": 1.1131,
	"step": 2250
	},
	{
	"epoch": 0.148720999405116,
	"eval_loss": 1.259637475013733,
	"eval_runtime": 52.7273,
	"eval_samples_per_second": 9.502,
	"eval_steps_per_second": 9.502,
	"step": 2250
	},
	{
	"epoch": 0.1493819816246943,
	"grad_norm": 11.362767219543457,
	"learning_rate": 1.3247154974042827e-05,
	"loss": 1.2487,
	"step": 2260
	},
	{
	"epoch": 0.1500429638442726,
	"grad_norm": 12.16934585571289,
	"learning_rate": 1.3176666660604102e-05,
	"loss": 1.3317,
	"step": 2270
	},
	{
	"epoch": 0.15070394606385087,
	"grad_norm": 7.8326849937438965,
	"learning_rate": 1.3106096285990812e-05,
	"loss": 1.1973,
	"step": 2280
	},
	{
	"epoch": 0.15136492828342918,
	"grad_norm": 7.108518600463867,
	"learning_rate": 1.3035446751074653e-05,
	"loss": 1.1605,
	"step": 2290
	},
	{
	"epoch": 0.15202591050300746,
	"grad_norm": 11.288322448730469,
	"learning_rate": 1.2964720959981287e-05,
	"loss": 1.1857,
	"step": 2300
	},
	{
	"epoch": 0.15268689272258576,
	"grad_norm": 5.468815803527832,
	"learning_rate": 1.2893921819970972e-05,
	"loss": 1.2428,
	"step": 2310
	},
	{
	"epoch": 0.15334787494216406,
	"grad_norm": 11.970479011535645,
	"learning_rate": 1.2823052241319061e-05,
	"loss": 1.2249,
	"step": 2320
	},
	{
	"epoch": 0.15400885716174234,
	"grad_norm": 9.788006782531738,
	"learning_rate": 1.2752115137196341e-05,
	"loss": 1.1832,
	"step": 2330
	},
	{
	"epoch": 0.15466983938132065,
	"grad_norm": 5.940231800079346,
	"learning_rate": 1.2681113423549334e-05,
	"loss": 1.0796,
	"step": 2340
	},
	{
	"epoch": 0.15533082160089895,
	"grad_norm": 5.606922149658203,
	"learning_rate": 1.2610050018980385e-05,
	"loss": 0.9388,
	"step": 2350
	},
	{
	"epoch": 0.15599180382047723,
	"grad_norm": 6.812578201293945,
	"learning_rate": 1.2538927844627726e-05,
	"loss": 1.12,
	"step": 2360
	},
	{
	"epoch": 0.15665278604005553,
	"grad_norm": 10.468450546264648,
	"learning_rate": 1.2467749824045373e-05,
	"loss": 1.1143,
	"step": 2370
	},
	{
	"epoch": 0.1573137682596338,
	"grad_norm": 6.699043273925781,
	"learning_rate": 1.2396518883082966e-05,
	"loss": 1.1317,
	"step": 2380
	},
	{
	"epoch": 0.1579747504792121,
	"grad_norm": 11.339058876037598,
	"learning_rate": 1.2325237949765496e-05,
	"loss": 1.1824,
	"step": 2390
	},
	{
	"epoch": 0.15863573269879042,
	"grad_norm": 6.434577941894531,
	"learning_rate": 1.225390995417295e-05,
	"loss": 1.0624,
	"step": 2400
	},
	{
	"epoch": 0.15863573269879042,
	"eval_loss": 1.253835678100586,
	"eval_runtime": 47.0266,
	"eval_samples_per_second": 10.654,
	"eval_steps_per_second": 10.654,
	"step": 2400
	},
	{
	"epoch": 0.1592967149183687,
	"grad_norm": 10.957035064697266,
	"learning_rate": 1.2182537828319848e-05,
	"loss": 1.265,
	"step": 2410
	},
	{
	"epoch": 0.159957697137947,
	"grad_norm": 12.669862747192383,
	"learning_rate": 1.2111124506034739e-05,
	"loss": 1.1453,
	"step": 2420
	},
	{
	"epoch": 0.16061867935752527,
	"grad_norm": 12.645952224731445,
	"learning_rate": 1.2039672922839598e-05,
	"loss": 1.1506,
	"step": 2430
	},
	{
	"epoch": 0.16127966157710358,
	"grad_norm": 12.920147895812988,
	"learning_rate": 1.196818601582915e-05,
	"loss": 1.0976,
	"step": 2440
	},
	{
	"epoch": 0.16194064379668188,
	"grad_norm": 13.062854766845703,
	"learning_rate": 1.189666672355015e-05,
	"loss": 1.3518,
	"step": 2450
	},
	{
	"epoch": 0.16260162601626016,
	"grad_norm": 5.583253860473633,
	"learning_rate": 1.1825117985880576e-05,
	"loss": 1.0854,
	"step": 2460
	},
	{
	"epoch": 0.16326260823583846,
	"grad_norm": 12.410826683044434,
	"learning_rate": 1.1753542743908802e-05,
	"loss": 1.1561,
	"step": 2470
	},
	{
	"epoch": 0.16392359045541674,
	"grad_norm": 11.445279121398926,
	"learning_rate": 1.1681943939812688e-05,
	"loss": 1.3584,
	"step": 2480
	},
	{
	"epoch": 0.16458457267499504,
	"grad_norm": 6.8058342933654785,
	"learning_rate": 1.1610324516738626e-05,
	"loss": 1.2373,
	"step": 2490
	},
	{
	"epoch": 0.16524555489457335,
	"grad_norm": 10.376558303833008,
	"learning_rate": 1.1538687418680596e-05,
	"loss": 1.0921,
	"step": 2500
	},
	{
	"epoch": 0.16590653711415163,
	"grad_norm": 6.7869791984558105,
	"learning_rate": 1.1467035590359106e-05,
	"loss": 1.2743,
	"step": 2510
	},
	{
	"epoch": 0.16656751933372993,
	"grad_norm": 12.313713073730469,
	"learning_rate": 1.139537197710018e-05,
	"loss": 1.1243,
	"step": 2520
	},
	{
	"epoch": 0.1672285015533082,
	"grad_norm": 11.535476684570312,
	"learning_rate": 1.1323699524714278e-05,
	"loss": 1.2232,
	"step": 2530
	},
	{
	"epoch": 0.1678894837728865,
	"grad_norm": 9.248635292053223,
	"learning_rate": 1.1252021179375192e-05,
	"loss": 1.0689,
	"step": 2540
	},
	{
	"epoch": 0.16855046599246482,
	"grad_norm": 10.689653396606445,
	"learning_rate": 1.118033988749895e-05,
	"loss": 1.2617,
	"step": 2550
	},
	{
	"epoch": 0.16855046599246482,
	"eval_loss": 1.2488397359848022,
	"eval_runtime": 52.0382,
	"eval_samples_per_second": 9.628,
	"eval_steps_per_second": 9.628,
	"step": 2550
	},
	{
	"epoch": 0.1692114482120431,
	"grad_norm": 12.502510070800781,
	"learning_rate": 1.1108658595622709e-05,
	"loss": 1.2023,
	"step": 2560
	},
	{
	"epoch": 0.1698724304316214,
	"grad_norm": 11.087409973144531,
	"learning_rate": 1.1036980250283621e-05,
	"loss": 1.2207,
	"step": 2570
	},
	{
	"epoch": 0.17053341265119967,
	"grad_norm": 9.92039680480957,
	"learning_rate": 1.096530779789772e-05,
	"loss": 1.1602,
	"step": 2580
	},
	{
	"epoch": 0.17119439487077798,
	"grad_norm": 5.836206912994385,
	"learning_rate": 1.0893644184638797e-05,
	"loss": 1.0523,
	"step": 2590
	},
	{
	"epoch": 0.17185537709035628,
	"grad_norm": 12.243383407592773,
	"learning_rate": 1.0821992356317307e-05,
	"loss": 1.2196,
	"step": 2600
	},
	{
	"epoch": 0.17251635930993456,
	"grad_norm": 6.7921366691589355,
	"learning_rate": 1.0750355258259273e-05,
	"loss": 1.2333,
	"step": 2610
	},
	{
	"epoch": 0.17317734152951286,
	"grad_norm": 11.758354187011719,
	"learning_rate": 1.0678735835185219e-05,
	"loss": 1.1695,
	"step": 2620
	},
	{
	"epoch": 0.17383832374909114,
	"grad_norm": 12.446253776550293,
	"learning_rate": 1.06071370310891e-05,
	"loss": 1.1428,
	"step": 2630
	},
	{
	"epoch": 0.17449930596866944,
	"grad_norm": 7.370149612426758,
	"learning_rate": 1.0535561789117327e-05,
	"loss": 1.262,
	"step": 2640
	},
	{
	"epoch": 0.17516028818824775,
	"grad_norm": 10.489151954650879,
	"learning_rate": 1.0464013051447755e-05,
	"loss": 1.0921,
	"step": 2650
	},
	{
	"epoch": 0.17582127040782602,
	"grad_norm": 10.34467887878418,
	"learning_rate": 1.0392493759168751e-05,
	"loss": 1.1942,
	"step": 2660
	},
	{
	"epoch": 0.17648225262740433,
	"grad_norm": 11.04796314239502,
	"learning_rate": 1.0321006852158306e-05,
	"loss": 1.0937,
	"step": 2670
	},
	{
	"epoch": 0.1771432348469826,
	"grad_norm": 12.193102836608887,
	"learning_rate": 1.0249555268963164e-05,
	"loss": 1.1015,
	"step": 2680
	},
	{
	"epoch": 0.1778042170665609,
	"grad_norm": 11.928840637207031,
	"learning_rate": 1.0178141946678054e-05,
	"loss": 1.2069,
	"step": 2690
	},
	{
	"epoch": 0.17846519928613921,
	"grad_norm": 6.055873870849609,
	"learning_rate": 1.0106769820824951e-05,
	"loss": 1.0915,
	"step": 2700
	},
	{
	"epoch": 0.17846519928613921,
	"eval_loss": 1.246018409729004,
	"eval_runtime": 47.997,
	"eval_samples_per_second": 10.438,
	"eval_steps_per_second": 10.438,
	"step": 2700
	},
	{
	"epoch": 0.1791261815057175,
	"grad_norm": 7.3669586181640625,
	"learning_rate": 1.0035441825232406e-05,
	"loss": 1.0824,
	"step": 2710
	},
	{
	"epoch": 0.1797871637252958,
	"grad_norm": 12.520928382873535,
	"learning_rate": 9.964160891914937e-06,
	"loss": 1.1395,
	"step": 2720
	},
	{
	"epoch": 0.18044814594487407,
	"grad_norm": 6.952485084533691,
	"learning_rate": 9.892929950952532e-06,
	"loss": 1.1727,
	"step": 2730
	},
	{
	"epoch": 0.18110912816445238,
	"grad_norm": 10.507661819458008,
	"learning_rate": 9.821751930370177e-06,
	"loss": 1.184,
	"step": 2740
	},
	{
	"epoch": 0.18177011038403068,
	"grad_norm": 12.77137279510498,
	"learning_rate": 9.750629756017514e-06,
	"loss": 1.228,
	"step": 2750
	},
	{
	"epoch": 0.18243109260360896,
	"grad_norm": 7.609248161315918,
	"learning_rate": 9.679566351448571e-06,
	"loss": 1.1315,
	"step": 2760
	},
	{
	"epoch": 0.18309207482318726,
	"grad_norm": 11.428009986877441,
	"learning_rate": 9.608564637801562e-06,
	"loss": 1.041,
	"step": 2770
	},
	{
	"epoch": 0.18375305704276554,
	"grad_norm": 12.582087516784668,
	"learning_rate": 9.537627533678842e-06,
	"loss": 1.1608,
	"step": 2780
	},
	{
	"epoch": 0.18441403926234384,
	"grad_norm": 10.488136291503906,
	"learning_rate": 9.466757955026925e-06,
	"loss": 1.0935,
	"step": 2790
	},
	{
	"epoch": 0.18507502148192215,
	"grad_norm": 12.54319953918457,
	"learning_rate": 9.395958815016618e-06,
	"loss": 1.1654,
	"step": 2800
	},
	{
	"epoch": 0.18573600370150042,
	"grad_norm": 10.314374923706055,
	"learning_rate": 9.325233023923252e-06,
	"loss": 1.2293,
	"step": 2810
	},
	{
	"epoch": 0.18639698592107873,
	"grad_norm": 7.015604496002197,
	"learning_rate": 9.25458348900709e-06,
	"loss": 1.0994,
	"step": 2820
	},
	{
	"epoch": 0.187057968140657,
	"grad_norm": 6.349636554718018,
	"learning_rate": 9.1840131143938e-06,
	"loss": 1.2272,
	"step": 2830
	},
	{
	"epoch": 0.1877189503602353,
	"grad_norm": 9.584831237792969,
	"learning_rate": 9.113524800955074e-06,
	"loss": 1.1187,
	"step": 2840
	},
	{
	"epoch": 0.1883799325798136,
	"grad_norm": 4.967813491821289,
	"learning_rate": 9.043121446189398e-06,
	"loss": 1.0012,
	"step": 2850
	},
	{
	"epoch": 0.1883799325798136,
	"eval_loss": 1.2398909330368042,
	"eval_runtime": 53.5377,
	"eval_samples_per_second": 9.358,
	"eval_steps_per_second": 9.358,
	"step": 2850
	},
	{
	"epoch": 0.1890409147993919,
	"grad_norm": 11.762967109680176,
	"learning_rate": 8.972805944102928e-06,
	"loss": 1.1628,
	"step": 2860
	},
	{
	"epoch": 0.1897018970189702,
	"grad_norm": 9.806082725524902,
	"learning_rate": 8.902581185090555e-06,
	"loss": 1.0982,
	"step": 2870
	},
	{
	"epoch": 0.19036287923854847,
	"grad_norm": 5.619679927825928,
	"learning_rate": 8.832450055817064e-06,
	"loss": 1.1545,
	"step": 2880
	},
	{
	"epoch": 0.19102386145812678,
	"grad_norm": 12.290181159973145,
	"learning_rate": 8.7624154390985e-06,
	"loss": 1.1625,
	"step": 2890
	},
	{
	"epoch": 0.19168484367770508,
	"grad_norm": 12.353217124938965,
	"learning_rate": 8.692480213783649e-06,
	"loss": 1.159,
	"step": 2900
	},
	{
	"epoch": 0.19234582589728336,
	"grad_norm": 9.661192893981934,
	"learning_rate": 8.622647254635703e-06,
	"loss": 1.2334,
	"step": 2910
	},
	{
	"epoch": 0.19300680811686166,
	"grad_norm": 10.236005783081055,
	"learning_rate": 8.552919432214097e-06,
	"loss": 1.1434,
	"step": 2920
	},
	{
	"epoch": 0.19366779033643994,
	"grad_norm": 11.429096221923828,
	"learning_rate": 8.483299612756505e-06,
	"loss": 1.2204,
	"step": 2930
	},
	{
	"epoch": 0.19432877255601824,
	"grad_norm": 7.723197937011719,
	"learning_rate": 8.413790658061028e-06,
	"loss": 1.2049,
	"step": 2940
	},
	{
	"epoch": 0.19498975477559655,
	"grad_norm": 9.042826652526855,
	"learning_rate": 8.344395425368537e-06,
	"loss": 1.1231,
	"step": 2950
	},
	{
	"epoch": 0.19565073699517482,
	"grad_norm": 11.260157585144043,
	"learning_rate": 8.275116767245251e-06,
	"loss": 1.1543,
	"step": 2960
	},
	{
	"epoch": 0.19631171921475313,
	"grad_norm": 5.6008830070495605,
	"learning_rate": 8.205957531465456e-06,
	"loss": 1.0243,
	"step": 2970
	},
	{
	"epoch": 0.1969727014343314,
	"grad_norm": 5.492390155792236,
	"learning_rate": 8.136920560894458e-06,
	"loss": 1.2962,
	"step": 2980
	},
	{
	"epoch": 0.1976336836539097,
	"grad_norm": 10.791748046875,
	"learning_rate": 8.068008693371723e-06,
	"loss": 1.0384,
	"step": 2990
	},
	{
	"epoch": 0.198294665873488,
	"grad_norm": 6.472116470336914,
	"learning_rate": 7.999224761594206e-06,
	"loss": 1.0479,
	"step": 3000
	},
	{
	"epoch": 0.198294665873488,
	"eval_loss": 1.2349213361740112,
	"eval_runtime": 53.0521,
	"eval_samples_per_second": 9.444,
	"eval_steps_per_second": 9.444,
	"step": 3000
	},
	{
	"epoch": 0.1989556480930663,
	"grad_norm": 7.443964958190918,
	"learning_rate": 7.930571592999942e-06,
	"loss": 1.1367,
	"step": 3010
	},
	{
	"epoch": 0.1996166303126446,
	"grad_norm": 7.271074295043945,
	"learning_rate": 7.86205200965179e-06,
	"loss": 1.1435,
	"step": 3020
	},
	{
	"epoch": 0.20027761253222287,
	"grad_norm": 12.19694995880127,
	"learning_rate": 7.793668828121457e-06,
	"loss": 1.274,
	"step": 3030
	},
	{
	"epoch": 0.20093859475180118,
	"grad_norm": 6.130085468292236,
	"learning_rate": 7.725424859373688e-06,
	"loss": 1.1887,
	"step": 3040
	},
	{
	"epoch": 0.20159957697137948,
	"grad_norm": 8.441886901855469,
	"learning_rate": 7.65732290865075e-06,
	"loss": 1.1228,
	"step": 3050
	},
	{
	"epoch": 0.20226055919095776,
	"grad_norm": 10.298881530761719,
	"learning_rate": 7.589365775357096e-06,
	"loss": 1.1681,
	"step": 3060
	},
	{
	"epoch": 0.20292154141053606,
	"grad_norm": 5.6892218589782715,
	"learning_rate": 7.52155625294431e-06,
	"loss": 1.1967,
	"step": 3070
	},
	{
	"epoch": 0.20358252363011434,
	"grad_norm": 4.733664035797119,
	"learning_rate": 7.453897128796269e-06,
	"loss": 0.9874,
	"step": 3080
	},
	{
	"epoch": 0.20424350584969264,
	"grad_norm": 6.695845603942871,
	"learning_rate": 7.386391184114558e-06,
	"loss": 1.2284,
	"step": 3090
	},
	{
	"epoch": 0.20490448806927095,
	"grad_norm": 11.191842079162598,
	"learning_rate": 7.319041193804161e-06,
	"loss": 1.2232,
	"step": 3100
	},
	{
	"epoch": 0.20556547028884922,
	"grad_norm": 6.132591724395752,
	"learning_rate": 7.2518499263593866e-06,
	"loss": 1.12,
	"step": 3110
	},
	{
	"epoch": 0.20622645250842753,
	"grad_norm": 11.867471694946289,
	"learning_rate": 7.184820143750079e-06,
	"loss": 1.1889,
	"step": 3120
	},
	{
	"epoch": 0.2068874347280058,
	"grad_norm": 10.931007385253906,
	"learning_rate": 7.117954601308052e-06,
	"loss": 1.2347,
	"step": 3130
	},
	{
	"epoch": 0.2075484169475841,
	"grad_norm": 12.895480155944824,
	"learning_rate": 7.051256047613866e-06,
	"loss": 1.216,
	"step": 3140
	},
	{
	"epoch": 0.2082093991671624,
	"grad_norm": 10.634278297424316,
	"learning_rate": 6.984727224383822e-06,
	"loss": 1.1687,
	"step": 3150
	},
	{
	"epoch": 0.2082093991671624,
	"eval_loss": 1.2307320833206177,
	"eval_runtime": 58.1752,
	"eval_samples_per_second": 8.612,
	"eval_steps_per_second": 8.612,
	"step": 3150
	},
	{
	"epoch": 0.2088703813867407,
	"grad_norm": 11.298223495483398,
	"learning_rate": 6.918370866357266e-06,
	"loss": 1.1429,
	"step": 3160
	},
	{
	"epoch": 0.209531363606319,
	"grad_norm": 5.801537036895752,
	"learning_rate": 6.852189701184183e-06,
	"loss": 1.1809,
	"step": 3170
	},
	{
	"epoch": 0.21019234582589727,
	"grad_norm": 11.565352439880371,
	"learning_rate": 6.786186449313051e-06,
	"loss": 1.1068,
	"step": 3180
	},
	{
	"epoch": 0.21085332804547557,
	"grad_norm": 9.563201904296875,
	"learning_rate": 6.720363823879042e-06,
	"loss": 1.1438,
	"step": 3190
	},
	{
	"epoch": 0.21151431026505388,
	"grad_norm": 3.7967348098754883,
	"learning_rate": 6.6547245305924765e-06,
	"loss": 1.1022,
	"step": 3200
	},
	{
	"epoch": 0.21217529248463216,
	"grad_norm": 9.867331504821777,
	"learning_rate": 6.589271267627615e-06,
	"loss": 1.0329,
	"step": 3210
	},
	{
	"epoch": 0.21283627470421046,
	"grad_norm": 10.908332824707031,
	"learning_rate": 6.524006725511727e-06,
	"loss": 1.0811,
	"step": 3220
	},
	{
	"epoch": 0.21349725692378874,
	"grad_norm": 11.866363525390625,
	"learning_rate": 6.4589335870145165e-06,
	"loss": 1.1611,
	"step": 3230
	},
	{
	"epoch": 0.21415823914336704,
	"grad_norm": 12.108943939208984,
	"learning_rate": 6.394054527037837e-06,
	"loss": 1.1558,
	"step": 3240
	},
	{
	"epoch": 0.21481922136294535,
	"grad_norm": 11.09125804901123,
	"learning_rate": 6.329372212505727e-06,
	"loss": 1.1853,
	"step": 3250
	},
	{
	"epoch": 0.21548020358252362,
	"grad_norm": 12.74525260925293,
	"learning_rate": 6.264889302254797e-06,
	"loss": 1.1862,
	"step": 3260
	},
	{
	"epoch": 0.21614118580210193,
	"grad_norm": 9.876714706420898,
	"learning_rate": 6.200608446924922e-06,
	"loss": 1.1651,
	"step": 3270
	},
	{
	"epoch": 0.21680216802168023,
	"grad_norm": 9.700896263122559,
	"learning_rate": 6.136532288850295e-06,
	"loss": 1.2345,
	"step": 3280
	},
	{
	"epoch": 0.2174631502412585,
	"grad_norm": 10.941569328308105,
	"learning_rate": 6.072663461950806e-06,
	"loss": 1.0379,
	"step": 3290
	},
	{
	"epoch": 0.2181241324608368,
	"grad_norm": 13.29504108428955,
	"learning_rate": 6.009004591623776e-06,
	"loss": 1.1251,
	"step": 3300
	},
	{
	"epoch": 0.2181241324608368,
	"eval_loss": 1.2260839939117432,
	"eval_runtime": 47.8562,
	"eval_samples_per_second": 10.469,
	"eval_steps_per_second": 10.469,
	"step": 3300
	},
	{
	"epoch": 0.2187851146804151,
	"grad_norm": 8.1751708984375,
	"learning_rate": 5.945558294636019e-06,
	"loss": 1.1452,
	"step": 3310
	},
	{
	"epoch": 0.2194460968999934,
	"grad_norm": 12.451173782348633,
	"learning_rate": 5.882327179016307e-06,
	"loss": 1.217,
	"step": 3320
	},
	{
	"epoch": 0.2201070791195717,
	"grad_norm": 11.116937637329102,
	"learning_rate": 5.819313843948146e-06,
	"loss": 1.1602,
	"step": 3330
	},
	{
	"epoch": 0.22076806133914997,
	"grad_norm": 10.272557258605957,
	"learning_rate": 5.756520879662929e-06,
	"loss": 1.2616,
	"step": 3340
	},
	{
	"epoch": 0.22142904355872828,
	"grad_norm": 10.73164176940918,
	"learning_rate": 5.693950867333488e-06,
	"loss": 1.2448,
	"step": 3350
	},
	{
	"epoch": 0.22209002577830655,
	"grad_norm": 11.405309677124023,
	"learning_rate": 5.6316063789679415e-06,
	"loss": 1.2419,
	"step": 3360
	},
	{
	"epoch": 0.22275100799788486,
	"grad_norm": 6.117231369018555,
	"learning_rate": 5.569489977304029e-06,
	"loss": 1.2027,
	"step": 3370
	},
	{
	"epoch": 0.22341199021746316,
	"grad_norm": 12.008468627929688,
	"learning_rate": 5.507604215703729e-06,
	"loss": 1.1525,
	"step": 3380
	},
	{
	"epoch": 0.22407297243704144,
	"grad_norm": 6.268473148345947,
	"learning_rate": 5.44595163804831e-06,
	"loss": 1.1422,
	"step": 3390
	},
	{
	"epoch": 0.22473395465661974,
	"grad_norm": 14.515848159790039,
	"learning_rate": 5.384534778633763e-06,
	"loss": 1.0998,
	"step": 3400
	},
	{
	"epoch": 0.22539493687619802,
	"grad_norm": 10.610064506530762,
	"learning_rate": 5.323356162066626e-06,
	"loss": 1.2074,
	"step": 3410
	},
	{
	"epoch": 0.22605591909577633,
	"grad_norm": 11.648080825805664,
	"learning_rate": 5.262418303160206e-06,
	"loss": 1.0755,
	"step": 3420
	},
	{
	"epoch": 0.22671690131535463,
	"grad_norm": 6.210646629333496,
	"learning_rate": 5.201723706831204e-06,
	"loss": 1.1203,
	"step": 3430
	},
	{
	"epoch": 0.2273778835349329,
	"grad_norm": 4.218708038330078,
	"learning_rate": 5.141274867996755e-06,
	"loss": 0.9939,
	"step": 3440
	},
	{
	"epoch": 0.2280388657545112,
	"grad_norm": 8.179903030395508,
	"learning_rate": 5.081074271471855e-06,
	"loss": 1.0597,
	"step": 3450
	},
	{
	"epoch": 0.2280388657545112,
	"eval_loss": 1.2263822555541992,
	"eval_runtime": 52.855,
	"eval_samples_per_second": 9.479,
	"eval_steps_per_second": 9.479,
	"step": 3450
	},
	{
	"epoch": 0.2286998479740895,
	"grad_norm": 13.975303649902344,
	"learning_rate": 5.021124391867241e-06,
	"loss": 1.1898,
	"step": 3460
	},
	{
	"epoch": 0.2293608301936678,
	"grad_norm": 11.902430534362793,
	"learning_rate": 4.961427693487654e-06,
	"loss": 1.2382,
	"step": 3470
	},
	{
	"epoch": 0.2300218124132461,
	"grad_norm": 7.363813877105713,
	"learning_rate": 4.901986630230549e-06,
	"loss": 1.1337,
	"step": 3480
	},
	{
	"epoch": 0.23068279463282437,
	"grad_norm": 14.231773376464844,
	"learning_rate": 4.842803645485228e-06,
	"loss": 1.2631,
	"step": 3490
	},
	{
	"epoch": 0.23134377685240268,
	"grad_norm": 13.055315971374512,
	"learning_rate": 4.7838811720323795e-06,
	"loss": 1.2307,
	"step": 3500
	},
	{
	"epoch": 0.23200475907198095,
	"grad_norm": 11.109673500061035,
	"learning_rate": 4.725221631944109e-06,
	"loss": 1.0673,
	"step": 3510
	},
	{
	"epoch": 0.23266574129155926,
	"grad_norm": 9.12000560760498,
	"learning_rate": 4.666827436484355e-06,
	"loss": 1.2818,
	"step": 3520
	},
	{
	"epoch": 0.23332672351113756,
	"grad_norm": 11.266242980957031,
	"learning_rate": 4.60870098600978e-06,
	"loss": 0.9892,
	"step": 3530
	},
	{
	"epoch": 0.23398770573071584,
	"grad_norm": 13.089488983154297,
	"learning_rate": 4.550844669871095e-06,
	"loss": 1.1585,
	"step": 3540
	},
	{
	"epoch": 0.23464868795029414,
	"grad_norm": 9.938103675842285,
	"learning_rate": 4.493260866314851e-06,
	"loss": 1.1734,
	"step": 3550
	},
	{
	"epoch": 0.23530967016987242,
	"grad_norm": 10.093935012817383,
	"learning_rate": 4.435951942385671e-06,
	"loss": 1.1185,
	"step": 3560
	},
	{
	"epoch": 0.23597065238945072,
	"grad_norm": 4.782352924346924,
	"learning_rate": 4.378920253828953e-06,
	"loss": 1.1413,
	"step": 3570
	},
	{
	"epoch": 0.23663163460902903,
	"grad_norm": 11.091765403747559,
	"learning_rate": 4.322168144994041e-06,
	"loss": 1.2909,
	"step": 3580
	},
	{
	"epoch": 0.2372926168286073,
	"grad_norm": 10.81592845916748,
	"learning_rate": 4.265697948737836e-06,
	"loss": 1.2501,
	"step": 3590
	},
	{
	"epoch": 0.2379535990481856,
	"grad_norm": 11.043889045715332,
	"learning_rate": 4.209511986328935e-06,
	"loss": 1.1757,
	"step": 3600
	},
	{
	"epoch": 0.2379535990481856,
	"eval_loss": 1.223681092262268,
	"eval_runtime": 54.0238,
	"eval_samples_per_second": 9.274,
	"eval_steps_per_second": 9.274,
	"step": 3600
	},
	{
	"epoch": 0.2386145812677639,
	"grad_norm": 6.890323638916016,
	"learning_rate": 4.153612567352186e-06,
	"loss": 1.0562,
	"step": 3610
	},
	{
	"epoch": 0.2392755634873422,
	"grad_norm": 8.741559028625488,
	"learning_rate": 4.098001989613763e-06,
	"loss": 1.1737,
	"step": 3620
	},
	{
	"epoch": 0.2399365457069205,
	"grad_norm": 12.617691993713379,
	"learning_rate": 4.042682539046698e-06,
	"loss": 1.2365,
	"step": 3630
	},
	{
	"epoch": 0.24059752792649877,
	"grad_norm": 6.839216232299805,
	"learning_rate": 3.987656489616937e-06,
	"loss": 1.1941,
	"step": 3640
	},
	{
	"epoch": 0.24125851014607708,
	"grad_norm": 10.760446548461914,
	"learning_rate": 3.932926103229849e-06,
	"loss": 1.1187,
	"step": 3650
	},
	{
	"epoch": 0.24191949236565535,
	"grad_norm": 7.493879795074463,
	"learning_rate": 3.878493629637249e-06,
	"loss": 1.1193,
	"step": 3660
	},
	{
	"epoch": 0.24258047458523366,
	"grad_norm": 8.233012199401855,
	"learning_rate": 3.824361306344942e-06,
	"loss": 1.1905,
	"step": 3670
	},
	{
	"epoch": 0.24324145680481196,
	"grad_norm": 8.992157936096191,
	"learning_rate": 3.7705313585207056e-06,
	"loss": 1.0877,
	"step": 3680
	},
	{
	"epoch": 0.24390243902439024,
	"grad_norm": 13.892884254455566,
	"learning_rate": 3.717005998902859e-06,
	"loss": 1.1345,
	"step": 3690
	},
	{
	"epoch": 0.24456342124396854,
	"grad_norm": 10.53703784942627,
	"learning_rate": 3.6637874277092946e-06,
	"loss": 1.1473,
	"step": 3700
	},
	{
	"epoch": 0.24522440346354682,
	"grad_norm": 5.2873406410217285,
	"learning_rate": 3.610877832547034e-06,
	"loss": 1.0317,
	"step": 3710
	},
	{
	"epoch": 0.24588538568312512,
	"grad_norm": 8.536104202270508,
	"learning_rate": 3.5582793883222923e-06,
	"loss": 1.0296,
	"step": 3720
	},
	{
	"epoch": 0.24654636790270343,
	"grad_norm": 7.4764227867126465,
	"learning_rate": 3.5059942571511037e-06,
	"loss": 1.0728,
	"step": 3730
	},
	{
	"epoch": 0.2472073501222817,
	"grad_norm": 9.194038391113281,
	"learning_rate": 3.4540245882704213e-06,
	"loss": 1.1157,
	"step": 3740
	},
	{
	"epoch": 0.24786833234186,
	"grad_norm": 10.502184867858887,
	"learning_rate": 3.4023725179497848e-06,
	"loss": 1.1923,
	"step": 3750
	},
	{
	"epoch": 0.24786833234186,
	"eval_loss": 1.2212793827056885,
	"eval_runtime": 53.4315,
	"eval_samples_per_second": 9.376,
	"eval_steps_per_second": 9.376,
	"step": 3750
	},
	{
	"epoch": 0.24852931456143829,
	"grad_norm": 7.8659234046936035,
	"learning_rate": 3.351040169403499e-06,
	"loss": 1.0991,
	"step": 3760
	},
	{
	"epoch": 0.2491902967810166,
	"grad_norm": 8.55827808380127,
	"learning_rate": 3.30002965270335e-06,
	"loss": 1.0168,
	"step": 3770
	},
	{
	"epoch": 0.2498512790005949,
	"grad_norm": 10.08139705657959,
	"learning_rate": 3.2493430646918865e-06,
	"loss": 1.188,
	"step": 3780
	},
	{
	"epoch": 0.25051226122017317,
	"grad_norm": 7.772961139678955,
	"learning_rate": 3.1989824888962225e-06,
	"loss": 1.1373,
	"step": 3790
	},
	{
	"epoch": 0.25117324343975145,
	"grad_norm": 7.485221862792969,
	"learning_rate": 3.1489499954423797e-06,
	"loss": 1.2637,
	"step": 3800
	},
	{
	"epoch": 0.2518342256593298,
	"grad_norm": 14.595245361328125,
	"learning_rate": 3.0992476409701936e-06,
	"loss": 1.1433,
	"step": 3810
	},
	{
	"epoch": 0.25249520787890806,
	"grad_norm": 11.104635238647461,
	"learning_rate": 3.0498774685487882e-06,
	"loss": 1.1773,
	"step": 3820
	},
	{
	"epoch": 0.25315619009848633,
	"grad_norm": 6.462589263916016,
	"learning_rate": 3.000841507592583e-06,
	"loss": 1.0087,
	"step": 3830
	},
	{
	"epoch": 0.25381717231806467,
	"grad_norm": 12.072765350341797,
	"learning_rate": 2.9521417737778717e-06,
	"loss": 1.0804,
	"step": 3840
	},
	{
	"epoch": 0.25447815453764294,
	"grad_norm": 11.500109672546387,
	"learning_rate": 2.9037802689599704e-06,
	"loss": 1.1597,
	"step": 3850
	},
	{
	"epoch": 0.2551391367572212,
	"grad_norm": 8.149591445922852,
	"learning_rate": 2.855758981090918e-06,
	"loss": 1.2028,
	"step": 3860
	},
	{
	"epoch": 0.25580011897679955,
	"grad_norm": 11.354681015014648,
	"learning_rate": 2.8080798841377743e-06,
	"loss": 1.1725,
	"step": 3870
	},
	{
	"epoch": 0.2564611011963778,
	"grad_norm": 9.085524559020996,
	"learning_rate": 2.7607449380014703e-06,
	"loss": 1.2511,
	"step": 3880
	},
	{
	"epoch": 0.2571220834159561,
	"grad_norm": 10.283825874328613,
	"learning_rate": 2.713756088436244e-06,
	"loss": 1.1444,
	"step": 3890
	},
	{
	"epoch": 0.2577830656355344,
	"grad_norm": 11.607617378234863,
	"learning_rate": 2.6671152669696515e-06,
	"loss": 1.1419,
	"step": 3900
	},
	{
	"epoch": 0.2577830656355344,
	"eval_loss": 1.2201364040374756,
	"eval_runtime": 55.3983,
	"eval_samples_per_second": 9.044,
	"eval_steps_per_second": 9.044,
	"step": 3900
	},
	{
	"epoch": 0.2584440478551127,
	"grad_norm": 7.006284713745117,
	"learning_rate": 2.6208243908231916e-06,
	"loss": 1.0414,
	"step": 3910
	},
	{
	"epoch": 0.259105030074691,
	"grad_norm": 10.41873550415039,
	"learning_rate": 2.57488536283347e-06,
	"loss": 1.1597,
	"step": 3920
	},
	{
	"epoch": 0.25976601229426927,
	"grad_norm": 9.293778419494629,
	"learning_rate": 2.5293000713739977e-06,
	"loss": 1.182,
	"step": 3930
	},
	{
	"epoch": 0.2604269945138476,
	"grad_norm": 11.898356437683105,
	"learning_rate": 2.4840703902775642e-06,
	"loss": 1.2502,
	"step": 3940
	},
	{
	"epoch": 0.2610879767334259,
	"grad_norm": 9.323407173156738,
	"learning_rate": 2.4391981787592005e-06,
	"loss": 1.0892,
	"step": 3950
	},
	{
	"epoch": 0.26174895895300415,
	"grad_norm": 11.664414405822754,
	"learning_rate": 2.3946852813397737e-06,
	"loss": 1.1837,
	"step": 3960
	},
	{
	"epoch": 0.2624099411725825,
	"grad_norm": 11.392061233520508,
	"learning_rate": 2.3505335277701494e-06,
	"loss": 1.0029,
	"step": 3970
	},
	{
	"epoch": 0.26307092339216076,
	"grad_norm": 10.388303756713867,
	"learning_rate": 2.306744732955991e-06,
	"loss": 1.172,
	"step": 3980
	},
	{
	"epoch": 0.26373190561173904,
	"grad_norm": 11.332767486572266,
	"learning_rate": 2.2633206968831374e-06,
	"loss": 1.1951,
	"step": 3990
	},
	{
	"epoch": 0.2643928878313173,
	"grad_norm": 4.8323259353637695,
	"learning_rate": 2.220263204543635e-06,
	"loss": 1.0181,
	"step": 4000
	},
	{
	"epoch": 0.26505387005089565,
	"grad_norm": 11.138567924499512,
	"learning_rate": 2.1775740258623492e-06,
	"loss": 1.1295,
	"step": 4010
	},
	{
	"epoch": 0.2657148522704739,
	"grad_norm": 7.644820690155029,
	"learning_rate": 2.1352549156242126e-06,
	"loss": 1.1392,
	"step": 4020
	},
	{
	"epoch": 0.2663758344900522,
	"grad_norm": 11.998611450195312,
	"learning_rate": 2.0933076134020958e-06,
	"loss": 1.1516,
	"step": 4030
	},
	{
	"epoch": 0.26703681670963053,
	"grad_norm": 9.40128231048584,
	"learning_rate": 2.0517338434852946e-06,
	"loss": 1.1157,
	"step": 4040
	},
	{
	"epoch": 0.2676977989292088,
	"grad_norm": 7.291782379150391,
	"learning_rate": 2.010535314808659e-06,
	"loss": 1.1069,
	"step": 4050
	},
	{
	"epoch": 0.2676977989292088,
	"eval_loss": 1.2179657220840454,
	"eval_runtime": 53.213,
	"eval_samples_per_second": 9.415,
	"eval_steps_per_second": 9.415,
	"step": 4050
	},
	{
	"epoch": 0.2683587811487871,
	"grad_norm": 11.658596992492676,
	"learning_rate": 1.9697137208823396e-06,
	"loss": 1.172,
	"step": 4060
	},
	{
	"epoch": 0.2690197633683654,
	"grad_norm": 5.082404613494873,
	"learning_rate": 1.9292707397221775e-06,
	"loss": 1.1331,
	"step": 4070
	},
	{
	"epoch": 0.2696807455879437,
	"grad_norm": 13.126559257507324,
	"learning_rate": 1.8892080337807171e-06,
	"loss": 1.1899,
	"step": 4080
	},
	{
	"epoch": 0.27034172780752197,
	"grad_norm": 11.264731407165527,
	"learning_rate": 1.8495272498788887e-06,
	"loss": 1.0929,
	"step": 4090
	},
	{
	"epoch": 0.27100271002710025,
	"grad_norm": 12.232498168945312,
	"learning_rate": 1.8102300191383008e-06,
	"loss": 1.1517,
	"step": 4100
	},
	{
	"epoch": 0.2716636922466786,
	"grad_norm": 6.517210483551025,
	"learning_rate": 1.7713179569141897e-06,
	"loss": 1.1451,
	"step": 4110
	},
	{
	"epoch": 0.27232467446625686,
	"grad_norm": 10.073516845703125,
	"learning_rate": 1.7327926627290298e-06,
	"loss": 1.1757,
	"step": 4120
	},
	{
	"epoch": 0.27298565668583513,
	"grad_norm": 10.904183387756348,
	"learning_rate": 1.6946557202067662e-06,
	"loss": 1.201,
	"step": 4130
	},
	{
	"epoch": 0.27364663890541346,
	"grad_norm": 9.502151489257812,
	"learning_rate": 1.6569086970077352e-06,
	"loss": 1.1649,
	"step": 4140
	},
	{
	"epoch": 0.27430762112499174,
	"grad_norm": 12.71923542022705,
	"learning_rate": 1.6195531447642177e-06,
	"loss": 1.2048,
	"step": 4150
	},
	{
	"epoch": 0.27496860334457,
	"grad_norm": 13.27767562866211,
	"learning_rate": 1.582590599016653e-06,
	"loss": 1.0894,
	"step": 4160
	},
	{
	"epoch": 0.27562958556414835,
	"grad_norm": 12.859643936157227,
	"learning_rate": 1.5460225791505258e-06,
	"loss": 1.1565,
	"step": 4170
	},
	{
	"epoch": 0.2762905677837266,
	"grad_norm": 6.589792728424072,
	"learning_rate": 1.509850588333905e-06,
	"loss": 1.0296,
	"step": 4180
	},
	{
	"epoch": 0.2769515500033049,
	"grad_norm": 13.752243995666504,
	"learning_rate": 1.4740761134556557e-06,
	"loss": 1.312,
	"step": 4190
	},
	{
	"epoch": 0.2776125322228832,
	"grad_norm": 12.691303253173828,
	"learning_rate": 1.4387006250643236e-06,
	"loss": 1.1494,
	"step": 4200
	},
	{
	"epoch": 0.2776125322228832,
	"eval_loss": 1.2168010473251343,
	"eval_runtime": 51.4283,
	"eval_samples_per_second": 9.742,
	"eval_steps_per_second": 9.742,
	"step": 4200
	},
	{
	"epoch": 0.2782735144424615,
	"grad_norm": 11.23477840423584,
	"learning_rate": 1.4037255773076804e-06,
	"loss": 1.0421,
	"step": 4210
	},
	{
	"epoch": 0.2789344966620398,
	"grad_norm": 10.921051979064941,
	"learning_rate": 1.3691524078729481e-06,
	"loss": 1.055,
	"step": 4220
	},
	{
	"epoch": 0.27959547888161806,
	"grad_norm": 7.342863082885742,
	"learning_rate": 1.3349825379277099e-06,
	"loss": 1.2973,
	"step": 4230
	},
	{
	"epoch": 0.2802564611011964,
	"grad_norm": 11.837105751037598,
	"learning_rate": 1.3012173720614862e-06,
	"loss": 1.2177,
	"step": 4240
	},
	{
	"epoch": 0.2809174433207747,
	"grad_norm": 13.415239334106445,
	"learning_rate": 1.267858298227995e-06,
	"loss": 1.1455,
	"step": 4250
	},
	{
	"epoch": 0.28157842554035295,
	"grad_norm": 11.301210403442383,
	"learning_rate": 1.2349066876881063e-06,
	"loss": 1.1602,
	"step": 4260
	},
	{
	"epoch": 0.2822394077599313,
	"grad_norm": 5.907723903656006,
	"learning_rate": 1.202363894953462e-06,
	"loss": 1.1053,
	"step": 4270
	},
	{
	"epoch": 0.28290038997950956,
	"grad_norm": 12.926289558410645,
	"learning_rate": 1.1702312577308133e-06,
	"loss": 1.2056,
	"step": 4280
	},
	{
	"epoch": 0.28356137219908784,
	"grad_norm": 10.026867866516113,
	"learning_rate": 1.1385100968670189e-06,
	"loss": 1.1685,
	"step": 4290
	},
	{
	"epoch": 0.2842223544186661,
	"grad_norm": 12.193798065185547,
	"learning_rate": 1.107201716294762e-06,
	"loss": 1.1253,
	"step": 4300
	},
	{
	"epoch": 0.28488333663824444,
	"grad_norm": 6.5807294845581055,
	"learning_rate": 1.076307402978938e-06,
	"loss": 1.1252,
	"step": 4310
	},
	{
	"epoch": 0.2855443188578227,
	"grad_norm": 11.568461418151855,
	"learning_rate": 1.0458284268637652e-06,
	"loss": 1.2131,
	"step": 4320
	},
	{
	"epoch": 0.286205301077401,
	"grad_norm": 5.46840238571167,
	"learning_rate": 1.0157660408205728e-06,
	"loss": 1.0678,
	"step": 4330
	},
	{
	"epoch": 0.28686628329697933,
	"grad_norm": 13.20085334777832,
	"learning_rate": 9.861214805963042e-07,
	"loss": 1.1974,
	"step": 4340
	},
	{
	"epoch": 0.2875272655165576,
	"grad_norm": 13.585931777954102,
	"learning_rate": 9.568959647627223e-07,
	"loss": 1.1664,
	"step": 4350
	},
	{
	"epoch": 0.2875272655165576,
	"eval_loss": 1.21638822555542,
	"eval_runtime": 51.7738,
	"eval_samples_per_second": 9.677,
	"eval_steps_per_second": 9.677,
	"step": 4350
	},
	{
	"epoch": 0.2881882477361359,
	"grad_norm": 7.628300189971924,
	"learning_rate": 9.280906946663111e-07,
	"loss": 1.0584,
	"step": 4360
	},
	{
	"epoch": 0.2888492299557142,
	"grad_norm": 8.380716323852539,
	"learning_rate": 8.997068543789051e-07,
	"loss": 1.1137,
	"step": 4370
	},
	{
	"epoch": 0.2895102121752925,
	"grad_norm": 12.071667671203613,
	"learning_rate": 8.717456106490042e-07,
	"loss": 1.0887,
	"step": 4380
	},
	{
	"epoch": 0.29017119439487077,
	"grad_norm": 6.33940315246582,
	"learning_rate": 8.442081128538243e-07,
	"loss": 1.0145,
	"step": 4390
	},
	{
	"epoch": 0.29083217661444905,
	"grad_norm": 9.972112655639648,
	"learning_rate": 8.170954929520389e-07,
	"loss": 1.1362,
	"step": 4400
	},
	{
	"epoch": 0.2914931588340274,
	"grad_norm": 12.998346328735352,
	"learning_rate": 7.904088654372622e-07,
	"loss": 1.148,
	"step": 4410
	},
	{
	"epoch": 0.29215414105360565,
	"grad_norm": 5.646799087524414,
	"learning_rate": 7.641493272922243e-07,
	"loss": 1.1281,
	"step": 4420
	},
	{
	"epoch": 0.29281512327318393,
	"grad_norm": 10.702962875366211,
	"learning_rate": 7.383179579436903e-07,
	"loss": 1.1785,
	"step": 4430
	},
	{
	"epoch": 0.29347610549276226,
	"grad_norm": 5.956870079040527,
	"learning_rate": 7.129158192180766e-07,
	"loss": 1.1568,
	"step": 4440
	},
	{
	"epoch": 0.29413708771234054,
	"grad_norm": 11.048665046691895,
	"learning_rate": 6.879439552978142e-07,
	"loss": 1.0652,
	"step": 4450
	},
	{
	"epoch": 0.2947980699319188,
	"grad_norm": 5.649775505065918,
	"learning_rate": 6.634033926784221e-07,
	"loss": 1.1235,
	"step": 4460
	},
	{
	"epoch": 0.29545905215149715,
	"grad_norm": 11.055773735046387,
	"learning_rate": 6.392951401263069e-07,
	"loss": 1.285,
	"step": 4470
	},
	{
	"epoch": 0.2961200343710754,
	"grad_norm": 7.027043342590332,
	"learning_rate": 6.156201886373113e-07,
	"loss": 1.209,
	"step": 4480
	},
	{
	"epoch": 0.2967810165906537,
	"grad_norm": 11.43958854675293,
	"learning_rate": 5.923795113959569e-07,
	"loss": 1.2139,
	"step": 4490
	},
	{
	"epoch": 0.297441998810232,
	"grad_norm": 11.668280601501465,
	"learning_rate": 5.695740637354591e-07,
	"loss": 1.2407,
	"step": 4500
	},
	{
	"epoch": 0.297441998810232,
	"eval_loss": 1.2155283689498901,
	"eval_runtime": 48.0067,
	"eval_samples_per_second": 10.436,
	"eval_steps_per_second": 10.436,
	"step": 4500
	},
	{
	"epoch": 0.2981029810298103,
	"grad_norm": 10.411969184875488,
	"learning_rate": 5.472047830984499e-07,
	"loss": 1.1499,
	"step": 4510
	},
	{
	"epoch": 0.2987639632493886,
	"grad_norm": 6.937885761260986,
	"learning_rate": 5.252725889984403e-07,
	"loss": 1.0297,
	"step": 4520
	},
	{
	"epoch": 0.29942494546896686,
	"grad_norm": 10.743237495422363,
	"learning_rate": 5.037783829820298e-07,
	"loss": 1.1198,
	"step": 4530
	},
	{
	"epoch": 0.3000859276885452,
	"grad_norm": 5.665622234344482,
	"learning_rate": 4.827230485918372e-07,
	"loss": 1.0459,
	"step": 4540
	},
	{
	"epoch": 0.30074690990812347,
	"grad_norm": 9.720799446105957,
	"learning_rate": 4.6210745133019236e-07,
	"loss": 1.1943,
	"step": 4550
	},
	{
	"epoch": 0.30140789212770175,
	"grad_norm": 11.57904052734375,
	"learning_rate": 4.419324386235529e-07,
	"loss": 1.2007,
	"step": 4560
	},
	{
	"epoch": 0.3020688743472801,
	"grad_norm": 10.47191333770752,
	"learning_rate": 4.2219883978767386e-07,
	"loss": 1.1754,
	"step": 4570
	},
	{
	"epoch": 0.30272985656685836,
	"grad_norm": 8.371639251708984,
	"learning_rate": 4.029074659935082e-07,
	"loss": 1.0829,
	"step": 4580
	},
	{
	"epoch": 0.30339083878643663,
	"grad_norm": 11.640840530395508,
	"learning_rate": 3.8405911023387444e-07,
	"loss": 1.0573,
	"step": 4590
	},
	{
	"epoch": 0.3040518210060149,
	"grad_norm": 14.082575798034668,
	"learning_rate": 3.6565454729085526e-07,
	"loss": 1.2711,
	"step": 4600
	},
	{
	"epoch": 0.30471280322559324,
	"grad_norm": 8.940695762634277,
	"learning_rate": 3.4769453370394753e-07,
	"loss": 1.1595,
	"step": 4610
	},
	{
	"epoch": 0.3053737854451715,
	"grad_norm": 7.7234954833984375,
	"learning_rate": 3.301798077389637e-07,
	"loss": 1.2151,
	"step": 4620
	},
	{
	"epoch": 0.3060347676647498,
	"grad_norm": 4.756081581115723,
	"learning_rate": 3.1311108935768926e-07,
	"loss": 1.173,
	"step": 4630
	},
	{
	"epoch": 0.30669574988432813,
	"grad_norm": 10.524628639221191,
	"learning_rate": 2.964890801882817e-07,
	"loss": 1.0992,
	"step": 4640
	},
	{
	"epoch": 0.3073567321039064,
	"grad_norm": 6.618716716766357,
	"learning_rate": 2.8031446349643393e-07,
	"loss": 1.1152,
	"step": 4650
	},
	{
	"epoch": 0.3073567321039064,
	"eval_loss": 1.2152043581008911,
	"eval_runtime": 53.4713,
	"eval_samples_per_second": 9.37,
	"eval_steps_per_second": 9.37,
	"step": 4650
	}
	],
	"logging_steps": 10,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 150,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.2041141329494016e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}