GENOME-gemma-2b-it / cot /trainer_state.json

Upload 15 files

e64b907 verified 12 months ago

131 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 1000,
	"global_step": 7385,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006770480704129994,
	"grad_norm": 2.130030393600464,
	"learning_rate": 2.7063599458728013e-06,
	"loss": 2.3319,
	"step": 10
	},
	{
	"epoch": 0.013540961408259987,
	"grad_norm": 2.666555881500244,
	"learning_rate": 5.4127198917456026e-06,
	"loss": 2.3443,
	"step": 20
	},
	{
	"epoch": 0.020311442112389978,
	"grad_norm": 2.274488687515259,
	"learning_rate": 8.119079837618404e-06,
	"loss": 2.3759,
	"step": 30
	},
	{
	"epoch": 0.027081922816519974,
	"grad_norm": 2.197918653488159,
	"learning_rate": 1.0825439783491205e-05,
	"loss": 2.1286,
	"step": 40
	},
	{
	"epoch": 0.033852403520649964,
	"grad_norm": 2.2513201236724854,
	"learning_rate": 1.3531799729364006e-05,
	"loss": 1.9161,
	"step": 50
	},
	{
	"epoch": 0.040622884224779957,
	"grad_norm": 1.52046537399292,
	"learning_rate": 1.6238159675236808e-05,
	"loss": 1.6287,
	"step": 60
	},
	{
	"epoch": 0.04739336492890995,
	"grad_norm": 1.0912840366363525,
	"learning_rate": 1.894451962110961e-05,
	"loss": 1.5206,
	"step": 70
	},
	{
	"epoch": 0.05416384563303995,
	"grad_norm": 1.050105333328247,
	"learning_rate": 2.165087956698241e-05,
	"loss": 1.3484,
	"step": 80
	},
	{
	"epoch": 0.06093432633716994,
	"grad_norm": 1.138007402420044,
	"learning_rate": 2.435723951285521e-05,
	"loss": 1.3352,
	"step": 90
	},
	{
	"epoch": 0.06770480704129993,
	"grad_norm": 1.0807892084121704,
	"learning_rate": 2.7063599458728013e-05,
	"loss": 1.2605,
	"step": 100
	},
	{
	"epoch": 0.07447528774542993,
	"grad_norm": 1.1421936750411987,
	"learning_rate": 2.976995940460081e-05,
	"loss": 1.1888,
	"step": 110
	},
	{
	"epoch": 0.08124576844955991,
	"grad_norm": 1.2684075832366943,
	"learning_rate": 3.2476319350473615e-05,
	"loss": 1.1998,
	"step": 120
	},
	{
	"epoch": 0.08801624915368991,
	"grad_norm": 1.1413911581039429,
	"learning_rate": 3.518267929634642e-05,
	"loss": 1.1426,
	"step": 130
	},
	{
	"epoch": 0.0947867298578199,
	"grad_norm": 1.3954917192459106,
	"learning_rate": 3.788903924221922e-05,
	"loss": 1.1437,
	"step": 140
	},
	{
	"epoch": 0.1015572105619499,
	"grad_norm": 1.2118768692016602,
	"learning_rate": 4.059539918809202e-05,
	"loss": 1.0564,
	"step": 150
	},
	{
	"epoch": 0.1083276912660799,
	"grad_norm": 1.4291969537734985,
	"learning_rate": 4.330175913396482e-05,
	"loss": 1.0382,
	"step": 160
	},
	{
	"epoch": 0.11509817197020988,
	"grad_norm": 1.351151943206787,
	"learning_rate": 4.600811907983762e-05,
	"loss": 1.0717,
	"step": 170
	},
	{
	"epoch": 0.12186865267433988,
	"grad_norm": 1.3836501836776733,
	"learning_rate": 4.871447902571042e-05,
	"loss": 1.0294,
	"step": 180
	},
	{
	"epoch": 0.12863913337846988,
	"grad_norm": 1.2129018306732178,
	"learning_rate": 5.142083897158322e-05,
	"loss": 1.0081,
	"step": 190
	},
	{
	"epoch": 0.13540961408259986,
	"grad_norm": 1.244095802307129,
	"learning_rate": 5.4127198917456026e-05,
	"loss": 0.9383,
	"step": 200
	},
	{
	"epoch": 0.14218009478672985,
	"grad_norm": 1.3957242965698242,
	"learning_rate": 5.683355886332883e-05,
	"loss": 0.927,
	"step": 210
	},
	{
	"epoch": 0.14895057549085985,
	"grad_norm": 1.688636302947998,
	"learning_rate": 5.953991880920162e-05,
	"loss": 0.9617,
	"step": 220
	},
	{
	"epoch": 0.15572105619498985,
	"grad_norm": 1.376826524734497,
	"learning_rate": 6.224627875507443e-05,
	"loss": 1.0176,
	"step": 230
	},
	{
	"epoch": 0.16249153689911983,
	"grad_norm": 1.4289461374282837,
	"learning_rate": 6.495263870094723e-05,
	"loss": 0.9733,
	"step": 240
	},
	{
	"epoch": 0.16926201760324983,
	"grad_norm": 1.4132306575775146,
	"learning_rate": 6.765899864682003e-05,
	"loss": 1.0141,
	"step": 250
	},
	{
	"epoch": 0.17603249830737983,
	"grad_norm": 1.482531189918518,
	"learning_rate": 7.036535859269283e-05,
	"loss": 0.977,
	"step": 260
	},
	{
	"epoch": 0.18280297901150983,
	"grad_norm": 1.509128212928772,
	"learning_rate": 7.307171853856563e-05,
	"loss": 0.9624,
	"step": 270
	},
	{
	"epoch": 0.1895734597156398,
	"grad_norm": 1.7142691612243652,
	"learning_rate": 7.577807848443844e-05,
	"loss": 1.0063,
	"step": 280
	},
	{
	"epoch": 0.1963439404197698,
	"grad_norm": 1.2345936298370361,
	"learning_rate": 7.848443843031124e-05,
	"loss": 0.9562,
	"step": 290
	},
	{
	"epoch": 0.2031144211238998,
	"grad_norm": 1.4808542728424072,
	"learning_rate": 8.119079837618404e-05,
	"loss": 1.0207,
	"step": 300
	},
	{
	"epoch": 0.2098849018280298,
	"grad_norm": 0.9802400469779968,
	"learning_rate": 8.389715832205684e-05,
	"loss": 0.9731,
	"step": 310
	},
	{
	"epoch": 0.2166553825321598,
	"grad_norm": 1.2837491035461426,
	"learning_rate": 8.660351826792964e-05,
	"loss": 0.9732,
	"step": 320
	},
	{
	"epoch": 0.22342586323628977,
	"grad_norm": 1.6100679636001587,
	"learning_rate": 8.930987821380244e-05,
	"loss": 0.9645,
	"step": 330
	},
	{
	"epoch": 0.23019634394041977,
	"grad_norm": 1.65373957157135,
	"learning_rate": 9.201623815967524e-05,
	"loss": 0.9825,
	"step": 340
	},
	{
	"epoch": 0.23696682464454977,
	"grad_norm": 1.4988625049591064,
	"learning_rate": 9.472259810554804e-05,
	"loss": 0.9521,
	"step": 350
	},
	{
	"epoch": 0.24373730534867977,
	"grad_norm": 1.0492310523986816,
	"learning_rate": 9.742895805142085e-05,
	"loss": 0.9418,
	"step": 360
	},
	{
	"epoch": 0.25050778605280977,
	"grad_norm": 1.26401948928833,
	"learning_rate": 0.00010013531799729365,
	"loss": 1.0314,
	"step": 370
	},
	{
	"epoch": 0.25727826675693977,
	"grad_norm": 1.3206366300582886,
	"learning_rate": 0.00010284167794316644,
	"loss": 0.9194,
	"step": 380
	},
	{
	"epoch": 0.2640487474610697,
	"grad_norm": 1.533471941947937,
	"learning_rate": 0.00010554803788903924,
	"loss": 0.9,
	"step": 390
	},
	{
	"epoch": 0.2708192281651997,
	"grad_norm": 1.2870343923568726,
	"learning_rate": 0.00010825439783491205,
	"loss": 0.911,
	"step": 400
	},
	{
	"epoch": 0.2775897088693297,
	"grad_norm": 1.3480168581008911,
	"learning_rate": 0.00011096075778078485,
	"loss": 0.9127,
	"step": 410
	},
	{
	"epoch": 0.2843601895734597,
	"grad_norm": 1.1548075675964355,
	"learning_rate": 0.00011366711772665765,
	"loss": 0.9206,
	"step": 420
	},
	{
	"epoch": 0.2911306702775897,
	"grad_norm": 1.000781536102295,
	"learning_rate": 0.00011637347767253047,
	"loss": 0.9248,
	"step": 430
	},
	{
	"epoch": 0.2979011509817197,
	"grad_norm": 1.0907179117202759,
	"learning_rate": 0.00011907983761840324,
	"loss": 0.897,
	"step": 440
	},
	{
	"epoch": 0.3046716316858497,
	"grad_norm": 1.3253204822540283,
	"learning_rate": 0.00012178619756427604,
	"loss": 0.9503,
	"step": 450
	},
	{
	"epoch": 0.3114421123899797,
	"grad_norm": 1.186468482017517,
	"learning_rate": 0.00012449255751014886,
	"loss": 0.885,
	"step": 460
	},
	{
	"epoch": 0.3182125930941097,
	"grad_norm": 1.0382546186447144,
	"learning_rate": 0.00012719891745602166,
	"loss": 0.937,
	"step": 470
	},
	{
	"epoch": 0.32498307379823965,
	"grad_norm": 0.9156469702720642,
	"learning_rate": 0.00012990527740189446,
	"loss": 0.9407,
	"step": 480
	},
	{
	"epoch": 0.33175355450236965,
	"grad_norm": 1.2555314302444458,
	"learning_rate": 0.00013261163734776726,
	"loss": 0.9349,
	"step": 490
	},
	{
	"epoch": 0.33852403520649965,
	"grad_norm": 1.1427136659622192,
	"learning_rate": 0.00013531799729364006,
	"loss": 0.9034,
	"step": 500
	},
	{
	"epoch": 0.34529451591062965,
	"grad_norm": 0.9024341106414795,
	"learning_rate": 0.00013802435723951287,
	"loss": 0.8431,
	"step": 510
	},
	{
	"epoch": 0.35206499661475965,
	"grad_norm": 1.0170283317565918,
	"learning_rate": 0.00014073071718538567,
	"loss": 0.9392,
	"step": 520
	},
	{
	"epoch": 0.35883547731888965,
	"grad_norm": 0.9581354856491089,
	"learning_rate": 0.00014343707713125847,
	"loss": 0.9557,
	"step": 530
	},
	{
	"epoch": 0.36560595802301965,
	"grad_norm": 1.1668641567230225,
	"learning_rate": 0.00014614343707713127,
	"loss": 0.8982,
	"step": 540
	},
	{
	"epoch": 0.37237643872714965,
	"grad_norm": 1.249225378036499,
	"learning_rate": 0.00014884979702300404,
	"loss": 0.8719,
	"step": 550
	},
	{
	"epoch": 0.3791469194312796,
	"grad_norm": 0.8681928515434265,
	"learning_rate": 0.00015155615696887687,
	"loss": 0.9412,
	"step": 560
	},
	{
	"epoch": 0.3859174001354096,
	"grad_norm": 0.8795790672302246,
	"learning_rate": 0.00015426251691474967,
	"loss": 0.9476,
	"step": 570
	},
	{
	"epoch": 0.3926878808395396,
	"grad_norm": 1.2251633405685425,
	"learning_rate": 0.00015696887686062247,
	"loss": 0.9401,
	"step": 580
	},
	{
	"epoch": 0.3994583615436696,
	"grad_norm": 0.9845913052558899,
	"learning_rate": 0.00015967523680649528,
	"loss": 0.8447,
	"step": 590
	},
	{
	"epoch": 0.4062288422477996,
	"grad_norm": 1.3847956657409668,
	"learning_rate": 0.00016238159675236808,
	"loss": 0.9562,
	"step": 600
	},
	{
	"epoch": 0.4129993229519296,
	"grad_norm": 0.9039000272750854,
	"learning_rate": 0.00016508795669824085,
	"loss": 0.8706,
	"step": 610
	},
	{
	"epoch": 0.4197698036560596,
	"grad_norm": 0.8315423130989075,
	"learning_rate": 0.00016779431664411368,
	"loss": 0.9437,
	"step": 620
	},
	{
	"epoch": 0.4265402843601896,
	"grad_norm": 0.8760778903961182,
	"learning_rate": 0.00017050067658998648,
	"loss": 0.9078,
	"step": 630
	},
	{
	"epoch": 0.4333107650643196,
	"grad_norm": 1.0592724084854126,
	"learning_rate": 0.00017320703653585928,
	"loss": 0.8835,
	"step": 640
	},
	{
	"epoch": 0.44008124576844954,
	"grad_norm": 0.8527820706367493,
	"learning_rate": 0.00017591339648173208,
	"loss": 0.9088,
	"step": 650
	},
	{
	"epoch": 0.44685172647257954,
	"grad_norm": 0.8774325847625732,
	"learning_rate": 0.00017861975642760488,
	"loss": 0.8967,
	"step": 660
	},
	{
	"epoch": 0.45362220717670954,
	"grad_norm": 0.6633328795433044,
	"learning_rate": 0.00018132611637347766,
	"loss": 0.9158,
	"step": 670
	},
	{
	"epoch": 0.46039268788083954,
	"grad_norm": 0.7048283219337463,
	"learning_rate": 0.0001840324763193505,
	"loss": 0.872,
	"step": 680
	},
	{
	"epoch": 0.46716316858496953,
	"grad_norm": 0.8527712225914001,
	"learning_rate": 0.0001867388362652233,
	"loss": 0.9062,
	"step": 690
	},
	{
	"epoch": 0.47393364928909953,
	"grad_norm": 1.095738172531128,
	"learning_rate": 0.0001894451962110961,
	"loss": 0.89,
	"step": 700
	},
	{
	"epoch": 0.48070412999322953,
	"grad_norm": 0.8880236148834229,
	"learning_rate": 0.0001921515561569689,
	"loss": 0.8825,
	"step": 710
	},
	{
	"epoch": 0.48747461069735953,
	"grad_norm": 0.7381774187088013,
	"learning_rate": 0.0001948579161028417,
	"loss": 0.8121,
	"step": 720
	},
	{
	"epoch": 0.4942450914014895,
	"grad_norm": 0.9708958864212036,
	"learning_rate": 0.0001975642760487145,
	"loss": 0.8458,
	"step": 730
	},
	{
	"epoch": 0.5010155721056195,
	"grad_norm": 1.0069886445999146,
	"learning_rate": 0.00019999998882753333,
	"loss": 0.8679,
	"step": 740
	},
	{
	"epoch": 0.5077860528097495,
	"grad_norm": 0.8364754915237427,
	"learning_rate": 0.00019999864813455363,
	"loss": 0.8797,
	"step": 750
	},
	{
	"epoch": 0.5145565335138795,
	"grad_norm": 0.8467391133308411,
	"learning_rate": 0.0001999950729825663,
	"loss": 0.8789,
	"step": 760
	},
	{
	"epoch": 0.5213270142180095,
	"grad_norm": 0.749064028263092,
	"learning_rate": 0.00019998926345145775,
	"loss": 0.9156,
	"step": 770
	},
	{
	"epoch": 0.5280974949221394,
	"grad_norm": 0.7991885542869568,
	"learning_rate": 0.00019998121967104132,
	"loss": 0.919,
	"step": 780
	},
	{
	"epoch": 0.5348679756262694,
	"grad_norm": 0.8024610877037048,
	"learning_rate": 0.00019997094182105447,
	"loss": 0.8619,
	"step": 790
	},
	{
	"epoch": 0.5416384563303994,
	"grad_norm": 0.8949725031852722,
	"learning_rate": 0.00019995843013115454,
	"loss": 0.86,
	"step": 800
	},
	{
	"epoch": 0.5484089370345294,
	"grad_norm": 0.9048612713813782,
	"learning_rate": 0.00019994368488091398,
	"loss": 0.9258,
	"step": 810
	},
	{
	"epoch": 0.5551794177386594,
	"grad_norm": 1.112876057624817,
	"learning_rate": 0.00019992670639981376,
	"loss": 0.8758,
	"step": 820
	},
	{
	"epoch": 0.5619498984427894,
	"grad_norm": 0.9120655059814453,
	"learning_rate": 0.00019990749506723624,
	"loss": 0.9112,
	"step": 830
	},
	{
	"epoch": 0.5687203791469194,
	"grad_norm": 0.9125117063522339,
	"learning_rate": 0.00019988605131245662,
	"loss": 0.899,
	"step": 840
	},
	{
	"epoch": 0.5754908598510494,
	"grad_norm": 0.8011307716369629,
	"learning_rate": 0.00019986237561463318,
	"loss": 0.8604,
	"step": 850
	},
	{
	"epoch": 0.5822613405551794,
	"grad_norm": 0.7512729167938232,
	"learning_rate": 0.00019983646850279692,
	"loss": 0.8411,
	"step": 860
	},
	{
	"epoch": 0.5890318212593094,
	"grad_norm": 0.7400951981544495,
	"learning_rate": 0.0001998083305558394,
	"loss": 0.9106,
	"step": 870
	},
	{
	"epoch": 0.5958023019634394,
	"grad_norm": 0.8688220381736755,
	"learning_rate": 0.00019977796240250008,
	"loss": 0.9071,
	"step": 880
	},
	{
	"epoch": 0.6025727826675694,
	"grad_norm": 0.9177795052528381,
	"learning_rate": 0.00019974536472135203,
	"loss": 0.9038,
	"step": 890
	},
	{
	"epoch": 0.6093432633716994,
	"grad_norm": 0.986629843711853,
	"learning_rate": 0.00019971053824078693,
	"loss": 0.8832,
	"step": 900
	},
	{
	"epoch": 0.6161137440758294,
	"grad_norm": 0.7033129334449768,
	"learning_rate": 0.00019967348373899868,
	"loss": 0.845,
	"step": 910
	},
	{
	"epoch": 0.6228842247799594,
	"grad_norm": 0.8107329607009888,
	"learning_rate": 0.0001996342020439662,
	"loss": 0.9287,
	"step": 920
	},
	{
	"epoch": 0.6296547054840894,
	"grad_norm": 0.7914236783981323,
	"learning_rate": 0.00019959269403343474,
	"loss": 0.8836,
	"step": 930
	},
	{
	"epoch": 0.6364251861882194,
	"grad_norm": 0.8895307183265686,
	"learning_rate": 0.00019954896063489622,
	"loss": 0.8759,
	"step": 940
	},
	{
	"epoch": 0.6431956668923493,
	"grad_norm": 0.8289987444877625,
	"learning_rate": 0.0001995030028255688,
	"loss": 0.9136,
	"step": 950
	},
	{
	"epoch": 0.6499661475964793,
	"grad_norm": 0.9810376167297363,
	"learning_rate": 0.00019945482163237472,
	"loss": 0.8388,
	"step": 960
	},
	{
	"epoch": 0.6567366283006093,
	"grad_norm": 0.7306379079818726,
	"learning_rate": 0.0001994044181319176,
	"loss": 0.8804,
	"step": 970
	},
	{
	"epoch": 0.6635071090047393,
	"grad_norm": 0.7892174124717712,
	"learning_rate": 0.00019935179345045815,
	"loss": 0.8671,
	"step": 980
	},
	{
	"epoch": 0.6702775897088693,
	"grad_norm": 0.9007791876792908,
	"learning_rate": 0.0001992969487638893,
	"loss": 0.8661,
	"step": 990
	},
	{
	"epoch": 0.6770480704129993,
	"grad_norm": 0.7324849963188171,
	"learning_rate": 0.00019923988529770958,
	"loss": 0.7901,
	"step": 1000
	},
	{
	"epoch": 0.6770480704129993,
	"eval_loss": 0.8919770121574402,
	"eval_runtime": 23.6227,
	"eval_samples_per_second": 105.323,
	"eval_steps_per_second": 13.165,
	"step": 1000
	},
	{
	"epoch": 0.6838185511171293,
	"grad_norm": 0.8670386672019958,
	"learning_rate": 0.000199180604326996,
	"loss": 0.8084,
	"step": 1010
	},
	{
	"epoch": 0.6905890318212593,
	"grad_norm": 1.3103822469711304,
	"learning_rate": 0.00019911910717637548,
	"loss": 0.8708,
	"step": 1020
	},
	{
	"epoch": 0.6973595125253893,
	"grad_norm": 0.8602836728096008,
	"learning_rate": 0.00019905539521999517,
	"loss": 0.8608,
	"step": 1030
	},
	{
	"epoch": 0.7041299932295193,
	"grad_norm": 0.7158609628677368,
	"learning_rate": 0.00019898946988149193,
	"loss": 0.9042,
	"step": 1040
	},
	{
	"epoch": 0.7109004739336493,
	"grad_norm": 0.6975676417350769,
	"learning_rate": 0.0001989213326339603,
	"loss": 0.8896,
	"step": 1050
	},
	{
	"epoch": 0.7176709546377793,
	"grad_norm": 0.7300527095794678,
	"learning_rate": 0.00019885098499991972,
	"loss": 0.8685,
	"step": 1060
	},
	{
	"epoch": 0.7244414353419093,
	"grad_norm": 0.6200681924819946,
	"learning_rate": 0.0001987784285512805,
	"loss": 0.8615,
	"step": 1070
	},
	{
	"epoch": 0.7312119160460393,
	"grad_norm": 0.7945191860198975,
	"learning_rate": 0.00019870366490930868,
	"loss": 0.8786,
	"step": 1080
	},
	{
	"epoch": 0.7379823967501693,
	"grad_norm": 0.6641054749488831,
	"learning_rate": 0.0001986266957445897,
	"loss": 0.8872,
	"step": 1090
	},
	{
	"epoch": 0.7447528774542993,
	"grad_norm": 0.7063596844673157,
	"learning_rate": 0.00019854752277699138,
	"loss": 0.8544,
	"step": 1100
	},
	{
	"epoch": 0.7515233581584293,
	"grad_norm": 0.6685433983802795,
	"learning_rate": 0.000198466147775625,
	"loss": 0.8256,
	"step": 1110
	},
	{
	"epoch": 0.7582938388625592,
	"grad_norm": 0.6927530765533447,
	"learning_rate": 0.00019838257255880626,
	"loss": 0.8642,
	"step": 1120
	},
	{
	"epoch": 0.7650643195666892,
	"grad_norm": 0.7018571496009827,
	"learning_rate": 0.00019829679899401436,
	"loss": 0.8624,
	"step": 1130
	},
	{
	"epoch": 0.7718348002708192,
	"grad_norm": 0.8826500773429871,
	"learning_rate": 0.00019820882899785038,
	"loss": 0.8312,
	"step": 1140
	},
	{
	"epoch": 0.7786052809749492,
	"grad_norm": 0.9699224233627319,
	"learning_rate": 0.00019811866453599435,
	"loss": 0.8467,
	"step": 1150
	},
	{
	"epoch": 0.7853757616790792,
	"grad_norm": 0.7322418689727783,
	"learning_rate": 0.00019802630762316145,
	"loss": 0.8456,
	"step": 1160
	},
	{
	"epoch": 0.7921462423832092,
	"grad_norm": 0.768301248550415,
	"learning_rate": 0.00019793176032305697,
	"loss": 0.8391,
	"step": 1170
	},
	{
	"epoch": 0.7989167230873392,
	"grad_norm": 0.8243605494499207,
	"learning_rate": 0.00019783502474833009,
	"loss": 0.904,
	"step": 1180
	},
	{
	"epoch": 0.8056872037914692,
	"grad_norm": 0.7215325236320496,
	"learning_rate": 0.00019773610306052683,
	"loss": 0.8494,
	"step": 1190
	},
	{
	"epoch": 0.8124576844955992,
	"grad_norm": 0.7619712948799133,
	"learning_rate": 0.00019763499747004165,
	"loss": 0.8865,
	"step": 1200
	},
	{
	"epoch": 0.8192281651997292,
	"grad_norm": 0.835599958896637,
	"learning_rate": 0.000197531710236068,
	"loss": 0.8733,
	"step": 1210
	},
	{
	"epoch": 0.8259986459038592,
	"grad_norm": 0.8382962942123413,
	"learning_rate": 0.00019742624366654802,
	"loss": 0.9122,
	"step": 1220
	},
	{
	"epoch": 0.8327691266079892,
	"grad_norm": 0.666801393032074,
	"learning_rate": 0.00019731860011812087,
	"loss": 0.8429,
	"step": 1230
	},
	{
	"epoch": 0.8395396073121192,
	"grad_norm": 0.7756575345993042,
	"learning_rate": 0.00019720878199606996,
	"loss": 0.9004,
	"step": 1240
	},
	{
	"epoch": 0.8463100880162492,
	"grad_norm": 0.7014258503913879,
	"learning_rate": 0.00019709679175426942,
	"loss": 0.9241,
	"step": 1250
	},
	{
	"epoch": 0.8530805687203792,
	"grad_norm": 0.6827540397644043,
	"learning_rate": 0.00019698263189512914,
	"loss": 0.8566,
	"step": 1260
	},
	{
	"epoch": 0.8598510494245092,
	"grad_norm": 0.9167826771736145,
	"learning_rate": 0.00019686630496953882,
	"loss": 0.9116,
	"step": 1270
	},
	{
	"epoch": 0.8666215301286392,
	"grad_norm": 0.8172047138214111,
	"learning_rate": 0.00019674781357681108,
	"loss": 0.8052,
	"step": 1280
	},
	{
	"epoch": 0.8733920108327691,
	"grad_norm": 0.7139961123466492,
	"learning_rate": 0.00019662716036462335,
	"loss": 0.89,
	"step": 1290
	},
	{
	"epoch": 0.8801624915368991,
	"grad_norm": 0.9733943939208984,
	"learning_rate": 0.0001965043480289586,
	"loss": 0.8191,
	"step": 1300
	},
	{
	"epoch": 0.8869329722410291,
	"grad_norm": 0.849946916103363,
	"learning_rate": 0.00019637937931404523,
	"loss": 0.8995,
	"step": 1310
	},
	{
	"epoch": 0.8937034529451591,
	"grad_norm": 0.6809601187705994,
	"learning_rate": 0.00019625225701229573,
	"loss": 0.8582,
	"step": 1320
	},
	{
	"epoch": 0.9004739336492891,
	"grad_norm": 0.7891602516174316,
	"learning_rate": 0.00019612298396424417,
	"loss": 0.844,
	"step": 1330
	},
	{
	"epoch": 0.9072444143534191,
	"grad_norm": 0.6357580423355103,
	"learning_rate": 0.0001959915630584829,
	"loss": 0.8609,
	"step": 1340
	},
	{
	"epoch": 0.9140148950575491,
	"grad_norm": 0.9102625846862793,
	"learning_rate": 0.00019585799723159788,
	"loss": 0.91,
	"step": 1350
	},
	{
	"epoch": 0.9207853757616791,
	"grad_norm": 0.690881609916687,
	"learning_rate": 0.0001957222894681031,
	"loss": 0.8287,
	"step": 1360
	},
	{
	"epoch": 0.9275558564658091,
	"grad_norm": 0.6755393743515015,
	"learning_rate": 0.00019558444280037393,
	"loss": 0.7931,
	"step": 1370
	},
	{
	"epoch": 0.9343263371699391,
	"grad_norm": 0.6997596025466919,
	"learning_rate": 0.00019544446030857922,
	"loss": 0.8941,
	"step": 1380
	},
	{
	"epoch": 0.9410968178740691,
	"grad_norm": 0.8115108013153076,
	"learning_rate": 0.0001953023451206127,
	"loss": 0.8674,
	"step": 1390
	},
	{
	"epoch": 0.9478672985781991,
	"grad_norm": 0.6413692235946655,
	"learning_rate": 0.00019515810041202295,
	"loss": 0.8462,
	"step": 1400
	},
	{
	"epoch": 0.9546377792823291,
	"grad_norm": 0.6888745427131653,
	"learning_rate": 0.00019501172940594242,
	"loss": 0.8594,
	"step": 1410
	},
	{
	"epoch": 0.9614082599864591,
	"grad_norm": 0.8250995874404907,
	"learning_rate": 0.00019486323537301538,
	"loss": 0.8622,
	"step": 1420
	},
	{
	"epoch": 0.9681787406905891,
	"grad_norm": 0.7127440571784973,
	"learning_rate": 0.00019471262163132504,
	"loss": 0.8626,
	"step": 1430
	},
	{
	"epoch": 0.9749492213947191,
	"grad_norm": 0.6688849925994873,
	"learning_rate": 0.0001945598915463192,
	"loss": 0.871,
	"step": 1440
	},
	{
	"epoch": 0.9817197020988491,
	"grad_norm": 0.8800045251846313,
	"learning_rate": 0.00019440504853073516,
	"loss": 0.8555,
	"step": 1450
	},
	{
	"epoch": 0.988490182802979,
	"grad_norm": 0.7973435521125793,
	"learning_rate": 0.00019424809604452338,
	"loss": 0.826,
	"step": 1460
	},
	{
	"epoch": 0.995260663507109,
	"grad_norm": 0.7803165316581726,
	"learning_rate": 0.00019408903759477025,
	"loss": 0.8657,
	"step": 1470
	},
	{
	"epoch": 1.002031144211239,
	"grad_norm": 0.9152759313583374,
	"learning_rate": 0.00019392787673561964,
	"loss": 0.8114,
	"step": 1480
	},
	{
	"epoch": 1.008801624915369,
	"grad_norm": 0.717939555644989,
	"learning_rate": 0.00019376461706819358,
	"loss": 0.7081,
	"step": 1490
	},
	{
	"epoch": 1.015572105619499,
	"grad_norm": 0.8752790093421936,
	"learning_rate": 0.00019359926224051178,
	"loss": 0.697,
	"step": 1500
	},
	{
	"epoch": 1.022342586323629,
	"grad_norm": 0.7938421368598938,
	"learning_rate": 0.00019343181594740996,
	"loss": 0.7743,
	"step": 1510
	},
	{
	"epoch": 1.029113067027759,
	"grad_norm": 0.8380940556526184,
	"learning_rate": 0.00019326228193045753,
	"loss": 0.7965,
	"step": 1520
	},
	{
	"epoch": 1.035883547731889,
	"grad_norm": 0.8056864142417908,
	"learning_rate": 0.00019309066397787378,
	"loss": 0.7399,
	"step": 1530
	},
	{
	"epoch": 1.042654028436019,
	"grad_norm": 0.9307854771614075,
	"learning_rate": 0.0001929169659244434,
	"loss": 0.7503,
	"step": 1540
	},
	{
	"epoch": 1.0494245091401488,
	"grad_norm": 0.8573846220970154,
	"learning_rate": 0.00019274119165143064,
	"loss": 0.7867,
	"step": 1550
	},
	{
	"epoch": 1.0561949898442788,
	"grad_norm": 0.7639918327331543,
	"learning_rate": 0.00019256334508649262,
	"loss": 0.7303,
	"step": 1560
	},
	{
	"epoch": 1.0629654705484088,
	"grad_norm": 0.7085719704627991,
	"learning_rate": 0.00019238343020359174,
	"loss": 0.7375,
	"step": 1570
	},
	{
	"epoch": 1.0697359512525388,
	"grad_norm": 0.8645661473274231,
	"learning_rate": 0.00019220145102290658,
	"loss": 0.7569,
	"step": 1580
	},
	{
	"epoch": 1.0765064319566688,
	"grad_norm": 0.8893268704414368,
	"learning_rate": 0.00019201741161074234,
	"loss": 0.7594,
	"step": 1590
	},
	{
	"epoch": 1.0832769126607988,
	"grad_norm": 0.9011455774307251,
	"learning_rate": 0.00019183131607943983,
	"loss": 0.7721,
	"step": 1600
	},
	{
	"epoch": 1.0900473933649288,
	"grad_norm": 0.812759518623352,
	"learning_rate": 0.00019164316858728364,
	"loss": 0.6816,
	"step": 1610
	},
	{
	"epoch": 1.0968178740690588,
	"grad_norm": 0.7881085276603699,
	"learning_rate": 0.00019145297333840916,
	"loss": 0.7927,
	"step": 1620
	},
	{
	"epoch": 1.1035883547731888,
	"grad_norm": 0.9383792281150818,
	"learning_rate": 0.00019126073458270874,
	"loss": 0.8416,
	"step": 1630
	},
	{
	"epoch": 1.1103588354773188,
	"grad_norm": 0.8487265110015869,
	"learning_rate": 0.00019106645661573667,
	"loss": 0.7731,
	"step": 1640
	},
	{
	"epoch": 1.1171293161814488,
	"grad_norm": 1.061084270477295,
	"learning_rate": 0.0001908701437786131,
	"loss": 0.7954,
	"step": 1650
	},
	{
	"epoch": 1.1238997968855788,
	"grad_norm": 0.7608863115310669,
	"learning_rate": 0.00019067180045792724,
	"loss": 0.7224,
	"step": 1660
	},
	{
	"epoch": 1.1306702775897088,
	"grad_norm": 1.0351011753082275,
	"learning_rate": 0.0001904714310856392,
	"loss": 0.7761,
	"step": 1670
	},
	{
	"epoch": 1.1374407582938388,
	"grad_norm": 0.8522539138793945,
	"learning_rate": 0.00019026904013898097,
	"loss": 0.7552,
	"step": 1680
	},
	{
	"epoch": 1.1442112389979688,
	"grad_norm": 0.9050424098968506,
	"learning_rate": 0.00019006463214035646,
	"loss": 0.7458,
	"step": 1690
	},
	{
	"epoch": 1.1509817197020988,
	"grad_norm": 1.0837703943252563,
	"learning_rate": 0.00018985821165724034,
	"loss": 0.7811,
	"step": 1700
	},
	{
	"epoch": 1.1577522004062288,
	"grad_norm": 0.7830744385719299,
	"learning_rate": 0.00018964978330207605,
	"loss": 0.7596,
	"step": 1710
	},
	{
	"epoch": 1.1645226811103588,
	"grad_norm": 0.8530306220054626,
	"learning_rate": 0.0001894393517321727,
	"loss": 0.7075,
	"step": 1720
	},
	{
	"epoch": 1.1712931618144888,
	"grad_norm": 0.9117756485939026,
	"learning_rate": 0.00018922692164960098,
	"loss": 0.7585,
	"step": 1730
	},
	{
	"epoch": 1.1780636425186188,
	"grad_norm": 0.9983711242675781,
	"learning_rate": 0.00018901249780108823,
	"loss": 0.7459,
	"step": 1740
	},
	{
	"epoch": 1.1848341232227488,
	"grad_norm": 0.9291015267372131,
	"learning_rate": 0.00018879608497791224,
	"loss": 0.7271,
	"step": 1750
	},
	{
	"epoch": 1.1916046039268788,
	"grad_norm": 1.0468007326126099,
	"learning_rate": 0.00018857768801579415,
	"loss": 0.7932,
	"step": 1760
	},
	{
	"epoch": 1.1983750846310088,
	"grad_norm": 0.8586043119430542,
	"learning_rate": 0.00018835731179479056,
	"loss": 0.8144,
	"step": 1770
	},
	{
	"epoch": 1.2051455653351388,
	"grad_norm": 0.7450950741767883,
	"learning_rate": 0.00018813496123918432,
	"loss": 0.7402,
	"step": 1780
	},
	{
	"epoch": 1.2119160460392688,
	"grad_norm": 0.9340034127235413,
	"learning_rate": 0.00018791064131737462,
	"loss": 0.7852,
	"step": 1790
	},
	{
	"epoch": 1.2186865267433988,
	"grad_norm": 0.9052138328552246,
	"learning_rate": 0.00018768435704176597,
	"loss": 0.7128,
	"step": 1800
	},
	{
	"epoch": 1.2254570074475288,
	"grad_norm": 0.8574148416519165,
	"learning_rate": 0.00018745611346865606,
	"loss": 0.7488,
	"step": 1810
	},
	{
	"epoch": 1.2322274881516588,
	"grad_norm": 1.0493452548980713,
	"learning_rate": 0.00018722591569812294,
	"loss": 0.8368,
	"step": 1820
	},
	{
	"epoch": 1.2389979688557888,
	"grad_norm": 1.019943356513977,
	"learning_rate": 0.00018699376887391093,
	"loss": 0.8279,
	"step": 1830
	},
	{
	"epoch": 1.2457684495599188,
	"grad_norm": 0.9113163352012634,
	"learning_rate": 0.0001867596781833158,
	"loss": 0.7308,
	"step": 1840
	},
	{
	"epoch": 1.2525389302640488,
	"grad_norm": 0.9192100763320923,
	"learning_rate": 0.0001865236488570688,
	"loss": 0.783,
	"step": 1850
	},
	{
	"epoch": 1.2593094109681786,
	"grad_norm": 0.8824251294136047,
	"learning_rate": 0.00018628568616921976,
	"loss": 0.7581,
	"step": 1860
	},
	{
	"epoch": 1.2660798916723088,
	"grad_norm": 0.8410795331001282,
	"learning_rate": 0.00018604579543701926,
	"loss": 0.7696,
	"step": 1870
	},
	{
	"epoch": 1.2728503723764386,
	"grad_norm": 1.0213907957077026,
	"learning_rate": 0.00018580398202079987,
	"loss": 0.7202,
	"step": 1880
	},
	{
	"epoch": 1.2796208530805688,
	"grad_norm": 0.7865493297576904,
	"learning_rate": 0.00018556025132385626,
	"loss": 0.7685,
	"step": 1890
	},
	{
	"epoch": 1.2863913337846986,
	"grad_norm": 0.9204791784286499,
	"learning_rate": 0.00018531460879232456,
	"loss": 0.7814,
	"step": 1900
	},
	{
	"epoch": 1.2931618144888288,
	"grad_norm": 0.810883104801178,
	"learning_rate": 0.00018506705991506067,
	"loss": 0.7202,
	"step": 1910
	},
	{
	"epoch": 1.2999322951929586,
	"grad_norm": 0.8419713973999023,
	"learning_rate": 0.00018481761022351757,
	"loss": 0.785,
	"step": 1920
	},
	{
	"epoch": 1.3067027758970888,
	"grad_norm": 0.8345950245857239,
	"learning_rate": 0.0001845662652916217,
	"loss": 0.7693,
	"step": 1930
	},
	{
	"epoch": 1.3134732566012186,
	"grad_norm": 0.8708229660987854,
	"learning_rate": 0.00018431303073564842,
	"loss": 0.8127,
	"step": 1940
	},
	{
	"epoch": 1.3202437373053486,
	"grad_norm": 0.800879716873169,
	"learning_rate": 0.0001840579122140966,
	"loss": 0.7804,
	"step": 1950
	},
	{
	"epoch": 1.3270142180094786,
	"grad_norm": 0.8764187097549438,
	"learning_rate": 0.00018380091542756212,
	"loss": 0.7563,
	"step": 1960
	},
	{
	"epoch": 1.3337846987136086,
	"grad_norm": 0.9371510744094849,
	"learning_rate": 0.00018354204611861042,
	"loss": 0.7382,
	"step": 1970
	},
	{
	"epoch": 1.3405551794177386,
	"grad_norm": 0.9174867868423462,
	"learning_rate": 0.00018328131007164827,
	"loss": 0.7543,
	"step": 1980
	},
	{
	"epoch": 1.3473256601218686,
	"grad_norm": 0.9580458998680115,
	"learning_rate": 0.00018301871311279455,
	"loss": 0.7877,
	"step": 1990
	},
	{
	"epoch": 1.3540961408259986,
	"grad_norm": 0.8264724016189575,
	"learning_rate": 0.00018275426110975,
	"loss": 0.7599,
	"step": 2000
	},
	{
	"epoch": 1.3540961408259986,
	"eval_loss": 0.8573334813117981,
	"eval_runtime": 23.1617,
	"eval_samples_per_second": 107.419,
	"eval_steps_per_second": 13.427,
	"step": 2000
	},
	{
	"epoch": 1.3608666215301286,
	"grad_norm": 0.8695821762084961,
	"learning_rate": 0.00018248795997166607,
	"loss": 0.772,
	"step": 2010
	},
	{
	"epoch": 1.3676371022342586,
	"grad_norm": 0.9564002752304077,
	"learning_rate": 0.000182219815649013,
	"loss": 0.8211,
	"step": 2020
	},
	{
	"epoch": 1.3744075829383886,
	"grad_norm": 0.951923668384552,
	"learning_rate": 0.00018194983413344674,
	"loss": 0.7549,
	"step": 2030
	},
	{
	"epoch": 1.3811780636425186,
	"grad_norm": 0.7695098519325256,
	"learning_rate": 0.00018167802145767513,
	"loss": 0.7133,
	"step": 2040
	},
	{
	"epoch": 1.3879485443466486,
	"grad_norm": 1.255873203277588,
	"learning_rate": 0.0001814043836953231,
	"loss": 0.7562,
	"step": 2050
	},
	{
	"epoch": 1.3947190250507786,
	"grad_norm": 0.8769702315330505,
	"learning_rate": 0.00018112892696079698,
	"loss": 0.7411,
	"step": 2060
	},
	{
	"epoch": 1.4014895057549086,
	"grad_norm": 0.9851005673408508,
	"learning_rate": 0.00018085165740914776,
	"loss": 0.7568,
	"step": 2070
	},
	{
	"epoch": 1.4082599864590386,
	"grad_norm": 0.8695229887962341,
	"learning_rate": 0.00018057258123593367,
	"loss": 0.7358,
	"step": 2080
	},
	{
	"epoch": 1.4150304671631686,
	"grad_norm": 0.9267136454582214,
	"learning_rate": 0.00018029170467708165,
	"loss": 0.7352,
	"step": 2090
	},
	{
	"epoch": 1.4218009478672986,
	"grad_norm": 0.8532856106758118,
	"learning_rate": 0.00018000903400874823,
	"loss": 0.8073,
	"step": 2100
	},
	{
	"epoch": 1.4285714285714286,
	"grad_norm": 0.8961872458457947,
	"learning_rate": 0.0001797245755471789,
	"loss": 0.7886,
	"step": 2110
	},
	{
	"epoch": 1.4353419092755586,
	"grad_norm": 0.8943607211112976,
	"learning_rate": 0.00017943833564856737,
	"loss": 0.7216,
	"step": 2120
	},
	{
	"epoch": 1.4421123899796886,
	"grad_norm": 0.824885904788971,
	"learning_rate": 0.00017915032070891327,
	"loss": 0.7077,
	"step": 2130
	},
	{
	"epoch": 1.4488828706838186,
	"grad_norm": 0.846660315990448,
	"learning_rate": 0.00017886053716387935,
	"loss": 0.7511,
	"step": 2140
	},
	{
	"epoch": 1.4556533513879486,
	"grad_norm": 0.8594396710395813,
	"learning_rate": 0.00017856899148864774,
	"loss": 0.7603,
	"step": 2150
	},
	{
	"epoch": 1.4624238320920786,
	"grad_norm": 0.8377899527549744,
	"learning_rate": 0.00017827569019777503,
	"loss": 0.7301,
	"step": 2160
	},
	{
	"epoch": 1.4691943127962086,
	"grad_norm": 1.0455125570297241,
	"learning_rate": 0.00017798063984504698,
	"loss": 0.7858,
	"step": 2170
	},
	{
	"epoch": 1.4759647935003386,
	"grad_norm": 0.9242769479751587,
	"learning_rate": 0.00017768384702333188,
	"loss": 0.8125,
	"step": 2180
	},
	{
	"epoch": 1.4827352742044684,
	"grad_norm": 0.9363239407539368,
	"learning_rate": 0.00017738531836443332,
	"loss": 0.7731,
	"step": 2190
	},
	{
	"epoch": 1.4895057549085986,
	"grad_norm": 0.8512465953826904,
	"learning_rate": 0.000177085060538942,
	"loss": 0.7407,
	"step": 2200
	},
	{
	"epoch": 1.4962762356127284,
	"grad_norm": 0.9729003310203552,
	"learning_rate": 0.00017678308025608665,
	"loss": 0.7751,
	"step": 2210
	},
	{
	"epoch": 1.5030467163168586,
	"grad_norm": 0.94197678565979,
	"learning_rate": 0.00017647938426358412,
	"loss": 0.7642,
	"step": 2220
	},
	{
	"epoch": 1.5098171970209884,
	"grad_norm": 0.9034068584442139,
	"learning_rate": 0.00017617397934748859,
	"loss": 0.8069,
	"step": 2230
	},
	{
	"epoch": 1.5165876777251186,
	"grad_norm": 0.9055565595626831,
	"learning_rate": 0.00017586687233204,
	"loss": 0.7463,
	"step": 2240
	},
	{
	"epoch": 1.5233581584292484,
	"grad_norm": 0.9645712971687317,
	"learning_rate": 0.00017555807007951142,
	"loss": 0.8157,
	"step": 2250
	},
	{
	"epoch": 1.5301286391333786,
	"grad_norm": 0.9376358389854431,
	"learning_rate": 0.00017524757949005597,
	"loss": 0.8012,
	"step": 2260
	},
	{
	"epoch": 1.5368991198375084,
	"grad_norm": 0.8372974991798401,
	"learning_rate": 0.00017493540750155236,
	"loss": 0.7429,
	"step": 2270
	},
	{
	"epoch": 1.5436696005416386,
	"grad_norm": 0.8159657120704651,
	"learning_rate": 0.00017462156108944996,
	"loss": 0.7619,
	"step": 2280
	},
	{
	"epoch": 1.5504400812457684,
	"grad_norm": 0.9110903143882751,
	"learning_rate": 0.00017430604726661304,
	"loss": 0.7792,
	"step": 2290
	},
	{
	"epoch": 1.5572105619498986,
	"grad_norm": 1.0363059043884277,
	"learning_rate": 0.00017398887308316393,
	"loss": 0.7875,
	"step": 2300
	},
	{
	"epoch": 1.5639810426540284,
	"grad_norm": 0.8779491186141968,
	"learning_rate": 0.00017367004562632556,
	"loss": 0.7395,
	"step": 2310
	},
	{
	"epoch": 1.5707515233581584,
	"grad_norm": 0.7635359168052673,
	"learning_rate": 0.00017334957202026305,
	"loss": 0.734,
	"step": 2320
	},
	{
	"epoch": 1.5775220040622884,
	"grad_norm": 0.7570300698280334,
	"learning_rate": 0.0001730274594259246,
	"loss": 0.732,
	"step": 2330
	},
	{
	"epoch": 1.5842924847664184,
	"grad_norm": 0.8852811455726624,
	"learning_rate": 0.0001727037150408813,
	"loss": 0.7176,
	"step": 2340
	},
	{
	"epoch": 1.5910629654705484,
	"grad_norm": 0.920385479927063,
	"learning_rate": 0.00017237834609916668,
	"loss": 0.7883,
	"step": 2350
	},
	{
	"epoch": 1.5978334461746784,
	"grad_norm": 0.7175299525260925,
	"learning_rate": 0.00017205135987111446,
	"loss": 0.7511,
	"step": 2360
	},
	{
	"epoch": 1.6046039268788084,
	"grad_norm": 0.9640962481498718,
	"learning_rate": 0.0001717227636631968,
	"loss": 0.7344,
	"step": 2370
	},
	{
	"epoch": 1.6113744075829384,
	"grad_norm": 1.0787372589111328,
	"learning_rate": 0.00017139256481786043,
	"loss": 0.7388,
	"step": 2380
	},
	{
	"epoch": 1.6181448882870684,
	"grad_norm": 0.8717492818832397,
	"learning_rate": 0.00017106077071336298,
	"loss": 0.8181,
	"step": 2390
	},
	{
	"epoch": 1.6249153689911984,
	"grad_norm": 0.9693078398704529,
	"learning_rate": 0.00017072738876360792,
	"loss": 0.7784,
	"step": 2400
	},
	{
	"epoch": 1.6316858496953284,
	"grad_norm": 0.9157988429069519,
	"learning_rate": 0.00017039242641797895,
	"loss": 0.7631,
	"step": 2410
	},
	{
	"epoch": 1.6384563303994584,
	"grad_norm": 0.856497585773468,
	"learning_rate": 0.0001700558911611736,
	"loss": 0.7572,
	"step": 2420
	},
	{
	"epoch": 1.6452268111035884,
	"grad_norm": 0.9910064339637756,
	"learning_rate": 0.0001697177905130358,
	"loss": 0.79,
	"step": 2430
	},
	{
	"epoch": 1.6519972918077184,
	"grad_norm": 0.9009943008422852,
	"learning_rate": 0.00016937813202838817,
	"loss": 0.7389,
	"step": 2440
	},
	{
	"epoch": 1.6587677725118484,
	"grad_norm": 0.8572137951850891,
	"learning_rate": 0.00016903692329686286,
	"loss": 0.8074,
	"step": 2450
	},
	{
	"epoch": 1.6655382532159784,
	"grad_norm": 0.9608494639396667,
	"learning_rate": 0.00016869417194273216,
	"loss": 0.7493,
	"step": 2460
	},
	{
	"epoch": 1.6723087339201084,
	"grad_norm": 1.1153324842453003,
	"learning_rate": 0.00016834988562473813,
	"loss": 0.7696,
	"step": 2470
	},
	{
	"epoch": 1.6790792146242384,
	"grad_norm": 0.8839768171310425,
	"learning_rate": 0.00016800407203592144,
	"loss": 0.6736,
	"step": 2480
	},
	{
	"epoch": 1.6858496953283684,
	"grad_norm": 0.8794620633125305,
	"learning_rate": 0.00016765673890344944,
	"loss": 0.7678,
	"step": 2490
	},
	{
	"epoch": 1.6926201760324981,
	"grad_norm": 1.167880892753601,
	"learning_rate": 0.0001673078939884435,
	"loss": 0.799,
	"step": 2500
	},
	{
	"epoch": 1.6993906567366284,
	"grad_norm": 0.8976329565048218,
	"learning_rate": 0.00016695754508580556,
	"loss": 0.7445,
	"step": 2510
	},
	{
	"epoch": 1.7061611374407581,
	"grad_norm": 0.8003941178321838,
	"learning_rate": 0.00016660570002404414,
	"loss": 0.7434,
	"step": 2520
	},
	{
	"epoch": 1.7129316181448884,
	"grad_norm": 1.5716880559921265,
	"learning_rate": 0.0001662523666650992,
	"loss": 0.7785,
	"step": 2530
	},
	{
	"epoch": 1.7197020988490181,
	"grad_norm": 0.7486565113067627,
	"learning_rate": 0.00016589755290416652,
	"loss": 0.7415,
	"step": 2540
	},
	{
	"epoch": 1.7264725795531484,
	"grad_norm": 0.872717559337616,
	"learning_rate": 0.0001655412666695213,
	"loss": 0.7568,
	"step": 2550
	},
	{
	"epoch": 1.7332430602572781,
	"grad_norm": 1.06588876247406,
	"learning_rate": 0.00016518351592234102,
	"loss": 0.714,
	"step": 2560
	},
	{
	"epoch": 1.7400135409614084,
	"grad_norm": 0.8603307008743286,
	"learning_rate": 0.00016482430865652758,
	"loss": 0.8015,
	"step": 2570
	},
	{
	"epoch": 1.7467840216655381,
	"grad_norm": 0.9161677956581116,
	"learning_rate": 0.0001644636528985286,
	"loss": 0.7517,
	"step": 2580
	},
	{
	"epoch": 1.7535545023696684,
	"grad_norm": 0.9165793657302856,
	"learning_rate": 0.00016410155670715807,
	"loss": 0.7219,
	"step": 2590
	},
	{
	"epoch": 1.7603249830737981,
	"grad_norm": 0.9347404837608337,
	"learning_rate": 0.00016373802817341631,
	"loss": 0.7544,
	"step": 2600
	},
	{
	"epoch": 1.7670954637779284,
	"grad_norm": 0.9771521687507629,
	"learning_rate": 0.00016337307542030924,
	"loss": 0.7613,
	"step": 2610
	},
	{
	"epoch": 1.7738659444820581,
	"grad_norm": 0.8616775870323181,
	"learning_rate": 0.00016300670660266678,
	"loss": 0.7028,
	"step": 2620
	},
	{
	"epoch": 1.7806364251861884,
	"grad_norm": 0.9634568095207214,
	"learning_rate": 0.0001626389299069606,
	"loss": 0.7776,
	"step": 2630
	},
	{
	"epoch": 1.7874069058903181,
	"grad_norm": 0.8600468635559082,
	"learning_rate": 0.00016226975355112134,
	"loss": 0.7127,
	"step": 2640
	},
	{
	"epoch": 1.7941773865944484,
	"grad_norm": 0.8130874037742615,
	"learning_rate": 0.00016189918578435482,
	"loss": 0.7618,
	"step": 2650
	},
	{
	"epoch": 1.8009478672985781,
	"grad_norm": 0.8722664713859558,
	"learning_rate": 0.00016152723488695783,
	"loss": 0.7364,
	"step": 2660
	},
	{
	"epoch": 1.8077183480027081,
	"grad_norm": 0.726963222026825,
	"learning_rate": 0.00016115390917013307,
	"loss": 0.7449,
	"step": 2670
	},
	{
	"epoch": 1.8144888287068381,
	"grad_norm": 0.9895104765892029,
	"learning_rate": 0.00016077921697580343,
	"loss": 0.7766,
	"step": 2680
	},
	{
	"epoch": 1.8212593094109681,
	"grad_norm": 0.9779828190803528,
	"learning_rate": 0.00016040316667642558,
	"loss": 0.7266,
	"step": 2690
	},
	{
	"epoch": 1.8280297901150981,
	"grad_norm": 1.04193913936615,
	"learning_rate": 0.00016002576667480288,
	"loss": 0.7344,
	"step": 2700
	},
	{
	"epoch": 1.8348002708192281,
	"grad_norm": 0.8899911046028137,
	"learning_rate": 0.00015964702540389767,
	"loss": 0.7546,
	"step": 2710
	},
	{
	"epoch": 1.8415707515233581,
	"grad_norm": 0.9403987526893616,
	"learning_rate": 0.0001592669513266428,
	"loss": 0.7482,
	"step": 2720
	},
	{
	"epoch": 1.8483412322274881,
	"grad_norm": 0.863129734992981,
	"learning_rate": 0.00015888555293575254,
	"loss": 0.7527,
	"step": 2730
	},
	{
	"epoch": 1.8551117129316181,
	"grad_norm": 1.1445564031600952,
	"learning_rate": 0.0001585028387535328,
	"loss": 0.7672,
	"step": 2740
	},
	{
	"epoch": 1.8618821936357481,
	"grad_norm": 0.8358940482139587,
	"learning_rate": 0.0001581188173316907,
	"loss": 0.7877,
	"step": 2750
	},
	{
	"epoch": 1.8686526743398781,
	"grad_norm": 1.0207701921463013,
	"learning_rate": 0.00015773349725114352,
	"loss": 0.7711,
	"step": 2760
	},
	{
	"epoch": 1.8754231550440081,
	"grad_norm": 0.9382310509681702,
	"learning_rate": 0.00015734688712182687,
	"loss": 0.7365,
	"step": 2770
	},
	{
	"epoch": 1.8821936357481381,
	"grad_norm": 0.7211757898330688,
	"learning_rate": 0.0001569589955825024,
	"loss": 0.7144,
	"step": 2780
	},
	{
	"epoch": 1.8889641164522681,
	"grad_norm": 1.0787826776504517,
	"learning_rate": 0.00015656983130056472,
	"loss": 0.7784,
	"step": 2790
	},
	{
	"epoch": 1.8957345971563981,
	"grad_norm": 1.0936686992645264,
	"learning_rate": 0.00015617940297184775,
	"loss": 0.7455,
	"step": 2800
	},
	{
	"epoch": 1.9025050778605281,
	"grad_norm": 1.0122491121292114,
	"learning_rate": 0.00015578771932043037,
	"loss": 0.7711,
	"step": 2810
	},
	{
	"epoch": 1.9092755585646581,
	"grad_norm": 0.9829614162445068,
	"learning_rate": 0.00015539478909844156,
	"loss": 0.7485,
	"step": 2820
	},
	{
	"epoch": 1.9160460392687881,
	"grad_norm": 0.9822033047676086,
	"learning_rate": 0.00015500062108586473,
	"loss": 0.7337,
	"step": 2830
	},
	{
	"epoch": 1.9228165199729181,
	"grad_norm": 0.8550043702125549,
	"learning_rate": 0.0001546052240903416,
	"loss": 0.7547,
	"step": 2840
	},
	{
	"epoch": 1.929587000677048,
	"grad_norm": 0.7504202723503113,
	"learning_rate": 0.0001542086069469754,
	"loss": 0.7329,
	"step": 2850
	},
	{
	"epoch": 1.9363574813811781,
	"grad_norm": 0.7536128759384155,
	"learning_rate": 0.00015381077851813342,
	"loss": 0.6917,
	"step": 2860
	},
	{
	"epoch": 1.943127962085308,
	"grad_norm": 1.024143934249878,
	"learning_rate": 0.000153411747693249,
	"loss": 0.7293,
	"step": 2870
	},
	{
	"epoch": 1.9498984427894381,
	"grad_norm": 0.8882274031639099,
	"learning_rate": 0.0001530115233886229,
	"loss": 0.7067,
	"step": 2880
	},
	{
	"epoch": 1.956668923493568,
	"grad_norm": 0.814894437789917,
	"learning_rate": 0.00015261011454722402,
	"loss": 0.6613,
	"step": 2890
	},
	{
	"epoch": 1.9634394041976981,
	"grad_norm": 0.8720422387123108,
	"learning_rate": 0.00015220753013848965,
	"loss": 0.7931,
	"step": 2900
	},
	{
	"epoch": 1.970209884901828,
	"grad_norm": 1.070326805114746,
	"learning_rate": 0.00015180377915812498,
	"loss": 0.6737,
	"step": 2910
	},
	{
	"epoch": 1.9769803656059581,
	"grad_norm": 0.9129419922828674,
	"learning_rate": 0.0001513988706279021,
	"loss": 0.7693,
	"step": 2920
	},
	{
	"epoch": 1.983750846310088,
	"grad_norm": 0.9133071303367615,
	"learning_rate": 0.00015099281359545844,
	"loss": 0.7222,
	"step": 2930
	},
	{
	"epoch": 1.9905213270142181,
	"grad_norm": 1.1360323429107666,
	"learning_rate": 0.00015058561713409465,
	"loss": 0.7813,
	"step": 2940
	},
	{
	"epoch": 1.997291807718348,
	"grad_norm": 1.1606559753417969,
	"learning_rate": 0.0001501772903425717,
	"loss": 0.7045,
	"step": 2950
	},
	{
	"epoch": 2.004062288422478,
	"grad_norm": 0.8940277099609375,
	"learning_rate": 0.0001497678423449077,
	"loss": 0.6686,
	"step": 2960
	},
	{
	"epoch": 2.010832769126608,
	"grad_norm": 0.9504866003990173,
	"learning_rate": 0.00014935728229017404,
	"loss": 0.5851,
	"step": 2970
	},
	{
	"epoch": 2.017603249830738,
	"grad_norm": 0.9662072062492371,
	"learning_rate": 0.00014894561935229083,
	"loss": 0.5836,
	"step": 2980
	},
	{
	"epoch": 2.024373730534868,
	"grad_norm": 1.1531829833984375,
	"learning_rate": 0.00014853286272982206,
	"loss": 0.5511,
	"step": 2990
	},
	{
	"epoch": 2.031144211238998,
	"grad_norm": 1.0693235397338867,
	"learning_rate": 0.00014811902164576986,
	"loss": 0.5325,
	"step": 3000
	},
	{
	"epoch": 2.031144211238998,
	"eval_loss": 0.8718012571334839,
	"eval_runtime": 23.0432,
	"eval_samples_per_second": 107.971,
	"eval_steps_per_second": 13.496,
	"step": 3000
	},
	{
	"epoch": 2.037914691943128,
	"grad_norm": 1.1329638957977295,
	"learning_rate": 0.0001477041053473687,
	"loss": 0.5722,
	"step": 3010
	},
	{
	"epoch": 2.044685172647258,
	"grad_norm": 1.1756556034088135,
	"learning_rate": 0.0001472881231058785,
	"loss": 0.57,
	"step": 3020
	},
	{
	"epoch": 2.051455653351388,
	"grad_norm": 1.1575700044631958,
	"learning_rate": 0.00014687108421637758,
	"loss": 0.5845,
	"step": 3030
	},
	{
	"epoch": 2.058226134055518,
	"grad_norm": 1.0859098434448242,
	"learning_rate": 0.0001464529979975549,
	"loss": 0.533,
	"step": 3040
	},
	{
	"epoch": 2.064996614759648,
	"grad_norm": 0.9851484298706055,
	"learning_rate": 0.00014603387379150197,
	"loss": 0.584,
	"step": 3050
	},
	{
	"epoch": 2.071767095463778,
	"grad_norm": 1.1865367889404297,
	"learning_rate": 0.00014561372096350402,
	"loss": 0.5536,
	"step": 3060
	},
	{
	"epoch": 2.078537576167908,
	"grad_norm": 1.114558219909668,
	"learning_rate": 0.00014519254890183058,
	"loss": 0.5627,
	"step": 3070
	},
	{
	"epoch": 2.085308056872038,
	"grad_norm": 1.0637989044189453,
	"learning_rate": 0.00014477036701752603,
	"loss": 0.5625,
	"step": 3080
	},
	{
	"epoch": 2.092078537576168,
	"grad_norm": 1.2044423818588257,
	"learning_rate": 0.00014434718474419896,
	"loss": 0.6045,
	"step": 3090
	},
	{
	"epoch": 2.0988490182802977,
	"grad_norm": 1.0656991004943848,
	"learning_rate": 0.00014392301153781168,
	"loss": 0.5458,
	"step": 3100
	},
	{
	"epoch": 2.105619498984428,
	"grad_norm": 1.431920051574707,
	"learning_rate": 0.00014349785687646879,
	"loss": 0.5798,
	"step": 3110
	},
	{
	"epoch": 2.1123899796885577,
	"grad_norm": 1.4664020538330078,
	"learning_rate": 0.00014307173026020524,
	"loss": 0.5566,
	"step": 3120
	},
	{
	"epoch": 2.119160460392688,
	"grad_norm": 0.9782803654670715,
	"learning_rate": 0.00014264464121077435,
	"loss": 0.5883,
	"step": 3130
	},
	{
	"epoch": 2.1259309410968177,
	"grad_norm": 1.2193199396133423,
	"learning_rate": 0.00014221659927143488,
	"loss": 0.5912,
	"step": 3140
	},
	{
	"epoch": 2.132701421800948,
	"grad_norm": 1.1089211702346802,
	"learning_rate": 0.00014178761400673778,
	"loss": 0.5421,
	"step": 3150
	},
	{
	"epoch": 2.1394719025050777,
	"grad_norm": 1.6899245977401733,
	"learning_rate": 0.00014135769500231259,
	"loss": 0.5477,
	"step": 3160
	},
	{
	"epoch": 2.146242383209208,
	"grad_norm": 1.1503666639328003,
	"learning_rate": 0.00014092685186465297,
	"loss": 0.5703,
	"step": 3170
	},
	{
	"epoch": 2.1530128639133377,
	"grad_norm": 1.1421773433685303,
	"learning_rate": 0.0001404950942209025,
	"loss": 0.6063,
	"step": 3180
	},
	{
	"epoch": 2.159783344617468,
	"grad_norm": 1.308514952659607,
	"learning_rate": 0.00014006243171863907,
	"loss": 0.6101,
	"step": 3190
	},
	{
	"epoch": 2.1665538253215977,
	"grad_norm": 1.108906626701355,
	"learning_rate": 0.00013962887402565967,
	"loss": 0.6067,
	"step": 3200
	},
	{
	"epoch": 2.173324306025728,
	"grad_norm": 1.3432538509368896,
	"learning_rate": 0.00013919443082976415,
	"loss": 0.5724,
	"step": 3210
	},
	{
	"epoch": 2.1800947867298577,
	"grad_norm": 1.2304880619049072,
	"learning_rate": 0.00013875911183853896,
	"loss": 0.5764,
	"step": 3220
	},
	{
	"epoch": 2.186865267433988,
	"grad_norm": 1.1720483303070068,
	"learning_rate": 0.0001383229267791399,
	"loss": 0.565,
	"step": 3230
	},
	{
	"epoch": 2.1936357481381177,
	"grad_norm": 0.9357210397720337,
	"learning_rate": 0.00013788588539807517,
	"loss": 0.525,
	"step": 3240
	},
	{
	"epoch": 2.200406228842248,
	"grad_norm": 1.2292680740356445,
	"learning_rate": 0.0001374479974609872,
	"loss": 0.6126,
	"step": 3250
	},
	{
	"epoch": 2.2071767095463777,
	"grad_norm": 1.0784507989883423,
	"learning_rate": 0.0001370092727524348,
	"loss": 0.5863,
	"step": 3260
	},
	{
	"epoch": 2.213947190250508,
	"grad_norm": 1.3088752031326294,
	"learning_rate": 0.00013656972107567423,
	"loss": 0.5568,
	"step": 3270
	},
	{
	"epoch": 2.2207176709546377,
	"grad_norm": 1.1142232418060303,
	"learning_rate": 0.0001361293522524403,
	"loss": 0.5777,
	"step": 3280
	},
	{
	"epoch": 2.227488151658768,
	"grad_norm": 1.1168012619018555,
	"learning_rate": 0.0001356881761227269,
	"loss": 0.549,
	"step": 3290
	},
	{
	"epoch": 2.2342586323628977,
	"grad_norm": 1.1179856061935425,
	"learning_rate": 0.00013524620254456705,
	"loss": 0.5828,
	"step": 3300
	},
	{
	"epoch": 2.241029113067028,
	"grad_norm": 1.1862361431121826,
	"learning_rate": 0.00013480344139381266,
	"loss": 0.5441,
	"step": 3310
	},
	{
	"epoch": 2.2477995937711577,
	"grad_norm": 1.2580469846725464,
	"learning_rate": 0.0001343599025639139,
	"loss": 0.6452,
	"step": 3320
	},
	{
	"epoch": 2.254570074475288,
	"grad_norm": 0.9721531271934509,
	"learning_rate": 0.00013391559596569815,
	"loss": 0.5803,
	"step": 3330
	},
	{
	"epoch": 2.2613405551794177,
	"grad_norm": 1.099107265472412,
	"learning_rate": 0.0001334705315271483,
	"loss": 0.5768,
	"step": 3340
	},
	{
	"epoch": 2.268111035883548,
	"grad_norm": 1.0356446504592896,
	"learning_rate": 0.00013302471919318141,
	"loss": 0.5759,
	"step": 3350
	},
	{
	"epoch": 2.2748815165876777,
	"grad_norm": 1.2317684888839722,
	"learning_rate": 0.00013257816892542582,
	"loss": 0.5797,
	"step": 3360
	},
	{
	"epoch": 2.281651997291808,
	"grad_norm": 1.2287174463272095,
	"learning_rate": 0.0001321308907019992,
	"loss": 0.5747,
	"step": 3370
	},
	{
	"epoch": 2.2884224779959377,
	"grad_norm": 1.2517625093460083,
	"learning_rate": 0.0001316828945172852,
	"loss": 0.5114,
	"step": 3380
	},
	{
	"epoch": 2.295192958700068,
	"grad_norm": 1.088796854019165,
	"learning_rate": 0.00013123419038171024,
	"loss": 0.5821,
	"step": 3390
	},
	{
	"epoch": 2.3019634394041977,
	"grad_norm": 1.0487096309661865,
	"learning_rate": 0.00013078478832151985,
	"loss": 0.6054,
	"step": 3400
	},
	{
	"epoch": 2.3087339201083275,
	"grad_norm": 1.1964969635009766,
	"learning_rate": 0.00013033469837855457,
	"loss": 0.5621,
	"step": 3410
	},
	{
	"epoch": 2.3155044008124577,
	"grad_norm": 1.2567753791809082,
	"learning_rate": 0.00012988393061002566,
	"loss": 0.5858,
	"step": 3420
	},
	{
	"epoch": 2.322274881516588,
	"grad_norm": 0.984793484210968,
	"learning_rate": 0.0001294324950882903,
	"loss": 0.5961,
	"step": 3430
	},
	{
	"epoch": 2.3290453622207177,
	"grad_norm": 1.2915070056915283,
	"learning_rate": 0.00012898040190062647,
	"loss": 0.5667,
	"step": 3440
	},
	{
	"epoch": 2.3358158429248475,
	"grad_norm": 1.242781400680542,
	"learning_rate": 0.00012852766114900777,
	"loss": 0.5781,
	"step": 3450
	},
	{
	"epoch": 2.3425863236289777,
	"grad_norm": 1.1402225494384766,
	"learning_rate": 0.00012807428294987744,
	"loss": 0.6048,
	"step": 3460
	},
	{
	"epoch": 2.349356804333108,
	"grad_norm": 1.2243235111236572,
	"learning_rate": 0.0001276202774339224,
	"loss": 0.5672,
	"step": 3470
	},
	{
	"epoch": 2.3561272850372377,
	"grad_norm": 1.2512565851211548,
	"learning_rate": 0.00012716565474584702,
	"loss": 0.5992,
	"step": 3480
	},
	{
	"epoch": 2.3628977657413675,
	"grad_norm": 1.3591067790985107,
	"learning_rate": 0.00012671042504414619,
	"loss": 0.5853,
	"step": 3490
	},
	{
	"epoch": 2.3696682464454977,
	"grad_norm": 1.7091628313064575,
	"learning_rate": 0.00012625459850087846,
	"loss": 0.5501,
	"step": 3500
	},
	{
	"epoch": 2.3764387271496275,
	"grad_norm": 1.2151107788085938,
	"learning_rate": 0.00012579818530143884,
	"loss": 0.5684,
	"step": 3510
	},
	{
	"epoch": 2.3832092078537577,
	"grad_norm": 1.4708514213562012,
	"learning_rate": 0.000125341195644331,
	"loss": 0.578,
	"step": 3520
	},
	{
	"epoch": 2.3899796885578874,
	"grad_norm": 1.2934261560440063,
	"learning_rate": 0.0001248836397409396,
	"loss": 0.6235,
	"step": 3530
	},
	{
	"epoch": 2.3967501692620177,
	"grad_norm": 1.9203015565872192,
	"learning_rate": 0.00012442552781530186,
	"loss": 0.5868,
	"step": 3540
	},
	{
	"epoch": 2.4035206499661474,
	"grad_norm": 1.2564107179641724,
	"learning_rate": 0.00012396687010387942,
	"loss": 0.6091,
	"step": 3550
	},
	{
	"epoch": 2.4102911306702777,
	"grad_norm": 1.3231315612792969,
	"learning_rate": 0.00012350767685532938,
	"loss": 0.5492,
	"step": 3560
	},
	{
	"epoch": 2.4170616113744074,
	"grad_norm": 1.392247200012207,
	"learning_rate": 0.00012304795833027534,
	"loss": 0.5809,
	"step": 3570
	},
	{
	"epoch": 2.4238320920785377,
	"grad_norm": 1.1600557565689087,
	"learning_rate": 0.00012258772480107816,
	"loss": 0.5638,
	"step": 3580
	},
	{
	"epoch": 2.4306025727826674,
	"grad_norm": 1.3254331350326538,
	"learning_rate": 0.00012212698655160637,
	"loss": 0.5644,
	"step": 3590
	},
	{
	"epoch": 2.4373730534867977,
	"grad_norm": 1.2660179138183594,
	"learning_rate": 0.00012166575387700651,
	"loss": 0.5852,
	"step": 3600
	},
	{
	"epoch": 2.4441435341909274,
	"grad_norm": 1.1489580869674683,
	"learning_rate": 0.00012120403708347298,
	"loss": 0.5753,
	"step": 3610
	},
	{
	"epoch": 2.4509140148950577,
	"grad_norm": 1.1386017799377441,
	"learning_rate": 0.00012074184648801769,
	"loss": 0.5446,
	"step": 3620
	},
	{
	"epoch": 2.4576844955991874,
	"grad_norm": 1.3722707033157349,
	"learning_rate": 0.00012027919241823964,
	"loss": 0.5771,
	"step": 3630
	},
	{
	"epoch": 2.4644549763033177,
	"grad_norm": 1.1902090311050415,
	"learning_rate": 0.00011981608521209413,
	"loss": 0.5774,
	"step": 3640
	},
	{
	"epoch": 2.4712254570074474,
	"grad_norm": 1.1676629781723022,
	"learning_rate": 0.00011935253521766174,
	"loss": 0.5718,
	"step": 3650
	},
	{
	"epoch": 2.4779959377115777,
	"grad_norm": 1.1004976034164429,
	"learning_rate": 0.00011888855279291713,
	"loss": 0.6151,
	"step": 3660
	},
	{
	"epoch": 2.4847664184157074,
	"grad_norm": 1.407827377319336,
	"learning_rate": 0.00011842414830549748,
	"loss": 0.6025,
	"step": 3670
	},
	{
	"epoch": 2.4915368991198377,
	"grad_norm": 1.26259183883667,
	"learning_rate": 0.00011795933213247101,
	"loss": 0.6008,
	"step": 3680
	},
	{
	"epoch": 2.4983073798239674,
	"grad_norm": 1.1961734294891357,
	"learning_rate": 0.000117494114660105,
	"loss": 0.5598,
	"step": 3690
	},
	{
	"epoch": 2.5050778605280977,
	"grad_norm": 0.9188928604125977,
	"learning_rate": 0.00011702850628363365,
	"loss": 0.5636,
	"step": 3700
	},
	{
	"epoch": 2.5118483412322274,
	"grad_norm": 0.9072563052177429,
	"learning_rate": 0.00011656251740702596,
	"loss": 0.5629,
	"step": 3710
	},
	{
	"epoch": 2.518618821936357,
	"grad_norm": 1.0292631387710571,
	"learning_rate": 0.00011609615844275305,
	"loss": 0.6066,
	"step": 3720
	},
	{
	"epoch": 2.5253893026404874,
	"grad_norm": 1.229181170463562,
	"learning_rate": 0.00011562943981155575,
	"loss": 0.5491,
	"step": 3730
	},
	{
	"epoch": 2.5321597833446177,
	"grad_norm": 1.1053756475448608,
	"learning_rate": 0.00011516237194221149,
	"loss": 0.6065,
	"step": 3740
	},
	{
	"epoch": 2.5389302640487474,
	"grad_norm": 1.4795639514923096,
	"learning_rate": 0.0001146949652713015,
	"loss": 0.5705,
	"step": 3750
	},
	{
	"epoch": 2.545700744752877,
	"grad_norm": 1.1489176750183105,
	"learning_rate": 0.00011422723024297737,
	"loss": 0.5364,
	"step": 3760
	},
	{
	"epoch": 2.5524712254570074,
	"grad_norm": 1.1073706150054932,
	"learning_rate": 0.00011375917730872787,
	"loss": 0.6014,
	"step": 3770
	},
	{
	"epoch": 2.5592417061611377,
	"grad_norm": 1.5487061738967896,
	"learning_rate": 0.00011329081692714534,
	"loss": 0.5477,
	"step": 3780
	},
	{
	"epoch": 2.5660121868652674,
	"grad_norm": 1.4128634929656982,
	"learning_rate": 0.00011282215956369204,
	"loss": 0.6538,
	"step": 3790
	},
	{
	"epoch": 2.572782667569397,
	"grad_norm": 1.2158820629119873,
	"learning_rate": 0.00011235321569046615,
	"loss": 0.594,
	"step": 3800
	},
	{
	"epoch": 2.5795531482735274,
	"grad_norm": 1.3014835119247437,
	"learning_rate": 0.00011188399578596795,
	"loss": 0.5936,
	"step": 3810
	},
	{
	"epoch": 2.5863236289776577,
	"grad_norm": 1.3620414733886719,
	"learning_rate": 0.00011141451033486564,
	"loss": 0.5633,
	"step": 3820
	},
	{
	"epoch": 2.5930941096817874,
	"grad_norm": 1.224446415901184,
	"learning_rate": 0.00011094476982776096,
	"loss": 0.553,
	"step": 3830
	},
	{
	"epoch": 2.599864590385917,
	"grad_norm": 1.3176541328430176,
	"learning_rate": 0.00011047478476095487,
	"loss": 0.5591,
	"step": 3840
	},
	{
	"epoch": 2.6066350710900474,
	"grad_norm": 1.1520602703094482,
	"learning_rate": 0.00011000456563621304,
	"loss": 0.5753,
	"step": 3850
	},
	{
	"epoch": 2.6134055517941777,
	"grad_norm": 1.2285906076431274,
	"learning_rate": 0.00010953412296053105,
	"loss": 0.6055,
	"step": 3860
	},
	{
	"epoch": 2.6201760324983074,
	"grad_norm": 1.544148564338684,
	"learning_rate": 0.00010906346724589975,
	"loss": 0.6062,
	"step": 3870
	},
	{
	"epoch": 2.626946513202437,
	"grad_norm": 1.2714669704437256,
	"learning_rate": 0.00010859260900907038,
	"loss": 0.5867,
	"step": 3880
	},
	{
	"epoch": 2.6337169939065674,
	"grad_norm": 1.4937471151351929,
	"learning_rate": 0.00010812155877131945,
	"loss": 0.5953,
	"step": 3890
	},
	{
	"epoch": 2.640487474610697,
	"grad_norm": 1.551594614982605,
	"learning_rate": 0.00010765032705821363,
	"loss": 0.5537,
	"step": 3900
	},
	{
	"epoch": 2.6472579553148274,
	"grad_norm": 1.565324068069458,
	"learning_rate": 0.0001071789243993748,
	"loss": 0.572,
	"step": 3910
	},
	{
	"epoch": 2.654028436018957,
	"grad_norm": 1.207514762878418,
	"learning_rate": 0.00010670736132824455,
	"loss": 0.5921,
	"step": 3920
	},
	{
	"epoch": 2.6607989167230874,
	"grad_norm": 1.1995245218276978,
	"learning_rate": 0.00010623564838184878,
	"loss": 0.5635,
	"step": 3930
	},
	{
	"epoch": 2.667569397427217,
	"grad_norm": 1.1889262199401855,
	"learning_rate": 0.00010576379610056249,
	"loss": 0.5886,
	"step": 3940
	},
	{
	"epoch": 2.6743398781313474,
	"grad_norm": 1.0783162117004395,
	"learning_rate": 0.0001052918150278739,
	"loss": 0.5831,
	"step": 3950
	},
	{
	"epoch": 2.681110358835477,
	"grad_norm": 1.4271385669708252,
	"learning_rate": 0.0001048197157101493,
	"loss": 0.5335,
	"step": 3960
	},
	{
	"epoch": 2.6878808395396074,
	"grad_norm": 1.167817234992981,
	"learning_rate": 0.00010434750869639693,
	"loss": 0.5331,
	"step": 3970
	},
	{
	"epoch": 2.694651320243737,
	"grad_norm": 1.3966023921966553,
	"learning_rate": 0.00010387520453803166,
	"loss": 0.5931,
	"step": 3980
	},
	{
	"epoch": 2.7014218009478674,
	"grad_norm": 1.328182578086853,
	"learning_rate": 0.00010340281378863892,
	"loss": 0.5472,
	"step": 3990
	},
	{
	"epoch": 2.708192281651997,
	"grad_norm": 1.3755980730056763,
	"learning_rate": 0.00010293034700373905,
	"loss": 0.5875,
	"step": 4000
	},
	{
	"epoch": 2.708192281651997,
	"eval_loss": 0.8555851578712463,
	"eval_runtime": 22.9559,
	"eval_samples_per_second": 108.382,
	"eval_steps_per_second": 13.548,
	"step": 4000
	},
	{
	"epoch": 2.7149627623561274,
	"grad_norm": 1.2442570924758911,
	"learning_rate": 0.0001024578147405514,
	"loss": 0.6028,
	"step": 4010
	},
	{
	"epoch": 2.721733243060257,
	"grad_norm": 1.2046414613723755,
	"learning_rate": 0.0001019852275577585,
	"loss": 0.5959,
	"step": 4020
	},
	{
	"epoch": 2.7285037237643874,
	"grad_norm": 1.1981314420700073,
	"learning_rate": 0.00010151259601526992,
	"loss": 0.6042,
	"step": 4030
	},
	{
	"epoch": 2.735274204468517,
	"grad_norm": 1.3695381879806519,
	"learning_rate": 0.00010103993067398649,
	"loss": 0.5943,
	"step": 4040
	},
	{
	"epoch": 2.7420446851726474,
	"grad_norm": 1.1446524858474731,
	"learning_rate": 0.00010056724209556431,
	"loss": 0.5853,
	"step": 4050
	},
	{
	"epoch": 2.748815165876777,
	"grad_norm": 1.2874009609222412,
	"learning_rate": 0.00010009454084217873,
	"loss": 0.5967,
	"step": 4060
	},
	{
	"epoch": 2.755585646580907,
	"grad_norm": 1.3916451930999756,
	"learning_rate": 9.962183747628819e-05,
	"loss": 0.5528,
	"step": 4070
	},
	{
	"epoch": 2.762356127285037,
	"grad_norm": 1.141298532485962,
	"learning_rate": 9.914914256039847e-05,
	"loss": 0.5641,
	"step": 4080
	},
	{
	"epoch": 2.7691266079891674,
	"grad_norm": 1.2546755075454712,
	"learning_rate": 9.867646665682646e-05,
	"loss": 0.5638,
	"step": 4090
	},
	{
	"epoch": 2.775897088693297,
	"grad_norm": 1.2840214967727661,
	"learning_rate": 9.820382032746426e-05,
	"loss": 0.5835,
	"step": 4100
	},
	{
	"epoch": 2.782667569397427,
	"grad_norm": 1.1560393571853638,
	"learning_rate": 9.773121413354311e-05,
	"loss": 0.5809,
	"step": 4110
	},
	{
	"epoch": 2.789438050101557,
	"grad_norm": 1.3474149703979492,
	"learning_rate": 9.725865863539747e-05,
	"loss": 0.5768,
	"step": 4120
	},
	{
	"epoch": 2.7962085308056874,
	"grad_norm": 1.1416068077087402,
	"learning_rate": 9.678616439222899e-05,
	"loss": 0.5758,
	"step": 4130
	},
	{
	"epoch": 2.802979011509817,
	"grad_norm": 1.192691445350647,
	"learning_rate": 9.631374196187051e-05,
	"loss": 0.547,
	"step": 4140
	},
	{
	"epoch": 2.809749492213947,
	"grad_norm": 1.2631511688232422,
	"learning_rate": 9.584140190055035e-05,
	"loss": 0.5315,
	"step": 4150
	},
	{
	"epoch": 2.816519972918077,
	"grad_norm": 1.3457276821136475,
	"learning_rate": 9.536915476265621e-05,
	"loss": 0.5824,
	"step": 4160
	},
	{
	"epoch": 2.8232904536222074,
	"grad_norm": 1.5314511060714722,
	"learning_rate": 9.489701110049944e-05,
	"loss": 0.6094,
	"step": 4170
	},
	{
	"epoch": 2.830060934326337,
	"grad_norm": 1.3376086950302124,
	"learning_rate": 9.442498146407927e-05,
	"loss": 0.5914,
	"step": 4180
	},
	{
	"epoch": 2.836831415030467,
	"grad_norm": 1.5918281078338623,
	"learning_rate": 9.3953076400847e-05,
	"loss": 0.5814,
	"step": 4190
	},
	{
	"epoch": 2.843601895734597,
	"grad_norm": 1.387515902519226,
	"learning_rate": 9.348130645547042e-05,
	"loss": 0.5663,
	"step": 4200
	},
	{
	"epoch": 2.850372376438727,
	"grad_norm": 1.612802267074585,
	"learning_rate": 9.300968216959805e-05,
	"loss": 0.5807,
	"step": 4210
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 1.34074068069458,
	"learning_rate": 9.253821408162366e-05,
	"loss": 0.5868,
	"step": 4220
	},
	{
	"epoch": 2.863913337846987,
	"grad_norm": 1.436584234237671,
	"learning_rate": 9.206691272645087e-05,
	"loss": 0.5613,
	"step": 4230
	},
	{
	"epoch": 2.870683818551117,
	"grad_norm": 1.3354675769805908,
	"learning_rate": 9.159578863525762e-05,
	"loss": 0.6245,
	"step": 4240
	},
	{
	"epoch": 2.877454299255247,
	"grad_norm": 1.1248669624328613,
	"learning_rate": 9.11248523352609e-05,
	"loss": 0.547,
	"step": 4250
	},
	{
	"epoch": 2.884224779959377,
	"grad_norm": 1.1722201108932495,
	"learning_rate": 9.065411434948152e-05,
	"loss": 0.5432,
	"step": 4260
	},
	{
	"epoch": 2.890995260663507,
	"grad_norm": 1.2124953269958496,
	"learning_rate": 9.018358519650909e-05,
	"loss": 0.534,
	"step": 4270
	},
	{
	"epoch": 2.897765741367637,
	"grad_norm": 1.258863091468811,
	"learning_rate": 8.97132753902667e-05,
	"loss": 0.5651,
	"step": 4280
	},
	{
	"epoch": 2.904536222071767,
	"grad_norm": 1.2424662113189697,
	"learning_rate": 8.924319543977631e-05,
	"loss": 0.5611,
	"step": 4290
	},
	{
	"epoch": 2.911306702775897,
	"grad_norm": 1.2281653881072998,
	"learning_rate": 8.877335584892369e-05,
	"loss": 0.5584,
	"step": 4300
	},
	{
	"epoch": 2.918077183480027,
	"grad_norm": 1.1419377326965332,
	"learning_rate": 8.830376711622379e-05,
	"loss": 0.5939,
	"step": 4310
	},
	{
	"epoch": 2.924847664184157,
	"grad_norm": 1.0923197269439697,
	"learning_rate": 8.783443973458625e-05,
	"loss": 0.5912,
	"step": 4320
	},
	{
	"epoch": 2.931618144888287,
	"grad_norm": 1.0926480293273926,
	"learning_rate": 8.736538419108074e-05,
	"loss": 0.6095,
	"step": 4330
	},
	{
	"epoch": 2.938388625592417,
	"grad_norm": 1.4442996978759766,
	"learning_rate": 8.689661096670285e-05,
	"loss": 0.5618,
	"step": 4340
	},
	{
	"epoch": 2.945159106296547,
	"grad_norm": 1.2105728387832642,
	"learning_rate": 8.64281305361397e-05,
	"loss": 0.5388,
	"step": 4350
	},
	{
	"epoch": 2.951929587000677,
	"grad_norm": 1.2048066854476929,
	"learning_rate": 8.595995336753597e-05,
	"loss": 0.5891,
	"step": 4360
	},
	{
	"epoch": 2.958700067704807,
	"grad_norm": 1.407758355140686,
	"learning_rate": 8.549208992226001e-05,
	"loss": 0.5351,
	"step": 4370
	},
	{
	"epoch": 2.9654705484089368,
	"grad_norm": 1.075348973274231,
	"learning_rate": 8.502455065467006e-05,
	"loss": 0.5939,
	"step": 4380
	},
	{
	"epoch": 2.972241029113067,
	"grad_norm": 1.2892156839370728,
	"learning_rate": 8.45573460118806e-05,
	"loss": 0.5488,
	"step": 4390
	},
	{
	"epoch": 2.979011509817197,
	"grad_norm": 1.1205973625183105,
	"learning_rate": 8.4090486433529e-05,
	"loss": 0.6054,
	"step": 4400
	},
	{
	"epoch": 2.985781990521327,
	"grad_norm": 1.4507098197937012,
	"learning_rate": 8.362398235154213e-05,
	"loss": 0.5542,
	"step": 4410
	},
	{
	"epoch": 2.9925524712254568,
	"grad_norm": 1.2207527160644531,
	"learning_rate": 8.31578441899035e-05,
	"loss": 0.5326,
	"step": 4420
	},
	{
	"epoch": 2.999322951929587,
	"grad_norm": 1.032354712486267,
	"learning_rate": 8.269208236442003e-05,
	"loss": 0.5924,
	"step": 4430
	},
	{
	"epoch": 3.006093432633717,
	"grad_norm": 1.38179349899292,
	"learning_rate": 8.222670728248941e-05,
	"loss": 0.4272,
	"step": 4440
	},
	{
	"epoch": 3.012863913337847,
	"grad_norm": 1.3886513710021973,
	"learning_rate": 8.17617293428677e-05,
	"loss": 0.4442,
	"step": 4450
	},
	{
	"epoch": 3.019634394041977,
	"grad_norm": 1.5716043710708618,
	"learning_rate": 8.129715893543681e-05,
	"loss": 0.3873,
	"step": 4460
	},
	{
	"epoch": 3.026404874746107,
	"grad_norm": 1.4398396015167236,
	"learning_rate": 8.08330064409724e-05,
	"loss": 0.3991,
	"step": 4470
	},
	{
	"epoch": 3.0331753554502368,
	"grad_norm": 1.4795118570327759,
	"learning_rate": 8.036928223091187e-05,
	"loss": 0.4557,
	"step": 4480
	},
	{
	"epoch": 3.039945836154367,
	"grad_norm": 1.5591235160827637,
	"learning_rate": 7.990599666712268e-05,
	"loss": 0.4077,
	"step": 4490
	},
	{
	"epoch": 3.0467163168584968,
	"grad_norm": 1.3513033390045166,
	"learning_rate": 7.94431601016708e-05,
	"loss": 0.3999,
	"step": 4500
	},
	{
	"epoch": 3.053486797562627,
	"grad_norm": 1.4254108667373657,
	"learning_rate": 7.898078287658941e-05,
	"loss": 0.3614,
	"step": 4510
	},
	{
	"epoch": 3.0602572782667568,
	"grad_norm": 1.2728102207183838,
	"learning_rate": 7.85188753236477e-05,
	"loss": 0.4038,
	"step": 4520
	},
	{
	"epoch": 3.067027758970887,
	"grad_norm": 1.6714439392089844,
	"learning_rate": 7.805744776412012e-05,
	"loss": 0.4229,
	"step": 4530
	},
	{
	"epoch": 3.0737982396750168,
	"grad_norm": 1.4847053289413452,
	"learning_rate": 7.759651050855568e-05,
	"loss": 0.3806,
	"step": 4540
	},
	{
	"epoch": 3.080568720379147,
	"grad_norm": 1.7574979066848755,
	"learning_rate": 7.713607385654772e-05,
	"loss": 0.3625,
	"step": 4550
	},
	{
	"epoch": 3.0873392010832768,
	"grad_norm": 1.495059609413147,
	"learning_rate": 7.667614809650351e-05,
	"loss": 0.3889,
	"step": 4560
	},
	{
	"epoch": 3.094109681787407,
	"grad_norm": 1.2997581958770752,
	"learning_rate": 7.621674350541461e-05,
	"loss": 0.3775,
	"step": 4570
	},
	{
	"epoch": 3.1008801624915368,
	"grad_norm": 1.5862250328063965,
	"learning_rate": 7.575787034862704e-05,
	"loss": 0.4023,
	"step": 4580
	},
	{
	"epoch": 3.107650643195667,
	"grad_norm": 1.5325440168380737,
	"learning_rate": 7.529953887961197e-05,
	"loss": 0.3641,
	"step": 4590
	},
	{
	"epoch": 3.1144211238997968,
	"grad_norm": 1.4811371564865112,
	"learning_rate": 7.484175933973668e-05,
	"loss": 0.3818,
	"step": 4600
	},
	{
	"epoch": 3.121191604603927,
	"grad_norm": 1.7169820070266724,
	"learning_rate": 7.438454195803559e-05,
	"loss": 0.4187,
	"step": 4610
	},
	{
	"epoch": 3.1279620853080567,
	"grad_norm": 1.6318345069885254,
	"learning_rate": 7.392789695098182e-05,
	"loss": 0.3718,
	"step": 4620
	},
	{
	"epoch": 3.134732566012187,
	"grad_norm": 1.633092999458313,
	"learning_rate": 7.347183452225874e-05,
	"loss": 0.3969,
	"step": 4630
	},
	{
	"epoch": 3.1415030467163167,
	"grad_norm": 1.8210922479629517,
	"learning_rate": 7.301636486253215e-05,
	"loss": 0.4193,
	"step": 4640
	},
	{
	"epoch": 3.148273527420447,
	"grad_norm": 2.1533546447753906,
	"learning_rate": 7.256149814922253e-05,
	"loss": 0.3923,
	"step": 4650
	},
	{
	"epoch": 3.1550440081245767,
	"grad_norm": 1.4838796854019165,
	"learning_rate": 7.210724454627751e-05,
	"loss": 0.3871,
	"step": 4660
	},
	{
	"epoch": 3.161814488828707,
	"grad_norm": 1.755631685256958,
	"learning_rate": 7.165361420394482e-05,
	"loss": 0.4219,
	"step": 4670
	},
	{
	"epoch": 3.1685849695328367,
	"grad_norm": 1.197309136390686,
	"learning_rate": 7.120061725854554e-05,
	"loss": 0.4219,
	"step": 4680
	},
	{
	"epoch": 3.175355450236967,
	"grad_norm": 1.7161248922348022,
	"learning_rate": 7.074826383224761e-05,
	"loss": 0.4002,
	"step": 4690
	},
	{
	"epoch": 3.1821259309410967,
	"grad_norm": 1.4585338830947876,
	"learning_rate": 7.029656403283951e-05,
	"loss": 0.3984,
	"step": 4700
	},
	{
	"epoch": 3.188896411645227,
	"grad_norm": 1.5048658847808838,
	"learning_rate": 6.984552795350453e-05,
	"loss": 0.4005,
	"step": 4710
	},
	{
	"epoch": 3.1956668923493567,
	"grad_norm": 1.7454990148544312,
	"learning_rate": 6.939516567259523e-05,
	"loss": 0.3999,
	"step": 4720
	},
	{
	"epoch": 3.202437373053487,
	"grad_norm": 1.4264365434646606,
	"learning_rate": 6.894548725340822e-05,
	"loss": 0.3844,
	"step": 4730
	},
	{
	"epoch": 3.2092078537576167,
	"grad_norm": 1.3761653900146484,
	"learning_rate": 6.849650274395929e-05,
	"loss": 0.4107,
	"step": 4740
	},
	{
	"epoch": 3.215978334461747,
	"grad_norm": 1.6094237565994263,
	"learning_rate": 6.804822217675885e-05,
	"loss": 0.3865,
	"step": 4750
	},
	{
	"epoch": 3.2227488151658767,
	"grad_norm": 1.969099998474121,
	"learning_rate": 6.760065556858786e-05,
	"loss": 0.3635,
	"step": 4760
	},
	{
	"epoch": 3.229519295870007,
	"grad_norm": 1.5209436416625977,
	"learning_rate": 6.715381292027385e-05,
	"loss": 0.3754,
	"step": 4770
	},
	{
	"epoch": 3.2362897765741367,
	"grad_norm": 1.6469786167144775,
	"learning_rate": 6.670770421646767e-05,
	"loss": 0.4034,
	"step": 4780
	},
	{
	"epoch": 3.243060257278267,
	"grad_norm": 1.6617894172668457,
	"learning_rate": 6.626233942542013e-05,
	"loss": 0.3946,
	"step": 4790
	},
	{
	"epoch": 3.2498307379823967,
	"grad_norm": 1.4001210927963257,
	"learning_rate": 6.581772849875951e-05,
	"loss": 0.3638,
	"step": 4800
	},
	{
	"epoch": 3.2566012186865265,
	"grad_norm": 1.7633929252624512,
	"learning_rate": 6.537388137126899e-05,
	"loss": 0.3607,
	"step": 4810
	},
	{
	"epoch": 3.2633716993906567,
	"grad_norm": 1.6892105340957642,
	"learning_rate": 6.493080796066477e-05,
	"loss": 0.3797,
	"step": 4820
	},
	{
	"epoch": 3.270142180094787,
	"grad_norm": 1.4346562623977661,
	"learning_rate": 6.448851816737443e-05,
	"loss": 0.3552,
	"step": 4830
	},
	{
	"epoch": 3.2769126607989167,
	"grad_norm": 1.5974228382110596,
	"learning_rate": 6.404702187431568e-05,
	"loss": 0.3905,
	"step": 4840
	},
	{
	"epoch": 3.2836831415030465,
	"grad_norm": 1.4062926769256592,
	"learning_rate": 6.360632894667555e-05,
	"loss": 0.3864,
	"step": 4850
	},
	{
	"epoch": 3.2904536222071767,
	"grad_norm": 1.6129074096679688,
	"learning_rate": 6.316644923169007e-05,
	"loss": 0.3921,
	"step": 4860
	},
	{
	"epoch": 3.2972241029113065,
	"grad_norm": 1.5494030714035034,
	"learning_rate": 6.27273925584239e-05,
	"loss": 0.4138,
	"step": 4870
	},
	{
	"epoch": 3.3039945836154367,
	"grad_norm": 1.5944302082061768,
	"learning_rate": 6.228916873755118e-05,
	"loss": 0.3709,
	"step": 4880
	},
	{
	"epoch": 3.3107650643195665,
	"grad_norm": 1.4350250959396362,
	"learning_rate": 6.185178756113586e-05,
	"loss": 0.3622,
	"step": 4890
	},
	{
	"epoch": 3.3175355450236967,
	"grad_norm": 1.5585368871688843,
	"learning_rate": 6.141525880241313e-05,
	"loss": 0.3969,
	"step": 4900
	},
	{
	"epoch": 3.3243060257278265,
	"grad_norm": 1.289538860321045,
	"learning_rate": 6.097959221557108e-05,
	"loss": 0.394,
	"step": 4910
	},
	{
	"epoch": 3.3310765064319567,
	"grad_norm": 1.7543057203292847,
	"learning_rate": 6.054479753553259e-05,
	"loss": 0.396,
	"step": 4920
	},
	{
	"epoch": 3.3378469871360865,
	"grad_norm": 1.633093237876892,
	"learning_rate": 6.0110884477737875e-05,
	"loss": 0.415,
	"step": 4930
	},
	{
	"epoch": 3.3446174678402167,
	"grad_norm": 1.537914514541626,
	"learning_rate": 5.9677862737927415e-05,
	"loss": 0.399,
	"step": 4940
	},
	{
	"epoch": 3.3513879485443465,
	"grad_norm": 1.6341283321380615,
	"learning_rate": 5.924574199192527e-05,
	"loss": 0.3825,
	"step": 4950
	},
	{
	"epoch": 3.3581584292484767,
	"grad_norm": 1.4960927963256836,
	"learning_rate": 5.881453189542295e-05,
	"loss": 0.3793,
	"step": 4960
	},
	{
	"epoch": 3.3649289099526065,
	"grad_norm": 1.6509079933166504,
	"learning_rate": 5.838424208376354e-05,
	"loss": 0.3939,
	"step": 4970
	},
	{
	"epoch": 3.3716993906567367,
	"grad_norm": 1.662853479385376,
	"learning_rate": 5.7954882171726444e-05,
	"loss": 0.4141,
	"step": 4980
	},
	{
	"epoch": 3.3784698713608665,
	"grad_norm": 1.639427661895752,
	"learning_rate": 5.752646175331267e-05,
	"loss": 0.4112,
	"step": 4990
	},
	{
	"epoch": 3.3852403520649967,
	"grad_norm": 1.4693089723587036,
	"learning_rate": 5.709899040153013e-05,
	"loss": 0.372,
	"step": 5000
	},
	{
	"epoch": 3.3852403520649967,
	"eval_loss": 0.9812659621238708,
	"eval_runtime": 23.1744,
	"eval_samples_per_second": 107.36,
	"eval_steps_per_second": 13.42,
	"step": 5000
	},
	{
	"epoch": 3.3920108327691265,
	"grad_norm": 1.4617177248001099,
	"learning_rate": 5.667247766818018e-05,
	"loss": 0.385,
	"step": 5010
	},
	{
	"epoch": 3.3987813134732567,
	"grad_norm": 1.2667337656021118,
	"learning_rate": 5.6246933083643794e-05,
	"loss": 0.3759,
	"step": 5020
	},
	{
	"epoch": 3.4055517941773865,
	"grad_norm": 1.9020839929580688,
	"learning_rate": 5.582236615666885e-05,
	"loss": 0.3991,
	"step": 5030
	},
	{
	"epoch": 3.4123222748815167,
	"grad_norm": 1.4279497861862183,
	"learning_rate": 5.5398786374157564e-05,
	"loss": 0.3938,
	"step": 5040
	},
	{
	"epoch": 3.4190927555856465,
	"grad_norm": 1.5497093200683594,
	"learning_rate": 5.4976203200954425e-05,
	"loss": 0.4,
	"step": 5050
	},
	{
	"epoch": 3.4258632362897767,
	"grad_norm": 1.3598889112472534,
	"learning_rate": 5.4554626079634906e-05,
	"loss": 0.4117,
	"step": 5060
	},
	{
	"epoch": 3.4326337169939065,
	"grad_norm": 1.498186707496643,
	"learning_rate": 5.413406443029433e-05,
	"loss": 0.409,
	"step": 5070
	},
	{
	"epoch": 3.4394041976980367,
	"grad_norm": 1.9175001382827759,
	"learning_rate": 5.371452765033733e-05,
	"loss": 0.405,
	"step": 5080
	},
	{
	"epoch": 3.4461746784021665,
	"grad_norm": 1.9584026336669922,
	"learning_rate": 5.32960251142681e-05,
	"loss": 0.3635,
	"step": 5090
	},
	{
	"epoch": 3.4529451591062967,
	"grad_norm": 1.582276463508606,
	"learning_rate": 5.287856617348054e-05,
	"loss": 0.4101,
	"step": 5100
	},
	{
	"epoch": 3.4597156398104265,
	"grad_norm": 1.6922118663787842,
	"learning_rate": 5.2462160156049765e-05,
	"loss": 0.3894,
	"step": 5110
	},
	{
	"epoch": 3.4664861205145563,
	"grad_norm": 1.7980077266693115,
	"learning_rate": 5.2046816366523355e-05,
	"loss": 0.3909,
	"step": 5120
	},
	{
	"epoch": 3.4732566012186865,
	"grad_norm": 1.5998905897140503,
	"learning_rate": 5.1632544085713376e-05,
	"loss": 0.367,
	"step": 5130
	},
	{
	"epoch": 3.4800270819228167,
	"grad_norm": 1.5311387777328491,
	"learning_rate": 5.121935257048936e-05,
	"loss": 0.4053,
	"step": 5140
	},
	{
	"epoch": 3.4867975626269465,
	"grad_norm": 1.7611960172653198,
	"learning_rate": 5.080725105357109e-05,
	"loss": 0.3938,
	"step": 5150
	},
	{
	"epoch": 3.4935680433310763,
	"grad_norm": 2.3462700843811035,
	"learning_rate": 5.0396248743322526e-05,
	"loss": 0.3949,
	"step": 5160
	},
	{
	"epoch": 3.5003385240352065,
	"grad_norm": 1.386608362197876,
	"learning_rate": 4.998635482354598e-05,
	"loss": 0.3593,
	"step": 5170
	},
	{
	"epoch": 3.5071090047393367,
	"grad_norm": 2.024418592453003,
	"learning_rate": 4.9577578453276886e-05,
	"loss": 0.3835,
	"step": 5180
	},
	{
	"epoch": 3.5138794854434665,
	"grad_norm": 1.9304969310760498,
	"learning_rate": 4.9169928766579164e-05,
	"loss": 0.4439,
	"step": 5190
	},
	{
	"epoch": 3.5206499661475963,
	"grad_norm": 1.6261743307113647,
	"learning_rate": 4.876341487234105e-05,
	"loss": 0.4055,
	"step": 5200
	},
	{
	"epoch": 3.5274204468517265,
	"grad_norm": 1.770004153251648,
	"learning_rate": 4.83580458540717e-05,
	"loss": 0.401,
	"step": 5210
	},
	{
	"epoch": 3.5341909275558567,
	"grad_norm": 2.584394931793213,
	"learning_rate": 4.7953830769698125e-05,
	"loss": 0.3809,
	"step": 5220
	},
	{
	"epoch": 3.5409614082599865,
	"grad_norm": 1.66965651512146,
	"learning_rate": 4.755077865136274e-05,
	"loss": 0.4251,
	"step": 5230
	},
	{
	"epoch": 3.5477318889641163,
	"grad_norm": 1.5093834400177002,
	"learning_rate": 4.7148898505221685e-05,
	"loss": 0.3812,
	"step": 5240
	},
	{
	"epoch": 3.5545023696682465,
	"grad_norm": 1.7326291799545288,
	"learning_rate": 4.674819931124348e-05,
	"loss": 0.3606,
	"step": 5250
	},
	{
	"epoch": 3.5612728503723763,
	"grad_norm": 2.2934281826019287,
	"learning_rate": 4.63486900230084e-05,
	"loss": 0.4269,
	"step": 5260
	},
	{
	"epoch": 3.5680433310765065,
	"grad_norm": 1.787213683128357,
	"learning_rate": 4.595037956750845e-05,
	"loss": 0.4109,
	"step": 5270
	},
	{
	"epoch": 3.5748138117806363,
	"grad_norm": 1.5188498497009277,
	"learning_rate": 4.5553276844947726e-05,
	"loss": 0.4027,
	"step": 5280
	},
	{
	"epoch": 3.5815842924847665,
	"grad_norm": 1.5621033906936646,
	"learning_rate": 4.515739072854376e-05,
	"loss": 0.4377,
	"step": 5290
	},
	{
	"epoch": 3.5883547731888963,
	"grad_norm": 1.4404442310333252,
	"learning_rate": 4.4762730064329164e-05,
	"loss": 0.4058,
	"step": 5300
	},
	{
	"epoch": 3.5951252538930265,
	"grad_norm": 1.506831407546997,
	"learning_rate": 4.436930367095384e-05,
	"loss": 0.3852,
	"step": 5310
	},
	{
	"epoch": 3.6018957345971563,
	"grad_norm": 2.1018640995025635,
	"learning_rate": 4.3977120339488174e-05,
	"loss": 0.4128,
	"step": 5320
	},
	{
	"epoch": 3.6086662153012865,
	"grad_norm": 1.4768526554107666,
	"learning_rate": 4.358618883322639e-05,
	"loss": 0.3848,
	"step": 5330
	},
	{
	"epoch": 3.6154366960054163,
	"grad_norm": 1.3917316198349,
	"learning_rate": 4.319651788749084e-05,
	"loss": 0.4186,
	"step": 5340
	},
	{
	"epoch": 3.6222071767095465,
	"grad_norm": 1.9646469354629517,
	"learning_rate": 4.280811620943682e-05,
	"loss": 0.4213,
	"step": 5350
	},
	{
	"epoch": 3.6289776574136763,
	"grad_norm": 2.266582727432251,
	"learning_rate": 4.2420992477857856e-05,
	"loss": 0.4063,
	"step": 5360
	},
	{
	"epoch": 3.6357481381178065,
	"grad_norm": 1.8989133834838867,
	"learning_rate": 4.203515534299205e-05,
	"loss": 0.3786,
	"step": 5370
	},
	{
	"epoch": 3.6425186188219363,
	"grad_norm": 2.106405258178711,
	"learning_rate": 4.16506134263285e-05,
	"loss": 0.406,
	"step": 5380
	},
	{
	"epoch": 3.6492890995260665,
	"grad_norm": 2.1753334999084473,
	"learning_rate": 4.12673753204149e-05,
	"loss": 0.3845,
	"step": 5390
	},
	{
	"epoch": 3.6560595802301963,
	"grad_norm": 1.5723298788070679,
	"learning_rate": 4.0885449588665395e-05,
	"loss": 0.411,
	"step": 5400
	},
	{
	"epoch": 3.6628300609343265,
	"grad_norm": 2.0291285514831543,
	"learning_rate": 4.050484476516926e-05,
	"loss": 0.3926,
	"step": 5410
	},
	{
	"epoch": 3.6696005416384563,
	"grad_norm": 1.5461398363113403,
	"learning_rate": 4.012556935450027e-05,
	"loss": 0.4232,
	"step": 5420
	},
	{
	"epoch": 3.676371022342586,
	"grad_norm": 1.6446950435638428,
	"learning_rate": 3.97476318315265e-05,
	"loss": 0.3882,
	"step": 5430
	},
	{
	"epoch": 3.6831415030467163,
	"grad_norm": 1.363389015197754,
	"learning_rate": 3.937104064122117e-05,
	"loss": 0.3714,
	"step": 5440
	},
	{
	"epoch": 3.6899119837508465,
	"grad_norm": 1.4707744121551514,
	"learning_rate": 3.899580419847385e-05,
	"loss": 0.3633,
	"step": 5450
	},
	{
	"epoch": 3.6966824644549763,
	"grad_norm": 2.183893918991089,
	"learning_rate": 3.862193088790231e-05,
	"loss": 0.3918,
	"step": 5460
	},
	{
	"epoch": 3.703452945159106,
	"grad_norm": 1.798282504081726,
	"learning_rate": 3.82494290636654e-05,
	"loss": 0.4081,
	"step": 5470
	},
	{
	"epoch": 3.7102234258632363,
	"grad_norm": 1.563833475112915,
	"learning_rate": 3.7878307049276195e-05,
	"loss": 0.3772,
	"step": 5480
	},
	{
	"epoch": 3.7169939065673665,
	"grad_norm": 1.5234781503677368,
	"learning_rate": 3.7508573137416095e-05,
	"loss": 0.3923,
	"step": 5490
	},
	{
	"epoch": 3.7237643872714963,
	"grad_norm": 1.5436840057373047,
	"learning_rate": 3.71402355897495e-05,
	"loss": 0.4204,
	"step": 5500
	},
	{
	"epoch": 3.730534867975626,
	"grad_norm": 1.640419363975525,
	"learning_rate": 3.6773302636739116e-05,
	"loss": 0.391,
	"step": 5510
	},
	{
	"epoch": 3.7373053486797563,
	"grad_norm": 1.8847980499267578,
	"learning_rate": 3.640778247746226e-05,
	"loss": 0.3843,
	"step": 5520
	},
	{
	"epoch": 3.7440758293838865,
	"grad_norm": 1.2375092506408691,
	"learning_rate": 3.6043683279427484e-05,
	"loss": 0.3623,
	"step": 5530
	},
	{
	"epoch": 3.7508463100880163,
	"grad_norm": 1.3256595134735107,
	"learning_rate": 3.568101317839205e-05,
	"loss": 0.3923,
	"step": 5540
	},
	{
	"epoch": 3.757616790792146,
	"grad_norm": 1.5230741500854492,
	"learning_rate": 3.531978027818027e-05,
	"loss": 0.3918,
	"step": 5550
	},
	{
	"epoch": 3.7643872714962763,
	"grad_norm": 1.619551181793213,
	"learning_rate": 3.4959992650502346e-05,
	"loss": 0.4316,
	"step": 5560
	},
	{
	"epoch": 3.7711577522004065,
	"grad_norm": 2.241872787475586,
	"learning_rate": 3.4601658334774014e-05,
	"loss": 0.4183,
	"step": 5570
	},
	{
	"epoch": 3.7779282329045363,
	"grad_norm": 1.427147626876831,
	"learning_rate": 3.424478533793695e-05,
	"loss": 0.4036,
	"step": 5580
	},
	{
	"epoch": 3.784698713608666,
	"grad_norm": 1.646103024482727,
	"learning_rate": 3.388938163427969e-05,
	"loss": 0.3846,
	"step": 5590
	},
	{
	"epoch": 3.7914691943127963,
	"grad_norm": 1.4623626470565796,
	"learning_rate": 3.3535455165259734e-05,
	"loss": 0.4339,
	"step": 5600
	},
	{
	"epoch": 3.798239675016926,
	"grad_norm": 1.5822981595993042,
	"learning_rate": 3.318301383932586e-05,
	"loss": 0.4013,
	"step": 5610
	},
	{
	"epoch": 3.8050101557210563,
	"grad_norm": 1.6035799980163574,
	"learning_rate": 3.283206553174144e-05,
	"loss": 0.3765,
	"step": 5620
	},
	{
	"epoch": 3.811780636425186,
	"grad_norm": 1.4690262079238892,
	"learning_rate": 3.248261808440858e-05,
	"loss": 0.3846,
	"step": 5630
	},
	{
	"epoch": 3.8185511171293163,
	"grad_norm": 1.6690099239349365,
	"learning_rate": 3.213467930569279e-05,
	"loss": 0.3908,
	"step": 5640
	},
	{
	"epoch": 3.825321597833446,
	"grad_norm": 1.9128773212432861,
	"learning_rate": 3.178825697024859e-05,
	"loss": 0.4075,
	"step": 5650
	},
	{
	"epoch": 3.8320920785375763,
	"grad_norm": 1.5227471590042114,
	"learning_rate": 3.14433588188457e-05,
	"loss": 0.3949,
	"step": 5660
	},
	{
	"epoch": 3.838862559241706,
	"grad_norm": 1.8962739706039429,
	"learning_rate": 3.109999255819607e-05,
	"loss": 0.3708,
	"step": 5670
	},
	{
	"epoch": 3.8456330399458363,
	"grad_norm": 1.7166234254837036,
	"learning_rate": 3.075816586078182e-05,
	"loss": 0.3853,
	"step": 5680
	},
	{
	"epoch": 3.852403520649966,
	"grad_norm": 1.603034257888794,
	"learning_rate": 3.0417886364683578e-05,
	"loss": 0.3697,
	"step": 5690
	},
	{
	"epoch": 3.8591740013540963,
	"grad_norm": 1.2980273962020874,
	"learning_rate": 3.0079161673410006e-05,
	"loss": 0.3561,
	"step": 5700
	},
	{
	"epoch": 3.865944482058226,
	"grad_norm": 1.2596299648284912,
	"learning_rate": 2.974199935572781e-05,
	"loss": 0.3759,
	"step": 5710
	},
	{
	"epoch": 3.8727149627623563,
	"grad_norm": 1.6658598184585571,
	"learning_rate": 2.9406406945492616e-05,
	"loss": 0.3902,
	"step": 5720
	},
	{
	"epoch": 3.879485443466486,
	"grad_norm": 1.401743769645691,
	"learning_rate": 2.907239194148066e-05,
	"loss": 0.4045,
	"step": 5730
	},
	{
	"epoch": 3.8862559241706163,
	"grad_norm": 1.7074028253555298,
	"learning_rate": 2.8739961807221127e-05,
	"loss": 0.4103,
	"step": 5740
	},
	{
	"epoch": 3.893026404874746,
	"grad_norm": 1.6622352600097656,
	"learning_rate": 2.840912397082954e-05,
	"loss": 0.3718,
	"step": 5750
	},
	{
	"epoch": 3.8997968855788763,
	"grad_norm": 1.5955240726470947,
	"learning_rate": 2.807988582484171e-05,
	"loss": 0.3949,
	"step": 5760
	},
	{
	"epoch": 3.906567366283006,
	"grad_norm": 1.5108157396316528,
	"learning_rate": 2.7752254726048422e-05,
	"loss": 0.3665,
	"step": 5770
	},
	{
	"epoch": 3.913337846987136,
	"grad_norm": 1.4178344011306763,
	"learning_rate": 2.7426237995331296e-05,
	"loss": 0.3835,
	"step": 5780
	},
	{
	"epoch": 3.920108327691266,
	"grad_norm": 1.7224016189575195,
	"learning_rate": 2.7101842917498997e-05,
	"loss": 0.4008,
	"step": 5790
	},
	{
	"epoch": 3.9268788083953963,
	"grad_norm": 1.513185977935791,
	"learning_rate": 2.6779076741124576e-05,
	"loss": 0.4084,
	"step": 5800
	},
	{
	"epoch": 3.933649289099526,
	"grad_norm": 1.806357741355896,
	"learning_rate": 2.6457946678383448e-05,
	"loss": 0.382,
	"step": 5810
	},
	{
	"epoch": 3.940419769803656,
	"grad_norm": 1.5622941255569458,
	"learning_rate": 2.6138459904892177e-05,
	"loss": 0.3943,
	"step": 5820
	},
	{
	"epoch": 3.947190250507786,
	"grad_norm": 2.032970428466797,
	"learning_rate": 2.5820623559548285e-05,
	"loss": 0.3486,
	"step": 5830
	},
	{
	"epoch": 3.9539607312119163,
	"grad_norm": 1.7815639972686768,
	"learning_rate": 2.550444474437066e-05,
	"loss": 0.3772,
	"step": 5840
	},
	{
	"epoch": 3.960731211916046,
	"grad_norm": 1.6397390365600586,
	"learning_rate": 2.5189930524340767e-05,
	"loss": 0.3629,
	"step": 5850
	},
	{
	"epoch": 3.967501692620176,
	"grad_norm": 1.4618537425994873,
	"learning_rate": 2.487708792724497e-05,
	"loss": 0.4054,
	"step": 5860
	},
	{
	"epoch": 3.974272173324306,
	"grad_norm": 1.5044384002685547,
	"learning_rate": 2.4565923943517343e-05,
	"loss": 0.4003,
	"step": 5870
	},
	{
	"epoch": 3.9810426540284363,
	"grad_norm": 1.5843464136123657,
	"learning_rate": 2.425644552608356e-05,
	"loss": 0.3977,
	"step": 5880
	},
	{
	"epoch": 3.987813134732566,
	"grad_norm": 1.5150847434997559,
	"learning_rate": 2.3948659590205515e-05,
	"loss": 0.4088,
	"step": 5890
	},
	{
	"epoch": 3.994583615436696,
	"grad_norm": 1.9236164093017578,
	"learning_rate": 2.3642573013326663e-05,
	"loss": 0.4008,
	"step": 5900
	},
	{
	"epoch": 4.001354096140826,
	"grad_norm": 1.42927086353302,
	"learning_rate": 2.3338192634918643e-05,
	"loss": 0.3427,
	"step": 5910
	},
	{
	"epoch": 4.008124576844956,
	"grad_norm": 1.3550347089767456,
	"learning_rate": 2.3035525256328106e-05,
	"loss": 0.2699,
	"step": 5920
	},
	{
	"epoch": 4.014895057549086,
	"grad_norm": 1.546830177307129,
	"learning_rate": 2.2734577640625022e-05,
	"loss": 0.2694,
	"step": 5930
	},
	{
	"epoch": 4.021665538253216,
	"grad_norm": 1.7005549669265747,
	"learning_rate": 2.2435356512451387e-05,
	"loss": 0.2822,
	"step": 5940
	},
	{
	"epoch": 4.028436018957346,
	"grad_norm": 1.5947457551956177,
	"learning_rate": 2.2137868557871067e-05,
	"loss": 0.2965,
	"step": 5950
	},
	{
	"epoch": 4.035206499661476,
	"grad_norm": 1.600761890411377,
	"learning_rate": 2.1842120424220334e-05,
	"loss": 0.2551,
	"step": 5960
	},
	{
	"epoch": 4.041976980365606,
	"grad_norm": 1.5094797611236572,
	"learning_rate": 2.1548118719959286e-05,
	"loss": 0.2903,
	"step": 5970
	},
	{
	"epoch": 4.048747461069736,
	"grad_norm": 1.5594260692596436,
	"learning_rate": 2.1255870014524327e-05,
	"loss": 0.294,
	"step": 5980
	},
	{
	"epoch": 4.055517941773866,
	"grad_norm": 1.5365486145019531,
	"learning_rate": 2.096538083818128e-05,
	"loss": 0.2838,
	"step": 5990
	},
	{
	"epoch": 4.062288422477996,
	"grad_norm": 1.9512939453125,
	"learning_rate": 2.067665768187941e-05,
	"loss": 0.2649,
	"step": 6000
	},
	{
	"epoch": 4.062288422477996,
	"eval_loss": 1.1342198848724365,
	"eval_runtime": 22.903,
	"eval_samples_per_second": 108.632,
	"eval_steps_per_second": 13.579,
	"step": 6000
	},
	{
	"epoch": 4.069058903182126,
	"grad_norm": 1.703903079032898,
	"learning_rate": 2.0389706997106527e-05,
	"loss": 0.2606,
	"step": 6010
	},
	{
	"epoch": 4.075829383886256,
	"grad_norm": 1.8867642879486084,
	"learning_rate": 2.0104535195744746e-05,
	"loss": 0.2848,
	"step": 6020
	},
	{
	"epoch": 4.082599864590386,
	"grad_norm": 1.9352099895477295,
	"learning_rate": 1.9821148649927212e-05,
	"loss": 0.2724,
	"step": 6030
	},
	{
	"epoch": 4.089370345294516,
	"grad_norm": 1.7266086339950562,
	"learning_rate": 1.953955369189574e-05,
	"loss": 0.2745,
	"step": 6040
	},
	{
	"epoch": 4.096140825998646,
	"grad_norm": 1.5754889249801636,
	"learning_rate": 1.925975661385926e-05,
	"loss": 0.2737,
	"step": 6050
	},
	{
	"epoch": 4.102911306702776,
	"grad_norm": 1.6799631118774414,
	"learning_rate": 1.8981763667853326e-05,
	"loss": 0.2606,
	"step": 6060
	},
	{
	"epoch": 4.109681787406906,
	"grad_norm": 1.5695922374725342,
	"learning_rate": 1.870558106560035e-05,
	"loss": 0.2621,
	"step": 6070
	},
	{
	"epoch": 4.116452268111036,
	"grad_norm": 1.550424337387085,
	"learning_rate": 1.8431214978370758e-05,
	"loss": 0.2677,
	"step": 6080
	},
	{
	"epoch": 4.123222748815166,
	"grad_norm": 1.4905930757522583,
	"learning_rate": 1.8158671536845186e-05,
	"loss": 0.2562,
	"step": 6090
	},
	{
	"epoch": 4.129993229519296,
	"grad_norm": 1.688219666481018,
	"learning_rate": 1.788795683097746e-05,
	"loss": 0.2591,
	"step": 6100
	},
	{
	"epoch": 4.136763710223426,
	"grad_norm": 1.8246350288391113,
	"learning_rate": 1.761907690985847e-05,
	"loss": 0.2823,
	"step": 6110
	},
	{
	"epoch": 4.143534190927556,
	"grad_norm": 1.475894808769226,
	"learning_rate": 1.735203778158109e-05,
	"loss": 0.2672,
	"step": 6120
	},
	{
	"epoch": 4.150304671631686,
	"grad_norm": 2.1845951080322266,
	"learning_rate": 1.7086845413105778e-05,
	"loss": 0.2607,
	"step": 6130
	},
	{
	"epoch": 4.157075152335816,
	"grad_norm": 1.9802888631820679,
	"learning_rate": 1.6823505730127455e-05,
	"loss": 0.2653,
	"step": 6140
	},
	{
	"epoch": 4.163845633039946,
	"grad_norm": 1.2355766296386719,
	"learning_rate": 1.656202461694293e-05,
	"loss": 0.2787,
	"step": 6150
	},
	{
	"epoch": 4.170616113744076,
	"grad_norm": 1.6711342334747314,
	"learning_rate": 1.630240791631945e-05,
	"loss": 0.2996,
	"step": 6160
	},
	{
	"epoch": 4.177386594448206,
	"grad_norm": 1.8249988555908203,
	"learning_rate": 1.6044661429364205e-05,
	"loss": 0.2617,
	"step": 6170
	},
	{
	"epoch": 4.184157075152336,
	"grad_norm": 2.0309152603149414,
	"learning_rate": 1.5788790915394645e-05,
	"loss": 0.2627,
	"step": 6180
	},
	{
	"epoch": 4.190927555856466,
	"grad_norm": 1.7783539295196533,
	"learning_rate": 1.5534802091809818e-05,
	"loss": 0.2734,
	"step": 6190
	},
	{
	"epoch": 4.197698036560595,
	"grad_norm": 1.5822839736938477,
	"learning_rate": 1.528270063396262e-05,
	"loss": 0.2765,
	"step": 6200
	},
	{
	"epoch": 4.204468517264726,
	"grad_norm": 1.9683705568313599,
	"learning_rate": 1.5032492175032876e-05,
	"loss": 0.2665,
	"step": 6210
	},
	{
	"epoch": 4.211238997968856,
	"grad_norm": 1.4425179958343506,
	"learning_rate": 1.4784182305901672e-05,
	"loss": 0.2644,
	"step": 6220
	},
	{
	"epoch": 4.218009478672986,
	"grad_norm": 1.8725738525390625,
	"learning_rate": 1.4537776575026207e-05,
	"loss": 0.2611,
	"step": 6230
	},
	{
	"epoch": 4.224779959377115,
	"grad_norm": 1.767899990081787,
	"learning_rate": 1.4293280488315986e-05,
	"loss": 0.2851,
	"step": 6240
	},
	{
	"epoch": 4.231550440081246,
	"grad_norm": 1.2789946794509888,
	"learning_rate": 1.4050699509009679e-05,
	"loss": 0.2727,
	"step": 6250
	},
	{
	"epoch": 4.238320920785376,
	"grad_norm": 1.5606369972229004,
	"learning_rate": 1.3810039057553138e-05,
	"loss": 0.2704,
	"step": 6260
	},
	{
	"epoch": 4.245091401489506,
	"grad_norm": 1.5035715103149414,
	"learning_rate": 1.3571304511478188e-05,
	"loss": 0.2847,
	"step": 6270
	},
	{
	"epoch": 4.251861882193635,
	"grad_norm": 1.8756885528564453,
	"learning_rate": 1.333450120528249e-05,
	"loss": 0.2551,
	"step": 6280
	},
	{
	"epoch": 4.258632362897766,
	"grad_norm": 2.072859048843384,
	"learning_rate": 1.3099634430310403e-05,
	"loss": 0.249,
	"step": 6290
	},
	{
	"epoch": 4.265402843601896,
	"grad_norm": 1.6129212379455566,
	"learning_rate": 1.2866709434634684e-05,
	"loss": 0.2961,
	"step": 6300
	},
	{
	"epoch": 4.272173324306026,
	"grad_norm": 1.705417513847351,
	"learning_rate": 1.2635731422939212e-05,
	"loss": 0.2476,
	"step": 6310
	},
	{
	"epoch": 4.278943805010155,
	"grad_norm": 1.9114418029785156,
	"learning_rate": 1.2406705556402776e-05,
	"loss": 0.275,
	"step": 6320
	},
	{
	"epoch": 4.285714285714286,
	"grad_norm": 1.7978328466415405,
	"learning_rate": 1.217963695258364e-05,
	"loss": 0.2605,
	"step": 6330
	},
	{
	"epoch": 4.292484766418416,
	"grad_norm": 1.7482448816299438,
	"learning_rate": 1.1954530685305287e-05,
	"loss": 0.2696,
	"step": 6340
	},
	{
	"epoch": 4.299255247122546,
	"grad_norm": 2.014146566390991,
	"learning_rate": 1.1731391784543e-05,
	"loss": 0.2914,
	"step": 6350
	},
	{
	"epoch": 4.306025727826675,
	"grad_norm": 2.0617308616638184,
	"learning_rate": 1.15102252363114e-05,
	"loss": 0.262,
	"step": 6360
	},
	{
	"epoch": 4.312796208530806,
	"grad_norm": 1.9172184467315674,
	"learning_rate": 1.1291035982553189e-05,
	"loss": 0.2702,
	"step": 6370
	},
	{
	"epoch": 4.319566689234936,
	"grad_norm": 1.7097840309143066,
	"learning_rate": 1.1073828921028606e-05,
	"loss": 0.308,
	"step": 6380
	},
	{
	"epoch": 4.326337169939066,
	"grad_norm": 1.5703011751174927,
	"learning_rate": 1.085860890520598e-05,
	"loss": 0.2536,
	"step": 6390
	},
	{
	"epoch": 4.333107650643195,
	"grad_norm": 2.1221113204956055,
	"learning_rate": 1.0645380744153378e-05,
	"loss": 0.2713,
	"step": 6400
	},
	{
	"epoch": 4.339878131347326,
	"grad_norm": 1.5522172451019287,
	"learning_rate": 1.0434149202431054e-05,
	"loss": 0.259,
	"step": 6410
	},
	{
	"epoch": 4.346648612051456,
	"grad_norm": 1.7431870698928833,
	"learning_rate": 1.0224918999985044e-05,
	"loss": 0.2847,
	"step": 6420
	},
	{
	"epoch": 4.353419092755586,
	"grad_norm": 1.9679934978485107,
	"learning_rate": 1.0017694812041656e-05,
	"loss": 0.2621,
	"step": 6430
	},
	{
	"epoch": 4.360189573459715,
	"grad_norm": 2.4556872844696045,
	"learning_rate": 9.812481269002983e-06,
	"loss": 0.2803,
	"step": 6440
	},
	{
	"epoch": 4.366960054163846,
	"grad_norm": 1.530918836593628,
	"learning_rate": 9.609282956343557e-06,
	"loss": 0.2962,
	"step": 6450
	},
	{
	"epoch": 4.373730534867976,
	"grad_norm": 1.861484169960022,
	"learning_rate": 9.408104414507724e-06,
	"loss": 0.2917,
	"step": 6460
	},
	{
	"epoch": 4.380501015572106,
	"grad_norm": 2.1292312145233154,
	"learning_rate": 9.208950138808293e-06,
	"loss": 0.329,
	"step": 6470
	},
	{
	"epoch": 4.387271496276235,
	"grad_norm": 1.6679848432540894,
	"learning_rate": 9.011824579326144e-06,
	"loss": 0.2768,
	"step": 6480
	},
	{
	"epoch": 4.394041976980366,
	"grad_norm": 1.5731488466262817,
	"learning_rate": 8.81673214081058e-06,
	"loss": 0.2919,
	"step": 6490
	},
	{
	"epoch": 4.400812457684496,
	"grad_norm": 1.8150240182876587,
	"learning_rate": 8.623677182581135e-06,
	"loss": 0.2719,
	"step": 6500
	},
	{
	"epoch": 4.407582938388625,
	"grad_norm": 2.06569504737854,
	"learning_rate": 8.432664018430003e-06,
	"loss": 0.2803,
	"step": 6510
	},
	{
	"epoch": 4.414353419092755,
	"grad_norm": 1.6544770002365112,
	"learning_rate": 8.243696916525745e-06,
	"loss": 0.2508,
	"step": 6520
	},
	{
	"epoch": 4.421123899796886,
	"grad_norm": 1.6926827430725098,
	"learning_rate": 8.056780099317885e-06,
	"loss": 0.2979,
	"step": 6530
	},
	{
	"epoch": 4.427894380501016,
	"grad_norm": 1.7074532508850098,
	"learning_rate": 7.871917743442513e-06,
	"loss": 0.2901,
	"step": 6540
	},
	{
	"epoch": 4.434664861205146,
	"grad_norm": 2.1102843284606934,
	"learning_rate": 7.68911397962906e-06,
	"loss": 0.2615,
	"step": 6550
	},
	{
	"epoch": 4.441435341909275,
	"grad_norm": 1.4068889617919922,
	"learning_rate": 7.5083728926079065e-06,
	"loss": 0.2608,
	"step": 6560
	},
	{
	"epoch": 4.448205822613406,
	"grad_norm": 1.8090318441390991,
	"learning_rate": 7.329698521019157e-06,
	"loss": 0.2904,
	"step": 6570
	},
	{
	"epoch": 4.454976303317536,
	"grad_norm": 1.7596811056137085,
	"learning_rate": 7.153094857322374e-06,
	"loss": 0.2763,
	"step": 6580
	},
	{
	"epoch": 4.461746784021665,
	"grad_norm": 1.7713943719863892,
	"learning_rate": 6.978565847707352e-06,
	"loss": 0.2644,
	"step": 6590
	},
	{
	"epoch": 4.468517264725795,
	"grad_norm": 1.9358819723129272,
	"learning_rate": 6.806115392006007e-06,
	"loss": 0.2758,
	"step": 6600
	},
	{
	"epoch": 4.475287745429926,
	"grad_norm": 1.916235327720642,
	"learning_rate": 6.635747343605181e-06,
	"loss": 0.2952,
	"step": 6610
	},
	{
	"epoch": 4.482058226134056,
	"grad_norm": 1.6258528232574463,
	"learning_rate": 6.4674655093605155e-06,
	"loss": 0.272,
	"step": 6620
	},
	{
	"epoch": 4.488828706838185,
	"grad_norm": 1.8681087493896484,
	"learning_rate": 6.301273649511464e-06,
	"loss": 0.2638,
	"step": 6630
	},
	{
	"epoch": 4.495599187542315,
	"grad_norm": 1.644300103187561,
	"learning_rate": 6.137175477597213e-06,
	"loss": 0.271,
	"step": 6640
	},
	{
	"epoch": 4.502369668246446,
	"grad_norm": 1.8756589889526367,
	"learning_rate": 5.975174660373706e-06,
	"loss": 0.2682,
	"step": 6650
	},
	{
	"epoch": 4.509140148950576,
	"grad_norm": 1.5481034517288208,
	"learning_rate": 5.815274817731753e-06,
	"loss": 0.2926,
	"step": 6660
	},
	{
	"epoch": 4.515910629654705,
	"grad_norm": 1.8476117849349976,
	"learning_rate": 5.657479522616071e-06,
	"loss": 0.2716,
	"step": 6670
	},
	{
	"epoch": 4.522681110358835,
	"grad_norm": 1.7573695182800293,
	"learning_rate": 5.501792300945507e-06,
	"loss": 0.2812,
	"step": 6680
	},
	{
	"epoch": 4.529451591062966,
	"grad_norm": 1.7136588096618652,
	"learning_rate": 5.348216631534264e-06,
	"loss": 0.2416,
	"step": 6690
	},
	{
	"epoch": 4.536222071767096,
	"grad_norm": 1.662249207496643,
	"learning_rate": 5.196755946014065e-06,
	"loss": 0.2571,
	"step": 6700
	},
	{
	"epoch": 4.542992552471225,
	"grad_norm": 2.3519043922424316,
	"learning_rate": 5.047413628757658e-06,
	"loss": 0.2819,
	"step": 6710
	},
	{
	"epoch": 4.549763033175355,
	"grad_norm": 1.7724781036376953,
	"learning_rate": 4.900193016802956e-06,
	"loss": 0.2881,
	"step": 6720
	},
	{
	"epoch": 4.556533513879486,
	"grad_norm": 1.6066288948059082,
	"learning_rate": 4.755097399778707e-06,
	"loss": 0.2837,
	"step": 6730
	},
	{
	"epoch": 4.563303994583616,
	"grad_norm": 2.2322845458984375,
	"learning_rate": 4.612130019830774e-06,
	"loss": 0.2648,
	"step": 6740
	},
	{
	"epoch": 4.570074475287745,
	"grad_norm": 1.8880157470703125,
	"learning_rate": 4.471294071549869e-06,
	"loss": 0.2571,
	"step": 6750
	},
	{
	"epoch": 4.576844955991875,
	"grad_norm": 1.5234016180038452,
	"learning_rate": 4.332592701900085e-06,
	"loss": 0.2567,
	"step": 6760
	},
	{
	"epoch": 4.583615436696006,
	"grad_norm": 2.566943645477295,
	"learning_rate": 4.196029010148527e-06,
	"loss": 0.2462,
	"step": 6770
	},
	{
	"epoch": 4.590385917400136,
	"grad_norm": 2.2811155319213867,
	"learning_rate": 4.0616060477961845e-06,
	"loss": 0.2695,
	"step": 6780
	},
	{
	"epoch": 4.597156398104265,
	"grad_norm": 2.036428928375244,
	"learning_rate": 3.929326818509638e-06,
	"loss": 0.2816,
	"step": 6790
	},
	{
	"epoch": 4.603926878808395,
	"grad_norm": 1.9326859712600708,
	"learning_rate": 3.799194278054019e-06,
	"loss": 0.3004,
	"step": 6800
	},
	{
	"epoch": 4.610697359512526,
	"grad_norm": 2.0376124382019043,
	"learning_rate": 3.6712113342269095e-06,
	"loss": 0.3155,
	"step": 6810
	},
	{
	"epoch": 4.617467840216655,
	"grad_norm": 1.9327590465545654,
	"learning_rate": 3.5453808467933558e-06,
	"loss": 0.2598,
	"step": 6820
	},
	{
	"epoch": 4.624238320920785,
	"grad_norm": 1.5915392637252808,
	"learning_rate": 3.421705627422067e-06,
	"loss": 0.2893,
	"step": 6830
	},
	{
	"epoch": 4.631008801624915,
	"grad_norm": 1.4876010417938232,
	"learning_rate": 3.300188439622465e-06,
	"loss": 0.2702,
	"step": 6840
	},
	{
	"epoch": 4.637779282329046,
	"grad_norm": 1.8183128833770752,
	"learning_rate": 3.180831998682987e-06,
	"loss": 0.26,
	"step": 6850
	},
	{
	"epoch": 4.644549763033176,
	"grad_norm": 1.5423557758331299,
	"learning_rate": 3.0636389716104607e-06,
	"loss": 0.309,
	"step": 6860
	},
	{
	"epoch": 4.651320243737305,
	"grad_norm": 1.5031051635742188,
	"learning_rate": 2.9486119770704144e-06,
	"loss": 0.2541,
	"step": 6870
	},
	{
	"epoch": 4.658090724441435,
	"grad_norm": 1.648635745048523,
	"learning_rate": 2.83575358532866e-06,
	"loss": 0.3016,
	"step": 6880
	},
	{
	"epoch": 4.664861205145566,
	"grad_norm": 2.3799970149993896,
	"learning_rate": 2.7250663181937808e-06,
	"loss": 0.287,
	"step": 6890
	},
	{
	"epoch": 4.671631685849695,
	"grad_norm": 1.8683040142059326,
	"learning_rate": 2.6165526489608016e-06,
	"loss": 0.2414,
	"step": 6900
	},
	{
	"epoch": 4.678402166553825,
	"grad_norm": 1.5256311893463135,
	"learning_rate": 2.510215002355987e-06,
	"loss": 0.2605,
	"step": 6910
	},
	{
	"epoch": 4.685172647257955,
	"grad_norm": 1.87392258644104,
	"learning_rate": 2.4060557544825724e-06,
	"loss": 0.2536,
	"step": 6920
	},
	{
	"epoch": 4.691943127962086,
	"grad_norm": 1.480167031288147,
	"learning_rate": 2.3040772327676987e-06,
	"loss": 0.2773,
	"step": 6930
	},
	{
	"epoch": 4.698713608666216,
	"grad_norm": 1.5413248538970947,
	"learning_rate": 2.2042817159104614e-06,
	"loss": 0.2801,
	"step": 6940
	},
	{
	"epoch": 4.705484089370345,
	"grad_norm": 1.492633581161499,
	"learning_rate": 2.106671433830909e-06,
	"loss": 0.2343,
	"step": 6950
	},
	{
	"epoch": 4.712254570074475,
	"grad_norm": 1.4329499006271362,
	"learning_rate": 2.011248567620272e-06,
	"loss": 0.2628,
	"step": 6960
	},
	{
	"epoch": 4.719025050778606,
	"grad_norm": 1.9466246366500854,
	"learning_rate": 1.918015249492211e-06,
	"loss": 0.258,
	"step": 6970
	},
	{
	"epoch": 4.725795531482735,
	"grad_norm": 1.604708194732666,
	"learning_rate": 1.8269735627351459e-06,
	"loss": 0.2807,
	"step": 6980
	},
	{
	"epoch": 4.732566012186865,
	"grad_norm": 1.7957441806793213,
	"learning_rate": 1.7381255416657693e-06,
	"loss": 0.2476,
	"step": 6990
	},
	{
	"epoch": 4.739336492890995,
	"grad_norm": 1.6520119905471802,
	"learning_rate": 1.6514731715835064e-06,
	"loss": 0.2722,
	"step": 7000
	},
	{
	"epoch": 4.739336492890995,
	"eval_loss": 1.1487771272659302,
	"eval_runtime": 23.0937,
	"eval_samples_per_second": 107.735,
	"eval_steps_per_second": 13.467,
	"step": 7000
	},
	{
	"epoch": 4.746106973595126,
	"grad_norm": 1.8763707876205444,
	"learning_rate": 1.5670183887262268e-06,
	"loss": 0.253,
	"step": 7010
	},
	{
	"epoch": 4.752877454299255,
	"grad_norm": 2.0074474811553955,
	"learning_rate": 1.4847630802269695e-06,
	"loss": 0.2886,
	"step": 7020
	},
	{
	"epoch": 4.759647935003385,
	"grad_norm": 1.6623965501785278,
	"learning_rate": 1.4047090840716982e-06,
	"loss": 0.2645,
	"step": 7030
	},
	{
	"epoch": 4.766418415707515,
	"grad_norm": 2.1426522731781006,
	"learning_rate": 1.3268581890583553e-06,
	"loss": 0.2834,
	"step": 7040
	},
	{
	"epoch": 4.773188896411646,
	"grad_norm": 2.4106967449188232,
	"learning_rate": 1.251212134756763e-06,
	"loss": 0.2967,
	"step": 7050
	},
	{
	"epoch": 4.779959377115775,
	"grad_norm": 1.7238754034042358,
	"learning_rate": 1.1777726114698628e-06,
	"loss": 0.2819,
	"step": 7060
	},
	{
	"epoch": 4.786729857819905,
	"grad_norm": 1.9978512525558472,
	"learning_rate": 1.1065412601958813e-06,
	"loss": 0.2892,
	"step": 7070
	},
	{
	"epoch": 4.793500338524035,
	"grad_norm": 1.807606816291809,
	"learning_rate": 1.0375196725916693e-06,
	"loss": 0.2751,
	"step": 7080
	},
	{
	"epoch": 4.800270819228166,
	"grad_norm": 1.8417556285858154,
	"learning_rate": 9.707093909371745e-07,
	"loss": 0.277,
	"step": 7090
	},
	{
	"epoch": 4.807041299932295,
	"grad_norm": 1.6947407722473145,
	"learning_rate": 9.061119081009262e-07,
	"loss": 0.2717,
	"step": 7100
	},
	{
	"epoch": 4.813811780636425,
	"grad_norm": 2.100844621658325,
	"learning_rate": 8.437286675067046e-07,
	"loss": 0.2589,
	"step": 7110
	},
	{
	"epoch": 4.820582261340555,
	"grad_norm": 1.8315235376358032,
	"learning_rate": 7.835610631013123e-07,
	"loss": 0.2774,
	"step": 7120
	},
	{
	"epoch": 4.827352742044685,
	"grad_norm": 1.8022527694702148,
	"learning_rate": 7.256104393233654e-07,
	"loss": 0.2826,
	"step": 7130
	},
	{
	"epoch": 4.834123222748815,
	"grad_norm": 1.8034976720809937,
	"learning_rate": 6.698780910732949e-07,
	"loss": 0.287,
	"step": 7140
	},
	{
	"epoch": 4.840893703452945,
	"grad_norm": 2.1168487071990967,
	"learning_rate": 6.163652636844375e-07,
	"loss": 0.2601,
	"step": 7150
	},
	{
	"epoch": 4.847664184157075,
	"grad_norm": 1.7831007242202759,
	"learning_rate": 5.650731528951237e-07,
	"loss": 0.2671,
	"step": 7160
	},
	{
	"epoch": 4.854434664861206,
	"grad_norm": 1.85152268409729,
	"learning_rate": 5.160029048220438e-07,
	"loss": 0.2877,
	"step": 7170
	},
	{
	"epoch": 4.861205145565335,
	"grad_norm": 1.629766583442688,
	"learning_rate": 4.691556159346133e-07,
	"loss": 0.3145,
	"step": 7180
	},
	{
	"epoch": 4.867975626269465,
	"grad_norm": 2.025866746902466,
	"learning_rate": 4.2453233303043627e-07,
	"loss": 0.2634,
	"step": 7190
	},
	{
	"epoch": 4.874746106973595,
	"grad_norm": 1.8864160776138306,
	"learning_rate": 3.8213405321195775e-07,
	"loss": 0.257,
	"step": 7200
	},
	{
	"epoch": 4.881516587677725,
	"grad_norm": 1.6541404724121094,
	"learning_rate": 3.4196172386417036e-07,
	"loss": 0.2942,
	"step": 7210
	},
	{
	"epoch": 4.888287068381855,
	"grad_norm": 1.627166509628296,
	"learning_rate": 3.0401624263344254e-07,
	"loss": 0.2984,
	"step": 7220
	},
	{
	"epoch": 4.895057549085985,
	"grad_norm": 2.0203287601470947,
	"learning_rate": 2.682984574074565e-07,
	"loss": 0.2775,
	"step": 7230
	},
	{
	"epoch": 4.901828029790115,
	"grad_norm": 1.4823179244995117,
	"learning_rate": 2.3480916629626816e-07,
	"loss": 0.2303,
	"step": 7240
	},
	{
	"epoch": 4.908598510494246,
	"grad_norm": 1.6466970443725586,
	"learning_rate": 2.035491176144766e-07,
	"loss": 0.2561,
	"step": 7250
	},
	{
	"epoch": 4.915368991198375,
	"grad_norm": 1.857335090637207,
	"learning_rate": 1.7451900986450441e-07,
	"loss": 0.2478,
	"step": 7260
	},
	{
	"epoch": 4.922139471902505,
	"grad_norm": 1.615402102470398,
	"learning_rate": 1.4771949172097677e-07,
	"loss": 0.2644,
	"step": 7270
	},
	{
	"epoch": 4.928909952606635,
	"grad_norm": 1.6097745895385742,
	"learning_rate": 1.2315116201623288e-07,
	"loss": 0.2687,
	"step": 7280
	},
	{
	"epoch": 4.935680433310765,
	"grad_norm": 1.6500680446624756,
	"learning_rate": 1.0081456972694803e-07,
	"loss": 0.2782,
	"step": 7290
	},
	{
	"epoch": 4.942450914014895,
	"grad_norm": 1.5854169130325317,
	"learning_rate": 8.07102139618765e-08,
	"loss": 0.2503,
	"step": 7300
	},
	{
	"epoch": 4.949221394719025,
	"grad_norm": 1.917787790298462,
	"learning_rate": 6.283854395067179e-08,
	"loss": 0.2688,
	"step": 7310
	},
	{
	"epoch": 4.955991875423155,
	"grad_norm": 1.3667759895324707,
	"learning_rate": 4.719995903387231e-08,
	"loss": 0.2713,
	"step": 7320
	},
	{
	"epoch": 4.962762356127285,
	"grad_norm": 1.4660590887069702,
	"learning_rate": 3.379480865397522e-08,
	"loss": 0.2492,
	"step": 7330
	},
	{
	"epoch": 4.969532836831415,
	"grad_norm": 1.909756064414978,
	"learning_rate": 2.2623392347620455e-08,
	"loss": 0.2528,
	"step": 7340
	},
	{
	"epoch": 4.976303317535545,
	"grad_norm": 1.9919097423553467,
	"learning_rate": 1.3685959738907184e-08,
	"loss": 0.2797,
	"step": 7350
	},
	{
	"epoch": 4.983073798239675,
	"grad_norm": 1.7295809984207153,
	"learning_rate": 6.982710533787185e-09,
	"loss": 0.2527,
	"step": 7360
	},
	{
	"epoch": 4.989844278943805,
	"grad_norm": 1.575947642326355,
	"learning_rate": 2.5137945156461507e-09,
	"loss": 0.3057,
	"step": 7370
	},
	{
	"epoch": 4.996614759647935,
	"grad_norm": 1.8067814111709595,
	"learning_rate": 2.7931154193971964e-10,
	"loss": 0.2525,
	"step": 7380
	},
	{
	"epoch": 5.0,
	"step": 7385,
	"total_flos": 1.6593737353978184e+18,
	"train_loss": 0.5936373706919645,
	"train_runtime": 5834.3806,
	"train_samples_per_second": 40.5,
	"train_steps_per_second": 1.266
	}
	],
	"logging_steps": 10,
	"max_steps": 7385,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.6593737353978184e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}