SFT-165k-V28 / trainer_state.json

Upload folder using huggingface_hub

31835a7 verified 18 days ago

86.8 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9274431057563588,
	"eval_steps": 500,
	"global_step": 4500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00428380187416332,
	"grad_norm": 1.7204455338427447,
	"learning_rate": 9.635974304068523e-08,
	"loss": 0.310353684425354,
	"step": 10
	},
	{
	"epoch": 0.00856760374832664,
	"grad_norm": 1.5542088461890025,
	"learning_rate": 2.0342612419700217e-07,
	"loss": 0.3165663003921509,
	"step": 20
	},
	{
	"epoch": 0.01285140562248996,
	"grad_norm": 1.2986368981078442,
	"learning_rate": 3.1049250535331905e-07,
	"loss": 0.2931360721588135,
	"step": 30
	},
	{
	"epoch": 0.01713520749665328,
	"grad_norm": 1.3372226018458075,
	"learning_rate": 4.1755888650963603e-07,
	"loss": 0.29114551544189454,
	"step": 40
	},
	{
	"epoch": 0.0214190093708166,
	"grad_norm": 1.065879980657948,
	"learning_rate": 5.24625267665953e-07,
	"loss": 0.2506369352340698,
	"step": 50
	},
	{
	"epoch": 0.02570281124497992,
	"grad_norm": 0.6781359530445974,
	"learning_rate": 6.3169164882227e-07,
	"loss": 0.22955031394958497,
	"step": 60
	},
	{
	"epoch": 0.02998661311914324,
	"grad_norm": 0.5249895834183264,
	"learning_rate": 7.387580299785868e-07,
	"loss": 0.22067618370056152,
	"step": 70
	},
	{
	"epoch": 0.03427041499330656,
	"grad_norm": 0.5375825140839746,
	"learning_rate": 8.458244111349037e-07,
	"loss": 0.21640052795410156,
	"step": 80
	},
	{
	"epoch": 0.03855421686746988,
	"grad_norm": 0.5549702260654302,
	"learning_rate": 9.528907922912206e-07,
	"loss": 0.22633485794067382,
	"step": 90
	},
	{
	"epoch": 0.0428380187416332,
	"grad_norm": 0.43849850542690183,
	"learning_rate": 1.0599571734475375e-06,
	"loss": 0.20759968757629393,
	"step": 100
	},
	{
	"epoch": 0.04712182061579652,
	"grad_norm": 0.46359825184269493,
	"learning_rate": 1.1670235546038546e-06,
	"loss": 0.1973546862602234,
	"step": 110
	},
	{
	"epoch": 0.05140562248995984,
	"grad_norm": 0.41875998061321557,
	"learning_rate": 1.2740899357601712e-06,
	"loss": 0.19023516178131103,
	"step": 120
	},
	{
	"epoch": 0.055689424364123156,
	"grad_norm": 0.5127942743282548,
	"learning_rate": 1.3811563169164883e-06,
	"loss": 0.2127223491668701,
	"step": 130
	},
	{
	"epoch": 0.05997322623828648,
	"grad_norm": 0.46830156678706125,
	"learning_rate": 1.4882226980728054e-06,
	"loss": 0.1934453845024109,
	"step": 140
	},
	{
	"epoch": 0.0642570281124498,
	"grad_norm": 0.508710707179685,
	"learning_rate": 1.5952890792291223e-06,
	"loss": 0.2092526912689209,
	"step": 150
	},
	{
	"epoch": 0.06854082998661312,
	"grad_norm": 0.5421780654693655,
	"learning_rate": 1.7023554603854392e-06,
	"loss": 0.2070756435394287,
	"step": 160
	},
	{
	"epoch": 0.07282463186077644,
	"grad_norm": 0.493152534196984,
	"learning_rate": 1.809421841541756e-06,
	"loss": 0.19875586032867432,
	"step": 170
	},
	{
	"epoch": 0.07710843373493977,
	"grad_norm": 0.4980754232181657,
	"learning_rate": 1.916488222698073e-06,
	"loss": 0.18669115304946898,
	"step": 180
	},
	{
	"epoch": 0.08139223560910308,
	"grad_norm": 0.5304243381141518,
	"learning_rate": 2.02355460385439e-06,
	"loss": 0.2146810531616211,
	"step": 190
	},
	{
	"epoch": 0.0856760374832664,
	"grad_norm": 0.5500032540817943,
	"learning_rate": 2.1306209850107067e-06,
	"loss": 0.19487186670303344,
	"step": 200
	},
	{
	"epoch": 0.08995983935742972,
	"grad_norm": 0.42930678514550324,
	"learning_rate": 2.2376873661670238e-06,
	"loss": 0.18126411437988282,
	"step": 210
	},
	{
	"epoch": 0.09424364123159304,
	"grad_norm": 0.5711883922291429,
	"learning_rate": 2.3447537473233404e-06,
	"loss": 0.2076016664505005,
	"step": 220
	},
	{
	"epoch": 0.09852744310575635,
	"grad_norm": 0.6678390082859929,
	"learning_rate": 2.4518201284796575e-06,
	"loss": 0.20209894180297852,
	"step": 230
	},
	{
	"epoch": 0.10281124497991968,
	"grad_norm": 0.4835994184206877,
	"learning_rate": 2.558886509635974e-06,
	"loss": 0.16395035982131959,
	"step": 240
	},
	{
	"epoch": 0.107095046854083,
	"grad_norm": 0.42091478620818606,
	"learning_rate": 2.6659528907922917e-06,
	"loss": 0.17233937978744507,
	"step": 250
	},
	{
	"epoch": 0.11137884872824631,
	"grad_norm": 0.5320893808200788,
	"learning_rate": 2.7730192719486084e-06,
	"loss": 0.18311020135879516,
	"step": 260
	},
	{
	"epoch": 0.11566265060240964,
	"grad_norm": 0.5257058584608517,
	"learning_rate": 2.8800856531049255e-06,
	"loss": 0.20057764053344726,
	"step": 270
	},
	{
	"epoch": 0.11994645247657296,
	"grad_norm": 0.5293308935757324,
	"learning_rate": 2.987152034261242e-06,
	"loss": 0.1837336540222168,
	"step": 280
	},
	{
	"epoch": 0.12423025435073627,
	"grad_norm": 0.46642029540934604,
	"learning_rate": 3.0942184154175592e-06,
	"loss": 0.19081385135650636,
	"step": 290
	},
	{
	"epoch": 0.1285140562248996,
	"grad_norm": 0.5628183880631954,
	"learning_rate": 3.201284796573876e-06,
	"loss": 0.17274467945098876,
	"step": 300
	},
	{
	"epoch": 0.13279785809906292,
	"grad_norm": 0.48916829855974603,
	"learning_rate": 3.308351177730193e-06,
	"loss": 0.18039458990097046,
	"step": 310
	},
	{
	"epoch": 0.13708165997322624,
	"grad_norm": 0.5298792138248726,
	"learning_rate": 3.41541755888651e-06,
	"loss": 0.1898115634918213,
	"step": 320
	},
	{
	"epoch": 0.14136546184738955,
	"grad_norm": 0.439555530924186,
	"learning_rate": 3.5224839400428268e-06,
	"loss": 0.17530070543289183,
	"step": 330
	},
	{
	"epoch": 0.14564926372155287,
	"grad_norm": 0.5117824224937999,
	"learning_rate": 3.629550321199144e-06,
	"loss": 0.17437742948532103,
	"step": 340
	},
	{
	"epoch": 0.1499330655957162,
	"grad_norm": 0.4753694102031763,
	"learning_rate": 3.7366167023554605e-06,
	"loss": 0.17850689888000487,
	"step": 350
	},
	{
	"epoch": 0.15421686746987953,
	"grad_norm": 0.6306563088828507,
	"learning_rate": 3.843683083511778e-06,
	"loss": 0.18741222620010375,
	"step": 360
	},
	{
	"epoch": 0.15850066934404283,
	"grad_norm": 0.4694179327929818,
	"learning_rate": 3.950749464668095e-06,
	"loss": 0.17026090621948242,
	"step": 370
	},
	{
	"epoch": 0.16278447121820616,
	"grad_norm": 0.5048197989896139,
	"learning_rate": 4.057815845824411e-06,
	"loss": 0.1726588487625122,
	"step": 380
	},
	{
	"epoch": 0.1670682730923695,
	"grad_norm": 0.524700358081214,
	"learning_rate": 4.164882226980728e-06,
	"loss": 0.18944069147109985,
	"step": 390
	},
	{
	"epoch": 0.1713520749665328,
	"grad_norm": 0.4571670229694066,
	"learning_rate": 4.2719486081370455e-06,
	"loss": 0.16420159339904786,
	"step": 400
	},
	{
	"epoch": 0.17563587684069612,
	"grad_norm": 0.46820018814554304,
	"learning_rate": 4.379014989293362e-06,
	"loss": 0.19183117151260376,
	"step": 410
	},
	{
	"epoch": 0.17991967871485945,
	"grad_norm": 0.46894253012471776,
	"learning_rate": 4.486081370449679e-06,
	"loss": 0.17184211015701295,
	"step": 420
	},
	{
	"epoch": 0.18420348058902275,
	"grad_norm": 0.46858595995063135,
	"learning_rate": 4.593147751605996e-06,
	"loss": 0.17618422508239745,
	"step": 430
	},
	{
	"epoch": 0.18848728246318608,
	"grad_norm": 0.5091947698167847,
	"learning_rate": 4.700214132762313e-06,
	"loss": 0.18246437311172486,
	"step": 440
	},
	{
	"epoch": 0.1927710843373494,
	"grad_norm": 0.5203679422298269,
	"learning_rate": 4.807280513918631e-06,
	"loss": 0.16799516677856446,
	"step": 450
	},
	{
	"epoch": 0.1970548862115127,
	"grad_norm": 0.4306784639956151,
	"learning_rate": 4.914346895074946e-06,
	"loss": 0.1661084771156311,
	"step": 460
	},
	{
	"epoch": 0.20133868808567604,
	"grad_norm": 0.4604689622728843,
	"learning_rate": 5.021413276231264e-06,
	"loss": 0.17491416931152343,
	"step": 470
	},
	{
	"epoch": 0.20562248995983937,
	"grad_norm": 0.47273083263588245,
	"learning_rate": 5.128479657387581e-06,
	"loss": 0.16252427101135253,
	"step": 480
	},
	{
	"epoch": 0.20990629183400267,
	"grad_norm": 0.4611929063195057,
	"learning_rate": 5.235546038543897e-06,
	"loss": 0.1942029356956482,
	"step": 490
	},
	{
	"epoch": 0.214190093708166,
	"grad_norm": 0.4640899103515948,
	"learning_rate": 5.342612419700215e-06,
	"loss": 0.1781969666481018,
	"step": 500
	},
	{
	"epoch": 0.214190093708166,
	"eval_loss": 0.17298774421215057,
	"eval_runtime": 813.3235,
	"eval_samples_per_second": 20.41,
	"eval_steps_per_second": 5.103,
	"step": 500
	},
	{
	"epoch": 0.21847389558232932,
	"grad_norm": 0.4892486598590822,
	"learning_rate": 5.4496788008565314e-06,
	"loss": 0.17805953025817872,
	"step": 510
	},
	{
	"epoch": 0.22275769745649263,
	"grad_norm": 0.45908639825034264,
	"learning_rate": 5.556745182012848e-06,
	"loss": 0.1704517126083374,
	"step": 520
	},
	{
	"epoch": 0.22704149933065595,
	"grad_norm": 0.4606868972349124,
	"learning_rate": 5.663811563169165e-06,
	"loss": 0.17605620622634888,
	"step": 530
	},
	{
	"epoch": 0.23132530120481928,
	"grad_norm": 0.4883203630934758,
	"learning_rate": 5.770877944325482e-06,
	"loss": 0.185607647895813,
	"step": 540
	},
	{
	"epoch": 0.23560910307898258,
	"grad_norm": 0.480706769968442,
	"learning_rate": 5.877944325481799e-06,
	"loss": 0.1776334285736084,
	"step": 550
	},
	{
	"epoch": 0.2398929049531459,
	"grad_norm": 0.43013827677127364,
	"learning_rate": 5.985010706638116e-06,
	"loss": 0.17925962209701538,
	"step": 560
	},
	{
	"epoch": 0.24417670682730924,
	"grad_norm": 0.43681041122775155,
	"learning_rate": 6.092077087794433e-06,
	"loss": 0.15904269218444825,
	"step": 570
	},
	{
	"epoch": 0.24846050870147254,
	"grad_norm": 0.4057531376060292,
	"learning_rate": 6.19914346895075e-06,
	"loss": 0.17201122045516967,
	"step": 580
	},
	{
	"epoch": 0.2527443105756359,
	"grad_norm": 0.5693511659878766,
	"learning_rate": 6.3062098501070665e-06,
	"loss": 0.1783498764038086,
	"step": 590
	},
	{
	"epoch": 0.2570281124497992,
	"grad_norm": 0.5038894023292907,
	"learning_rate": 6.413276231263383e-06,
	"loss": 0.16208181381225586,
	"step": 600
	},
	{
	"epoch": 0.2613119143239625,
	"grad_norm": 0.4255056407918071,
	"learning_rate": 6.5203426124197015e-06,
	"loss": 0.1778697967529297,
	"step": 610
	},
	{
	"epoch": 0.26559571619812583,
	"grad_norm": 0.42463834883952506,
	"learning_rate": 6.627408993576018e-06,
	"loss": 0.17847087383270263,
	"step": 620
	},
	{
	"epoch": 0.26987951807228916,
	"grad_norm": 0.4280904585197745,
	"learning_rate": 6.734475374732334e-06,
	"loss": 0.16192808151245117,
	"step": 630
	},
	{
	"epoch": 0.2741633199464525,
	"grad_norm": 0.4032310396751306,
	"learning_rate": 6.841541755888651e-06,
	"loss": 0.1500581383705139,
	"step": 640
	},
	{
	"epoch": 0.2784471218206158,
	"grad_norm": 0.36936808807497884,
	"learning_rate": 6.948608137044969e-06,
	"loss": 0.1805708885192871,
	"step": 650
	},
	{
	"epoch": 0.2827309236947791,
	"grad_norm": 0.41279770820447376,
	"learning_rate": 7.055674518201286e-06,
	"loss": 0.15682549476623536,
	"step": 660
	},
	{
	"epoch": 0.2870147255689424,
	"grad_norm": 0.48113068018089383,
	"learning_rate": 7.162740899357602e-06,
	"loss": 0.17637710571289061,
	"step": 670
	},
	{
	"epoch": 0.29129852744310575,
	"grad_norm": 0.45019312769869485,
	"learning_rate": 7.26980728051392e-06,
	"loss": 0.16801434755325317,
	"step": 680
	},
	{
	"epoch": 0.2955823293172691,
	"grad_norm": 0.4323771559896418,
	"learning_rate": 7.3768736616702365e-06,
	"loss": 0.1738981246948242,
	"step": 690
	},
	{
	"epoch": 0.2998661311914324,
	"grad_norm": 0.4445466528485117,
	"learning_rate": 7.483940042826553e-06,
	"loss": 0.17883800268173217,
	"step": 700
	},
	{
	"epoch": 0.30414993306559573,
	"grad_norm": 0.4169235110055358,
	"learning_rate": 7.59100642398287e-06,
	"loss": 0.1757150650024414,
	"step": 710
	},
	{
	"epoch": 0.30843373493975906,
	"grad_norm": 0.46124417838321063,
	"learning_rate": 7.698072805139187e-06,
	"loss": 0.16563992500305175,
	"step": 720
	},
	{
	"epoch": 0.31271753681392234,
	"grad_norm": 0.4455214464656937,
	"learning_rate": 7.805139186295504e-06,
	"loss": 0.15891735553741454,
	"step": 730
	},
	{
	"epoch": 0.31700133868808567,
	"grad_norm": 0.48435793526108334,
	"learning_rate": 7.91220556745182e-06,
	"loss": 0.16565344333648682,
	"step": 740
	},
	{
	"epoch": 0.321285140562249,
	"grad_norm": 0.425099998591317,
	"learning_rate": 8.019271948608137e-06,
	"loss": 0.16711184978485108,
	"step": 750
	},
	{
	"epoch": 0.3255689424364123,
	"grad_norm": 0.4137507644842352,
	"learning_rate": 8.126338329764456e-06,
	"loss": 0.17436256408691406,
	"step": 760
	},
	{
	"epoch": 0.32985274431057565,
	"grad_norm": 0.5261718559693129,
	"learning_rate": 8.23340471092077e-06,
	"loss": 0.17338960170745848,
	"step": 770
	},
	{
	"epoch": 0.334136546184739,
	"grad_norm": 0.44161850092055,
	"learning_rate": 8.340471092077087e-06,
	"loss": 0.15373395681381224,
	"step": 780
	},
	{
	"epoch": 0.33842034805890225,
	"grad_norm": 0.42667362111196244,
	"learning_rate": 8.447537473233406e-06,
	"loss": 0.170109760761261,
	"step": 790
	},
	{
	"epoch": 0.3427041499330656,
	"grad_norm": 0.4289414936466275,
	"learning_rate": 8.554603854389722e-06,
	"loss": 0.16255849599838257,
	"step": 800
	},
	{
	"epoch": 0.3469879518072289,
	"grad_norm": 0.4462302049947027,
	"learning_rate": 8.661670235546039e-06,
	"loss": 0.1558121919631958,
	"step": 810
	},
	{
	"epoch": 0.35127175368139224,
	"grad_norm": 0.39502484462695925,
	"learning_rate": 8.768736616702356e-06,
	"loss": 0.14783246517181398,
	"step": 820
	},
	{
	"epoch": 0.35555555555555557,
	"grad_norm": 0.4872082027579418,
	"learning_rate": 8.875802997858674e-06,
	"loss": 0.162847638130188,
	"step": 830
	},
	{
	"epoch": 0.3598393574297189,
	"grad_norm": 0.427450758730554,
	"learning_rate": 8.98286937901499e-06,
	"loss": 0.16352038383483886,
	"step": 840
	},
	{
	"epoch": 0.36412315930388217,
	"grad_norm": 0.4528788471261664,
	"learning_rate": 9.089935760171307e-06,
	"loss": 0.16523147821426393,
	"step": 850
	},
	{
	"epoch": 0.3684069611780455,
	"grad_norm": 0.37599550924220604,
	"learning_rate": 9.197002141327624e-06,
	"loss": 0.15126256942749022,
	"step": 860
	},
	{
	"epoch": 0.37269076305220883,
	"grad_norm": 0.40592589779270666,
	"learning_rate": 9.30406852248394e-06,
	"loss": 0.15496088266372682,
	"step": 870
	},
	{
	"epoch": 0.37697456492637216,
	"grad_norm": 0.39024589028386475,
	"learning_rate": 9.411134903640257e-06,
	"loss": 0.16612087488174437,
	"step": 880
	},
	{
	"epoch": 0.3812583668005355,
	"grad_norm": 0.46291145028584035,
	"learning_rate": 9.518201284796574e-06,
	"loss": 0.16229329109191895,
	"step": 890
	},
	{
	"epoch": 0.3855421686746988,
	"grad_norm": 0.4622950426469592,
	"learning_rate": 9.625267665952892e-06,
	"loss": 0.16289321184158326,
	"step": 900
	},
	{
	"epoch": 0.3898259705488621,
	"grad_norm": 0.4404561037311073,
	"learning_rate": 9.732334047109209e-06,
	"loss": 0.16939005851745606,
	"step": 910
	},
	{
	"epoch": 0.3941097724230254,
	"grad_norm": 0.4522735218377503,
	"learning_rate": 9.839400428265526e-06,
	"loss": 0.1664318323135376,
	"step": 920
	},
	{
	"epoch": 0.39839357429718875,
	"grad_norm": 0.39873486371619626,
	"learning_rate": 9.946466809421842e-06,
	"loss": 0.17302082777023314,
	"step": 930
	},
	{
	"epoch": 0.4026773761713521,
	"grad_norm": 0.4403816711799427,
	"learning_rate": 9.99999127026893e-06,
	"loss": 0.1635822534561157,
	"step": 940
	},
	{
	"epoch": 0.4069611780455154,
	"grad_norm": 0.42736129250630583,
	"learning_rate": 9.999921432603256e-06,
	"loss": 0.16364479064941406,
	"step": 950
	},
	{
	"epoch": 0.41124497991967873,
	"grad_norm": 0.48227838403112244,
	"learning_rate": 9.999781758247374e-06,
	"loss": 0.1692502498626709,
	"step": 960
	},
	{
	"epoch": 0.41552878179384206,
	"grad_norm": 0.4325606288398738,
	"learning_rate": 9.999572249152187e-06,
	"loss": 0.1753953218460083,
	"step": 970
	},
	{
	"epoch": 0.41981258366800533,
	"grad_norm": 0.4184812393572346,
	"learning_rate": 9.999292908244031e-06,
	"loss": 0.15361449718475342,
	"step": 980
	},
	{
	"epoch": 0.42409638554216866,
	"grad_norm": 0.3536766183699388,
	"learning_rate": 9.998943739424614e-06,
	"loss": 0.16968698501586915,
	"step": 990
	},
	{
	"epoch": 0.428380187416332,
	"grad_norm": 0.4421427075174403,
	"learning_rate": 9.99852474757097e-06,
	"loss": 0.17062946557998657,
	"step": 1000
	},
	{
	"epoch": 0.428380187416332,
	"eval_loss": 0.1632310301065445,
	"eval_runtime": 809.0798,
	"eval_samples_per_second": 20.517,
	"eval_steps_per_second": 5.129,
	"step": 1000
	},
	{
	"epoch": 0.4326639892904953,
	"grad_norm": 0.4501749565827156,
	"learning_rate": 9.998035938535395e-06,
	"loss": 0.17221925258636475,
	"step": 1010
	},
	{
	"epoch": 0.43694779116465865,
	"grad_norm": 0.35159158648894256,
	"learning_rate": 9.997477319145354e-06,
	"loss": 0.18630390167236327,
	"step": 1020
	},
	{
	"epoch": 0.441231593038822,
	"grad_norm": 0.38517475012295227,
	"learning_rate": 9.9968488972034e-06,
	"loss": 0.17598154544830322,
	"step": 1030
	},
	{
	"epoch": 0.44551539491298525,
	"grad_norm": 0.3612688847646603,
	"learning_rate": 9.996150681487047e-06,
	"loss": 0.1822005033493042,
	"step": 1040
	},
	{
	"epoch": 0.4497991967871486,
	"grad_norm": 0.3577703505886406,
	"learning_rate": 9.995382681748667e-06,
	"loss": 0.16494649648666382,
	"step": 1050
	},
	{
	"epoch": 0.4540829986613119,
	"grad_norm": 0.4006846696021192,
	"learning_rate": 9.99454490871534e-06,
	"loss": 0.1681265115737915,
	"step": 1060
	},
	{
	"epoch": 0.45836680053547524,
	"grad_norm": 0.41680986168641504,
	"learning_rate": 9.99363737408871e-06,
	"loss": 0.15723063945770263,
	"step": 1070
	},
	{
	"epoch": 0.46265060240963857,
	"grad_norm": 0.3955828911870276,
	"learning_rate": 9.992660090544814e-06,
	"loss": 0.17240710258483888,
	"step": 1080
	},
	{
	"epoch": 0.4669344042838019,
	"grad_norm": 0.40819367835971887,
	"learning_rate": 9.991613071733923e-06,
	"loss": 0.1590951204299927,
	"step": 1090
	},
	{
	"epoch": 0.47121820615796517,
	"grad_norm": 0.4961313776161533,
	"learning_rate": 9.990496332280327e-06,
	"loss": 0.16744821071624755,
	"step": 1100
	},
	{
	"epoch": 0.4755020080321285,
	"grad_norm": 0.40118583702904315,
	"learning_rate": 9.989309887782153e-06,
	"loss": 0.16566444635391236,
	"step": 1110
	},
	{
	"epoch": 0.4797858099062918,
	"grad_norm": 0.38801799234687073,
	"learning_rate": 9.988053754811129e-06,
	"loss": 0.16186387538909913,
	"step": 1120
	},
	{
	"epoch": 0.48406961178045516,
	"grad_norm": 0.40747871131177194,
	"learning_rate": 9.986727950912364e-06,
	"loss": 0.162397563457489,
	"step": 1130
	},
	{
	"epoch": 0.4883534136546185,
	"grad_norm": 0.3728066796444714,
	"learning_rate": 9.985332494604107e-06,
	"loss": 0.1676606059074402,
	"step": 1140
	},
	{
	"epoch": 0.4926372155287818,
	"grad_norm": 0.40985672457156785,
	"learning_rate": 9.983867405377467e-06,
	"loss": 0.1700581431388855,
	"step": 1150
	},
	{
	"epoch": 0.4969210174029451,
	"grad_norm": 0.4419642574041659,
	"learning_rate": 9.982332703696165e-06,
	"loss": 0.16604260206222535,
	"step": 1160
	},
	{
	"epoch": 0.5012048192771085,
	"grad_norm": 0.4019173064441985,
	"learning_rate": 9.980728410996235e-06,
	"loss": 0.16702601909637452,
	"step": 1170
	},
	{
	"epoch": 0.5054886211512718,
	"grad_norm": 0.37849315597886735,
	"learning_rate": 9.979054549685726e-06,
	"loss": 0.17048054933547974,
	"step": 1180
	},
	{
	"epoch": 0.5097724230254351,
	"grad_norm": 0.41757098420175776,
	"learning_rate": 9.977311143144392e-06,
	"loss": 0.1623483419418335,
	"step": 1190
	},
	{
	"epoch": 0.5140562248995983,
	"grad_norm": 0.39624453257545467,
	"learning_rate": 9.97549821572337e-06,
	"loss": 0.18060542345046998,
	"step": 1200
	},
	{
	"epoch": 0.5183400267737617,
	"grad_norm": 0.3790478315082819,
	"learning_rate": 9.97361579274482e-06,
	"loss": 0.15714950561523439,
	"step": 1210
	},
	{
	"epoch": 0.522623828647925,
	"grad_norm": 0.47455877319994494,
	"learning_rate": 9.971663900501597e-06,
	"loss": 0.1706780195236206,
	"step": 1220
	},
	{
	"epoch": 0.5269076305220883,
	"grad_norm": 0.41051182237414957,
	"learning_rate": 9.969642566256869e-06,
	"loss": 0.17303004264831542,
	"step": 1230
	},
	{
	"epoch": 0.5311914323962517,
	"grad_norm": 0.3664624770254722,
	"learning_rate": 9.967551818243738e-06,
	"loss": 0.16188311576843262,
	"step": 1240
	},
	{
	"epoch": 0.535475234270415,
	"grad_norm": 0.37091548258017915,
	"learning_rate": 9.965391685664844e-06,
	"loss": 0.14944344758987427,
	"step": 1250
	},
	{
	"epoch": 0.5397590361445783,
	"grad_norm": 0.36490771306848957,
	"learning_rate": 9.963162198691967e-06,
	"loss": 0.17565066814422609,
	"step": 1260
	},
	{
	"epoch": 0.5440428380187416,
	"grad_norm": 0.36889359791667947,
	"learning_rate": 9.960863388465592e-06,
	"loss": 0.14779505729675294,
	"step": 1270
	},
	{
	"epoch": 0.548326639892905,
	"grad_norm": 0.437009279584505,
	"learning_rate": 9.958495287094485e-06,
	"loss": 0.16427998542785643,
	"step": 1280
	},
	{
	"epoch": 0.5526104417670683,
	"grad_norm": 0.39554167977080396,
	"learning_rate": 9.956057927655236e-06,
	"loss": 0.15541106462478638,
	"step": 1290
	},
	{
	"epoch": 0.5568942436412316,
	"grad_norm": 0.45029869907045383,
	"learning_rate": 9.953551344191806e-06,
	"loss": 0.16692056655883789,
	"step": 1300
	},
	{
	"epoch": 0.561178045515395,
	"grad_norm": 0.4199591876603144,
	"learning_rate": 9.95097557171504e-06,
	"loss": 0.14758901596069335,
	"step": 1310
	},
	{
	"epoch": 0.5654618473895582,
	"grad_norm": 0.4075053894893693,
	"learning_rate": 9.948330646202192e-06,
	"loss": 0.14503839015960693,
	"step": 1320
	},
	{
	"epoch": 0.5697456492637215,
	"grad_norm": 0.43881797258551375,
	"learning_rate": 9.94561660459641e-06,
	"loss": 0.16932222843170167,
	"step": 1330
	},
	{
	"epoch": 0.5740294511378848,
	"grad_norm": 0.3663150123238361,
	"learning_rate": 9.942833484806224e-06,
	"loss": 0.1607386827468872,
	"step": 1340
	},
	{
	"epoch": 0.5783132530120482,
	"grad_norm": 0.3407640340916305,
	"learning_rate": 9.939981325705022e-06,
	"loss": 0.1527782440185547,
	"step": 1350
	},
	{
	"epoch": 0.5825970548862115,
	"grad_norm": 0.37405131401648734,
	"learning_rate": 9.937060167130499e-06,
	"loss": 0.171100389957428,
	"step": 1360
	},
	{
	"epoch": 0.5868808567603748,
	"grad_norm": 0.37761828710703715,
	"learning_rate": 9.934070049884108e-06,
	"loss": 0.15846436023712157,
	"step": 1370
	},
	{
	"epoch": 0.5911646586345382,
	"grad_norm": 0.3693798885089601,
	"learning_rate": 9.931011015730481e-06,
	"loss": 0.16067838668823242,
	"step": 1380
	},
	{
	"epoch": 0.5954484605087015,
	"grad_norm": 0.3911912390175172,
	"learning_rate": 9.927883107396855e-06,
	"loss": 0.17477972507476808,
	"step": 1390
	},
	{
	"epoch": 0.5997322623828648,
	"grad_norm": 0.3338272015147582,
	"learning_rate": 9.924686368572467e-06,
	"loss": 0.15092020034790038,
	"step": 1400
	},
	{
	"epoch": 0.6040160642570281,
	"grad_norm": 0.4078089060822029,
	"learning_rate": 9.921420843907954e-06,
	"loss": 0.1569045066833496,
	"step": 1410
	},
	{
	"epoch": 0.6082998661311915,
	"grad_norm": 0.4794604605869132,
	"learning_rate": 9.918086579014719e-06,
	"loss": 0.15916914939880372,
	"step": 1420
	},
	{
	"epoch": 0.6125836680053548,
	"grad_norm": 0.3657509810107675,
	"learning_rate": 9.914683620464296e-06,
	"loss": 0.1613703727722168,
	"step": 1430
	},
	{
	"epoch": 0.6168674698795181,
	"grad_norm": 0.3781037238260815,
	"learning_rate": 9.911212015787705e-06,
	"loss": 0.1711595058441162,
	"step": 1440
	},
	{
	"epoch": 0.6211512717536813,
	"grad_norm": 0.4177181930728637,
	"learning_rate": 9.907671813474787e-06,
	"loss": 0.1607887864112854,
	"step": 1450
	},
	{
	"epoch": 0.6254350736278447,
	"grad_norm": 0.43202846060475897,
	"learning_rate": 9.904063062973518e-06,
	"loss": 0.1596811056137085,
	"step": 1460
	},
	{
	"epoch": 0.629718875502008,
	"grad_norm": 0.37967408761934135,
	"learning_rate": 9.90038581468933e-06,
	"loss": 0.15738776922225953,
	"step": 1470
	},
	{
	"epoch": 0.6340026773761713,
	"grad_norm": 0.35431221490178816,
	"learning_rate": 9.8966401199844e-06,
	"loss": 0.16409718990325928,
	"step": 1480
	},
	{
	"epoch": 0.6382864792503347,
	"grad_norm": 0.5424318304534815,
	"learning_rate": 9.892826031176932e-06,
	"loss": 0.1624216079711914,
	"step": 1490
	},
	{
	"epoch": 0.642570281124498,
	"grad_norm": 0.4154998221845867,
	"learning_rate": 9.888943601540435e-06,
	"loss": 0.16612136363983154,
	"step": 1500
	},
	{
	"epoch": 0.642570281124498,
	"eval_loss": 0.15596744418144226,
	"eval_runtime": 5287.3746,
	"eval_samples_per_second": 3.14,
	"eval_steps_per_second": 0.785,
	"step": 1500
	},
	{
	"epoch": 0.6468540829986613,
	"grad_norm": 0.31788237500758254,
	"learning_rate": 9.884992885302964e-06,
	"loss": 0.16352603435516358,
	"step": 1510
	},
	{
	"epoch": 0.6511378848728246,
	"grad_norm": 0.3933875722388967,
	"learning_rate": 9.880973937646376e-06,
	"loss": 0.16239913702011108,
	"step": 1520
	},
	{
	"epoch": 0.655421686746988,
	"grad_norm": 0.3911043138186677,
	"learning_rate": 9.876886814705557e-06,
	"loss": 0.15573612451553345,
	"step": 1530
	},
	{
	"epoch": 0.6597054886211513,
	"grad_norm": 0.4165342919082731,
	"learning_rate": 9.87273157356763e-06,
	"loss": 0.15565356016159057,
	"step": 1540
	},
	{
	"epoch": 0.6639892904953146,
	"grad_norm": 0.4041990333202639,
	"learning_rate": 9.868508272271162e-06,
	"loss": 0.15832991600036622,
	"step": 1550
	},
	{
	"epoch": 0.668273092369478,
	"grad_norm": 0.42249142494241126,
	"learning_rate": 9.86421696980536e-06,
	"loss": 0.15069495439529418,
	"step": 1560
	},
	{
	"epoch": 0.6725568942436412,
	"grad_norm": 0.3703727697545347,
	"learning_rate": 9.859857726109237e-06,
	"loss": 0.1529747486114502,
	"step": 1570
	},
	{
	"epoch": 0.6768406961178045,
	"grad_norm": 0.340178722202618,
	"learning_rate": 9.85543060207078e-06,
	"loss": 0.15539826154708863,
	"step": 1580
	},
	{
	"epoch": 0.6811244979919678,
	"grad_norm": 0.3731049216784043,
	"learning_rate": 9.850935659526097e-06,
	"loss": 0.15447347164154052,
	"step": 1590
	},
	{
	"epoch": 0.6854082998661312,
	"grad_norm": 0.4042949825278044,
	"learning_rate": 9.84637296125856e-06,
	"loss": 0.17724437713623048,
	"step": 1600
	},
	{
	"epoch": 0.6896921017402945,
	"grad_norm": 0.3660587911460726,
	"learning_rate": 9.841742570997916e-06,
	"loss": 0.16080789566040038,
	"step": 1610
	},
	{
	"epoch": 0.6939759036144578,
	"grad_norm": 0.41736075936721456,
	"learning_rate": 9.837044553419411e-06,
	"loss": 0.16406190395355225,
	"step": 1620
	},
	{
	"epoch": 0.6982597054886212,
	"grad_norm": 0.36046398358975057,
	"learning_rate": 9.832278974142872e-06,
	"loss": 0.15605542659759522,
	"step": 1630
	},
	{
	"epoch": 0.7025435073627845,
	"grad_norm": 0.3954125125143182,
	"learning_rate": 9.827445899731805e-06,
	"loss": 0.16570944786071778,
	"step": 1640
	},
	{
	"epoch": 0.7068273092369478,
	"grad_norm": 0.40637254190631067,
	"learning_rate": 9.822545397692453e-06,
	"loss": 0.16883254051208496,
	"step": 1650
	},
	{
	"epoch": 0.7111111111111111,
	"grad_norm": 0.41139029483344075,
	"learning_rate": 9.81757753647286e-06,
	"loss": 0.16364901065826415,
	"step": 1660
	},
	{
	"epoch": 0.7153949129852745,
	"grad_norm": 0.4536938064672351,
	"learning_rate": 9.812542385461912e-06,
	"loss": 0.1675459623336792,
	"step": 1670
	},
	{
	"epoch": 0.7196787148594378,
	"grad_norm": 0.3585184083438791,
	"learning_rate": 9.807440014988375e-06,
	"loss": 0.16231054067611694,
	"step": 1680
	},
	{
	"epoch": 0.7239625167336011,
	"grad_norm": 0.3167942544933684,
	"learning_rate": 9.802270496319896e-06,
	"loss": 0.14959096908569336,
	"step": 1690
	},
	{
	"epoch": 0.7282463186077643,
	"grad_norm": 0.3699602110663905,
	"learning_rate": 9.79703390166203e-06,
	"loss": 0.14526536464691162,
	"step": 1700
	},
	{
	"epoch": 0.7325301204819277,
	"grad_norm": 0.3613102627272191,
	"learning_rate": 9.791730304157212e-06,
	"loss": 0.15053074359893798,
	"step": 1710
	},
	{
	"epoch": 0.736813922356091,
	"grad_norm": 0.36315339995103474,
	"learning_rate": 9.786359777883743e-06,
	"loss": 0.1579727292060852,
	"step": 1720
	},
	{
	"epoch": 0.7410977242302543,
	"grad_norm": 0.35352051713516114,
	"learning_rate": 9.78092239785476e-06,
	"loss": 0.16381702423095704,
	"step": 1730
	},
	{
	"epoch": 0.7453815261044177,
	"grad_norm": 0.41420218762506095,
	"learning_rate": 9.775418240017183e-06,
	"loss": 0.16737335920333862,
	"step": 1740
	},
	{
	"epoch": 0.749665327978581,
	"grad_norm": 0.32647328326287134,
	"learning_rate": 9.769847381250647e-06,
	"loss": 0.16527401208877562,
	"step": 1750
	},
	{
	"epoch": 0.7539491298527443,
	"grad_norm": 0.35594572768523836,
	"learning_rate": 9.764209899366451e-06,
	"loss": 0.17207796573638917,
	"step": 1760
	},
	{
	"epoch": 0.7582329317269076,
	"grad_norm": 0.3529492671194906,
	"learning_rate": 9.75850587310644e-06,
	"loss": 0.15534259080886842,
	"step": 1770
	},
	{
	"epoch": 0.762516733601071,
	"grad_norm": 0.41518414925000824,
	"learning_rate": 9.752735382141931e-06,
	"loss": 0.17126250267028809,
	"step": 1780
	},
	{
	"epoch": 0.7668005354752343,
	"grad_norm": 0.3416212552791915,
	"learning_rate": 9.74689850707259e-06,
	"loss": 0.17300653457641602,
	"step": 1790
	},
	{
	"epoch": 0.7710843373493976,
	"grad_norm": 0.4506868511706448,
	"learning_rate": 9.740995329425304e-06,
	"loss": 0.16119366884231567,
	"step": 1800
	},
	{
	"epoch": 0.775368139223561,
	"grad_norm": 0.4127032617250803,
	"learning_rate": 9.735025931653047e-06,
	"loss": 0.1660417675971985,
	"step": 1810
	},
	{
	"epoch": 0.7796519410977242,
	"grad_norm": 0.3711426866374276,
	"learning_rate": 9.728990397133725e-06,
	"loss": 0.15557256937026978,
	"step": 1820
	},
	{
	"epoch": 0.7839357429718875,
	"grad_norm": 0.4403684798533838,
	"learning_rate": 9.722888810169015e-06,
	"loss": 0.14504989385604858,
	"step": 1830
	},
	{
	"epoch": 0.7882195448460508,
	"grad_norm": 0.43523370881285106,
	"learning_rate": 9.716721255983184e-06,
	"loss": 0.18080484867095947,
	"step": 1840
	},
	{
	"epoch": 0.7925033467202142,
	"grad_norm": 0.39796977768343905,
	"learning_rate": 9.710487820721897e-06,
	"loss": 0.16169551610946656,
	"step": 1850
	},
	{
	"epoch": 0.7967871485943775,
	"grad_norm": 0.3696365244924919,
	"learning_rate": 9.704188591451021e-06,
	"loss": 0.1710440158843994,
	"step": 1860
	},
	{
	"epoch": 0.8010709504685408,
	"grad_norm": 0.3501836475183059,
	"learning_rate": 9.697823656155404e-06,
	"loss": 0.14459784030914308,
	"step": 1870
	},
	{
	"epoch": 0.8053547523427041,
	"grad_norm": 0.4008873451421875,
	"learning_rate": 9.691393103737646e-06,
	"loss": 0.15653254985809326,
	"step": 1880
	},
	{
	"epoch": 0.8096385542168675,
	"grad_norm": 0.3726778794979056,
	"learning_rate": 9.684897024016856e-06,
	"loss": 0.15802738666534424,
	"step": 1890
	},
	{
	"epoch": 0.8139223560910308,
	"grad_norm": 0.3602622222902254,
	"learning_rate": 9.678335507727406e-06,
	"loss": 0.15577685832977295,
	"step": 1900
	},
	{
	"epoch": 0.8182061579651941,
	"grad_norm": 0.36180831789633733,
	"learning_rate": 9.671708646517644e-06,
	"loss": 0.1501927375793457,
	"step": 1910
	},
	{
	"epoch": 0.8224899598393575,
	"grad_norm": 0.4291946610668789,
	"learning_rate": 9.665016532948643e-06,
	"loss": 0.1524329662322998,
	"step": 1920
	},
	{
	"epoch": 0.8267737617135208,
	"grad_norm": 0.36439021529215626,
	"learning_rate": 9.658259260492879e-06,
	"loss": 0.1579957962036133,
	"step": 1930
	},
	{
	"epoch": 0.8310575635876841,
	"grad_norm": 0.36185634405902617,
	"learning_rate": 9.651436923532947e-06,
	"loss": 0.1648595690727234,
	"step": 1940
	},
	{
	"epoch": 0.8353413654618473,
	"grad_norm": 0.3896804732201538,
	"learning_rate": 9.644549617360227e-06,
	"loss": 0.14703061580657958,
	"step": 1950
	},
	{
	"epoch": 0.8396251673360107,
	"grad_norm": 0.3270830246578632,
	"learning_rate": 9.63759743817357e-06,
	"loss": 0.14643968343734742,
	"step": 1960
	},
	{
	"epoch": 0.843908969210174,
	"grad_norm": 0.36683351098847644,
	"learning_rate": 9.630580483077934e-06,
	"loss": 0.15101373195648193,
	"step": 1970
	},
	{
	"epoch": 0.8481927710843373,
	"grad_norm": 0.2637127315901447,
	"learning_rate": 9.623498850083043e-06,
	"loss": 0.1591057300567627,
	"step": 1980
	},
	{
	"epoch": 0.8524765729585007,
	"grad_norm": 0.3681053572408943,
	"learning_rate": 9.616352638102017e-06,
	"loss": 0.1697171926498413,
	"step": 1990
	},
	{
	"epoch": 0.856760374832664,
	"grad_norm": 0.40805430553066435,
	"learning_rate": 9.609141946949978e-06,
	"loss": 0.1591539740562439,
	"step": 2000
	},
	{
	"epoch": 0.856760374832664,
	"eval_loss": 0.15128476917743683,
	"eval_runtime": 813.5807,
	"eval_samples_per_second": 20.404,
	"eval_steps_per_second": 5.101,
	"step": 2000
	},
	{
	"epoch": 0.8610441767068273,
	"grad_norm": 0.3914592710894462,
	"learning_rate": 9.601866877342673e-06,
	"loss": 0.15913846492767333,
	"step": 2010
	},
	{
	"epoch": 0.8653279785809906,
	"grad_norm": 0.34232621179600625,
	"learning_rate": 9.594527530895055e-06,
	"loss": 0.1589035987854004,
	"step": 2020
	},
	{
	"epoch": 0.869611780455154,
	"grad_norm": 0.35138032967412824,
	"learning_rate": 9.587124010119866e-06,
	"loss": 0.15038516521453857,
	"step": 2030
	},
	{
	"epoch": 0.8738955823293173,
	"grad_norm": 0.38790494555500904,
	"learning_rate": 9.579656418426208e-06,
	"loss": 0.14970223903656005,
	"step": 2040
	},
	{
	"epoch": 0.8781793842034806,
	"grad_norm": 0.453347749337455,
	"learning_rate": 9.572124860118099e-06,
	"loss": 0.15592522621154786,
	"step": 2050
	},
	{
	"epoch": 0.882463186077644,
	"grad_norm": 0.36254040692639466,
	"learning_rate": 9.564529440393013e-06,
	"loss": 0.14756847620010377,
	"step": 2060
	},
	{
	"epoch": 0.8867469879518072,
	"grad_norm": 0.28500745218910845,
	"learning_rate": 9.55687026534041e-06,
	"loss": 0.15284668207168578,
	"step": 2070
	},
	{
	"epoch": 0.8910307898259705,
	"grad_norm": 0.33059182026983963,
	"learning_rate": 9.54914744194026e-06,
	"loss": 0.13931398391723632,
	"step": 2080
	},
	{
	"epoch": 0.8953145917001338,
	"grad_norm": 0.3308533363527482,
	"learning_rate": 9.541361078061543e-06,
	"loss": 0.152490496635437,
	"step": 2090
	},
	{
	"epoch": 0.8995983935742972,
	"grad_norm": 0.39410920160803786,
	"learning_rate": 9.533511282460744e-06,
	"loss": 0.15455267429351807,
	"step": 2100
	},
	{
	"epoch": 0.9038821954484605,
	"grad_norm": 0.3510760250872994,
	"learning_rate": 9.525598164780335e-06,
	"loss": 0.15271444320678712,
	"step": 2110
	},
	{
	"epoch": 0.9081659973226238,
	"grad_norm": 0.34879574406946134,
	"learning_rate": 9.51762183554724e-06,
	"loss": 0.145074462890625,
	"step": 2120
	},
	{
	"epoch": 0.9124497991967871,
	"grad_norm": 0.4102513842794922,
	"learning_rate": 9.5095824061713e-06,
	"loss": 0.1671789288520813,
	"step": 2130
	},
	{
	"epoch": 0.9167336010709505,
	"grad_norm": 0.32100215647635666,
	"learning_rate": 9.501479988943705e-06,
	"loss": 0.14845454692840576,
	"step": 2140
	},
	{
	"epoch": 0.9210174029451138,
	"grad_norm": 0.35303111230486783,
	"learning_rate": 9.493314697035433e-06,
	"loss": 0.14766921997070312,
	"step": 2150
	},
	{
	"epoch": 0.9253012048192771,
	"grad_norm": 0.3595530843531657,
	"learning_rate": 9.48508664449567e-06,
	"loss": 0.1577920436859131,
	"step": 2160
	},
	{
	"epoch": 0.9295850066934405,
	"grad_norm": 0.3500784633268657,
	"learning_rate": 9.476795946250213e-06,
	"loss": 0.15419769287109375,
	"step": 2170
	},
	{
	"epoch": 0.9338688085676038,
	"grad_norm": 0.5035759293187142,
	"learning_rate": 9.468442718099866e-06,
	"loss": 0.15254662036895753,
	"step": 2180
	},
	{
	"epoch": 0.9381526104417671,
	"grad_norm": 0.3597669443798906,
	"learning_rate": 9.460027076718825e-06,
	"loss": 0.15965031385421752,
	"step": 2190
	},
	{
	"epoch": 0.9424364123159303,
	"grad_norm": 0.32302117680971176,
	"learning_rate": 9.451549139653043e-06,
	"loss": 0.15642788410186767,
	"step": 2200
	},
	{
	"epoch": 0.9467202141900937,
	"grad_norm": 0.37709479129796397,
	"learning_rate": 9.443009025318595e-06,
	"loss": 0.16215311288833617,
	"step": 2210
	},
	{
	"epoch": 0.951004016064257,
	"grad_norm": 0.41863991954422164,
	"learning_rate": 9.434406853000017e-06,
	"loss": 0.16595734357833863,
	"step": 2220
	},
	{
	"epoch": 0.9552878179384203,
	"grad_norm": 0.3895832137317719,
	"learning_rate": 9.425742742848652e-06,
	"loss": 0.1542948842048645,
	"step": 2230
	},
	{
	"epoch": 0.9595716198125837,
	"grad_norm": 0.3383760951721925,
	"learning_rate": 9.417016815880948e-06,
	"loss": 0.1523042917251587,
	"step": 2240
	},
	{
	"epoch": 0.963855421686747,
	"grad_norm": 0.4388306567649398,
	"learning_rate": 9.4082291939768e-06,
	"loss": 0.13539564609527588,
	"step": 2250
	},
	{
	"epoch": 0.9681392235609103,
	"grad_norm": 0.392487987824093,
	"learning_rate": 9.399379999877816e-06,
	"loss": 0.16397664546966553,
	"step": 2260
	},
	{
	"epoch": 0.9724230254350736,
	"grad_norm": 0.37843944567360804,
	"learning_rate": 9.390469357185626e-06,
	"loss": 0.1599686861038208,
	"step": 2270
	},
	{
	"epoch": 0.976706827309237,
	"grad_norm": 0.36495911845917256,
	"learning_rate": 9.381497390360146e-06,
	"loss": 0.16280412673950195,
	"step": 2280
	},
	{
	"epoch": 0.9809906291834003,
	"grad_norm": 0.3098293192725145,
	"learning_rate": 9.372464224717836e-06,
	"loss": 0.16709411144256592,
	"step": 2290
	},
	{
	"epoch": 0.9852744310575636,
	"grad_norm": 0.36503501082057177,
	"learning_rate": 9.36336998642996e-06,
	"loss": 0.14577250480651854,
	"step": 2300
	},
	{
	"epoch": 0.989558232931727,
	"grad_norm": 0.369748777319339,
	"learning_rate": 9.354214802520813e-06,
	"loss": 0.15008455514907837,
	"step": 2310
	},
	{
	"epoch": 0.9938420348058902,
	"grad_norm": 0.38954595915895235,
	"learning_rate": 9.344998800865949e-06,
	"loss": 0.16494543552398683,
	"step": 2320
	},
	{
	"epoch": 0.9981258366800535,
	"grad_norm": 0.3263933545214738,
	"learning_rate": 9.335722110190409e-06,
	"loss": 0.1547703266143799,
	"step": 2330
	},
	{
	"epoch": 1.0021419009370816,
	"grad_norm": 0.3240736359093112,
	"learning_rate": 9.326384860066894e-06,
	"loss": 0.1678773880004883,
	"step": 2340
	},
	{
	"epoch": 1.0064257028112449,
	"grad_norm": 0.4121951074794008,
	"learning_rate": 9.316987180913993e-06,
	"loss": 0.13320955038070678,
	"step": 2350
	},
	{
	"epoch": 1.0107095046854082,
	"grad_norm": 0.35703547426799104,
	"learning_rate": 9.30752920399432e-06,
	"loss": 0.12546956539154053,
	"step": 2360
	},
	{
	"epoch": 1.0149933065595715,
	"grad_norm": 0.40623072991807463,
	"learning_rate": 9.298011061412718e-06,
	"loss": 0.13189778327941895,
	"step": 2370
	},
	{
	"epoch": 1.0192771084337349,
	"grad_norm": 0.44222195266756315,
	"learning_rate": 9.288432886114388e-06,
	"loss": 0.12098613977432252,
	"step": 2380
	},
	{
	"epoch": 1.0235609103078982,
	"grad_norm": 0.367684966832025,
	"learning_rate": 9.278794811883047e-06,
	"loss": 0.11746659278869628,
	"step": 2390
	},
	{
	"epoch": 1.0278447121820615,
	"grad_norm": 0.33284392755056474,
	"learning_rate": 9.26909697333905e-06,
	"loss": 0.12567752599716187,
	"step": 2400
	},
	{
	"epoch": 1.0321285140562249,
	"grad_norm": 0.3455297587313404,
	"learning_rate": 9.259339505937514e-06,
	"loss": 0.12083170413970948,
	"step": 2410
	},
	{
	"epoch": 1.0364123159303882,
	"grad_norm": 0.3389705981902334,
	"learning_rate": 9.249522545966427e-06,
	"loss": 0.12095551490783692,
	"step": 2420
	},
	{
	"epoch": 1.0406961178045515,
	"grad_norm": 0.40601150502203404,
	"learning_rate": 9.239646230544741e-06,
	"loss": 0.14402755498886108,
	"step": 2430
	},
	{
	"epoch": 1.0449799196787148,
	"grad_norm": 0.3559777449007349,
	"learning_rate": 9.229710697620462e-06,
	"loss": 0.1495804786682129,
	"step": 2440
	},
	{
	"epoch": 1.0492637215528782,
	"grad_norm": 0.36896684434500243,
	"learning_rate": 9.219716085968716e-06,
	"loss": 0.12875673770904542,
	"step": 2450
	},
	{
	"epoch": 1.0535475234270415,
	"grad_norm": 0.39146972255890167,
	"learning_rate": 9.209662535189814e-06,
	"loss": 0.13340590000152588,
	"step": 2460
	},
	{
	"epoch": 1.0578313253012048,
	"grad_norm": 0.40291541972442413,
	"learning_rate": 9.199550185707309e-06,
	"loss": 0.1337528109550476,
	"step": 2470
	},
	{
	"epoch": 1.0621151271753682,
	"grad_norm": 0.37956437532491505,
	"learning_rate": 9.189379178766022e-06,
	"loss": 0.12576285600662232,
	"step": 2480
	},
	{
	"epoch": 1.0663989290495315,
	"grad_norm": 0.41298961387679495,
	"learning_rate": 9.179149656430077e-06,
	"loss": 0.1333579182624817,
	"step": 2490
	},
	{
	"epoch": 1.0706827309236948,
	"grad_norm": 0.36210102393181387,
	"learning_rate": 9.168861761580916e-06,
	"loss": 0.13212097883224488,
	"step": 2500
	},
	{
	"epoch": 1.0706827309236948,
	"eval_loss": 0.15047596395015717,
	"eval_runtime": 816.7373,
	"eval_samples_per_second": 20.325,
	"eval_steps_per_second": 5.081,
	"step": 2500
	},
	{
	"epoch": 1.0749665327978581,
	"grad_norm": 0.3726254379576281,
	"learning_rate": 9.158515637915303e-06,
	"loss": 0.12463078498840333,
	"step": 2510
	},
	{
	"epoch": 1.0792503346720215,
	"grad_norm": 0.37712160221949104,
	"learning_rate": 9.148111429943316e-06,
	"loss": 0.12076478004455567,
	"step": 2520
	},
	{
	"epoch": 1.0835341365461848,
	"grad_norm": 0.34263415579260603,
	"learning_rate": 9.137649282986326e-06,
	"loss": 0.11901497840881348,
	"step": 2530
	},
	{
	"epoch": 1.0878179384203481,
	"grad_norm": 0.43199587554265134,
	"learning_rate": 9.127129343174974e-06,
	"loss": 0.1473910093307495,
	"step": 2540
	},
	{
	"epoch": 1.0921017402945115,
	"grad_norm": 0.3888436375726906,
	"learning_rate": 9.116551757447124e-06,
	"loss": 0.12526917457580566,
	"step": 2550
	},
	{
	"epoch": 1.0963855421686748,
	"grad_norm": 0.3720699240255782,
	"learning_rate": 9.105916673545811e-06,
	"loss": 0.12781134843826295,
	"step": 2560
	},
	{
	"epoch": 1.1006693440428381,
	"grad_norm": 0.3528738970780735,
	"learning_rate": 9.095224240017187e-06,
	"loss": 0.12412866353988647,
	"step": 2570
	},
	{
	"epoch": 1.1049531459170012,
	"grad_norm": 0.4631292939251323,
	"learning_rate": 9.084474606208426e-06,
	"loss": 0.11998128890991211,
	"step": 2580
	},
	{
	"epoch": 1.1092369477911648,
	"grad_norm": 0.3596397164936987,
	"learning_rate": 9.073667922265659e-06,
	"loss": 0.13821544647216796,
	"step": 2590
	},
	{
	"epoch": 1.1135207496653279,
	"grad_norm": 0.37491061752134996,
	"learning_rate": 9.062804339131865e-06,
	"loss": 0.12905315160751343,
	"step": 2600
	},
	{
	"epoch": 1.1178045515394912,
	"grad_norm": 0.33236296782840824,
	"learning_rate": 9.051884008544769e-06,
	"loss": 0.11152592897415162,
	"step": 2610
	},
	{
	"epoch": 1.1220883534136545,
	"grad_norm": 0.41099647558351027,
	"learning_rate": 9.040907083034714e-06,
	"loss": 0.120727276802063,
	"step": 2620
	},
	{
	"epoch": 1.1263721552878179,
	"grad_norm": 0.3859893211528485,
	"learning_rate": 9.02987371592254e-06,
	"loss": 0.14195597171783447,
	"step": 2630
	},
	{
	"epoch": 1.1306559571619812,
	"grad_norm": 0.36839784644083184,
	"learning_rate": 9.018784061317434e-06,
	"loss": 0.12041090726852417,
	"step": 2640
	},
	{
	"epoch": 1.1349397590361445,
	"grad_norm": 0.41679177088273905,
	"learning_rate": 9.007638274114787e-06,
	"loss": 0.13752386569976807,
	"step": 2650
	},
	{
	"epoch": 1.1392235609103079,
	"grad_norm": 0.38785605712752647,
	"learning_rate": 8.996436509994022e-06,
	"loss": 0.12111247777938842,
	"step": 2660
	},
	{
	"epoch": 1.1435073627844712,
	"grad_norm": 0.37367256419499406,
	"learning_rate": 8.985178925416424e-06,
	"loss": 0.13275750875473022,
	"step": 2670
	},
	{
	"epoch": 1.1477911646586345,
	"grad_norm": 0.3674681161529881,
	"learning_rate": 8.973865677622954e-06,
	"loss": 0.13491373062133788,
	"step": 2680
	},
	{
	"epoch": 1.1520749665327978,
	"grad_norm": 0.34447615774959234,
	"learning_rate": 8.962496924632051e-06,
	"loss": 0.13558318614959716,
	"step": 2690
	},
	{
	"epoch": 1.1563587684069612,
	"grad_norm": 0.3564170987558211,
	"learning_rate": 8.951072825237426e-06,
	"loss": 0.1193579912185669,
	"step": 2700
	},
	{
	"epoch": 1.1606425702811245,
	"grad_norm": 0.35305355840674923,
	"learning_rate": 8.939593539005842e-06,
	"loss": 0.13529754877090455,
	"step": 2710
	},
	{
	"epoch": 1.1649263721552878,
	"grad_norm": 0.35352573268560833,
	"learning_rate": 8.928059226274894e-06,
	"loss": 0.12423286437988282,
	"step": 2720
	},
	{
	"epoch": 1.1692101740294512,
	"grad_norm": 0.36689834147420736,
	"learning_rate": 8.916470048150756e-06,
	"loss": 0.13518364429473878,
	"step": 2730
	},
	{
	"epoch": 1.1734939759036145,
	"grad_norm": 0.38162988673475534,
	"learning_rate": 8.90482616650594e-06,
	"loss": 0.13908401727676392,
	"step": 2740
	},
	{
	"epoch": 1.1777777777777778,
	"grad_norm": 0.40336299975505086,
	"learning_rate": 8.893127743977036e-06,
	"loss": 0.13255722522735597,
	"step": 2750
	},
	{
	"epoch": 1.1820615796519411,
	"grad_norm": 0.3324644606155607,
	"learning_rate": 8.881374943962426e-06,
	"loss": 0.1357291579246521,
	"step": 2760
	},
	{
	"epoch": 1.1863453815261045,
	"grad_norm": 0.3994255780678427,
	"learning_rate": 8.869567930620027e-06,
	"loss": 0.12042539119720459,
	"step": 2770
	},
	{
	"epoch": 1.1906291834002678,
	"grad_norm": 0.35581614764806313,
	"learning_rate": 8.857706868864977e-06,
	"loss": 0.13282716274261475,
	"step": 2780
	},
	{
	"epoch": 1.1949129852744311,
	"grad_norm": 0.3106663113756059,
	"learning_rate": 8.845791924367334e-06,
	"loss": 0.12471635341644287,
	"step": 2790
	},
	{
	"epoch": 1.1991967871485945,
	"grad_norm": 0.4256051698707425,
	"learning_rate": 8.833823263549775e-06,
	"loss": 0.11954612731933593,
	"step": 2800
	},
	{
	"epoch": 1.2034805890227578,
	"grad_norm": 0.41689423223672023,
	"learning_rate": 8.821801053585254e-06,
	"loss": 0.12010161876678467,
	"step": 2810
	},
	{
	"epoch": 1.2077643908969211,
	"grad_norm": 0.3817725350186758,
	"learning_rate": 8.809725462394684e-06,
	"loss": 0.11917848587036133,
	"step": 2820
	},
	{
	"epoch": 1.2120481927710842,
	"grad_norm": 0.35927209564755835,
	"learning_rate": 8.797596658644581e-06,
	"loss": 0.12020325660705566,
	"step": 2830
	},
	{
	"epoch": 1.2163319946452478,
	"grad_norm": 0.4238739504322855,
	"learning_rate": 8.785414811744703e-06,
	"loss": 0.13289868831634521,
	"step": 2840
	},
	{
	"epoch": 1.2206157965194109,
	"grad_norm": 0.39167399451224444,
	"learning_rate": 8.773180091845701e-06,
	"loss": 0.12138681411743164,
	"step": 2850
	},
	{
	"epoch": 1.2248995983935742,
	"grad_norm": 0.3947355797116567,
	"learning_rate": 8.760892669836729e-06,
	"loss": 0.14103634357452394,
	"step": 2860
	},
	{
	"epoch": 1.2291834002677375,
	"grad_norm": 0.39740732729868383,
	"learning_rate": 8.74855271734306e-06,
	"loss": 0.13904783725738526,
	"step": 2870
	},
	{
	"epoch": 1.2334672021419009,
	"grad_norm": 0.41730678044784,
	"learning_rate": 8.736160406723688e-06,
	"loss": 0.12443190813064575,
	"step": 2880
	},
	{
	"epoch": 1.2377510040160642,
	"grad_norm": 0.3765448851707534,
	"learning_rate": 8.723715911068931e-06,
	"loss": 0.1321355938911438,
	"step": 2890
	},
	{
	"epoch": 1.2420348058902275,
	"grad_norm": 0.3634462539369135,
	"learning_rate": 8.71121940419799e-06,
	"loss": 0.14078364372253419,
	"step": 2900
	},
	{
	"epoch": 1.2463186077643909,
	"grad_norm": 0.4094668843551737,
	"learning_rate": 8.698671060656549e-06,
	"loss": 0.13006095886230468,
	"step": 2910
	},
	{
	"epoch": 1.2506024096385542,
	"grad_norm": 0.37644871257316387,
	"learning_rate": 8.686071055714318e-06,
	"loss": 0.12324719429016114,
	"step": 2920
	},
	{
	"epoch": 1.2548862115127175,
	"grad_norm": 0.4032403895979568,
	"learning_rate": 8.673419565362587e-06,
	"loss": 0.14000382423400878,
	"step": 2930
	},
	{
	"epoch": 1.2591700133868808,
	"grad_norm": 0.4398800669174728,
	"learning_rate": 8.660716766311778e-06,
	"loss": 0.11818475723266601,
	"step": 2940
	},
	{
	"epoch": 1.2634538152610442,
	"grad_norm": 0.3615959969952865,
	"learning_rate": 8.647962835988968e-06,
	"loss": 0.1338767886161804,
	"step": 2950
	},
	{
	"epoch": 1.2677376171352075,
	"grad_norm": 0.31737564808536584,
	"learning_rate": 8.635157952535411e-06,
	"loss": 0.1270219087600708,
	"step": 2960
	},
	{
	"epoch": 1.2720214190093708,
	"grad_norm": 0.3582723999510731,
	"learning_rate": 8.622302294804052e-06,
	"loss": 0.12293977737426758,
	"step": 2970
	},
	{
	"epoch": 1.2763052208835342,
	"grad_norm": 0.35972611924117803,
	"learning_rate": 8.609396042357033e-06,
	"loss": 0.12699666023254394,
	"step": 2980
	},
	{
	"epoch": 1.2805890227576975,
	"grad_norm": 0.4025263144287077,
	"learning_rate": 8.596439375463174e-06,
	"loss": 0.13745148181915284,
	"step": 2990
	},
	{
	"epoch": 1.2848728246318608,
	"grad_norm": 0.3227213368538748,
	"learning_rate": 8.583432475095468e-06,
	"loss": 0.11785190105438233,
	"step": 3000
	},
	{
	"epoch": 1.2848728246318608,
	"eval_loss": 0.1485673487186432,
	"eval_runtime": 812.0391,
	"eval_samples_per_second": 20.442,
	"eval_steps_per_second": 5.111,
	"step": 3000
	},
	{
	"epoch": 1.2891566265060241,
	"grad_norm": 0.35470826251565785,
	"learning_rate": 8.570375522928543e-06,
	"loss": 0.12998595237731933,
	"step": 3010
	},
	{
	"epoch": 1.2934404283801875,
	"grad_norm": 0.3775363159731956,
	"learning_rate": 8.55726870133613e-06,
	"loss": 0.11246494054794312,
	"step": 3020
	},
	{
	"epoch": 1.2977242302543508,
	"grad_norm": 0.36015262199345144,
	"learning_rate": 8.544112193388513e-06,
	"loss": 0.1255005955696106,
	"step": 3030
	},
	{
	"epoch": 1.3020080321285141,
	"grad_norm": 0.32095363304273905,
	"learning_rate": 8.530906182849971e-06,
	"loss": 0.14123222827911378,
	"step": 3040
	},
	{
	"epoch": 1.3062918340026775,
	"grad_norm": 0.35963777187492285,
	"learning_rate": 8.51765085417622e-06,
	"loss": 0.12764023542404174,
	"step": 3050
	},
	{
	"epoch": 1.3105756358768406,
	"grad_norm": 0.3545121600646447,
	"learning_rate": 8.504346392511824e-06,
	"loss": 0.12473820447921753,
	"step": 3060
	},
	{
	"epoch": 1.3148594377510041,
	"grad_norm": 0.3752599966671012,
	"learning_rate": 8.490992983687617e-06,
	"loss": 0.12995026111602784,
	"step": 3070
	},
	{
	"epoch": 1.3191432396251672,
	"grad_norm": 0.3326424253698993,
	"learning_rate": 8.477590814218104e-06,
	"loss": 0.13189772367477418,
	"step": 3080
	},
	{
	"epoch": 1.3234270414993308,
	"grad_norm": 0.33944521013309487,
	"learning_rate": 8.464140071298858e-06,
	"loss": 0.12935359477996827,
	"step": 3090
	},
	{
	"epoch": 1.3277108433734939,
	"grad_norm": 0.37010591984301416,
	"learning_rate": 8.450640942803904e-06,
	"loss": 0.13249437808990477,
	"step": 3100
	},
	{
	"epoch": 1.3319946452476574,
	"grad_norm": 0.3615034420980659,
	"learning_rate": 8.437093617283099e-06,
	"loss": 0.12562718391418456,
	"step": 3110
	},
	{
	"epoch": 1.3362784471218205,
	"grad_norm": 0.3917767190914898,
	"learning_rate": 8.423498283959487e-06,
	"loss": 0.13038911819458007,
	"step": 3120
	},
	{
	"epoch": 1.3405622489959839,
	"grad_norm": 0.38109850464604067,
	"learning_rate": 8.40985513272667e-06,
	"loss": 0.13978877067565917,
	"step": 3130
	},
	{
	"epoch": 1.3448460508701472,
	"grad_norm": 0.4445890595042772,
	"learning_rate": 8.39616435414615e-06,
	"loss": 0.13834033012390137,
	"step": 3140
	},
	{
	"epoch": 1.3491298527443105,
	"grad_norm": 0.31874973345433283,
	"learning_rate": 8.38242613944466e-06,
	"loss": 0.1258203625679016,
	"step": 3150
	},
	{
	"epoch": 1.3534136546184738,
	"grad_norm": 0.33127205404029225,
	"learning_rate": 8.368640680511507e-06,
	"loss": 0.12356986999511718,
	"step": 3160
	},
	{
	"epoch": 1.3576974564926372,
	"grad_norm": 0.416559211705474,
	"learning_rate": 8.35480816989588e-06,
	"loss": 0.11982156038284301,
	"step": 3170
	},
	{
	"epoch": 1.3619812583668005,
	"grad_norm": 0.3660453384090912,
	"learning_rate": 8.34092880080417e-06,
	"loss": 0.11788184642791748,
	"step": 3180
	},
	{
	"epoch": 1.3662650602409638,
	"grad_norm": 0.34339125686903177,
	"learning_rate": 8.32700276709726e-06,
	"loss": 0.13102638721466064,
	"step": 3190
	},
	{
	"epoch": 1.3705488621151272,
	"grad_norm": 0.35489193494077403,
	"learning_rate": 8.313030263287825e-06,
	"loss": 0.1122696876525879,
	"step": 3200
	},
	{
	"epoch": 1.3748326639892905,
	"grad_norm": 0.3746174683003833,
	"learning_rate": 8.299011484537621e-06,
	"loss": 0.1276139497756958,
	"step": 3210
	},
	{
	"epoch": 1.3791164658634538,
	"grad_norm": 0.7123969948931433,
	"learning_rate": 8.284946626654743e-06,
	"loss": 0.1328984022140503,
	"step": 3220
	},
	{
	"epoch": 1.3834002677376172,
	"grad_norm": 0.3822847406441411,
	"learning_rate": 8.270835886090901e-06,
	"loss": 0.11024882793426513,
	"step": 3230
	},
	{
	"epoch": 1.3876840696117805,
	"grad_norm": 0.300720958006405,
	"learning_rate": 8.256679459938681e-06,
	"loss": 0.11192436218261718,
	"step": 3240
	},
	{
	"epoch": 1.3919678714859438,
	"grad_norm": 0.36933913785412426,
	"learning_rate": 8.242477545928775e-06,
	"loss": 0.1279488682746887,
	"step": 3250
	},
	{
	"epoch": 1.3962516733601071,
	"grad_norm": 0.3733629104677544,
	"learning_rate": 8.228230342427237e-06,
	"loss": 0.12411469221115112,
	"step": 3260
	},
	{
	"epoch": 1.4005354752342705,
	"grad_norm": 0.37527660608807045,
	"learning_rate": 8.213938048432697e-06,
	"loss": 0.12071568965911865,
	"step": 3270
	},
	{
	"epoch": 1.4048192771084338,
	"grad_norm": 0.32477552350056993,
	"learning_rate": 8.199600863573599e-06,
	"loss": 0.10580611228942871,
	"step": 3280
	},
	{
	"epoch": 1.4091030789825971,
	"grad_norm": 0.4717886686044222,
	"learning_rate": 8.185218988105392e-06,
	"loss": 0.14088404178619385,
	"step": 3290
	},
	{
	"epoch": 1.4133868808567605,
	"grad_norm": 0.3538053722734618,
	"learning_rate": 8.170792622907751e-06,
	"loss": 0.14626517295837402,
	"step": 3300
	},
	{
	"epoch": 1.4176706827309236,
	"grad_norm": 0.3513040684652719,
	"learning_rate": 8.156321969481762e-06,
	"loss": 0.11440718173980713,
	"step": 3310
	},
	{
	"epoch": 1.421954484605087,
	"grad_norm": 0.3591684736408224,
	"learning_rate": 8.14180722994711e-06,
	"loss": 0.13487778902053832,
	"step": 3320
	},
	{
	"epoch": 1.4262382864792502,
	"grad_norm": 0.3658104845595591,
	"learning_rate": 8.127248607039254e-06,
	"loss": 0.11574537754058838,
	"step": 3330
	},
	{
	"epoch": 1.4305220883534138,
	"grad_norm": 0.3197726257189657,
	"learning_rate": 8.112646304106593e-06,
	"loss": 0.12187765836715699,
	"step": 3340
	},
	{
	"epoch": 1.4348058902275769,
	"grad_norm": 0.3846940368635854,
	"learning_rate": 8.09800052510764e-06,
	"loss": 0.11478321552276612,
	"step": 3350
	},
	{
	"epoch": 1.4390896921017404,
	"grad_norm": 0.4176339612370988,
	"learning_rate": 8.08331147460815e-06,
	"loss": 0.1217038869857788,
	"step": 3360
	},
	{
	"epoch": 1.4433734939759035,
	"grad_norm": 0.37885782340374674,
	"learning_rate": 8.068579357778284e-06,
	"loss": 0.12176965475082398,
	"step": 3370
	},
	{
	"epoch": 1.4476572958500669,
	"grad_norm": 0.41287039590285307,
	"learning_rate": 8.053804380389728e-06,
	"loss": 0.12061818838119506,
	"step": 3380
	},
	{
	"epoch": 1.4519410977242302,
	"grad_norm": 0.3494750223733423,
	"learning_rate": 8.038986748812832e-06,
	"loss": 0.131140398979187,
	"step": 3390
	},
	{
	"epoch": 1.4562248995983935,
	"grad_norm": 0.3952195504175884,
	"learning_rate": 8.024126670013716e-06,
	"loss": 0.11915416717529297,
	"step": 3400
	},
	{
	"epoch": 1.4605087014725568,
	"grad_norm": 0.3737316963804442,
	"learning_rate": 8.009224351551386e-06,
	"loss": 0.11794298887252808,
	"step": 3410
	},
	{
	"epoch": 1.4647925033467202,
	"grad_norm": 0.3446468035702987,
	"learning_rate": 7.99428000157483e-06,
	"loss": 0.1277950167655945,
	"step": 3420
	},
	{
	"epoch": 1.4690763052208835,
	"grad_norm": 0.37272918562452995,
	"learning_rate": 7.979293828820119e-06,
	"loss": 0.14721099138259888,
	"step": 3430
	},
	{
	"epoch": 1.4733601070950468,
	"grad_norm": 0.33085072922732706,
	"learning_rate": 7.96426604260748e-06,
	"loss": 0.11756453514099122,
	"step": 3440
	},
	{
	"epoch": 1.4776439089692102,
	"grad_norm": 0.320178401178284,
	"learning_rate": 7.949196852838383e-06,
	"loss": 0.1269507050514221,
	"step": 3450
	},
	{
	"epoch": 1.4819277108433735,
	"grad_norm": 0.3580459421820677,
	"learning_rate": 7.934086469992605e-06,
	"loss": 0.1412634253501892,
	"step": 3460
	},
	{
	"epoch": 1.4862115127175368,
	"grad_norm": 0.36913989344261383,
	"learning_rate": 7.918935105125283e-06,
	"loss": 0.15048539638519287,
	"step": 3470
	},
	{
	"epoch": 1.4904953145917001,
	"grad_norm": 0.38425139309308326,
	"learning_rate": 7.903742969863982e-06,
	"loss": 0.13397784233093263,
	"step": 3480
	},
	{
	"epoch": 1.4947791164658635,
	"grad_norm": 0.3627531984044689,
	"learning_rate": 7.88851027640572e-06,
	"loss": 0.11737120151519775,
	"step": 3490
	},
	{
	"epoch": 1.4990629183400268,
	"grad_norm": 0.30678086877528343,
	"learning_rate": 7.873237237514024e-06,
	"loss": 0.1271947741508484,
	"step": 3500
	},
	{
	"epoch": 1.4990629183400268,
	"eval_loss": 0.14634032547473907,
	"eval_runtime": 11508.5453,
	"eval_samples_per_second": 1.442,
	"eval_steps_per_second": 0.361,
	"step": 3500
	},
	{
	"epoch": 1.5033467202141901,
	"grad_norm": 0.3989430501599751,
	"learning_rate": 7.857924066515941e-06,
	"loss": 0.1253154993057251,
	"step": 3510
	},
	{
	"epoch": 1.5076305220883535,
	"grad_norm": 0.3712393247049027,
	"learning_rate": 7.842570977299067e-06,
	"loss": 0.13159399032592772,
	"step": 3520
	},
	{
	"epoch": 1.5119143239625168,
	"grad_norm": 0.39043985321189406,
	"learning_rate": 7.827178184308559e-06,
	"loss": 0.12818803787231445,
	"step": 3530
	},
	{
	"epoch": 1.51619812583668,
	"grad_norm": 0.3783719248133356,
	"learning_rate": 7.81174590254414e-06,
	"loss": 0.12482264041900634,
	"step": 3540
	},
	{
	"epoch": 1.5204819277108435,
	"grad_norm": 0.33627341086836304,
	"learning_rate": 7.796274347557094e-06,
	"loss": 0.1259792685508728,
	"step": 3550
	},
	{
	"epoch": 1.5247657295850066,
	"grad_norm": 0.3307003231873695,
	"learning_rate": 7.780763735447252e-06,
	"loss": 0.11816374063491822,
	"step": 3560
	},
	{
	"epoch": 1.52904953145917,
	"grad_norm": 0.41275730039950287,
	"learning_rate": 7.765214282859981e-06,
	"loss": 0.12664893865585328,
	"step": 3570
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.3033638102712773,
	"learning_rate": 7.749626206983157e-06,
	"loss": 0.1236607551574707,
	"step": 3580
	},
	{
	"epoch": 1.5376171352074968,
	"grad_norm": 0.3554700928985279,
	"learning_rate": 7.733999725544126e-06,
	"loss": 0.12761454582214354,
	"step": 3590
	},
	{
	"epoch": 1.5419009370816599,
	"grad_norm": 0.35291611398156203,
	"learning_rate": 7.718335056806665e-06,
	"loss": 0.1287233352661133,
	"step": 3600
	},
	{
	"epoch": 1.5461847389558234,
	"grad_norm": 0.3567309323303257,
	"learning_rate": 7.702632419567937e-06,
	"loss": 0.14273253679275513,
	"step": 3610
	},
	{
	"epoch": 1.5504685408299865,
	"grad_norm": 0.3185688429925057,
	"learning_rate": 7.68689203315543e-06,
	"loss": 0.12159850597381591,
	"step": 3620
	},
	{
	"epoch": 1.55475234270415,
	"grad_norm": 0.36346114221079345,
	"learning_rate": 7.671114117423896e-06,
	"loss": 0.12236592769622803,
	"step": 3630
	},
	{
	"epoch": 1.5590361445783132,
	"grad_norm": 0.28944951523091206,
	"learning_rate": 7.655298892752281e-06,
	"loss": 0.1200286865234375,
	"step": 3640
	},
	{
	"epoch": 1.5633199464524767,
	"grad_norm": 0.3320579302602756,
	"learning_rate": 7.639446580040647e-06,
	"loss": 0.13653804063796998,
	"step": 3650
	},
	{
	"epoch": 1.5676037483266398,
	"grad_norm": 0.3367309725103469,
	"learning_rate": 7.623557400707081e-06,
	"loss": 0.12761712074279785,
	"step": 3660
	},
	{
	"epoch": 1.5718875502008032,
	"grad_norm": 0.36883406849675304,
	"learning_rate": 7.607631576684611e-06,
	"loss": 0.12503886222839355,
	"step": 3670
	},
	{
	"epoch": 1.5761713520749665,
	"grad_norm": 0.35021731907363346,
	"learning_rate": 7.5916693304181e-06,
	"loss": 0.11194202899932862,
	"step": 3680
	},
	{
	"epoch": 1.5804551539491298,
	"grad_norm": 0.3466816731323651,
	"learning_rate": 7.575670884861142e-06,
	"loss": 0.11533315181732177,
	"step": 3690
	},
	{
	"epoch": 1.5847389558232932,
	"grad_norm": 0.3695468619685566,
	"learning_rate": 7.559636463472941e-06,
	"loss": 0.12558252811431886,
	"step": 3700
	},
	{
	"epoch": 1.5890227576974565,
	"grad_norm": 0.33317140225660996,
	"learning_rate": 7.543566290215205e-06,
	"loss": 0.11223011016845703,
	"step": 3710
	},
	{
	"epoch": 1.5933065595716198,
	"grad_norm": 0.3802726049715593,
	"learning_rate": 7.5274605895490014e-06,
	"loss": 0.11428353786468506,
	"step": 3720
	},
	{
	"epoch": 1.5975903614457831,
	"grad_norm": 0.3502543345535625,
	"learning_rate": 7.511319586431631e-06,
	"loss": 0.12747797966003419,
	"step": 3730
	},
	{
	"epoch": 1.6018741633199465,
	"grad_norm": 0.48600388474175416,
	"learning_rate": 7.495143506313484e-06,
	"loss": 0.12503063678741455,
	"step": 3740
	},
	{
	"epoch": 1.6061579651941098,
	"grad_norm": 0.402765639804346,
	"learning_rate": 7.478932575134887e-06,
	"loss": 0.1338959217071533,
	"step": 3750
	},
	{
	"epoch": 1.6104417670682731,
	"grad_norm": 0.3921866593643898,
	"learning_rate": 7.462687019322957e-06,
	"loss": 0.11669353246688843,
	"step": 3760
	},
	{
	"epoch": 1.6147255689424365,
	"grad_norm": 0.33652188082752615,
	"learning_rate": 7.446407065788428e-06,
	"loss": 0.12007842063903809,
	"step": 3770
	},
	{
	"epoch": 1.6190093708165998,
	"grad_norm": 0.4118194067707435,
	"learning_rate": 7.4300929419224866e-06,
	"loss": 0.12169758081436158,
	"step": 3780
	},
	{
	"epoch": 1.623293172690763,
	"grad_norm": 0.36857356877163894,
	"learning_rate": 7.413744875593597e-06,
	"loss": 0.12564884424209594,
	"step": 3790
	},
	{
	"epoch": 1.6275769745649264,
	"grad_norm": 0.350693413841003,
	"learning_rate": 7.397363095144318e-06,
	"loss": 0.12418256998062134,
	"step": 3800
	},
	{
	"epoch": 1.6318607764390896,
	"grad_norm": 0.3712677998496879,
	"learning_rate": 7.380947829388108e-06,
	"loss": 0.12151600122451782,
	"step": 3810
	},
	{
	"epoch": 1.636144578313253,
	"grad_norm": 0.4183039288576934,
	"learning_rate": 7.364499307606136e-06,
	"loss": 0.11588020324707031,
	"step": 3820
	},
	{
	"epoch": 1.6404283801874162,
	"grad_norm": 0.39624838378484395,
	"learning_rate": 7.348017759544075e-06,
	"loss": 0.12545753717422486,
	"step": 3830
	},
	{
	"epoch": 1.6447121820615798,
	"grad_norm": 0.335543915765519,
	"learning_rate": 7.331503415408899e-06,
	"loss": 0.11865659952163696,
	"step": 3840
	},
	{
	"epoch": 1.6489959839357429,
	"grad_norm": 0.30699590589486353,
	"learning_rate": 7.3149565058656545e-06,
	"loss": 0.11257133483886719,
	"step": 3850
	},
	{
	"epoch": 1.6532797858099064,
	"grad_norm": 0.4211864176178027,
	"learning_rate": 7.298377262034258e-06,
	"loss": 0.12412948608398437,
	"step": 3860
	},
	{
	"epoch": 1.6575635876840695,
	"grad_norm": 0.5480668142726313,
	"learning_rate": 7.281765915486247e-06,
	"loss": 0.11110868453979492,
	"step": 3870
	},
	{
	"epoch": 1.661847389558233,
	"grad_norm": 0.38707346036306395,
	"learning_rate": 7.265122698241562e-06,
	"loss": 0.1353888154029846,
	"step": 3880
	},
	{
	"epoch": 1.6661311914323962,
	"grad_norm": 0.3496172916459521,
	"learning_rate": 7.248447842765298e-06,
	"loss": 0.12294532060623169,
	"step": 3890
	},
	{
	"epoch": 1.6704149933065597,
	"grad_norm": 0.3178905513170639,
	"learning_rate": 7.231741581964455e-06,
	"loss": 0.11635351181030273,
	"step": 3900
	},
	{
	"epoch": 1.6746987951807228,
	"grad_norm": 0.37730744546548595,
	"learning_rate": 7.2150041491846965e-06,
	"loss": 0.13707247972488404,
	"step": 3910
	},
	{
	"epoch": 1.6789825970548862,
	"grad_norm": 0.4258774014748926,
	"learning_rate": 7.198235778207072e-06,
	"loss": 0.11108559370040894,
	"step": 3920
	},
	{
	"epoch": 1.6832663989290495,
	"grad_norm": 0.3269689561831232,
	"learning_rate": 7.181436703244773e-06,
	"loss": 0.13123619556427002,
	"step": 3930
	},
	{
	"epoch": 1.6875502008032128,
	"grad_norm": 0.3328432989440898,
	"learning_rate": 7.1646071589398406e-06,
	"loss": 0.11167018413543701,
	"step": 3940
	},
	{
	"epoch": 1.6918340026773762,
	"grad_norm": 0.3844316794696797,
	"learning_rate": 7.147747380359905e-06,
	"loss": 0.11800698041915894,
	"step": 3950
	},
	{
	"epoch": 1.6961178045515395,
	"grad_norm": 0.33099179444642823,
	"learning_rate": 7.130857602994894e-06,
	"loss": 0.13457157611846923,
	"step": 3960
	},
	{
	"epoch": 1.7004016064257028,
	"grad_norm": 0.3147285218500962,
	"learning_rate": 7.113938062753742e-06,
	"loss": 0.13172318935394287,
	"step": 3970
	},
	{
	"epoch": 1.7046854082998661,
	"grad_norm": 0.3592833207498237,
	"learning_rate": 7.0969889959611045e-06,
	"loss": 0.1196314811706543,
	"step": 3980
	},
	{
	"epoch": 1.7089692101740295,
	"grad_norm": 0.29811223409083043,
	"learning_rate": 7.080010639354045e-06,
	"loss": 0.11256670951843262,
	"step": 3990
	},
	{
	"epoch": 1.7132530120481928,
	"grad_norm": 0.4270868815948092,
	"learning_rate": 7.063003230078734e-06,
	"loss": 0.12309803962707519,
	"step": 4000
	},
	{
	"epoch": 1.7132530120481928,
	"eval_loss": 0.144321471452713,
	"eval_runtime": 817.2721,
	"eval_samples_per_second": 20.311,
	"eval_steps_per_second": 5.078,
	"step": 4000
	},
	{
	"epoch": 1.7175368139223561,
	"grad_norm": 0.3733167797076492,
	"learning_rate": 7.045967005687141e-06,
	"loss": 0.11690073013305664,
	"step": 4010
	},
	{
	"epoch": 1.7218206157965195,
	"grad_norm": 0.32612931848843507,
	"learning_rate": 7.028902204133711e-06,
	"loss": 0.1235615611076355,
	"step": 4020
	},
	{
	"epoch": 1.7261044176706828,
	"grad_norm": 0.3537546537362819,
	"learning_rate": 7.011809063772038e-06,
	"loss": 0.1282111883163452,
	"step": 4030
	},
	{
	"epoch": 1.730388219544846,
	"grad_norm": 0.41855495134878623,
	"learning_rate": 6.994687823351547e-06,
	"loss": 0.13276000022888185,
	"step": 4040
	},
	{
	"epoch": 1.7346720214190094,
	"grad_norm": 0.3640723677373699,
	"learning_rate": 6.9775387220141465e-06,
	"loss": 0.12338956594467163,
	"step": 4050
	},
	{
	"epoch": 1.7389558232931726,
	"grad_norm": 0.348482478201222,
	"learning_rate": 6.960361999290894e-06,
	"loss": 0.1142328143119812,
	"step": 4060
	},
	{
	"epoch": 1.743239625167336,
	"grad_norm": 0.41291989661610773,
	"learning_rate": 6.943157895098656e-06,
	"loss": 0.12496788501739502,
	"step": 4070
	},
	{
	"epoch": 1.7475234270414992,
	"grad_norm": 0.31746340210362767,
	"learning_rate": 6.925926649736745e-06,
	"loss": 0.11045465469360352,
	"step": 4080
	},
	{
	"epoch": 1.7518072289156628,
	"grad_norm": 0.32179304285895316,
	"learning_rate": 6.9086685038835725e-06,
	"loss": 0.13367241621017456,
	"step": 4090
	},
	{
	"epoch": 1.7560910307898259,
	"grad_norm": 0.3467502021616522,
	"learning_rate": 6.891383698593283e-06,
	"loss": 0.11450705528259278,
	"step": 4100
	},
	{
	"epoch": 1.7603748326639894,
	"grad_norm": 0.37824785627911034,
	"learning_rate": 6.874072475292388e-06,
	"loss": 0.11085845232009887,
	"step": 4110
	},
	{
	"epoch": 1.7646586345381525,
	"grad_norm": 0.33242640245264393,
	"learning_rate": 6.856735075776395e-06,
	"loss": 0.12101356983184815,
	"step": 4120
	},
	{
	"epoch": 1.768942436412316,
	"grad_norm": 0.3295693613929198,
	"learning_rate": 6.839371742206432e-06,
	"loss": 0.11143279075622559,
	"step": 4130
	},
	{
	"epoch": 1.7732262382864792,
	"grad_norm": 0.41043258389255455,
	"learning_rate": 6.821982717105855e-06,
	"loss": 0.11657199859619141,
	"step": 4140
	},
	{
	"epoch": 1.7775100401606427,
	"grad_norm": 0.3336241961556357,
	"learning_rate": 6.804568243356876e-06,
	"loss": 0.12107970714569091,
	"step": 4150
	},
	{
	"epoch": 1.7817938420348058,
	"grad_norm": 0.404764797519025,
	"learning_rate": 6.7871285641971576e-06,
	"loss": 0.12142288684844971,
	"step": 4160
	},
	{
	"epoch": 1.7860776439089692,
	"grad_norm": 0.35528280014790076,
	"learning_rate": 6.769663923216419e-06,
	"loss": 0.14445422887802123,
	"step": 4170
	},
	{
	"epoch": 1.7903614457831325,
	"grad_norm": 0.36424811344112645,
	"learning_rate": 6.75217456435304e-06,
	"loss": 0.11748452186584472,
	"step": 4180
	},
	{
	"epoch": 1.7946452476572958,
	"grad_norm": 0.3580564279402089,
	"learning_rate": 6.734660731890645e-06,
	"loss": 0.11877243518829346,
	"step": 4190
	},
	{
	"epoch": 1.7989290495314592,
	"grad_norm": 0.3945693311810663,
	"learning_rate": 6.717122670454701e-06,
	"loss": 0.12274388074874878,
	"step": 4200
	},
	{
	"epoch": 1.8032128514056225,
	"grad_norm": 0.3274495553953029,
	"learning_rate": 6.699560625009085e-06,
	"loss": 0.11418673992156983,
	"step": 4210
	},
	{
	"epoch": 1.8074966532797858,
	"grad_norm": 0.43405948322435506,
	"learning_rate": 6.6819748408526775e-06,
	"loss": 0.11989142894744872,
	"step": 4220
	},
	{
	"epoch": 1.8117804551539491,
	"grad_norm": 0.34302792735595455,
	"learning_rate": 6.6643655636159325e-06,
	"loss": 0.10752333402633667,
	"step": 4230
	},
	{
	"epoch": 1.8160642570281125,
	"grad_norm": 0.38396837748701773,
	"learning_rate": 6.646733039257442e-06,
	"loss": 0.12758421897888184,
	"step": 4240
	},
	{
	"epoch": 1.8203480589022758,
	"grad_norm": 0.35943197748111966,
	"learning_rate": 6.629077514060501e-06,
	"loss": 0.11687214374542236,
	"step": 4250
	},
	{
	"epoch": 1.8246318607764391,
	"grad_norm": 0.33900665564961463,
	"learning_rate": 6.611399234629679e-06,
	"loss": 0.1235961675643921,
	"step": 4260
	},
	{
	"epoch": 1.8289156626506025,
	"grad_norm": 0.36539098779168305,
	"learning_rate": 6.593698447887357e-06,
	"loss": 0.12241628170013427,
	"step": 4270
	},
	{
	"epoch": 1.8331994645247658,
	"grad_norm": 0.38361329899883734,
	"learning_rate": 6.575975401070291e-06,
	"loss": 0.12448443174362182,
	"step": 4280
	},
	{
	"epoch": 1.837483266398929,
	"grad_norm": 0.4014122394041882,
	"learning_rate": 6.5582303417261605e-06,
	"loss": 0.1193004846572876,
	"step": 4290
	},
	{
	"epoch": 1.8417670682730924,
	"grad_norm": 0.3678903848404944,
	"learning_rate": 6.540463517710099e-06,
	"loss": 0.1212453842163086,
	"step": 4300
	},
	{
	"epoch": 1.8460508701472556,
	"grad_norm": 0.3251163301086072,
	"learning_rate": 6.5226751771812476e-06,
	"loss": 0.12798908948898316,
	"step": 4310
	},
	{
	"epoch": 1.850334672021419,
	"grad_norm": 0.3415099254328554,
	"learning_rate": 6.5048655685992705e-06,
	"loss": 0.13018690347671508,
	"step": 4320
	},
	{
	"epoch": 1.8546184738955822,
	"grad_norm": 0.3905905047279772,
	"learning_rate": 6.487034940720902e-06,
	"loss": 0.12057719230651856,
	"step": 4330
	},
	{
	"epoch": 1.8589022757697458,
	"grad_norm": 0.3646836032160996,
	"learning_rate": 6.469183542596464e-06,
	"loss": 0.13052282333374024,
	"step": 4340
	},
	{
	"epoch": 1.8631860776439089,
	"grad_norm": 0.33435104754269,
	"learning_rate": 6.451311623566386e-06,
	"loss": 0.11543186902999877,
	"step": 4350
	},
	{
	"epoch": 1.8674698795180724,
	"grad_norm": 0.3562601136655919,
	"learning_rate": 6.433419433257726e-06,
	"loss": 0.12250864505767822,
	"step": 4360
	},
	{
	"epoch": 1.8717536813922355,
	"grad_norm": 0.3226539154934918,
	"learning_rate": 6.415507221580678e-06,
	"loss": 0.12082786560058593,
	"step": 4370
	},
	{
	"epoch": 1.876037483266399,
	"grad_norm": 0.3635681601652211,
	"learning_rate": 6.397575238725091e-06,
	"loss": 0.12619302272796631,
	"step": 4380
	},
	{
	"epoch": 1.8803212851405622,
	"grad_norm": 0.3607934399845053,
	"learning_rate": 6.379623735156968e-06,
	"loss": 0.12855522632598876,
	"step": 4390
	},
	{
	"epoch": 1.8846050870147257,
	"grad_norm": 0.33220984445822355,
	"learning_rate": 6.361652961614966e-06,
	"loss": 0.11576036214828492,
	"step": 4400
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 0.3957629269071009,
	"learning_rate": 6.343663169106897e-06,
	"loss": 0.12123892307281495,
	"step": 4410
	},
	{
	"epoch": 1.8931726907630522,
	"grad_norm": 0.38648528140436955,
	"learning_rate": 6.325654608906228e-06,
	"loss": 0.13391902446746826,
	"step": 4420
	},
	{
	"epoch": 1.8974564926372155,
	"grad_norm": 0.322831029116286,
	"learning_rate": 6.307627532548554e-06,
	"loss": 0.11682146787643433,
	"step": 4430
	},
	{
	"epoch": 1.9017402945113788,
	"grad_norm": 0.34943896220332243,
	"learning_rate": 6.289582191828102e-06,
	"loss": 0.10885384082794189,
	"step": 4440
	},
	{
	"epoch": 1.9060240963855422,
	"grad_norm": 0.3885943387224764,
	"learning_rate": 6.2715188387942085e-06,
	"loss": 0.11223304271697998,
	"step": 4450
	},
	{
	"epoch": 1.9103078982597055,
	"grad_norm": 0.336737608622642,
	"learning_rate": 6.253437725747795e-06,
	"loss": 0.11982736587524415,
	"step": 4460
	},
	{
	"epoch": 1.9145917001338688,
	"grad_norm": 0.3692087496930761,
	"learning_rate": 6.235339105237849e-06,
	"loss": 0.12470091581344604,
	"step": 4470
	},
	{
	"epoch": 1.9188755020080321,
	"grad_norm": 0.39542747620483304,
	"learning_rate": 6.217223230057891e-06,
	"loss": 0.1260706901550293,
	"step": 4480
	},
	{
	"epoch": 1.9231593038821955,
	"grad_norm": 0.36423974792020714,
	"learning_rate": 6.199090353242452e-06,
	"loss": 0.11962894201278687,
	"step": 4490
	},
	{
	"epoch": 1.9274431057563588,
	"grad_norm": 0.36962654876484385,
	"learning_rate": 6.18094072806353e-06,
	"loss": 0.11819722652435302,
	"step": 4500
	},
	{
	"epoch": 1.9274431057563588,
	"eval_loss": 0.14271628856658936,
	"eval_runtime": 1019.4039,
	"eval_samples_per_second": 16.284,
	"eval_steps_per_second": 4.071,
	"step": 4500
	}
	],
	"logging_steps": 10,
	"max_steps": 9340,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 481757134651392.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}