DescribeEarth / trainer_state.json

Upload 14 files

7d46f29 verified 5 months ago

29.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9999383363137448,
	"eval_steps": 500,
	"global_step": 8108,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006166368625516433,
	"grad_norm": 16.689239750860494,
	"learning_rate": 4.0983606557377046e-08,
	"loss": 1.618,
	"step": 50
	},
	{
	"epoch": 0.012332737251032866,
	"grad_norm": 17.403265975850882,
	"learning_rate": 8.196721311475409e-08,
	"loss": 1.6045,
	"step": 100
	},
	{
	"epoch": 0.0184991058765493,
	"grad_norm": 14.749335037473138,
	"learning_rate": 1.2295081967213116e-07,
	"loss": 1.5032,
	"step": 150
	},
	{
	"epoch": 0.024665474502065732,
	"grad_norm": 8.133780120015619,
	"learning_rate": 1.6393442622950818e-07,
	"loss": 1.3224,
	"step": 200
	},
	{
	"epoch": 0.030831843127582168,
	"grad_norm": 5.828403504971832,
	"learning_rate": 1.9999971273346704e-07,
	"loss": 1.1032,
	"step": 250
	},
	{
	"epoch": 0.0369982117530986,
	"grad_norm": 3.9432862715914587,
	"learning_rate": 1.9997497692480678e-07,
	"loss": 0.9673,
	"step": 300
	},
	{
	"epoch": 0.043164580378615036,
	"grad_norm": 3.4359051761562025,
	"learning_rate": 1.9991035427741063e-07,
	"loss": 0.8524,
	"step": 350
	},
	{
	"epoch": 0.049330949004131465,
	"grad_norm": 3.058893644982214,
	"learning_rate": 1.9980587057366126e-07,
	"loss": 0.7977,
	"step": 400
	},
	{
	"epoch": 0.0554973176296479,
	"grad_norm": 2.780325971119289,
	"learning_rate": 1.9966156749923613e-07,
	"loss": 0.7693,
	"step": 450
	},
	{
	"epoch": 0.061663686255164336,
	"grad_norm": 2.9531788670760784,
	"learning_rate": 1.994775026264762e-07,
	"loss": 0.7432,
	"step": 500
	},
	{
	"epoch": 0.06783005488068077,
	"grad_norm": 3.2391609392351692,
	"learning_rate": 1.9925374939141637e-07,
	"loss": 0.7299,
	"step": 550
	},
	{
	"epoch": 0.0739964235061972,
	"grad_norm": 2.963688989960738,
	"learning_rate": 1.9899039706448692e-07,
	"loss": 0.7002,
	"step": 600
	},
	{
	"epoch": 0.08016279213171364,
	"grad_norm": 2.880854595097375,
	"learning_rate": 1.9868755071489728e-07,
	"loss": 0.6761,
	"step": 650
	},
	{
	"epoch": 0.08632916075723007,
	"grad_norm": 2.6331858272282904,
	"learning_rate": 1.98345331168717e-07,
	"loss": 0.6753,
	"step": 700
	},
	{
	"epoch": 0.0924955293827465,
	"grad_norm": 3.166081780603538,
	"learning_rate": 1.9796387496066975e-07,
	"loss": 0.6627,
	"step": 750
	},
	{
	"epoch": 0.09866189800826293,
	"grad_norm": 3.2004691707941215,
	"learning_rate": 1.975433342796604e-07,
	"loss": 0.6398,
	"step": 800
	},
	{
	"epoch": 0.10482826663377937,
	"grad_norm": 3.4439116163641534,
	"learning_rate": 1.9708387690805658e-07,
	"loss": 0.643,
	"step": 850
	},
	{
	"epoch": 0.1109946352592958,
	"grad_norm": 2.7959822715068237,
	"learning_rate": 1.965856861547486e-07,
	"loss": 0.6299,
	"step": 900
	},
	{
	"epoch": 0.11716100388481224,
	"grad_norm": 2.8720786800067133,
	"learning_rate": 1.960489607820153e-07,
	"loss": 0.6156,
	"step": 950
	},
	{
	"epoch": 0.12332737251032867,
	"grad_norm": 2.8998981058217512,
	"learning_rate": 1.9547391492622407e-07,
	"loss": 0.6045,
	"step": 1000
	},
	{
	"epoch": 0.1294937411358451,
	"grad_norm": 2.937285416581705,
	"learning_rate": 1.9486077801239723e-07,
	"loss": 0.604,
	"step": 1050
	},
	{
	"epoch": 0.13566010976136153,
	"grad_norm": 2.9265674908029258,
	"learning_rate": 1.9420979466267888e-07,
	"loss": 0.5918,
	"step": 1100
	},
	{
	"epoch": 0.14182647838687798,
	"grad_norm": 3.1223514523834224,
	"learning_rate": 1.9352122459873818e-07,
	"loss": 0.5857,
	"step": 1150
	},
	{
	"epoch": 0.1479928470123944,
	"grad_norm": 2.991244269539233,
	"learning_rate": 1.9279534253814899e-07,
	"loss": 0.5797,
	"step": 1200
	},
	{
	"epoch": 0.15415921563791082,
	"grad_norm": 2.9531460521405313,
	"learning_rate": 1.9203243808478597e-07,
	"loss": 0.583,
	"step": 1250
	},
	{
	"epoch": 0.16032558426342727,
	"grad_norm": 2.9620910098760174,
	"learning_rate": 1.9123281561328205e-07,
	"loss": 0.5647,
	"step": 1300
	},
	{
	"epoch": 0.1664919528889437,
	"grad_norm": 2.8183125229693333,
	"learning_rate": 1.9039679414759247e-07,
	"loss": 0.5675,
	"step": 1350
	},
	{
	"epoch": 0.17265832151446014,
	"grad_norm": 3.029807143662261,
	"learning_rate": 1.8952470723371465e-07,
	"loss": 0.5669,
	"step": 1400
	},
	{
	"epoch": 0.17882469013997657,
	"grad_norm": 3.323729247650118,
	"learning_rate": 1.886169028066135e-07,
	"loss": 0.5579,
	"step": 1450
	},
	{
	"epoch": 0.184991058765493,
	"grad_norm": 2.9853732307969123,
	"learning_rate": 1.8767374305140678e-07,
	"loss": 0.5578,
	"step": 1500
	},
	{
	"epoch": 0.19115742739100944,
	"grad_norm": 2.8289118535370226,
	"learning_rate": 1.8669560425886458e-07,
	"loss": 0.5565,
	"step": 1550
	},
	{
	"epoch": 0.19732379601652586,
	"grad_norm": 3.107927650244337,
	"learning_rate": 1.8568287667528136e-07,
	"loss": 0.5482,
	"step": 1600
	},
	{
	"epoch": 0.2034901646420423,
	"grad_norm": 2.9356477568984474,
	"learning_rate": 1.846359643467799e-07,
	"loss": 0.5493,
	"step": 1650
	},
	{
	"epoch": 0.20965653326755873,
	"grad_norm": 2.8886483110859706,
	"learning_rate": 1.8355528495811004e-07,
	"loss": 0.5441,
	"step": 1700
	},
	{
	"epoch": 0.21582290189307518,
	"grad_norm": 3.043206189340112,
	"learning_rate": 1.8244126966600537e-07,
	"loss": 0.5309,
	"step": 1750
	},
	{
	"epoch": 0.2219892705185916,
	"grad_norm": 2.84058010312111,
	"learning_rate": 1.8129436292716576e-07,
	"loss": 0.5281,
	"step": 1800
	},
	{
	"epoch": 0.22815563914410802,
	"grad_norm": 3.2658177471645793,
	"learning_rate": 1.8011502232093294e-07,
	"loss": 0.5219,
	"step": 1850
	},
	{
	"epoch": 0.23432200776962447,
	"grad_norm": 2.838918099928717,
	"learning_rate": 1.7890371836673115e-07,
	"loss": 0.5164,
	"step": 1900
	},
	{
	"epoch": 0.2404883763951409,
	"grad_norm": 3.3022219294232222,
	"learning_rate": 1.7766093433634462e-07,
	"loss": 0.524,
	"step": 1950
	},
	{
	"epoch": 0.24665474502065735,
	"grad_norm": 3.5602190680329637,
	"learning_rate": 1.7638716606110768e-07,
	"loss": 0.509,
	"step": 2000
	},
	{
	"epoch": 0.25282111364617377,
	"grad_norm": 3.0096527122431973,
	"learning_rate": 1.7508292173408366e-07,
	"loss": 0.5193,
	"step": 2050
	},
	{
	"epoch": 0.2589874822716902,
	"grad_norm": 3.3687126826867044,
	"learning_rate": 1.7374872170731205e-07,
	"loss": 0.5186,
	"step": 2100
	},
	{
	"epoch": 0.2651538508972066,
	"grad_norm": 3.1979358817347734,
	"learning_rate": 1.7238509828420468e-07,
	"loss": 0.5081,
	"step": 2150
	},
	{
	"epoch": 0.27132021952272306,
	"grad_norm": 2.7782410513777207,
	"learning_rate": 1.709925955071734e-07,
	"loss": 0.5046,
	"step": 2200
	},
	{
	"epoch": 0.2774865881482395,
	"grad_norm": 3.0956007198543376,
	"learning_rate": 1.6957176894057456e-07,
	"loss": 0.5067,
	"step": 2250
	},
	{
	"epoch": 0.28365295677375596,
	"grad_norm": 2.883657997016742,
	"learning_rate": 1.681231854490565e-07,
	"loss": 0.5034,
	"step": 2300
	},
	{
	"epoch": 0.28981932539927235,
	"grad_norm": 3.037713494095377,
	"learning_rate": 1.6664742297139842e-07,
	"loss": 0.5017,
	"step": 2350
	},
	{
	"epoch": 0.2959856940247888,
	"grad_norm": 2.7886707641373856,
	"learning_rate": 1.6514507028993141e-07,
	"loss": 0.5074,
	"step": 2400
	},
	{
	"epoch": 0.30215206265030525,
	"grad_norm": 3.0522520309780665,
	"learning_rate": 1.636167267956328e-07,
	"loss": 0.504,
	"step": 2450
	},
	{
	"epoch": 0.30831843127582165,
	"grad_norm": 2.9917653849017967,
	"learning_rate": 1.620630022489884e-07,
	"loss": 0.492,
	"step": 2500
	},
	{
	"epoch": 0.3144847999013381,
	"grad_norm": 3.374780491495851,
	"learning_rate": 1.604845165367171e-07,
	"loss": 0.5012,
	"step": 2550
	},
	{
	"epoch": 0.32065116852685455,
	"grad_norm": 3.054737104124034,
	"learning_rate": 1.588818994244563e-07,
	"loss": 0.4961,
	"step": 2600
	},
	{
	"epoch": 0.326817537152371,
	"grad_norm": 3.1630826680292037,
	"learning_rate": 1.5725579030550487e-07,
	"loss": 0.4986,
	"step": 2650
	},
	{
	"epoch": 0.3329839057778874,
	"grad_norm": 2.787165502227459,
	"learning_rate": 1.5560683794572599e-07,
	"loss": 0.5005,
	"step": 2700
	},
	{
	"epoch": 0.33915027440340384,
	"grad_norm": 3.2159871448935853,
	"learning_rate": 1.5393570022470996e-07,
	"loss": 0.4912,
	"step": 2750
	},
	{
	"epoch": 0.3453166430289203,
	"grad_norm": 2.921398178739714,
	"learning_rate": 1.5224304387330113e-07,
	"loss": 0.4873,
	"step": 2800
	},
	{
	"epoch": 0.3514830116544367,
	"grad_norm": 3.033201824114291,
	"learning_rate": 1.505295442075936e-07,
	"loss": 0.4848,
	"step": 2850
	},
	{
	"epoch": 0.35764938027995313,
	"grad_norm": 3.126845883000846,
	"learning_rate": 1.4879588485950154e-07,
	"loss": 0.4761,
	"step": 2900
	},
	{
	"epoch": 0.3638157489054696,
	"grad_norm": 2.899612235662964,
	"learning_rate": 1.4704275750401168e-07,
	"loss": 0.4731,
	"step": 2950
	},
	{
	"epoch": 0.369982117530986,
	"grad_norm": 2.78803166053557,
	"learning_rate": 1.45270861583227e-07,
	"loss": 0.4751,
	"step": 3000
	},
	{
	"epoch": 0.3761484861565024,
	"grad_norm": 3.217869780099078,
	"learning_rate": 1.4348090402731177e-07,
	"loss": 0.4833,
	"step": 3050
	},
	{
	"epoch": 0.3823148547820189,
	"grad_norm": 2.98388792612514,
	"learning_rate": 1.416735989724485e-07,
	"loss": 0.4768,
	"step": 3100
	},
	{
	"epoch": 0.3884812234075353,
	"grad_norm": 3.095979105793261,
	"learning_rate": 1.3984966747592066e-07,
	"loss": 0.4781,
	"step": 3150
	},
	{
	"epoch": 0.3946475920330517,
	"grad_norm": 2.8570658991316944,
	"learning_rate": 1.380098372284335e-07,
	"loss": 0.47,
	"step": 3200
	},
	{
	"epoch": 0.40081396065856817,
	"grad_norm": 2.913522526116864,
	"learning_rate": 1.3615484226378866e-07,
	"loss": 0.4761,
	"step": 3250
	},
	{
	"epoch": 0.4069803292840846,
	"grad_norm": 3.079167327659028,
	"learning_rate": 1.3428542266602808e-07,
	"loss": 0.4691,
	"step": 3300
	},
	{
	"epoch": 0.413146697909601,
	"grad_norm": 3.167335424827754,
	"learning_rate": 1.3240232427416377e-07,
	"loss": 0.4762,
	"step": 3350
	},
	{
	"epoch": 0.41931306653511746,
	"grad_norm": 2.951805565284142,
	"learning_rate": 1.3050629838461213e-07,
	"loss": 0.4743,
	"step": 3400
	},
	{
	"epoch": 0.4254794351606339,
	"grad_norm": 3.344274691992938,
	"learning_rate": 1.285981014514501e-07,
	"loss": 0.4651,
	"step": 3450
	},
	{
	"epoch": 0.43164580378615036,
	"grad_norm": 3.134003729646922,
	"learning_rate": 1.2667849478461436e-07,
	"loss": 0.474,
	"step": 3500
	},
	{
	"epoch": 0.43781217241166676,
	"grad_norm": 3.000847232186744,
	"learning_rate": 1.2474824424616271e-07,
	"loss": 0.4729,
	"step": 3550
	},
	{
	"epoch": 0.4439785410371832,
	"grad_norm": 2.836288640859743,
	"learning_rate": 1.228081199447195e-07,
	"loss": 0.4632,
	"step": 3600
	},
	{
	"epoch": 0.45014490966269965,
	"grad_norm": 3.308502889653925,
	"learning_rate": 1.2085889592822667e-07,
	"loss": 0.4601,
	"step": 3650
	},
	{
	"epoch": 0.45631127828821605,
	"grad_norm": 2.746002613176513,
	"learning_rate": 1.1890134987512341e-07,
	"loss": 0.467,
	"step": 3700
	},
	{
	"epoch": 0.4624776469137325,
	"grad_norm": 3.24735950823672,
	"learning_rate": 1.1693626278407694e-07,
	"loss": 0.4617,
	"step": 3750
	},
	{
	"epoch": 0.46864401553924895,
	"grad_norm": 3.0607507540260075,
	"learning_rate": 1.1496441866238905e-07,
	"loss": 0.4569,
	"step": 3800
	},
	{
	"epoch": 0.47481038416476534,
	"grad_norm": 2.9943145563385998,
	"learning_rate": 1.1298660421320194e-07,
	"loss": 0.4619,
	"step": 3850
	},
	{
	"epoch": 0.4809767527902818,
	"grad_norm": 3.1612704244607177,
	"learning_rate": 1.1100360852162888e-07,
	"loss": 0.4637,
	"step": 3900
	},
	{
	"epoch": 0.48714312141579824,
	"grad_norm": 3.1449471984877055,
	"learning_rate": 1.0901622273993417e-07,
	"loss": 0.4701,
	"step": 3950
	},
	{
	"epoch": 0.4933094900413147,
	"grad_norm": 3.0699714321899387,
	"learning_rate": 1.070252397718884e-07,
	"loss": 0.4558,
	"step": 4000
	},
	{
	"epoch": 0.4994758586668311,
	"grad_norm": 3.4589428619371834,
	"learning_rate": 1.0503145395642541e-07,
	"loss": 0.4599,
	"step": 4050
	},
	{
	"epoch": 0.5056422272923475,
	"grad_norm": 3.0848999815662674,
	"learning_rate": 1.0303566075072598e-07,
	"loss": 0.4558,
	"step": 4100
	},
	{
	"epoch": 0.511808595917864,
	"grad_norm": 2.947163992749446,
	"learning_rate": 1.0103865641285583e-07,
	"loss": 0.457,
	"step": 4150
	},
	{
	"epoch": 0.5179749645433804,
	"grad_norm": 3.5673363307250927,
	"learning_rate": 9.904123768408389e-08,
	"loss": 0.4575,
	"step": 4200
	},
	{
	"epoch": 0.5241413331688969,
	"grad_norm": 3.07648492625604,
	"learning_rate": 9.704420147100796e-08,
	"loss": 0.4528,
	"step": 4250
	},
	{
	"epoch": 0.5303077017944132,
	"grad_norm": 3.2080853332983907,
	"learning_rate": 9.504834452761424e-08,
	"loss": 0.455,
	"step": 4300
	},
	{
	"epoch": 0.5364740704199297,
	"grad_norm": 2.952611892786328,
	"learning_rate": 9.305446313739767e-08,
	"loss": 0.4472,
	"step": 4350
	},
	{
	"epoch": 0.5426404390454461,
	"grad_norm": 3.005908121136174,
	"learning_rate": 9.106335279567037e-08,
	"loss": 0.4516,
	"step": 4400
	},
	{
	"epoch": 0.5488068076709626,
	"grad_norm": 2.822428791661921,
	"learning_rate": 8.907580789218414e-08,
	"loss": 0.4528,
	"step": 4450
	},
	{
	"epoch": 0.554973176296479,
	"grad_norm": 2.8673595096457465,
	"learning_rate": 8.709262139419424e-08,
	"loss": 0.4536,
	"step": 4500
	},
	{
	"epoch": 0.5611395449219955,
	"grad_norm": 3.264575792740317,
	"learning_rate": 8.511458453009065e-08,
	"loss": 0.4524,
	"step": 4550
	},
	{
	"epoch": 0.5673059135475119,
	"grad_norm": 3.3129039957771806,
	"learning_rate": 8.314248647372302e-08,
	"loss": 0.4467,
	"step": 4600
	},
	{
	"epoch": 0.5734722821730283,
	"grad_norm": 3.083187238173955,
	"learning_rate": 8.117711402954554e-08,
	"loss": 0.4488,
	"step": 4650
	},
	{
	"epoch": 0.5796386507985447,
	"grad_norm": 3.1488830656848,
	"learning_rate": 7.921925131870672e-08,
	"loss": 0.4579,
	"step": 4700
	},
	{
	"epoch": 0.5858050194240612,
	"grad_norm": 2.9768313706421874,
	"learning_rate": 7.726967946621029e-08,
	"loss": 0.4481,
	"step": 4750
	},
	{
	"epoch": 0.5919713880495776,
	"grad_norm": 3.0236276200137486,
	"learning_rate": 7.532917628927079e-08,
	"loss": 0.4529,
	"step": 4800
	},
	{
	"epoch": 0.5981377566750941,
	"grad_norm": 3.0681593760022285,
	"learning_rate": 7.339851598698955e-08,
	"loss": 0.4527,
	"step": 4850
	},
	{
	"epoch": 0.6043041253006105,
	"grad_norm": 3.2203600426157495,
	"learning_rate": 7.147846883147362e-08,
	"loss": 0.4473,
	"step": 4900
	},
	{
	"epoch": 0.610470493926127,
	"grad_norm": 3.127241727234972,
	"learning_rate": 6.956980086052184e-08,
	"loss": 0.4536,
	"step": 4950
	},
	{
	"epoch": 0.6166368625516433,
	"grad_norm": 3.215958029153526,
	"learning_rate": 6.76732735719999e-08,
	"loss": 0.4505,
	"step": 5000
	},
	{
	"epoch": 0.6228032311771597,
	"grad_norm": 2.8220120121880936,
	"learning_rate": 6.578964362002715e-08,
	"loss": 0.4514,
	"step": 5050
	},
	{
	"epoch": 0.6289695998026762,
	"grad_norm": 3.0284791997521054,
	"learning_rate": 6.391966251309539e-08,
	"loss": 0.4458,
	"step": 5100
	},
	{
	"epoch": 0.6351359684281926,
	"grad_norm": 3.371033810021987,
	"learning_rate": 6.206407631424109e-08,
	"loss": 0.4446,
	"step": 5150
	},
	{
	"epoch": 0.6413023370537091,
	"grad_norm": 3.122281628753462,
	"learning_rate": 6.02236253433898e-08,
	"loss": 0.4473,
	"step": 5200
	},
	{
	"epoch": 0.6474687056792255,
	"grad_norm": 2.7353573500503074,
	"learning_rate": 5.8399043881992104e-08,
	"loss": 0.4399,
	"step": 5250
	},
	{
	"epoch": 0.653635074304742,
	"grad_norm": 3.194859384027796,
	"learning_rate": 5.659105988006851e-08,
	"loss": 0.4499,
	"step": 5300
	},
	{
	"epoch": 0.6598014429302583,
	"grad_norm": 2.8707279633921194,
	"learning_rate": 5.480039466578079e-08,
	"loss": 0.453,
	"step": 5350
	},
	{
	"epoch": 0.6659678115557748,
	"grad_norm": 3.313196070466103,
	"learning_rate": 5.3027762657644745e-08,
	"loss": 0.4433,
	"step": 5400
	},
	{
	"epoch": 0.6721341801812912,
	"grad_norm": 2.9398335243680056,
	"learning_rate": 5.1273871079499986e-08,
	"loss": 0.447,
	"step": 5450
	},
	{
	"epoch": 0.6783005488068077,
	"grad_norm": 2.9069645999783726,
	"learning_rate": 4.9539419678350103e-08,
	"loss": 0.4424,
	"step": 5500
	},
	{
	"epoch": 0.6844669174323241,
	"grad_norm": 3.0807794080344744,
	"learning_rate": 4.7825100445185904e-08,
	"loss": 0.4502,
	"step": 5550
	},
	{
	"epoch": 0.6906332860578406,
	"grad_norm": 3.1238439553913913,
	"learning_rate": 4.613159733890279e-08,
	"loss": 0.4371,
	"step": 5600
	},
	{
	"epoch": 0.6967996546833569,
	"grad_norm": 2.894912373492253,
	"learning_rate": 4.445958601342321e-08,
	"loss": 0.4466,
	"step": 5650
	},
	{
	"epoch": 0.7029660233088734,
	"grad_norm": 3.1861168079620352,
	"learning_rate": 4.280973354813196e-08,
	"loss": 0.4452,
	"step": 5700
	},
	{
	"epoch": 0.7091323919343898,
	"grad_norm": 3.218055671881565,
	"learning_rate": 4.118269818173283e-08,
	"loss": 0.4335,
	"step": 5750
	},
	{
	"epoch": 0.7152987605599063,
	"grad_norm": 3.7156552734894177,
	"learning_rate": 3.957912904963225e-08,
	"loss": 0.4482,
	"step": 5800
	},
	{
	"epoch": 0.7214651291854227,
	"grad_norm": 3.248126042161764,
	"learning_rate": 3.7999665924954815e-08,
	"loss": 0.4407,
	"step": 5850
	},
	{
	"epoch": 0.7276314978109392,
	"grad_norm": 3.37840785837335,
	"learning_rate": 3.64449389632943e-08,
	"loss": 0.4421,
	"step": 5900
	},
	{
	"epoch": 0.7337978664364556,
	"grad_norm": 2.919668888292714,
	"learning_rate": 3.491556845130147e-08,
	"loss": 0.4358,
	"step": 5950
	},
	{
	"epoch": 0.739964235061972,
	"grad_norm": 3.449594279809231,
	"learning_rate": 3.3412164559209485e-08,
	"loss": 0.4393,
	"step": 6000
	},
	{
	"epoch": 0.7461306036874884,
	"grad_norm": 3.0449172482636713,
	"learning_rate": 3.193532709739534e-08,
	"loss": 0.443,
	"step": 6050
	},
	{
	"epoch": 0.7522969723130049,
	"grad_norm": 2.9659035390086603,
	"learning_rate": 3.048564527707457e-08,
	"loss": 0.4541,
	"step": 6100
	},
	{
	"epoch": 0.7584633409385213,
	"grad_norm": 3.0426691033458266,
	"learning_rate": 2.9063697475224736e-08,
	"loss": 0.4411,
	"step": 6150
	},
	{
	"epoch": 0.7646297095640378,
	"grad_norm": 3.1254929066925543,
	"learning_rate": 2.767005100383143e-08,
	"loss": 0.4466,
	"step": 6200
	},
	{
	"epoch": 0.7707960781895542,
	"grad_norm": 3.059948610503461,
	"learning_rate": 2.6305261883548624e-08,
	"loss": 0.4501,
	"step": 6250
	},
	{
	"epoch": 0.7769624468150707,
	"grad_norm": 3.178741971582532,
	"learning_rate": 2.4969874621864373e-08,
	"loss": 0.4405,
	"step": 6300
	},
	{
	"epoch": 0.783128815440587,
	"grad_norm": 3.178300180527373,
	"learning_rate": 2.3664421995859463e-08,
	"loss": 0.4499,
	"step": 6350
	},
	{
	"epoch": 0.7892951840661034,
	"grad_norm": 3.003275204473159,
	"learning_rate": 2.2389424839646286e-08,
	"loss": 0.4399,
	"step": 6400
	},
	{
	"epoch": 0.7954615526916199,
	"grad_norm": 3.420014772222019,
	"learning_rate": 2.114539183657268e-08,
	"loss": 0.4352,
	"step": 6450
	},
	{
	"epoch": 0.8016279213171363,
	"grad_norm": 2.971627106875043,
	"learning_rate": 1.9932819316273307e-08,
	"loss": 0.4382,
	"step": 6500
	},
	{
	"epoch": 0.8077942899426528,
	"grad_norm": 3.4422374871537533,
	"learning_rate": 1.8752191056650023e-08,
	"loss": 0.4377,
	"step": 6550
	},
	{
	"epoch": 0.8139606585681692,
	"grad_norm": 3.053124764133182,
	"learning_rate": 1.7603978090859794e-08,
	"loss": 0.4442,
	"step": 6600
	},
	{
	"epoch": 0.8201270271936857,
	"grad_norm": 3.1086937331605613,
	"learning_rate": 1.6488638519387478e-08,
	"loss": 0.4466,
	"step": 6650
	},
	{
	"epoch": 0.826293395819202,
	"grad_norm": 3.4399676514136193,
	"learning_rate": 1.5406617327278205e-08,
	"loss": 0.4326,
	"step": 6700
	},
	{
	"epoch": 0.8324597644447185,
	"grad_norm": 2.8487398222000744,
	"learning_rate": 1.4358346206602612e-08,
	"loss": 0.4422,
	"step": 6750
	},
	{
	"epoch": 0.8386261330702349,
	"grad_norm": 2.9651774336393726,
	"learning_rate": 1.334424338422534e-08,
	"loss": 0.4305,
	"step": 6800
	},
	{
	"epoch": 0.8447925016957514,
	"grad_norm": 3.4279808291982556,
	"learning_rate": 1.236471345494583e-08,
	"loss": 0.4386,
	"step": 6850
	},
	{
	"epoch": 0.8509588703212678,
	"grad_norm": 3.298847289113035,
	"learning_rate": 1.1420147220077847e-08,
	"loss": 0.4425,
	"step": 6900
	},
	{
	"epoch": 0.8571252389467843,
	"grad_norm": 3.199726112913922,
	"learning_rate": 1.0510921531532192e-08,
	"loss": 0.4339,
	"step": 6950
	},
	{
	"epoch": 0.8632916075723007,
	"grad_norm": 3.3865902484127637,
	"learning_rate": 9.63739914146473e-09,
	"loss": 0.426,
	"step": 7000
	},
	{
	"epoch": 0.8694579761978171,
	"grad_norm": 3.080132950484914,
	"learning_rate": 8.799928557549863e-09,
	"loss": 0.4437,
	"step": 7050
	},
	{
	"epoch": 0.8756243448233335,
	"grad_norm": 3.2441647152844526,
	"learning_rate": 7.998843903936992e-09,
	"loss": 0.4338,
	"step": 7100
	},
	{
	"epoch": 0.88179071344885,
	"grad_norm": 2.861131038634973,
	"learning_rate": 7.2344647879456265e-09,
	"loss": 0.4363,
	"step": 7150
	},
	{
	"epoch": 0.8879570820743664,
	"grad_norm": 3.131842173102097,
	"learning_rate": 6.507096172552195e-09,
	"loss": 0.4333,
	"step": 7200
	},
	{
	"epoch": 0.8941234506998829,
	"grad_norm": 3.1735067730802604,
	"learning_rate": 5.817028254719536e-09,
	"loss": 0.4395,
	"step": 7250
	},
	{
	"epoch": 0.9002898193253993,
	"grad_norm": 2.941305225791783,
	"learning_rate": 5.164536349617532e-09,
	"loss": 0.4418,
	"step": 7300
	},
	{
	"epoch": 0.9064561879509158,
	"grad_norm": 3.1369522496788806,
	"learning_rate": 4.5498807807811015e-09,
	"loss": 0.4413,
	"step": 7350
	},
	{
	"epoch": 0.9126225565764321,
	"grad_norm": 3.10250834762718,
	"learning_rate": 3.973306776249341e-09,
	"loss": 0.4316,
	"step": 7400
	},
	{
	"epoch": 0.9187889252019485,
	"grad_norm": 3.113181559222609,
	"learning_rate": 3.4350443707274135e-09,
	"loss": 0.4391,
	"step": 7450
	},
	{
	"epoch": 0.924955293827465,
	"grad_norm": 3.2125045204581424,
	"learning_rate": 2.9353083138099256e-09,
	"loss": 0.4453,
	"step": 7500
	},
	{
	"epoch": 0.9311216624529814,
	"grad_norm": 3.3021789642945008,
	"learning_rate": 2.474297984302709e-09,
	"loss": 0.4404,
	"step": 7550
	},
	{
	"epoch": 0.9372880310784979,
	"grad_norm": 3.3940858957593223,
	"learning_rate": 2.0521973106770285e-09,
	"loss": 0.4387,
	"step": 7600
	},
	{
	"epoch": 0.9434543997040143,
	"grad_norm": 2.8912916713122763,
	"learning_rate": 1.6691746976879028e-09,
	"loss": 0.4396,
	"step": 7650
	},
	{
	"epoch": 0.9496207683295307,
	"grad_norm": 3.437089198963669,
	"learning_rate": 1.3253829591860387e-09,
	"loss": 0.4375,
	"step": 7700
	},
	{
	"epoch": 0.9557871369550471,
	"grad_norm": 3.138591510137561,
	"learning_rate": 1.0209592571498892e-09,
	"loss": 0.432,
	"step": 7750
	},
	{
	"epoch": 0.9619535055805636,
	"grad_norm": 3.0903316485258783,
	"learning_rate": 7.560250469624385e-10,
	"loss": 0.4381,
	"step": 7800
	},
	{
	"epoch": 0.96811987420608,
	"grad_norm": 3.1363149734033233,
	"learning_rate": 5.306860289543413e-10,
	"loss": 0.4432,
	"step": 7850
	},
	{
	"epoch": 0.9742862428315965,
	"grad_norm": 3.143737684684351,
	"learning_rate": 3.450321062328232e-10,
	"loss": 0.4334,
	"step": 7900
	},
	{
	"epoch": 0.9804526114571129,
	"grad_norm": 2.8627388485987444,
	"learning_rate": 1.9913734881326083e-10,
	"loss": 0.4372,
	"step": 7950
	},
	{
	"epoch": 0.9866189800826294,
	"grad_norm": 3.044456688116337,
	"learning_rate": 9.305996406754335e-11,
	"loss": 0.4376,
	"step": 8000
	},
	{
	"epoch": 0.9927853487081457,
	"grad_norm": 2.9030301879677096,
	"learning_rate": 2.6842273501193058e-11,
	"loss": 0.4348,
	"step": 8050
	},
	{
	"epoch": 0.9989517173336622,
	"grad_norm": 3.2924748739223664,
	"learning_rate": 5.10695868449762e-13,
	"loss": 0.4422,
	"step": 8100
	},
	{
	"epoch": 0.9999383363137448,
	"step": 8108,
	"total_flos": 533986133770240.0,
	"train_loss": 0.5225248140364254,
	"train_runtime": 45752.7497,
	"train_samples_per_second": 5.671,
	"train_steps_per_second": 0.177
	}
	],
	"logging_steps": 50,
	"max_steps": 8108,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 533986133770240.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}