New training down with grandmaster moves used as training data

dbbfa1c verified 19 days ago

69.3 kB

	{
	"best_global_step": 72742,
	"best_metric": 0.4625195264816284,
	"best_model_checkpoint": "./chess_t5_model_hikaru/checkpoint-72742",
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 72742,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005498886475488713,
	"grad_norm": 1.238595962524414,
	"learning_rate": 1.9900000000000003e-05,
	"loss": 0.506280403137207,
	"step": 200
	},
	{
	"epoch": 0.010997772950977426,
	"grad_norm": 1.4552940130233765,
	"learning_rate": 3.99e-05,
	"loss": 0.49826000213623045,
	"step": 400
	},
	{
	"epoch": 0.01649665942646614,
	"grad_norm": 1.404646873474121,
	"learning_rate": 4.9954425345032365e-05,
	"loss": 0.49065006256103516,
	"step": 600
	},
	{
	"epoch": 0.021995545901954853,
	"grad_norm": 1.1736574172973633,
	"learning_rate": 4.9862355334996736e-05,
	"loss": 0.4841666030883789,
	"step": 800
	},
	{
	"epoch": 0.02749443237744357,
	"grad_norm": 0.9726278185844421,
	"learning_rate": 4.97702853249611e-05,
	"loss": 0.49401542663574216,
	"step": 1000
	},
	{
	"epoch": 0.03299331885293228,
	"grad_norm": 1.2402087450027466,
	"learning_rate": 4.967821531492547e-05,
	"loss": 0.49149925231933594,
	"step": 1200
	},
	{
	"epoch": 0.03849220532842099,
	"grad_norm": 1.2934446334838867,
	"learning_rate": 4.958614530488984e-05,
	"loss": 0.4847659683227539,
	"step": 1400
	},
	{
	"epoch": 0.043991091803909706,
	"grad_norm": 1.5672705173492432,
	"learning_rate": 4.949407529485421e-05,
	"loss": 0.4918820571899414,
	"step": 1600
	},
	{
	"epoch": 0.049489978279398425,
	"grad_norm": 1.2068564891815186,
	"learning_rate": 4.940200528481858e-05,
	"loss": 0.48373069763183596,
	"step": 1800
	},
	{
	"epoch": 0.05498886475488714,
	"grad_norm": 1.1447815895080566,
	"learning_rate": 4.9309935274782946e-05,
	"loss": 0.49397098541259765,
	"step": 2000
	},
	{
	"epoch": 0.06048775123037585,
	"grad_norm": 1.3082820177078247,
	"learning_rate": 4.9217865264747316e-05,
	"loss": 0.4879715728759766,
	"step": 2200
	},
	{
	"epoch": 0.06598663770586456,
	"grad_norm": 1.322120189666748,
	"learning_rate": 4.912579525471169e-05,
	"loss": 0.4860882568359375,
	"step": 2400
	},
	{
	"epoch": 0.07148552418135327,
	"grad_norm": 1.3626155853271484,
	"learning_rate": 4.903372524467605e-05,
	"loss": 0.49077301025390624,
	"step": 2600
	},
	{
	"epoch": 0.07698441065684199,
	"grad_norm": 1.0659453868865967,
	"learning_rate": 4.894165523464042e-05,
	"loss": 0.48927955627441405,
	"step": 2800
	},
	{
	"epoch": 0.0824832971323307,
	"grad_norm": 1.1972386837005615,
	"learning_rate": 4.884958522460479e-05,
	"loss": 0.4904148101806641,
	"step": 3000
	},
	{
	"epoch": 0.08798218360781941,
	"grad_norm": 1.3156094551086426,
	"learning_rate": 4.875751521456916e-05,
	"loss": 0.4949393081665039,
	"step": 3200
	},
	{
	"epoch": 0.09348107008330812,
	"grad_norm": 1.1924458742141724,
	"learning_rate": 4.8665445204533527e-05,
	"loss": 0.48969757080078125,
	"step": 3400
	},
	{
	"epoch": 0.09897995655879685,
	"grad_norm": 1.4736772775650024,
	"learning_rate": 4.85733751944979e-05,
	"loss": 0.4906147384643555,
	"step": 3600
	},
	{
	"epoch": 0.10447884303428556,
	"grad_norm": 1.2425668239593506,
	"learning_rate": 4.848130518446227e-05,
	"loss": 0.48961822509765623,
	"step": 3800
	},
	{
	"epoch": 0.10997772950977427,
	"grad_norm": 1.2657986879348755,
	"learning_rate": 4.838923517442663e-05,
	"loss": 0.4902804183959961,
	"step": 4000
	},
	{
	"epoch": 0.11547661598526299,
	"grad_norm": 1.2814760208129883,
	"learning_rate": 4.829716516439101e-05,
	"loss": 0.4866915130615234,
	"step": 4200
	},
	{
	"epoch": 0.1209755024607517,
	"grad_norm": 1.3233275413513184,
	"learning_rate": 4.820509515435537e-05,
	"loss": 0.4842318344116211,
	"step": 4400
	},
	{
	"epoch": 0.1264743889362404,
	"grad_norm": 1.0813190937042236,
	"learning_rate": 4.8113025144319744e-05,
	"loss": 0.4887635040283203,
	"step": 4600
	},
	{
	"epoch": 0.13197327541172912,
	"grad_norm": 1.4319493770599365,
	"learning_rate": 4.8020955134284114e-05,
	"loss": 0.48523338317871095,
	"step": 4800
	},
	{
	"epoch": 0.13747216188721784,
	"grad_norm": 1.1767573356628418,
	"learning_rate": 4.792888512424848e-05,
	"loss": 0.4876384735107422,
	"step": 5000
	},
	{
	"epoch": 0.14297104836270655,
	"grad_norm": 1.2524778842926025,
	"learning_rate": 4.783681511421285e-05,
	"loss": 0.48621952056884765,
	"step": 5200
	},
	{
	"epoch": 0.14846993483819526,
	"grad_norm": 1.7391471862792969,
	"learning_rate": 4.774474510417722e-05,
	"loss": 0.4950310516357422,
	"step": 5400
	},
	{
	"epoch": 0.15396882131368397,
	"grad_norm": 1.3185511827468872,
	"learning_rate": 4.765267509414158e-05,
	"loss": 0.4825564193725586,
	"step": 5600
	},
	{
	"epoch": 0.15946770778917269,
	"grad_norm": 1.023362636566162,
	"learning_rate": 4.756060508410596e-05,
	"loss": 0.4869500732421875,
	"step": 5800
	},
	{
	"epoch": 0.1649665942646614,
	"grad_norm": 1.4824140071868896,
	"learning_rate": 4.7468535074070324e-05,
	"loss": 0.49057952880859373,
	"step": 6000
	},
	{
	"epoch": 0.1704654807401501,
	"grad_norm": 1.1914821863174438,
	"learning_rate": 4.7376465064034695e-05,
	"loss": 0.49073287963867185,
	"step": 6200
	},
	{
	"epoch": 0.17596436721563882,
	"grad_norm": 1.0815869569778442,
	"learning_rate": 4.7284395053999066e-05,
	"loss": 0.49227970123291015,
	"step": 6400
	},
	{
	"epoch": 0.18146325369112754,
	"grad_norm": 1.644206166267395,
	"learning_rate": 4.719232504396343e-05,
	"loss": 0.48635608673095704,
	"step": 6600
	},
	{
	"epoch": 0.18696214016661625,
	"grad_norm": 1.1657360792160034,
	"learning_rate": 4.710025503392781e-05,
	"loss": 0.49577178955078127,
	"step": 6800
	},
	{
	"epoch": 0.192461026642105,
	"grad_norm": 1.3343608379364014,
	"learning_rate": 4.700818502389217e-05,
	"loss": 0.48896270751953125,
	"step": 7000
	},
	{
	"epoch": 0.1979599131175937,
	"grad_norm": 1.036275863647461,
	"learning_rate": 4.6916115013856535e-05,
	"loss": 0.4918210983276367,
	"step": 7200
	},
	{
	"epoch": 0.2034587995930824,
	"grad_norm": 1.1466560363769531,
	"learning_rate": 4.682404500382091e-05,
	"loss": 0.4845957946777344,
	"step": 7400
	},
	{
	"epoch": 0.20895768606857112,
	"grad_norm": 1.2194637060165405,
	"learning_rate": 4.6731974993785276e-05,
	"loss": 0.48361312866210937,
	"step": 7600
	},
	{
	"epoch": 0.21445657254405984,
	"grad_norm": 1.0549407005310059,
	"learning_rate": 4.663990498374965e-05,
	"loss": 0.4873248291015625,
	"step": 7800
	},
	{
	"epoch": 0.21995545901954855,
	"grad_norm": 1.5164191722869873,
	"learning_rate": 4.654783497371402e-05,
	"loss": 0.48396194458007813,
	"step": 8000
	},
	{
	"epoch": 0.22545434549503726,
	"grad_norm": 0.9566870927810669,
	"learning_rate": 4.645576496367838e-05,
	"loss": 0.49601322174072265,
	"step": 8200
	},
	{
	"epoch": 0.23095323197052597,
	"grad_norm": 1.268650770187378,
	"learning_rate": 4.636369495364275e-05,
	"loss": 0.4893684387207031,
	"step": 8400
	},
	{
	"epoch": 0.2364521184460147,
	"grad_norm": 1.626772165298462,
	"learning_rate": 4.627162494360712e-05,
	"loss": 0.4904355621337891,
	"step": 8600
	},
	{
	"epoch": 0.2419510049215034,
	"grad_norm": 1.2238197326660156,
	"learning_rate": 4.6179554933571486e-05,
	"loss": 0.484462890625,
	"step": 8800
	},
	{
	"epoch": 0.2474498913969921,
	"grad_norm": 1.4520012140274048,
	"learning_rate": 4.608748492353586e-05,
	"loss": 0.4788643264770508,
	"step": 9000
	},
	{
	"epoch": 0.2529487778724808,
	"grad_norm": 1.1315358877182007,
	"learning_rate": 4.599541491350023e-05,
	"loss": 0.48716392517089846,
	"step": 9200
	},
	{
	"epoch": 0.25844766434796956,
	"grad_norm": 1.0476795434951782,
	"learning_rate": 4.59033449034646e-05,
	"loss": 0.4895347213745117,
	"step": 9400
	},
	{
	"epoch": 0.26394655082345825,
	"grad_norm": 1.100468635559082,
	"learning_rate": 4.581127489342897e-05,
	"loss": 0.4899191665649414,
	"step": 9600
	},
	{
	"epoch": 0.269445437298947,
	"grad_norm": 1.1204516887664795,
	"learning_rate": 4.571920488339333e-05,
	"loss": 0.4837226486206055,
	"step": 9800
	},
	{
	"epoch": 0.2749443237744357,
	"grad_norm": 1.271126627922058,
	"learning_rate": 4.56271348733577e-05,
	"loss": 0.48351455688476563,
	"step": 10000
	},
	{
	"epoch": 0.2804432102499244,
	"grad_norm": 1.294801115989685,
	"learning_rate": 4.5535064863322074e-05,
	"loss": 0.4861069107055664,
	"step": 10200
	},
	{
	"epoch": 0.2859420967254131,
	"grad_norm": 0.9449974894523621,
	"learning_rate": 4.5442994853286444e-05,
	"loss": 0.4828087997436523,
	"step": 10400
	},
	{
	"epoch": 0.29144098320090184,
	"grad_norm": 1.017383337020874,
	"learning_rate": 4.535092484325081e-05,
	"loss": 0.4907358551025391,
	"step": 10600
	},
	{
	"epoch": 0.2969398696763905,
	"grad_norm": 1.4358981847763062,
	"learning_rate": 4.525885483321518e-05,
	"loss": 0.482423210144043,
	"step": 10800
	},
	{
	"epoch": 0.30243875615187926,
	"grad_norm": 1.3579864501953125,
	"learning_rate": 4.516678482317955e-05,
	"loss": 0.4872136688232422,
	"step": 11000
	},
	{
	"epoch": 0.30793764262736795,
	"grad_norm": 1.309594750404358,
	"learning_rate": 4.5074714813143913e-05,
	"loss": 0.48710639953613283,
	"step": 11200
	},
	{
	"epoch": 0.3134365291028567,
	"grad_norm": 1.4916502237319946,
	"learning_rate": 4.4982644803108284e-05,
	"loss": 0.4856998062133789,
	"step": 11400
	},
	{
	"epoch": 0.31893541557834537,
	"grad_norm": 1.1984270811080933,
	"learning_rate": 4.4890574793072655e-05,
	"loss": 0.48433101654052735,
	"step": 11600
	},
	{
	"epoch": 0.3244343020538341,
	"grad_norm": 1.376825213432312,
	"learning_rate": 4.479850478303702e-05,
	"loss": 0.4843286514282227,
	"step": 11800
	},
	{
	"epoch": 0.3299331885293228,
	"grad_norm": 1.04801607131958,
	"learning_rate": 4.4706434773001396e-05,
	"loss": 0.4760005187988281,
	"step": 12000
	},
	{
	"epoch": 0.33543207500481154,
	"grad_norm": 1.277635097503662,
	"learning_rate": 4.461436476296576e-05,
	"loss": 0.4829146194458008,
	"step": 12200
	},
	{
	"epoch": 0.3409309614803002,
	"grad_norm": 1.08747398853302,
	"learning_rate": 4.452229475293013e-05,
	"loss": 0.49240009307861327,
	"step": 12400
	},
	{
	"epoch": 0.34642984795578896,
	"grad_norm": 1.1133017539978027,
	"learning_rate": 4.44302247428945e-05,
	"loss": 0.4923815536499023,
	"step": 12600
	},
	{
	"epoch": 0.35192873443127765,
	"grad_norm": 1.5661677122116089,
	"learning_rate": 4.4338154732858865e-05,
	"loss": 0.4879690933227539,
	"step": 12800
	},
	{
	"epoch": 0.3574276209067664,
	"grad_norm": 1.4570703506469727,
	"learning_rate": 4.4246084722823236e-05,
	"loss": 0.4856468963623047,
	"step": 13000
	},
	{
	"epoch": 0.36292650738225507,
	"grad_norm": 1.4638596773147583,
	"learning_rate": 4.4154014712787606e-05,
	"loss": 0.48412940979003904,
	"step": 13200
	},
	{
	"epoch": 0.3684253938577438,
	"grad_norm": 1.2463369369506836,
	"learning_rate": 4.406194470275197e-05,
	"loss": 0.4839859771728516,
	"step": 13400
	},
	{
	"epoch": 0.3739242803332325,
	"grad_norm": 1.0832504034042358,
	"learning_rate": 4.396987469271635e-05,
	"loss": 0.49135875701904297,
	"step": 13600
	},
	{
	"epoch": 0.37942316680872124,
	"grad_norm": 1.1107310056686401,
	"learning_rate": 4.387780468268071e-05,
	"loss": 0.47643829345703126,
	"step": 13800
	},
	{
	"epoch": 0.38492205328421,
	"grad_norm": 1.1073737144470215,
	"learning_rate": 4.378573467264508e-05,
	"loss": 0.4878357315063477,
	"step": 14000
	},
	{
	"epoch": 0.39042093975969866,
	"grad_norm": 1.4523825645446777,
	"learning_rate": 4.369366466260945e-05,
	"loss": 0.4929097747802734,
	"step": 14200
	},
	{
	"epoch": 0.3959198262351874,
	"grad_norm": 1.1978082656860352,
	"learning_rate": 4.3601594652573816e-05,
	"loss": 0.47999427795410154,
	"step": 14400
	},
	{
	"epoch": 0.4014187127106761,
	"grad_norm": 1.080812692642212,
	"learning_rate": 4.3509524642538194e-05,
	"loss": 0.4825727081298828,
	"step": 14600
	},
	{
	"epoch": 0.4069175991861648,
	"grad_norm": 1.053101897239685,
	"learning_rate": 4.341745463250256e-05,
	"loss": 0.4855875778198242,
	"step": 14800
	},
	{
	"epoch": 0.4124164856616535,
	"grad_norm": 1.5434905290603638,
	"learning_rate": 4.332538462246692e-05,
	"loss": 0.48418006896972654,
	"step": 15000
	},
	{
	"epoch": 0.41791537213714225,
	"grad_norm": 1.3098441362380981,
	"learning_rate": 4.32333146124313e-05,
	"loss": 0.47957420349121094,
	"step": 15200
	},
	{
	"epoch": 0.42341425861263093,
	"grad_norm": 1.1274868249893188,
	"learning_rate": 4.314124460239566e-05,
	"loss": 0.48411872863769534,
	"step": 15400
	},
	{
	"epoch": 0.4289131450881197,
	"grad_norm": 1.1913822889328003,
	"learning_rate": 4.3049174592360033e-05,
	"loss": 0.48610164642333986,
	"step": 15600
	},
	{
	"epoch": 0.43441203156360836,
	"grad_norm": 1.1664844751358032,
	"learning_rate": 4.2957104582324404e-05,
	"loss": 0.48251495361328123,
	"step": 15800
	},
	{
	"epoch": 0.4399109180390971,
	"grad_norm": 0.9833515882492065,
	"learning_rate": 4.286503457228877e-05,
	"loss": 0.48185344696044924,
	"step": 16000
	},
	{
	"epoch": 0.4454098045145858,
	"grad_norm": 1.3691802024841309,
	"learning_rate": 4.277296456225314e-05,
	"loss": 0.47827003479003904,
	"step": 16200
	},
	{
	"epoch": 0.4509086909900745,
	"grad_norm": 1.4538307189941406,
	"learning_rate": 4.268089455221751e-05,
	"loss": 0.48655067443847655,
	"step": 16400
	},
	{
	"epoch": 0.4564075774655632,
	"grad_norm": 1.6174641847610474,
	"learning_rate": 4.258882454218188e-05,
	"loss": 0.4811368179321289,
	"step": 16600
	},
	{
	"epoch": 0.46190646394105195,
	"grad_norm": 1.379770278930664,
	"learning_rate": 4.2496754532146244e-05,
	"loss": 0.4825275421142578,
	"step": 16800
	},
	{
	"epoch": 0.46740535041654063,
	"grad_norm": 1.1480027437210083,
	"learning_rate": 4.2404684522110614e-05,
	"loss": 0.4793708801269531,
	"step": 17000
	},
	{
	"epoch": 0.4729042368920294,
	"grad_norm": 1.2923580408096313,
	"learning_rate": 4.2312614512074985e-05,
	"loss": 0.48294658660888673,
	"step": 17200
	},
	{
	"epoch": 0.47840312336751806,
	"grad_norm": 1.1704210042953491,
	"learning_rate": 4.2220544502039356e-05,
	"loss": 0.48764766693115236,
	"step": 17400
	},
	{
	"epoch": 0.4839020098430068,
	"grad_norm": 0.9645224213600159,
	"learning_rate": 4.212847449200372e-05,
	"loss": 0.48104751586914063,
	"step": 17600
	},
	{
	"epoch": 0.4894008963184955,
	"grad_norm": 1.0854864120483398,
	"learning_rate": 4.203640448196809e-05,
	"loss": 0.48372928619384764,
	"step": 17800
	},
	{
	"epoch": 0.4948997827939842,
	"grad_norm": 1.058073878288269,
	"learning_rate": 4.194433447193246e-05,
	"loss": 0.481105842590332,
	"step": 18000
	},
	{
	"epoch": 0.500398669269473,
	"grad_norm": 1.1038442850112915,
	"learning_rate": 4.185226446189683e-05,
	"loss": 0.48221038818359374,
	"step": 18200
	},
	{
	"epoch": 0.5058975557449616,
	"grad_norm": 1.1211503744125366,
	"learning_rate": 4.1760194451861195e-05,
	"loss": 0.48461868286132814,
	"step": 18400
	},
	{
	"epoch": 0.5113964422204503,
	"grad_norm": 1.1851303577423096,
	"learning_rate": 4.1668124441825566e-05,
	"loss": 0.48900299072265624,
	"step": 18600
	},
	{
	"epoch": 0.5168953286959391,
	"grad_norm": 1.1773110628128052,
	"learning_rate": 4.1576054431789936e-05,
	"loss": 0.4895766067504883,
	"step": 18800
	},
	{
	"epoch": 0.5223942151714278,
	"grad_norm": 1.0236694812774658,
	"learning_rate": 4.14839844217543e-05,
	"loss": 0.47842552185058596,
	"step": 19000
	},
	{
	"epoch": 0.5278931016469165,
	"grad_norm": 1.2550437450408936,
	"learning_rate": 4.139191441171867e-05,
	"loss": 0.4883332061767578,
	"step": 19200
	},
	{
	"epoch": 0.5333919881224052,
	"grad_norm": 1.6811326742172241,
	"learning_rate": 4.129984440168304e-05,
	"loss": 0.48251426696777344,
	"step": 19400
	},
	{
	"epoch": 0.538890874597894,
	"grad_norm": 1.1312133073806763,
	"learning_rate": 4.1207774391647405e-05,
	"loss": 0.4811555480957031,
	"step": 19600
	},
	{
	"epoch": 0.5443897610733827,
	"grad_norm": 1.106419563293457,
	"learning_rate": 4.111570438161178e-05,
	"loss": 0.4829677963256836,
	"step": 19800
	},
	{
	"epoch": 0.5498886475488713,
	"grad_norm": 1.2335270643234253,
	"learning_rate": 4.102363437157615e-05,
	"loss": 0.48413619995117185,
	"step": 20000
	},
	{
	"epoch": 0.55538753402436,
	"grad_norm": 1.195844054222107,
	"learning_rate": 4.093156436154052e-05,
	"loss": 0.4821126937866211,
	"step": 20200
	},
	{
	"epoch": 0.5608864204998488,
	"grad_norm": 1.0814074277877808,
	"learning_rate": 4.083949435150489e-05,
	"loss": 0.4847369003295898,
	"step": 20400
	},
	{
	"epoch": 0.5663853069753375,
	"grad_norm": 1.4510689973831177,
	"learning_rate": 4.074742434146925e-05,
	"loss": 0.4875687789916992,
	"step": 20600
	},
	{
	"epoch": 0.5718841934508262,
	"grad_norm": 1.0444058179855347,
	"learning_rate": 4.065535433143363e-05,
	"loss": 0.4803382110595703,
	"step": 20800
	},
	{
	"epoch": 0.5773830799263149,
	"grad_norm": 1.1824759244918823,
	"learning_rate": 4.056328432139799e-05,
	"loss": 0.48757186889648435,
	"step": 21000
	},
	{
	"epoch": 0.5828819664018037,
	"grad_norm": 1.1672804355621338,
	"learning_rate": 4.047121431136236e-05,
	"loss": 0.47619979858398437,
	"step": 21200
	},
	{
	"epoch": 0.5883808528772924,
	"grad_norm": 1.3952018022537231,
	"learning_rate": 4.0379144301326734e-05,
	"loss": 0.4820771026611328,
	"step": 21400
	},
	{
	"epoch": 0.593879739352781,
	"grad_norm": 1.5481926202774048,
	"learning_rate": 4.02870742912911e-05,
	"loss": 0.4789703369140625,
	"step": 21600
	},
	{
	"epoch": 0.5993786258282697,
	"grad_norm": 1.1940809488296509,
	"learning_rate": 4.019500428125547e-05,
	"loss": 0.4823886871337891,
	"step": 21800
	},
	{
	"epoch": 0.6048775123037585,
	"grad_norm": 1.470038890838623,
	"learning_rate": 4.010293427121984e-05,
	"loss": 0.47876800537109376,
	"step": 22000
	},
	{
	"epoch": 0.6103763987792472,
	"grad_norm": 1.372512698173523,
	"learning_rate": 4.00108642611842e-05,
	"loss": 0.48137435913085935,
	"step": 22200
	},
	{
	"epoch": 0.6158752852547359,
	"grad_norm": 0.9625583291053772,
	"learning_rate": 3.991879425114858e-05,
	"loss": 0.4751309967041016,
	"step": 22400
	},
	{
	"epoch": 0.6213741717302246,
	"grad_norm": 1.0047613382339478,
	"learning_rate": 3.9826724241112945e-05,
	"loss": 0.4809339141845703,
	"step": 22600
	},
	{
	"epoch": 0.6268730582057134,
	"grad_norm": 1.8941971063613892,
	"learning_rate": 3.973465423107731e-05,
	"loss": 0.47376441955566406,
	"step": 22800
	},
	{
	"epoch": 0.6323719446812021,
	"grad_norm": 1.0294033288955688,
	"learning_rate": 3.9642584221041686e-05,
	"loss": 0.4846999740600586,
	"step": 23000
	},
	{
	"epoch": 0.6378708311566907,
	"grad_norm": 1.1899781227111816,
	"learning_rate": 3.955051421100605e-05,
	"loss": 0.4818299865722656,
	"step": 23200
	},
	{
	"epoch": 0.6433697176321795,
	"grad_norm": 1.5099271535873413,
	"learning_rate": 3.945844420097042e-05,
	"loss": 0.4828767776489258,
	"step": 23400
	},
	{
	"epoch": 0.6488686041076682,
	"grad_norm": 1.3377799987792969,
	"learning_rate": 3.936637419093479e-05,
	"loss": 0.47890872955322267,
	"step": 23600
	},
	{
	"epoch": 0.6543674905831569,
	"grad_norm": 1.6240547895431519,
	"learning_rate": 3.9274304180899155e-05,
	"loss": 0.4793845748901367,
	"step": 23800
	},
	{
	"epoch": 0.6598663770586456,
	"grad_norm": 1.32374107837677,
	"learning_rate": 3.9182234170863525e-05,
	"loss": 0.48126724243164065,
	"step": 24000
	},
	{
	"epoch": 0.6653652635341344,
	"grad_norm": 1.1302155256271362,
	"learning_rate": 3.9090164160827896e-05,
	"loss": 0.4794307708740234,
	"step": 24200
	},
	{
	"epoch": 0.6708641500096231,
	"grad_norm": 1.2106575965881348,
	"learning_rate": 3.899809415079227e-05,
	"loss": 0.4764822769165039,
	"step": 24400
	},
	{
	"epoch": 0.6763630364851118,
	"grad_norm": 1.1682376861572266,
	"learning_rate": 3.890602414075663e-05,
	"loss": 0.48130035400390625,
	"step": 24600
	},
	{
	"epoch": 0.6818619229606004,
	"grad_norm": 1.7385523319244385,
	"learning_rate": 3.8813954130721e-05,
	"loss": 0.48233951568603517,
	"step": 24800
	},
	{
	"epoch": 0.6873608094360892,
	"grad_norm": 0.9956115484237671,
	"learning_rate": 3.872188412068537e-05,
	"loss": 0.47769607543945314,
	"step": 25000
	},
	{
	"epoch": 0.6928596959115779,
	"grad_norm": 0.9261813759803772,
	"learning_rate": 3.862981411064974e-05,
	"loss": 0.4826504898071289,
	"step": 25200
	},
	{
	"epoch": 0.6983585823870666,
	"grad_norm": 1.0754562616348267,
	"learning_rate": 3.8537744100614106e-05,
	"loss": 0.48267059326171874,
	"step": 25400
	},
	{
	"epoch": 0.7038574688625553,
	"grad_norm": 1.2435545921325684,
	"learning_rate": 3.844567409057848e-05,
	"loss": 0.48062828063964846,
	"step": 25600
	},
	{
	"epoch": 0.7093563553380441,
	"grad_norm": 1.1161478757858276,
	"learning_rate": 3.835360408054285e-05,
	"loss": 0.476544189453125,
	"step": 25800
	},
	{
	"epoch": 0.7148552418135328,
	"grad_norm": 1.144326090812683,
	"learning_rate": 3.826153407050722e-05,
	"loss": 0.4830437469482422,
	"step": 26000
	},
	{
	"epoch": 0.7203541282890215,
	"grad_norm": 1.2163105010986328,
	"learning_rate": 3.816946406047158e-05,
	"loss": 0.48178863525390625,
	"step": 26200
	},
	{
	"epoch": 0.7258530147645101,
	"grad_norm": 1.3089566230773926,
	"learning_rate": 3.807739405043595e-05,
	"loss": 0.4754468536376953,
	"step": 26400
	},
	{
	"epoch": 0.7313519012399989,
	"grad_norm": 1.2991975545883179,
	"learning_rate": 3.798532404040032e-05,
	"loss": 0.4895411682128906,
	"step": 26600
	},
	{
	"epoch": 0.7368507877154876,
	"grad_norm": 1.6097289323806763,
	"learning_rate": 3.789325403036469e-05,
	"loss": 0.47313800811767576,
	"step": 26800
	},
	{
	"epoch": 0.7423496741909763,
	"grad_norm": 1.4237576723098755,
	"learning_rate": 3.7801184020329065e-05,
	"loss": 0.47288108825683595,
	"step": 27000
	},
	{
	"epoch": 0.747848560666465,
	"grad_norm": 1.7340173721313477,
	"learning_rate": 3.770911401029343e-05,
	"loss": 0.4713779067993164,
	"step": 27200
	},
	{
	"epoch": 0.7533474471419538,
	"grad_norm": 1.3480178117752075,
	"learning_rate": 3.761704400025779e-05,
	"loss": 0.4823367309570312,
	"step": 27400
	},
	{
	"epoch": 0.7588463336174425,
	"grad_norm": 0.945102870464325,
	"learning_rate": 3.752497399022217e-05,
	"loss": 0.485689697265625,
	"step": 27600
	},
	{
	"epoch": 0.7643452200929312,
	"grad_norm": 1.5504003763198853,
	"learning_rate": 3.7432903980186534e-05,
	"loss": 0.4697317886352539,
	"step": 27800
	},
	{
	"epoch": 0.76984410656842,
	"grad_norm": 1.4954441785812378,
	"learning_rate": 3.7340833970150904e-05,
	"loss": 0.4746841049194336,
	"step": 28000
	},
	{
	"epoch": 0.7753429930439086,
	"grad_norm": 1.660771131515503,
	"learning_rate": 3.7248763960115275e-05,
	"loss": 0.48746414184570314,
	"step": 28200
	},
	{
	"epoch": 0.7808418795193973,
	"grad_norm": 1.216834306716919,
	"learning_rate": 3.715669395007964e-05,
	"loss": 0.4784600067138672,
	"step": 28400
	},
	{
	"epoch": 0.786340765994886,
	"grad_norm": 1.3025329113006592,
	"learning_rate": 3.7064623940044016e-05,
	"loss": 0.48134098052978513,
	"step": 28600
	},
	{
	"epoch": 0.7918396524703748,
	"grad_norm": 0.8612267374992371,
	"learning_rate": 3.697255393000838e-05,
	"loss": 0.48288066864013673,
	"step": 28800
	},
	{
	"epoch": 0.7973385389458635,
	"grad_norm": 1.5112066268920898,
	"learning_rate": 3.6880483919972744e-05,
	"loss": 0.48638771057128904,
	"step": 29000
	},
	{
	"epoch": 0.8028374254213522,
	"grad_norm": 1.2981903553009033,
	"learning_rate": 3.678841390993712e-05,
	"loss": 0.4764302444458008,
	"step": 29200
	},
	{
	"epoch": 0.8083363118968409,
	"grad_norm": 1.2499499320983887,
	"learning_rate": 3.6696343899901485e-05,
	"loss": 0.47807662963867187,
	"step": 29400
	},
	{
	"epoch": 0.8138351983723296,
	"grad_norm": 1.4974340200424194,
	"learning_rate": 3.6604273889865856e-05,
	"loss": 0.48103851318359375,
	"step": 29600
	},
	{
	"epoch": 0.8193340848478183,
	"grad_norm": 1.6043846607208252,
	"learning_rate": 3.6512203879830226e-05,
	"loss": 0.4745806121826172,
	"step": 29800
	},
	{
	"epoch": 0.824832971323307,
	"grad_norm": 1.0718004703521729,
	"learning_rate": 3.642013386979459e-05,
	"loss": 0.4758340835571289,
	"step": 30000
	},
	{
	"epoch": 0.8303318577987957,
	"grad_norm": 1.31827712059021,
	"learning_rate": 3.632806385975897e-05,
	"loss": 0.48326473236083983,
	"step": 30200
	},
	{
	"epoch": 0.8358307442742845,
	"grad_norm": 1.214794635772705,
	"learning_rate": 3.623599384972333e-05,
	"loss": 0.4670214080810547,
	"step": 30400
	},
	{
	"epoch": 0.8413296307497732,
	"grad_norm": 1.3490458726882935,
	"learning_rate": 3.61439238396877e-05,
	"loss": 0.4771783065795898,
	"step": 30600
	},
	{
	"epoch": 0.8468285172252619,
	"grad_norm": 1.7430227994918823,
	"learning_rate": 3.605185382965207e-05,
	"loss": 0.47809303283691407,
	"step": 30800
	},
	{
	"epoch": 0.8523274037007506,
	"grad_norm": 1.04710054397583,
	"learning_rate": 3.5959783819616437e-05,
	"loss": 0.47361648559570313,
	"step": 31000
	},
	{
	"epoch": 0.8578262901762393,
	"grad_norm": 1.239403247833252,
	"learning_rate": 3.586771380958081e-05,
	"loss": 0.47289577484130857,
	"step": 31200
	},
	{
	"epoch": 0.863325176651728,
	"grad_norm": 1.0348613262176514,
	"learning_rate": 3.577564379954518e-05,
	"loss": 0.4844191360473633,
	"step": 31400
	},
	{
	"epoch": 0.8688240631272167,
	"grad_norm": 1.2087358236312866,
	"learning_rate": 3.568357378950954e-05,
	"loss": 0.4849067687988281,
	"step": 31600
	},
	{
	"epoch": 0.8743229496027054,
	"grad_norm": 1.498613715171814,
	"learning_rate": 3.559150377947391e-05,
	"loss": 0.4736307907104492,
	"step": 31800
	},
	{
	"epoch": 0.8798218360781942,
	"grad_norm": 1.2673721313476562,
	"learning_rate": 3.549943376943828e-05,
	"loss": 0.4751145553588867,
	"step": 32000
	},
	{
	"epoch": 0.8853207225536829,
	"grad_norm": 1.078145980834961,
	"learning_rate": 3.5407363759402654e-05,
	"loss": 0.48442405700683594,
	"step": 32200
	},
	{
	"epoch": 0.8908196090291716,
	"grad_norm": 1.8665213584899902,
	"learning_rate": 3.531529374936702e-05,
	"loss": 0.47800296783447266,
	"step": 32400
	},
	{
	"epoch": 0.8963184955046603,
	"grad_norm": 1.093640685081482,
	"learning_rate": 3.522322373933139e-05,
	"loss": 0.4768505859375,
	"step": 32600
	},
	{
	"epoch": 0.901817381980149,
	"grad_norm": 1.438798189163208,
	"learning_rate": 3.513115372929576e-05,
	"loss": 0.4752470016479492,
	"step": 32800
	},
	{
	"epoch": 0.9073162684556377,
	"grad_norm": 1.156036376953125,
	"learning_rate": 3.503908371926013e-05,
	"loss": 0.47669639587402346,
	"step": 33000
	},
	{
	"epoch": 0.9128151549311264,
	"grad_norm": 1.223441481590271,
	"learning_rate": 3.494701370922449e-05,
	"loss": 0.4820696258544922,
	"step": 33200
	},
	{
	"epoch": 0.9183140414066152,
	"grad_norm": 1.161592721939087,
	"learning_rate": 3.4854943699188864e-05,
	"loss": 0.46704940795898436,
	"step": 33400
	},
	{
	"epoch": 0.9238129278821039,
	"grad_norm": 1.217645287513733,
	"learning_rate": 3.4762873689153234e-05,
	"loss": 0.4787548065185547,
	"step": 33600
	},
	{
	"epoch": 0.9293118143575926,
	"grad_norm": 1.2599478960037231,
	"learning_rate": 3.4670803679117605e-05,
	"loss": 0.47969642639160154,
	"step": 33800
	},
	{
	"epoch": 0.9348107008330813,
	"grad_norm": 1.1119675636291504,
	"learning_rate": 3.457873366908197e-05,
	"loss": 0.48166824340820313,
	"step": 34000
	},
	{
	"epoch": 0.9403095873085701,
	"grad_norm": 1.4451464414596558,
	"learning_rate": 3.448666365904634e-05,
	"loss": 0.4774625015258789,
	"step": 34200
	},
	{
	"epoch": 0.9458084737840587,
	"grad_norm": 1.121450662612915,
	"learning_rate": 3.439459364901071e-05,
	"loss": 0.4775946426391602,
	"step": 34400
	},
	{
	"epoch": 0.9513073602595474,
	"grad_norm": 1.7251038551330566,
	"learning_rate": 3.4302523638975074e-05,
	"loss": 0.46810245513916016,
	"step": 34600
	},
	{
	"epoch": 0.9568062467350361,
	"grad_norm": 1.1376259326934814,
	"learning_rate": 3.421045362893945e-05,
	"loss": 0.4734595108032227,
	"step": 34800
	},
	{
	"epoch": 0.9623051332105249,
	"grad_norm": 1.3909783363342285,
	"learning_rate": 3.4118383618903815e-05,
	"loss": 0.4745623016357422,
	"step": 35000
	},
	{
	"epoch": 0.9678040196860136,
	"grad_norm": 1.4496464729309082,
	"learning_rate": 3.4026313608868186e-05,
	"loss": 0.4793576431274414,
	"step": 35200
	},
	{
	"epoch": 0.9733029061615023,
	"grad_norm": 1.188259482383728,
	"learning_rate": 3.3934243598832557e-05,
	"loss": 0.48435794830322265,
	"step": 35400
	},
	{
	"epoch": 0.978801792636991,
	"grad_norm": 0.972775936126709,
	"learning_rate": 3.384217358879692e-05,
	"loss": 0.48073070526123046,
	"step": 35600
	},
	{
	"epoch": 0.9843006791124798,
	"grad_norm": 1.3712236881256104,
	"learning_rate": 3.375010357876129e-05,
	"loss": 0.47246246337890624,
	"step": 35800
	},
	{
	"epoch": 0.9897995655879684,
	"grad_norm": 1.0553455352783203,
	"learning_rate": 3.365803356872566e-05,
	"loss": 0.4749702835083008,
	"step": 36000
	},
	{
	"epoch": 0.9952984520634571,
	"grad_norm": 2.0960538387298584,
	"learning_rate": 3.3565963558690026e-05,
	"loss": 0.48137100219726564,
	"step": 36200
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.46924570202827454,
	"eval_runtime": 158.4469,
	"eval_samples_per_second": 408.08,
	"eval_steps_per_second": 25.51,
	"step": 36371
	},
	{
	"epoch": 1.000797338538946,
	"grad_norm": 1.0945351123809814,
	"learning_rate": 3.34738935486544e-05,
	"loss": 0.47277111053466797,
	"step": 36400
	},
	{
	"epoch": 1.0062962250144345,
	"grad_norm": 1.1377208232879639,
	"learning_rate": 3.338182353861877e-05,
	"loss": 0.4704814147949219,
	"step": 36600
	},
	{
	"epoch": 1.0117951114899233,
	"grad_norm": 1.2042992115020752,
	"learning_rate": 3.328975352858314e-05,
	"loss": 0.4778765869140625,
	"step": 36800
	},
	{
	"epoch": 1.017293997965412,
	"grad_norm": 1.2293647527694702,
	"learning_rate": 3.319768351854751e-05,
	"loss": 0.4779492950439453,
	"step": 37000
	},
	{
	"epoch": 1.0227928844409007,
	"grad_norm": 1.0912444591522217,
	"learning_rate": 3.310561350851187e-05,
	"loss": 0.47877525329589843,
	"step": 37200
	},
	{
	"epoch": 1.0282917709163895,
	"grad_norm": 1.2448941469192505,
	"learning_rate": 3.301354349847624e-05,
	"loss": 0.4758515930175781,
	"step": 37400
	},
	{
	"epoch": 1.033790657391878,
	"grad_norm": 1.127113699913025,
	"learning_rate": 3.292147348844061e-05,
	"loss": 0.47277240753173827,
	"step": 37600
	},
	{
	"epoch": 1.0392895438673668,
	"grad_norm": 1.184788703918457,
	"learning_rate": 3.282940347840498e-05,
	"loss": 0.48051612854003906,
	"step": 37800
	},
	{
	"epoch": 1.0447884303428556,
	"grad_norm": 1.3059478998184204,
	"learning_rate": 3.2737333468369354e-05,
	"loss": 0.4780512237548828,
	"step": 38000
	},
	{
	"epoch": 1.0502873168183442,
	"grad_norm": 1.035843014717102,
	"learning_rate": 3.264526345833372e-05,
	"loss": 0.4778805160522461,
	"step": 38200
	},
	{
	"epoch": 1.055786203293833,
	"grad_norm": 1.142691731452942,
	"learning_rate": 3.255319344829809e-05,
	"loss": 0.4747405242919922,
	"step": 38400
	},
	{
	"epoch": 1.0612850897693218,
	"grad_norm": 1.2115979194641113,
	"learning_rate": 3.246112343826246e-05,
	"loss": 0.4684751510620117,
	"step": 38600
	},
	{
	"epoch": 1.0667839762448104,
	"grad_norm": 1.0604227781295776,
	"learning_rate": 3.2369053428226823e-05,
	"loss": 0.4836904525756836,
	"step": 38800
	},
	{
	"epoch": 1.0722828627202992,
	"grad_norm": 1.2616559267044067,
	"learning_rate": 3.2276983418191194e-05,
	"loss": 0.47024051666259764,
	"step": 39000
	},
	{
	"epoch": 1.077781749195788,
	"grad_norm": 1.1861746311187744,
	"learning_rate": 3.2184913408155565e-05,
	"loss": 0.47626224517822263,
	"step": 39200
	},
	{
	"epoch": 1.0832806356712765,
	"grad_norm": 1.0768451690673828,
	"learning_rate": 3.209284339811993e-05,
	"loss": 0.4712419128417969,
	"step": 39400
	},
	{
	"epoch": 1.0887795221467653,
	"grad_norm": 1.1116639375686646,
	"learning_rate": 3.20007733880843e-05,
	"loss": 0.47870445251464844,
	"step": 39600
	},
	{
	"epoch": 1.094278408622254,
	"grad_norm": 0.9229024648666382,
	"learning_rate": 3.190870337804867e-05,
	"loss": 0.47164249420166016,
	"step": 39800
	},
	{
	"epoch": 1.0997772950977427,
	"grad_norm": 1.2584002017974854,
	"learning_rate": 3.181663336801304e-05,
	"loss": 0.46996349334716797,
	"step": 40000
	},
	{
	"epoch": 1.1052761815732315,
	"grad_norm": 1.1987744569778442,
	"learning_rate": 3.1724563357977404e-05,
	"loss": 0.47581478118896486,
	"step": 40200
	},
	{
	"epoch": 1.11077506804872,
	"grad_norm": 1.897595763206482,
	"learning_rate": 3.1632493347941775e-05,
	"loss": 0.47223583221435544,
	"step": 40400
	},
	{
	"epoch": 1.1162739545242089,
	"grad_norm": 1.384735345840454,
	"learning_rate": 3.1540423337906146e-05,
	"loss": 0.4742586898803711,
	"step": 40600
	},
	{
	"epoch": 1.1217728409996977,
	"grad_norm": 1.2924162149429321,
	"learning_rate": 3.1448353327870516e-05,
	"loss": 0.4763710403442383,
	"step": 40800
	},
	{
	"epoch": 1.1272717274751862,
	"grad_norm": 1.2529865503311157,
	"learning_rate": 3.135628331783489e-05,
	"loss": 0.4804756546020508,
	"step": 41000
	},
	{
	"epoch": 1.132770613950675,
	"grad_norm": 1.0378504991531372,
	"learning_rate": 3.126421330779925e-05,
	"loss": 0.4701519775390625,
	"step": 41200
	},
	{
	"epoch": 1.1382695004261638,
	"grad_norm": 1.3165602684020996,
	"learning_rate": 3.117214329776362e-05,
	"loss": 0.4799094009399414,
	"step": 41400
	},
	{
	"epoch": 1.1437683869016524,
	"grad_norm": 1.3106869459152222,
	"learning_rate": 3.108007328772799e-05,
	"loss": 0.4807415771484375,
	"step": 41600
	},
	{
	"epoch": 1.1492672733771412,
	"grad_norm": 1.870168685913086,
	"learning_rate": 3.0988003277692356e-05,
	"loss": 0.4763855743408203,
	"step": 41800
	},
	{
	"epoch": 1.1547661598526298,
	"grad_norm": 1.2770658731460571,
	"learning_rate": 3.0895933267656726e-05,
	"loss": 0.47005424499511717,
	"step": 42000
	},
	{
	"epoch": 1.1602650463281186,
	"grad_norm": 1.2080628871917725,
	"learning_rate": 3.08038632576211e-05,
	"loss": 0.4715093231201172,
	"step": 42200
	},
	{
	"epoch": 1.1657639328036074,
	"grad_norm": 1.8036431074142456,
	"learning_rate": 3.071179324758546e-05,
	"loss": 0.4677348327636719,
	"step": 42400
	},
	{
	"epoch": 1.171262819279096,
	"grad_norm": 1.0280815362930298,
	"learning_rate": 3.061972323754984e-05,
	"loss": 0.4739281463623047,
	"step": 42600
	},
	{
	"epoch": 1.1767617057545847,
	"grad_norm": 0.9961258769035339,
	"learning_rate": 3.05276532275142e-05,
	"loss": 0.4825423049926758,
	"step": 42800
	},
	{
	"epoch": 1.1822605922300733,
	"grad_norm": 1.0836036205291748,
	"learning_rate": 3.0435583217478576e-05,
	"loss": 0.47616680145263673,
	"step": 43000
	},
	{
	"epoch": 1.187759478705562,
	"grad_norm": 0.9266841411590576,
	"learning_rate": 3.0343513207442943e-05,
	"loss": 0.47153358459472655,
	"step": 43200
	},
	{
	"epoch": 1.1932583651810509,
	"grad_norm": 1.0143980979919434,
	"learning_rate": 3.0251443197407307e-05,
	"loss": 0.4762028503417969,
	"step": 43400
	},
	{
	"epoch": 1.1987572516565395,
	"grad_norm": 1.160222053527832,
	"learning_rate": 3.015937318737168e-05,
	"loss": 0.4718109893798828,
	"step": 43600
	},
	{
	"epoch": 1.2042561381320283,
	"grad_norm": 1.1540669202804565,
	"learning_rate": 3.006730317733605e-05,
	"loss": 0.47153167724609374,
	"step": 43800
	},
	{
	"epoch": 1.209755024607517,
	"grad_norm": 1.3754700422286987,
	"learning_rate": 2.9975233167300416e-05,
	"loss": 0.4751555252075195,
	"step": 44000
	},
	{
	"epoch": 1.2152539110830056,
	"grad_norm": 1.095689296722412,
	"learning_rate": 2.9883163157264786e-05,
	"loss": 0.47820320129394533,
	"step": 44200
	},
	{
	"epoch": 1.2207527975584944,
	"grad_norm": 1.2152804136276245,
	"learning_rate": 2.9791093147229154e-05,
	"loss": 0.4785987091064453,
	"step": 44400
	},
	{
	"epoch": 1.2262516840339832,
	"grad_norm": 1.3621678352355957,
	"learning_rate": 2.969902313719352e-05,
	"loss": 0.4778928375244141,
	"step": 44600
	},
	{
	"epoch": 1.2317505705094718,
	"grad_norm": 1.3576879501342773,
	"learning_rate": 2.9606953127157895e-05,
	"loss": 0.46979766845703125,
	"step": 44800
	},
	{
	"epoch": 1.2372494569849606,
	"grad_norm": 1.4446898698806763,
	"learning_rate": 2.9514883117122262e-05,
	"loss": 0.47956855773925783,
	"step": 45000
	},
	{
	"epoch": 1.2427483434604492,
	"grad_norm": 1.1428676843643188,
	"learning_rate": 2.9422813107086626e-05,
	"loss": 0.46750675201416014,
	"step": 45200
	},
	{
	"epoch": 1.248247229935938,
	"grad_norm": 1.1125656366348267,
	"learning_rate": 2.9330743097051e-05,
	"loss": 0.4821536254882812,
	"step": 45400
	},
	{
	"epoch": 1.2537461164114267,
	"grad_norm": 0.9081394672393799,
	"learning_rate": 2.9238673087015367e-05,
	"loss": 0.48335330963134765,
	"step": 45600
	},
	{
	"epoch": 1.2592450028869153,
	"grad_norm": 1.3965390920639038,
	"learning_rate": 2.9146603076979738e-05,
	"loss": 0.48991138458251954,
	"step": 45800
	},
	{
	"epoch": 1.2647438893624041,
	"grad_norm": 0.9960418939590454,
	"learning_rate": 2.9054533066944105e-05,
	"loss": 0.48175228118896485,
	"step": 46000
	},
	{
	"epoch": 1.2702427758378927,
	"grad_norm": 0.8425759077072144,
	"learning_rate": 2.8962463056908472e-05,
	"loss": 0.48490497589111325,
	"step": 46200
	},
	{
	"epoch": 1.2757416623133815,
	"grad_norm": 0.8783431053161621,
	"learning_rate": 2.8870393046872846e-05,
	"loss": 0.4830588150024414,
	"step": 46400
	},
	{
	"epoch": 1.2812405487888703,
	"grad_norm": 1.6315195560455322,
	"learning_rate": 2.8778323036837214e-05,
	"loss": 0.48057308197021487,
	"step": 46600
	},
	{
	"epoch": 1.286739435264359,
	"grad_norm": 1.2200597524642944,
	"learning_rate": 2.868625302680158e-05,
	"loss": 0.48826507568359373,
	"step": 46800
	},
	{
	"epoch": 1.2922383217398477,
	"grad_norm": 1.008957028388977,
	"learning_rate": 2.859418301676595e-05,
	"loss": 0.4910233306884766,
	"step": 47000
	},
	{
	"epoch": 1.2977372082153364,
	"grad_norm": 0.9655813574790955,
	"learning_rate": 2.850211300673032e-05,
	"loss": 0.48260990142822263,
	"step": 47200
	},
	{
	"epoch": 1.303236094690825,
	"grad_norm": 1.0368990898132324,
	"learning_rate": 2.8410042996694686e-05,
	"loss": 0.4869321060180664,
	"step": 47400
	},
	{
	"epoch": 1.3087349811663138,
	"grad_norm": 1.0914088487625122,
	"learning_rate": 2.8317972986659057e-05,
	"loss": 0.4798837661743164,
	"step": 47600
	},
	{
	"epoch": 1.3142338676418026,
	"grad_norm": 1.0549296140670776,
	"learning_rate": 2.8225902976623424e-05,
	"loss": 0.4868314743041992,
	"step": 47800
	},
	{
	"epoch": 1.3197327541172912,
	"grad_norm": 0.9864702224731445,
	"learning_rate": 2.813383296658779e-05,
	"loss": 0.48143596649169923,
	"step": 48000
	},
	{
	"epoch": 1.32523164059278,
	"grad_norm": 1.276328444480896,
	"learning_rate": 2.8041762956552165e-05,
	"loss": 0.4901668930053711,
	"step": 48200
	},
	{
	"epoch": 1.3307305270682686,
	"grad_norm": 0.9716532826423645,
	"learning_rate": 2.7949692946516532e-05,
	"loss": 0.48207698822021483,
	"step": 48400
	},
	{
	"epoch": 1.3362294135437573,
	"grad_norm": 1.3309965133666992,
	"learning_rate": 2.7857622936480903e-05,
	"loss": 0.4830322265625,
	"step": 48600
	},
	{
	"epoch": 1.3417283000192461,
	"grad_norm": 0.8904381990432739,
	"learning_rate": 2.776555292644527e-05,
	"loss": 0.488801383972168,
	"step": 48800
	},
	{
	"epoch": 1.347227186494735,
	"grad_norm": 1.4656221866607666,
	"learning_rate": 2.7673482916409638e-05,
	"loss": 0.48581710815429685,
	"step": 49000
	},
	{
	"epoch": 1.3527260729702235,
	"grad_norm": 1.1317617893218994,
	"learning_rate": 2.758141290637401e-05,
	"loss": 0.4906336212158203,
	"step": 49200
	},
	{
	"epoch": 1.3582249594457123,
	"grad_norm": 0.944570779800415,
	"learning_rate": 2.7489342896338375e-05,
	"loss": 0.4796075439453125,
	"step": 49400
	},
	{
	"epoch": 1.3637238459212009,
	"grad_norm": 0.8989654779434204,
	"learning_rate": 2.7397272886302743e-05,
	"loss": 0.48385326385498045,
	"step": 49600
	},
	{
	"epoch": 1.3692227323966897,
	"grad_norm": 1.2828127145767212,
	"learning_rate": 2.7305202876267117e-05,
	"loss": 0.4900363540649414,
	"step": 49800
	},
	{
	"epoch": 1.3747216188721785,
	"grad_norm": 1.3695372343063354,
	"learning_rate": 2.7213132866231484e-05,
	"loss": 0.4815263366699219,
	"step": 50000
	},
	{
	"epoch": 1.380220505347667,
	"grad_norm": 1.1346147060394287,
	"learning_rate": 2.712106285619585e-05,
	"loss": 0.48870357513427737,
	"step": 50200
	},
	{
	"epoch": 1.3857193918231558,
	"grad_norm": 1.2779992818832397,
	"learning_rate": 2.7028992846160222e-05,
	"loss": 0.4858957290649414,
	"step": 50400
	},
	{
	"epoch": 1.3912182782986444,
	"grad_norm": 1.0286052227020264,
	"learning_rate": 2.693692283612459e-05,
	"loss": 0.48650901794433593,
	"step": 50600
	},
	{
	"epoch": 1.3967171647741332,
	"grad_norm": 1.0637270212173462,
	"learning_rate": 2.6844852826088963e-05,
	"loss": 0.48736335754394533,
	"step": 50800
	},
	{
	"epoch": 1.402216051249622,
	"grad_norm": 1.3406178951263428,
	"learning_rate": 2.675278281605333e-05,
	"loss": 0.4900504684448242,
	"step": 51000
	},
	{
	"epoch": 1.4077149377251106,
	"grad_norm": 1.1052333116531372,
	"learning_rate": 2.6660712806017694e-05,
	"loss": 0.4855587387084961,
	"step": 51200
	},
	{
	"epoch": 1.4132138242005994,
	"grad_norm": 0.931908130645752,
	"learning_rate": 2.6568642795982068e-05,
	"loss": 0.4813541030883789,
	"step": 51400
	},
	{
	"epoch": 1.4187127106760882,
	"grad_norm": 0.9499631524085999,
	"learning_rate": 2.6476572785946435e-05,
	"loss": 0.4899889373779297,
	"step": 51600
	},
	{
	"epoch": 1.4242115971515767,
	"grad_norm": 1.1931513547897339,
	"learning_rate": 2.6384502775910803e-05,
	"loss": 0.48534503936767576,
	"step": 51800
	},
	{
	"epoch": 1.4297104836270655,
	"grad_norm": 1.3906440734863281,
	"learning_rate": 2.6292432765875173e-05,
	"loss": 0.47944049835205077,
	"step": 52000
	},
	{
	"epoch": 1.4352093701025543,
	"grad_norm": 1.1049039363861084,
	"learning_rate": 2.620036275583954e-05,
	"loss": 0.4796323776245117,
	"step": 52200
	},
	{
	"epoch": 1.440708256578043,
	"grad_norm": 1.035280704498291,
	"learning_rate": 2.6108292745803908e-05,
	"loss": 0.4778638076782227,
	"step": 52400
	},
	{
	"epoch": 1.4462071430535317,
	"grad_norm": 0.9371760487556458,
	"learning_rate": 2.6016222735768282e-05,
	"loss": 0.4937860870361328,
	"step": 52600
	},
	{
	"epoch": 1.4517060295290203,
	"grad_norm": 0.932565450668335,
	"learning_rate": 2.592415272573265e-05,
	"loss": 0.48315887451171874,
	"step": 52800
	},
	{
	"epoch": 1.457204916004509,
	"grad_norm": 1.1414536237716675,
	"learning_rate": 2.5832082715697016e-05,
	"loss": 0.48177513122558596,
	"step": 53000
	},
	{
	"epoch": 1.4627038024799979,
	"grad_norm": 1.3313400745391846,
	"learning_rate": 2.5740012705661387e-05,
	"loss": 0.4810881423950195,
	"step": 53200
	},
	{
	"epoch": 1.4682026889554864,
	"grad_norm": 0.9843188524246216,
	"learning_rate": 2.5647942695625754e-05,
	"loss": 0.48992759704589844,
	"step": 53400
	},
	{
	"epoch": 1.4737015754309752,
	"grad_norm": 1.0765944719314575,
	"learning_rate": 2.5555872685590128e-05,
	"loss": 0.48404861450195313,
	"step": 53600
	},
	{
	"epoch": 1.4792004619064638,
	"grad_norm": 0.9720175266265869,
	"learning_rate": 2.5463802675554492e-05,
	"loss": 0.48842796325683596,
	"step": 53800
	},
	{
	"epoch": 1.4846993483819526,
	"grad_norm": 0.9759963154792786,
	"learning_rate": 2.537173266551886e-05,
	"loss": 0.47752620697021486,
	"step": 54000
	},
	{
	"epoch": 1.4901982348574414,
	"grad_norm": 0.9573367834091187,
	"learning_rate": 2.5279662655483233e-05,
	"loss": 0.48062808990478517,
	"step": 54200
	},
	{
	"epoch": 1.4956971213329302,
	"grad_norm": 1.292158603668213,
	"learning_rate": 2.51875926454476e-05,
	"loss": 0.487774658203125,
	"step": 54400
	},
	{
	"epoch": 1.5011960078084188,
	"grad_norm": 1.4202347993850708,
	"learning_rate": 2.5095522635411968e-05,
	"loss": 0.4807822799682617,
	"step": 54600
	},
	{
	"epoch": 1.5066948942839073,
	"grad_norm": 1.5612984895706177,
	"learning_rate": 2.500345262537634e-05,
	"loss": 0.4789771270751953,
	"step": 54800
	},
	{
	"epoch": 1.5121937807593961,
	"grad_norm": 0.886279821395874,
	"learning_rate": 2.4911382615340706e-05,
	"loss": 0.482733268737793,
	"step": 55000
	},
	{
	"epoch": 1.517692667234885,
	"grad_norm": 1.2323397397994995,
	"learning_rate": 2.4819312605305076e-05,
	"loss": 0.48148895263671876,
	"step": 55200
	},
	{
	"epoch": 1.5231915537103737,
	"grad_norm": 1.1137135028839111,
	"learning_rate": 2.4727242595269447e-05,
	"loss": 0.48247013092041013,
	"step": 55400
	},
	{
	"epoch": 1.5286904401858623,
	"grad_norm": 1.1854609251022339,
	"learning_rate": 2.463517258523381e-05,
	"loss": 0.48267646789550783,
	"step": 55600
	},
	{
	"epoch": 1.534189326661351,
	"grad_norm": 1.1057685613632202,
	"learning_rate": 2.454310257519818e-05,
	"loss": 0.48411903381347654,
	"step": 55800
	},
	{
	"epoch": 1.5396882131368397,
	"grad_norm": 1.2663975954055786,
	"learning_rate": 2.4451032565162552e-05,
	"loss": 0.4761699295043945,
	"step": 56000
	},
	{
	"epoch": 1.5451870996123285,
	"grad_norm": 1.0173465013504028,
	"learning_rate": 2.435896255512692e-05,
	"loss": 0.48153770446777344,
	"step": 56200
	},
	{
	"epoch": 1.5506859860878173,
	"grad_norm": 1.0407702922821045,
	"learning_rate": 2.4266892545091287e-05,
	"loss": 0.4878800201416016,
	"step": 56400
	},
	{
	"epoch": 1.556184872563306,
	"grad_norm": 1.0399770736694336,
	"learning_rate": 2.4174822535055657e-05,
	"loss": 0.4796760177612305,
	"step": 56600
	},
	{
	"epoch": 1.5616837590387946,
	"grad_norm": 1.2796666622161865,
	"learning_rate": 2.4082752525020028e-05,
	"loss": 0.47880504608154295,
	"step": 56800
	},
	{
	"epoch": 1.5671826455142832,
	"grad_norm": 1.2479208707809448,
	"learning_rate": 2.3990682514984395e-05,
	"loss": 0.47731819152832033,
	"step": 57000
	},
	{
	"epoch": 1.572681531989772,
	"grad_norm": 1.1050926446914673,
	"learning_rate": 2.3898612504948766e-05,
	"loss": 0.483460693359375,
	"step": 57200
	},
	{
	"epoch": 1.5781804184652608,
	"grad_norm": 0.9544827342033386,
	"learning_rate": 2.3806542494913133e-05,
	"loss": 0.48048728942871094,
	"step": 57400
	},
	{
	"epoch": 1.5836793049407496,
	"grad_norm": 1.063852071762085,
	"learning_rate": 2.37144724848775e-05,
	"loss": 0.485230827331543,
	"step": 57600
	},
	{
	"epoch": 1.5891781914162382,
	"grad_norm": 1.1819310188293457,
	"learning_rate": 2.362240247484187e-05,
	"loss": 0.480164794921875,
	"step": 57800
	},
	{
	"epoch": 1.594677077891727,
	"grad_norm": 1.021468162536621,
	"learning_rate": 2.353033246480624e-05,
	"loss": 0.4904788589477539,
	"step": 58000
	},
	{
	"epoch": 1.6001759643672155,
	"grad_norm": 1.3577057123184204,
	"learning_rate": 2.343826245477061e-05,
	"loss": 0.48077606201171874,
	"step": 58200
	},
	{
	"epoch": 1.6056748508427043,
	"grad_norm": 1.2617197036743164,
	"learning_rate": 2.3346192444734976e-05,
	"loss": 0.4806778717041016,
	"step": 58400
	},
	{
	"epoch": 1.6111737373181931,
	"grad_norm": 1.2320860624313354,
	"learning_rate": 2.3254122434699347e-05,
	"loss": 0.4775208282470703,
	"step": 58600
	},
	{
	"epoch": 1.616672623793682,
	"grad_norm": 0.9680395126342773,
	"learning_rate": 2.3162052424663717e-05,
	"loss": 0.48886814117431643,
	"step": 58800
	},
	{
	"epoch": 1.6221715102691705,
	"grad_norm": 1.3157929182052612,
	"learning_rate": 2.3069982414628084e-05,
	"loss": 0.48573501586914064,
	"step": 59000
	},
	{
	"epoch": 1.627670396744659,
	"grad_norm": 0.900864839553833,
	"learning_rate": 2.297791240459245e-05,
	"loss": 0.48609561920166017,
	"step": 59200
	},
	{
	"epoch": 1.6331692832201479,
	"grad_norm": 1.0947906970977783,
	"learning_rate": 2.2885842394556822e-05,
	"loss": 0.4897247314453125,
	"step": 59400
	},
	{
	"epoch": 1.6386681696956367,
	"grad_norm": 0.816973865032196,
	"learning_rate": 2.2793772384521193e-05,
	"loss": 0.47951828002929686,
	"step": 59600
	},
	{
	"epoch": 1.6441670561711255,
	"grad_norm": 1.2236440181732178,
	"learning_rate": 2.270170237448556e-05,
	"loss": 0.4842032241821289,
	"step": 59800
	},
	{
	"epoch": 1.649665942646614,
	"grad_norm": 1.1023343801498413,
	"learning_rate": 2.2609632364449927e-05,
	"loss": 0.4781660461425781,
	"step": 60000
	},
	{
	"epoch": 1.6551648291221026,
	"grad_norm": 0.9589300155639648,
	"learning_rate": 2.2517562354414298e-05,
	"loss": 0.47841606140136717,
	"step": 60200
	},
	{
	"epoch": 1.6606637155975914,
	"grad_norm": 1.3003031015396118,
	"learning_rate": 2.242549234437867e-05,
	"loss": 0.48363441467285156,
	"step": 60400
	},
	{
	"epoch": 1.6661626020730802,
	"grad_norm": 0.9985244870185852,
	"learning_rate": 2.2333422334343036e-05,
	"loss": 0.48706722259521484,
	"step": 60600
	},
	{
	"epoch": 1.671661488548569,
	"grad_norm": 1.319917917251587,
	"learning_rate": 2.2241352324307403e-05,
	"loss": 0.4843954086303711,
	"step": 60800
	},
	{
	"epoch": 1.6771603750240578,
	"grad_norm": 1.3378630876541138,
	"learning_rate": 2.2149282314271774e-05,
	"loss": 0.48122127532958986,
	"step": 61000
	},
	{
	"epoch": 1.6826592614995464,
	"grad_norm": 1.0471312999725342,
	"learning_rate": 2.205721230423614e-05,
	"loss": 0.48413547515869143,
	"step": 61200
	},
	{
	"epoch": 1.688158147975035,
	"grad_norm": 1.0439791679382324,
	"learning_rate": 2.196514229420051e-05,
	"loss": 0.48604167938232423,
	"step": 61400
	},
	{
	"epoch": 1.6936570344505237,
	"grad_norm": 0.9854567050933838,
	"learning_rate": 2.187307228416488e-05,
	"loss": 0.4817595291137695,
	"step": 61600
	},
	{
	"epoch": 1.6991559209260125,
	"grad_norm": 1.1079517602920532,
	"learning_rate": 2.178100227412925e-05,
	"loss": 0.48393955230712893,
	"step": 61800
	},
	{
	"epoch": 1.7046548074015013,
	"grad_norm": 1.1403529644012451,
	"learning_rate": 2.1688932264093617e-05,
	"loss": 0.47360748291015625,
	"step": 62000
	},
	{
	"epoch": 1.71015369387699,
	"grad_norm": 0.8809356689453125,
	"learning_rate": 2.1596862254057987e-05,
	"loss": 0.47694496154785154,
	"step": 62200
	},
	{
	"epoch": 1.7156525803524785,
	"grad_norm": 0.9528295993804932,
	"learning_rate": 2.1504792244022358e-05,
	"loss": 0.4844463348388672,
	"step": 62400
	},
	{
	"epoch": 1.7211514668279673,
	"grad_norm": 1.0902634859085083,
	"learning_rate": 2.1412722233986722e-05,
	"loss": 0.47806488037109374,
	"step": 62600
	},
	{
	"epoch": 1.726650353303456,
	"grad_norm": 1.0174310207366943,
	"learning_rate": 2.1320652223951093e-05,
	"loss": 0.48461170196533204,
	"step": 62800
	},
	{
	"epoch": 1.7321492397789449,
	"grad_norm": 1.1780657768249512,
	"learning_rate": 2.1228582213915463e-05,
	"loss": 0.4868865203857422,
	"step": 63000
	},
	{
	"epoch": 1.7376481262544334,
	"grad_norm": 1.257879614830017,
	"learning_rate": 2.1136512203879834e-05,
	"loss": 0.4772517776489258,
	"step": 63200
	},
	{
	"epoch": 1.7431470127299222,
	"grad_norm": 2.5110182762145996,
	"learning_rate": 2.10444421938442e-05,
	"loss": 0.48027557373046875,
	"step": 63400
	},
	{
	"epoch": 1.7486458992054108,
	"grad_norm": 1.061119556427002,
	"learning_rate": 2.0952372183808568e-05,
	"loss": 0.4825307846069336,
	"step": 63600
	},
	{
	"epoch": 1.7541447856808996,
	"grad_norm": 1.3090649843215942,
	"learning_rate": 2.086030217377294e-05,
	"loss": 0.4777912902832031,
	"step": 63800
	},
	{
	"epoch": 1.7596436721563884,
	"grad_norm": 0.8455436825752258,
	"learning_rate": 2.0768232163737306e-05,
	"loss": 0.4868216705322266,
	"step": 64000
	},
	{
	"epoch": 1.7651425586318772,
	"grad_norm": 1.1341484785079956,
	"learning_rate": 2.0676162153701677e-05,
	"loss": 0.4825804901123047,
	"step": 64200
	},
	{
	"epoch": 1.7706414451073658,
	"grad_norm": 0.9106566905975342,
	"learning_rate": 2.0584092143666044e-05,
	"loss": 0.480031852722168,
	"step": 64400
	},
	{
	"epoch": 1.7761403315828543,
	"grad_norm": 0.8978875279426575,
	"learning_rate": 2.0492022133630415e-05,
	"loss": 0.48035388946533203,
	"step": 64600
	},
	{
	"epoch": 1.7816392180583431,
	"grad_norm": 1.508074164390564,
	"learning_rate": 2.0399952123594782e-05,
	"loss": 0.4823148727416992,
	"step": 64800
	},
	{
	"epoch": 1.787138104533832,
	"grad_norm": 1.0851056575775146,
	"learning_rate": 2.0307882113559153e-05,
	"loss": 0.4738383102416992,
	"step": 65000
	},
	{
	"epoch": 1.7926369910093207,
	"grad_norm": 1.0651288032531738,
	"learning_rate": 2.021581210352352e-05,
	"loss": 0.4777484130859375,
	"step": 65200
	},
	{
	"epoch": 1.7981358774848093,
	"grad_norm": 1.3095803260803223,
	"learning_rate": 2.0123742093487887e-05,
	"loss": 0.48325523376464846,
	"step": 65400
	},
	{
	"epoch": 1.803634763960298,
	"grad_norm": 1.1658202409744263,
	"learning_rate": 2.0031672083452258e-05,
	"loss": 0.4814822769165039,
	"step": 65600
	},
	{
	"epoch": 1.8091336504357867,
	"grad_norm": 0.974337637424469,
	"learning_rate": 1.9939602073416628e-05,
	"loss": 0.47399234771728516,
	"step": 65800
	},
	{
	"epoch": 1.8146325369112755,
	"grad_norm": 0.914979875087738,
	"learning_rate": 1.9847532063380995e-05,
	"loss": 0.48681838989257814,
	"step": 66000
	},
	{
	"epoch": 1.8201314233867643,
	"grad_norm": 0.7990674376487732,
	"learning_rate": 1.9755462053345363e-05,
	"loss": 0.47843902587890624,
	"step": 66200
	},
	{
	"epoch": 1.825630309862253,
	"grad_norm": 1.2652182579040527,
	"learning_rate": 1.9663392043309733e-05,
	"loss": 0.4840336990356445,
	"step": 66400
	},
	{
	"epoch": 1.8311291963377416,
	"grad_norm": 0.9367465376853943,
	"learning_rate": 1.9571322033274104e-05,
	"loss": 0.48031715393066404,
	"step": 66600
	},
	{
	"epoch": 1.8366280828132302,
	"grad_norm": 0.9445034861564636,
	"learning_rate": 1.947925202323847e-05,
	"loss": 0.48153636932373045,
	"step": 66800
	},
	{
	"epoch": 1.842126969288719,
	"grad_norm": 1.062595009803772,
	"learning_rate": 1.938718201320284e-05,
	"loss": 0.4798342514038086,
	"step": 67000
	},
	{
	"epoch": 1.8476258557642078,
	"grad_norm": 1.0887633562088013,
	"learning_rate": 1.929511200316721e-05,
	"loss": 0.4826160430908203,
	"step": 67200
	},
	{
	"epoch": 1.8531247422396966,
	"grad_norm": 1.4558460712432861,
	"learning_rate": 1.920304199313158e-05,
	"loss": 0.48820636749267576,
	"step": 67400
	},
	{
	"epoch": 1.8586236287151852,
	"grad_norm": 0.9983727931976318,
	"learning_rate": 1.9110971983095947e-05,
	"loss": 0.4826961135864258,
	"step": 67600
	},
	{
	"epoch": 1.8641225151906737,
	"grad_norm": 0.9502201676368713,
	"learning_rate": 1.9018901973060314e-05,
	"loss": 0.4772541046142578,
	"step": 67800
	},
	{
	"epoch": 1.8696214016661625,
	"grad_norm": 0.9462329149246216,
	"learning_rate": 1.8926831963024685e-05,
	"loss": 0.4827272415161133,
	"step": 68000
	},
	{
	"epoch": 1.8751202881416513,
	"grad_norm": 1.2585595846176147,
	"learning_rate": 1.8834761952989056e-05,
	"loss": 0.48325294494628906,
	"step": 68200
	},
	{
	"epoch": 1.8806191746171401,
	"grad_norm": 1.0165777206420898,
	"learning_rate": 1.8742691942953423e-05,
	"loss": 0.4868499755859375,
	"step": 68400
	},
	{
	"epoch": 1.8861180610926287,
	"grad_norm": 1.1448917388916016,
	"learning_rate": 1.8650621932917793e-05,
	"loss": 0.47457069396972656,
	"step": 68600
	},
	{
	"epoch": 1.8916169475681175,
	"grad_norm": 0.9723443984985352,
	"learning_rate": 1.855855192288216e-05,
	"loss": 0.4808235168457031,
	"step": 68800
	},
	{
	"epoch": 1.897115834043606,
	"grad_norm": 1.8042104244232178,
	"learning_rate": 1.8466481912846528e-05,
	"loss": 0.4818389892578125,
	"step": 69000
	},
	{
	"epoch": 1.9026147205190949,
	"grad_norm": 1.1425598859786987,
	"learning_rate": 1.83744119028109e-05,
	"loss": 0.47744728088378907,
	"step": 69200
	},
	{
	"epoch": 1.9081136069945837,
	"grad_norm": 1.3648266792297363,
	"learning_rate": 1.828234189277527e-05,
	"loss": 0.47696762084960936,
	"step": 69400
	},
	{
	"epoch": 1.9136124934700725,
	"grad_norm": 1.2545722723007202,
	"learning_rate": 1.8190271882739636e-05,
	"loss": 0.4733824920654297,
	"step": 69600
	},
	{
	"epoch": 1.919111379945561,
	"grad_norm": 1.1813223361968994,
	"learning_rate": 1.8098201872704004e-05,
	"loss": 0.4728484344482422,
	"step": 69800
	},
	{
	"epoch": 1.9246102664210496,
	"grad_norm": 1.2796030044555664,
	"learning_rate": 1.8006131862668374e-05,
	"loss": 0.4804762649536133,
	"step": 70000
	},
	{
	"epoch": 1.9301091528965384,
	"grad_norm": 1.3735687732696533,
	"learning_rate": 1.7914061852632745e-05,
	"loss": 0.4790033721923828,
	"step": 70200
	},
	{
	"epoch": 1.9356080393720272,
	"grad_norm": 1.2554829120635986,
	"learning_rate": 1.7821991842597112e-05,
	"loss": 0.48504138946533204,
	"step": 70400
	},
	{
	"epoch": 1.941106925847516,
	"grad_norm": 1.08273184299469,
	"learning_rate": 1.772992183256148e-05,
	"loss": 0.4772909545898438,
	"step": 70600
	},
	{
	"epoch": 1.9466058123230046,
	"grad_norm": 0.6954657435417175,
	"learning_rate": 1.763785182252585e-05,
	"loss": 0.49507545471191405,
	"step": 70800
	},
	{
	"epoch": 1.9521046987984934,
	"grad_norm": 1.014246940612793,
	"learning_rate": 1.754578181249022e-05,
	"loss": 0.4824806213378906,
	"step": 71000
	},
	{
	"epoch": 1.957603585273982,
	"grad_norm": 1.005923867225647,
	"learning_rate": 1.7453711802454588e-05,
	"loss": 0.4811605453491211,
	"step": 71200
	},
	{
	"epoch": 1.9631024717494707,
	"grad_norm": 1.1930160522460938,
	"learning_rate": 1.7361641792418955e-05,
	"loss": 0.4723471450805664,
	"step": 71400
	},
	{
	"epoch": 1.9686013582249595,
	"grad_norm": 1.132750153541565,
	"learning_rate": 1.7269571782383326e-05,
	"loss": 0.4810772323608398,
	"step": 71600
	},
	{
	"epoch": 1.9741002447004483,
	"grad_norm": 1.2968944311141968,
	"learning_rate": 1.7177501772347693e-05,
	"loss": 0.47881488800048827,
	"step": 71800
	},
	{
	"epoch": 1.9795991311759369,
	"grad_norm": 1.342724084854126,
	"learning_rate": 1.7085431762312064e-05,
	"loss": 0.4765338134765625,
	"step": 72000
	},
	{
	"epoch": 1.9850980176514255,
	"grad_norm": 1.0654747486114502,
	"learning_rate": 1.699336175227643e-05,
	"loss": 0.4823237228393555,
	"step": 72200
	},
	{
	"epoch": 1.9905969041269143,
	"grad_norm": 1.0994575023651123,
	"learning_rate": 1.69012917422408e-05,
	"loss": 0.48160724639892577,
	"step": 72400
	},
	{
	"epoch": 1.996095790602403,
	"grad_norm": 1.0896570682525635,
	"learning_rate": 1.680922173220517e-05,
	"loss": 0.4756970977783203,
	"step": 72600
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.4625195264816284,
	"eval_runtime": 158.6666,
	"eval_samples_per_second": 407.515,
	"eval_steps_per_second": 25.475,
	"step": 72742
	}
	],
	"logging_steps": 200,
	"max_steps": 109113,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.875850713799066e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}