Upload folder using huggingface_hub

137c748 verified 10 days ago

90.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.999894414528561,
	"eval_steps": 500,
	"global_step": 42618,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.007039031429275332,
	"grad_norm": 36.44467544555664,
	"learning_rate": 1.1731581417175035e-06,
	"loss": 6.2071,
	"step": 100
	},
	{
	"epoch": 0.014078062858550663,
	"grad_norm": 43.126609802246094,
	"learning_rate": 2.346316283435007e-06,
	"loss": 5.9231,
	"step": 200
	},
	{
	"epoch": 0.021117094287825995,
	"grad_norm": 29.171634674072266,
	"learning_rate": 3.5194744251525106e-06,
	"loss": 5.4145,
	"step": 300
	},
	{
	"epoch": 0.028156125717101327,
	"grad_norm": 38.217105865478516,
	"learning_rate": 4.692632566870014e-06,
	"loss": 4.9149,
	"step": 400
	},
	{
	"epoch": 0.03519515714637666,
	"grad_norm": 35.40254211425781,
	"learning_rate": 5.865790708587518e-06,
	"loss": 4.5052,
	"step": 500
	},
	{
	"epoch": 0.03519515714637666,
	"eval_runtime": 191.3754,
	"eval_samples_per_second": 148.467,
	"eval_steps_per_second": 18.56,
	"step": 500
	},
	{
	"epoch": 0.04223418857565199,
	"grad_norm": 36.732643127441406,
	"learning_rate": 7.038948850305021e-06,
	"loss": 4.3715,
	"step": 600
	},
	{
	"epoch": 0.04927322000492732,
	"grad_norm": 36.27021408081055,
	"learning_rate": 8.212106992022525e-06,
	"loss": 4.3269,
	"step": 700
	},
	{
	"epoch": 0.056312251434202654,
	"grad_norm": 42.45858383178711,
	"learning_rate": 9.385265133740028e-06,
	"loss": 4.0589,
	"step": 800
	},
	{
	"epoch": 0.06335128286347799,
	"grad_norm": 42.08483123779297,
	"learning_rate": 1.0558423275457532e-05,
	"loss": 4.1336,
	"step": 900
	},
	{
	"epoch": 0.07039031429275332,
	"grad_norm": 42.23253631591797,
	"learning_rate": 1.1731581417175035e-05,
	"loss": 4.0719,
	"step": 1000
	},
	{
	"epoch": 0.07039031429275332,
	"eval_runtime": 193.8033,
	"eval_samples_per_second": 146.607,
	"eval_steps_per_second": 18.328,
	"step": 1000
	},
	{
	"epoch": 0.07742934572202866,
	"grad_norm": 48.905662536621094,
	"learning_rate": 1.2904739558892539e-05,
	"loss": 3.8613,
	"step": 1100
	},
	{
	"epoch": 0.08446837715130398,
	"grad_norm": 37.9277458190918,
	"learning_rate": 1.4077897700610042e-05,
	"loss": 3.8424,
	"step": 1200
	},
	{
	"epoch": 0.09150740858057932,
	"grad_norm": 48.82701110839844,
	"learning_rate": 1.5251055842327546e-05,
	"loss": 3.7771,
	"step": 1300
	},
	{
	"epoch": 0.09854644000985464,
	"grad_norm": 33.38028335571289,
	"learning_rate": 1.642421398404505e-05,
	"loss": 3.8094,
	"step": 1400
	},
	{
	"epoch": 0.10558547143912998,
	"grad_norm": 61.35352325439453,
	"learning_rate": 1.7597372125762555e-05,
	"loss": 3.8331,
	"step": 1500
	},
	{
	"epoch": 0.10558547143912998,
	"eval_runtime": 191.8384,
	"eval_samples_per_second": 148.109,
	"eval_steps_per_second": 18.516,
	"step": 1500
	},
	{
	"epoch": 0.11262450286840531,
	"grad_norm": 46.74394226074219,
	"learning_rate": 1.8770530267480057e-05,
	"loss": 3.6822,
	"step": 1600
	},
	{
	"epoch": 0.11966353429768065,
	"grad_norm": 35.53325271606445,
	"learning_rate": 1.9943688409197562e-05,
	"loss": 3.6282,
	"step": 1700
	},
	{
	"epoch": 0.12670256572695598,
	"grad_norm": 37.73524856567383,
	"learning_rate": 2.1116846550915064e-05,
	"loss": 3.5722,
	"step": 1800
	},
	{
	"epoch": 0.1337415971562313,
	"grad_norm": 33.76814651489258,
	"learning_rate": 2.229000469263257e-05,
	"loss": 3.6086,
	"step": 1900
	},
	{
	"epoch": 0.14078062858550663,
	"grad_norm": 41.888282775878906,
	"learning_rate": 2.346316283435007e-05,
	"loss": 3.6142,
	"step": 2000
	},
	{
	"epoch": 0.14078062858550663,
	"eval_runtime": 191.5815,
	"eval_samples_per_second": 148.308,
	"eval_steps_per_second": 18.54,
	"step": 2000
	},
	{
	"epoch": 0.14781966001478197,
	"grad_norm": 39.62664031982422,
	"learning_rate": 2.4636320976067576e-05,
	"loss": 3.6029,
	"step": 2100
	},
	{
	"epoch": 0.1548586914440573,
	"grad_norm": 38.377532958984375,
	"learning_rate": 2.5809479117785078e-05,
	"loss": 3.4959,
	"step": 2200
	},
	{
	"epoch": 0.16189772287333262,
	"grad_norm": 32.66987991333008,
	"learning_rate": 2.698263725950258e-05,
	"loss": 3.5252,
	"step": 2300
	},
	{
	"epoch": 0.16893675430260796,
	"grad_norm": 39.213592529296875,
	"learning_rate": 2.8155795401220085e-05,
	"loss": 3.5859,
	"step": 2400
	},
	{
	"epoch": 0.1759757857318833,
	"grad_norm": 31.646276473999023,
	"learning_rate": 2.9328953542937587e-05,
	"loss": 3.4995,
	"step": 2500
	},
	{
	"epoch": 0.1759757857318833,
	"eval_runtime": 194.3308,
	"eval_samples_per_second": 146.209,
	"eval_steps_per_second": 18.278,
	"step": 2500
	},
	{
	"epoch": 0.18301481716115864,
	"grad_norm": 32.30677032470703,
	"learning_rate": 3.0502111684655092e-05,
	"loss": 3.5853,
	"step": 2600
	},
	{
	"epoch": 0.19005384859043395,
	"grad_norm": 31.175769805908203,
	"learning_rate": 3.1675269826372594e-05,
	"loss": 3.5134,
	"step": 2700
	},
	{
	"epoch": 0.1970928800197093,
	"grad_norm": 31.389162063598633,
	"learning_rate": 3.28484279680901e-05,
	"loss": 3.4909,
	"step": 2800
	},
	{
	"epoch": 0.20413191144898463,
	"grad_norm": 33.105369567871094,
	"learning_rate": 3.4021586109807604e-05,
	"loss": 3.4099,
	"step": 2900
	},
	{
	"epoch": 0.21117094287825997,
	"grad_norm": 25.477977752685547,
	"learning_rate": 3.519474425152511e-05,
	"loss": 3.3823,
	"step": 3000
	},
	{
	"epoch": 0.21117094287825997,
	"eval_runtime": 194.3983,
	"eval_samples_per_second": 146.159,
	"eval_steps_per_second": 18.272,
	"step": 3000
	},
	{
	"epoch": 0.21820997430753528,
	"grad_norm": 29.61454200744629,
	"learning_rate": 3.636790239324261e-05,
	"loss": 3.3476,
	"step": 3100
	},
	{
	"epoch": 0.22524900573681061,
	"grad_norm": 26.82366180419922,
	"learning_rate": 3.754106053496011e-05,
	"loss": 3.389,
	"step": 3200
	},
	{
	"epoch": 0.23228803716608595,
	"grad_norm": 26.6168155670166,
	"learning_rate": 3.871421867667762e-05,
	"loss": 3.3712,
	"step": 3300
	},
	{
	"epoch": 0.2393270685953613,
	"grad_norm": 24.504793167114258,
	"learning_rate": 3.9887376818395124e-05,
	"loss": 3.2693,
	"step": 3400
	},
	{
	"epoch": 0.2463661000246366,
	"grad_norm": 22.34451675415039,
	"learning_rate": 4.106053496011262e-05,
	"loss": 3.3719,
	"step": 3500
	},
	{
	"epoch": 0.2463661000246366,
	"eval_runtime": 192.2522,
	"eval_samples_per_second": 147.79,
	"eval_steps_per_second": 18.476,
	"step": 3500
	},
	{
	"epoch": 0.25340513145391197,
	"grad_norm": 30.370140075683594,
	"learning_rate": 4.223369310183013e-05,
	"loss": 3.3216,
	"step": 3600
	},
	{
	"epoch": 0.2604441628831873,
	"grad_norm": 29.111398696899414,
	"learning_rate": 4.340685124354763e-05,
	"loss": 3.3085,
	"step": 3700
	},
	{
	"epoch": 0.2674831943124626,
	"grad_norm": 29.50999641418457,
	"learning_rate": 4.458000938526514e-05,
	"loss": 3.2907,
	"step": 3800
	},
	{
	"epoch": 0.27452222574173796,
	"grad_norm": 21.999244689941406,
	"learning_rate": 4.5753167526982636e-05,
	"loss": 3.2173,
	"step": 3900
	},
	{
	"epoch": 0.28156125717101327,
	"grad_norm": 28.0905818939209,
	"learning_rate": 4.692632566870014e-05,
	"loss": 3.3431,
	"step": 4000
	},
	{
	"epoch": 0.28156125717101327,
	"eval_runtime": 192.489,
	"eval_samples_per_second": 147.608,
	"eval_steps_per_second": 18.453,
	"step": 4000
	},
	{
	"epoch": 0.2886002886002886,
	"grad_norm": 27.252222061157227,
	"learning_rate": 4.809948381041765e-05,
	"loss": 3.4265,
	"step": 4100
	},
	{
	"epoch": 0.29563932002956395,
	"grad_norm": 20.001508712768555,
	"learning_rate": 4.927264195213515e-05,
	"loss": 3.2489,
	"step": 4200
	},
	{
	"epoch": 0.30267835145883926,
	"grad_norm": 24.947546005249023,
	"learning_rate": 4.995046407341746e-05,
	"loss": 3.2957,
	"step": 4300
	},
	{
	"epoch": 0.3097173828881146,
	"grad_norm": 18.58955192565918,
	"learning_rate": 4.982010637188445e-05,
	"loss": 3.2328,
	"step": 4400
	},
	{
	"epoch": 0.31675641431738993,
	"grad_norm": 22.946285247802734,
	"learning_rate": 4.968974867035145e-05,
	"loss": 3.177,
	"step": 4500
	},
	{
	"epoch": 0.31675641431738993,
	"eval_runtime": 192.63,
	"eval_samples_per_second": 147.5,
	"eval_steps_per_second": 18.439,
	"step": 4500
	},
	{
	"epoch": 0.32379544574666524,
	"grad_norm": 20.17714500427246,
	"learning_rate": 4.955939096881844e-05,
	"loss": 3.3241,
	"step": 4600
	},
	{
	"epoch": 0.3308344771759406,
	"grad_norm": 18.580751419067383,
	"learning_rate": 4.9429033267285435e-05,
	"loss": 3.3084,
	"step": 4700
	},
	{
	"epoch": 0.3378735086052159,
	"grad_norm": 16.068750381469727,
	"learning_rate": 4.929867556575243e-05,
	"loss": 3.1674,
	"step": 4800
	},
	{
	"epoch": 0.34491254003449123,
	"grad_norm": 23.636520385742188,
	"learning_rate": 4.916831786421942e-05,
	"loss": 3.2698,
	"step": 4900
	},
	{
	"epoch": 0.3519515714637666,
	"grad_norm": 19.445907592773438,
	"learning_rate": 4.903796016268641e-05,
	"loss": 3.2824,
	"step": 5000
	},
	{
	"epoch": 0.3519515714637666,
	"eval_runtime": 192.779,
	"eval_samples_per_second": 147.386,
	"eval_steps_per_second": 18.425,
	"step": 5000
	},
	{
	"epoch": 0.3589906028930419,
	"grad_norm": 20.217737197875977,
	"learning_rate": 4.8907602461153405e-05,
	"loss": 3.3673,
	"step": 5100
	},
	{
	"epoch": 0.3660296343223173,
	"grad_norm": 16.03109359741211,
	"learning_rate": 4.87772447596204e-05,
	"loss": 3.3105,
	"step": 5200
	},
	{
	"epoch": 0.3730686657515926,
	"grad_norm": 21.388507843017578,
	"learning_rate": 4.864688705808739e-05,
	"loss": 3.1998,
	"step": 5300
	},
	{
	"epoch": 0.3801076971808679,
	"grad_norm": 16.931922912597656,
	"learning_rate": 4.851652935655439e-05,
	"loss": 3.2054,
	"step": 5400
	},
	{
	"epoch": 0.38714672861014326,
	"grad_norm": 24.145727157592773,
	"learning_rate": 4.838617165502138e-05,
	"loss": 3.0802,
	"step": 5500
	},
	{
	"epoch": 0.38714672861014326,
	"eval_runtime": 192.7089,
	"eval_samples_per_second": 147.44,
	"eval_steps_per_second": 18.432,
	"step": 5500
	},
	{
	"epoch": 0.3941857600394186,
	"grad_norm": 24.199636459350586,
	"learning_rate": 4.8255813953488375e-05,
	"loss": 3.0688,
	"step": 5600
	},
	{
	"epoch": 0.4012247914686939,
	"grad_norm": 18.878751754760742,
	"learning_rate": 4.812545625195537e-05,
	"loss": 3.1667,
	"step": 5700
	},
	{
	"epoch": 0.40826382289796925,
	"grad_norm": 17.39369010925293,
	"learning_rate": 4.7995098550422363e-05,
	"loss": 3.1905,
	"step": 5800
	},
	{
	"epoch": 0.41530285432724456,
	"grad_norm": 19.778793334960938,
	"learning_rate": 4.786474084888936e-05,
	"loss": 3.0883,
	"step": 5900
	},
	{
	"epoch": 0.42234188575651993,
	"grad_norm": 14.80075454711914,
	"learning_rate": 4.773438314735635e-05,
	"loss": 3.0839,
	"step": 6000
	},
	{
	"epoch": 0.42234188575651993,
	"eval_runtime": 192.7353,
	"eval_samples_per_second": 147.42,
	"eval_steps_per_second": 18.429,
	"step": 6000
	},
	{
	"epoch": 0.42938091718579524,
	"grad_norm": 27.43608856201172,
	"learning_rate": 4.760402544582334e-05,
	"loss": 3.0621,
	"step": 6100
	},
	{
	"epoch": 0.43641994861507055,
	"grad_norm": 18.219221115112305,
	"learning_rate": 4.747366774429033e-05,
	"loss": 3.1461,
	"step": 6200
	},
	{
	"epoch": 0.4434589800443459,
	"grad_norm": 17.97977638244629,
	"learning_rate": 4.734331004275733e-05,
	"loss": 3.0795,
	"step": 6300
	},
	{
	"epoch": 0.45049801147362123,
	"grad_norm": 21.358592987060547,
	"learning_rate": 4.721295234122432e-05,
	"loss": 3.1361,
	"step": 6400
	},
	{
	"epoch": 0.45753704290289654,
	"grad_norm": 15.679008483886719,
	"learning_rate": 4.7082594639691315e-05,
	"loss": 3.0751,
	"step": 6500
	},
	{
	"epoch": 0.45753704290289654,
	"eval_runtime": 193.5839,
	"eval_samples_per_second": 146.774,
	"eval_steps_per_second": 18.349,
	"step": 6500
	},
	{
	"epoch": 0.4645760743321719,
	"grad_norm": 14.288241386413574,
	"learning_rate": 4.69522369381583e-05,
	"loss": 3.0886,
	"step": 6600
	},
	{
	"epoch": 0.4716151057614472,
	"grad_norm": 15.016201972961426,
	"learning_rate": 4.6821879236625304e-05,
	"loss": 2.973,
	"step": 6700
	},
	{
	"epoch": 0.4786541371907226,
	"grad_norm": 20.513479232788086,
	"learning_rate": 4.66915215350923e-05,
	"loss": 3.1001,
	"step": 6800
	},
	{
	"epoch": 0.4856931686199979,
	"grad_norm": 15.093891143798828,
	"learning_rate": 4.656116383355929e-05,
	"loss": 3.1073,
	"step": 6900
	},
	{
	"epoch": 0.4927322000492732,
	"grad_norm": 15.074331283569336,
	"learning_rate": 4.6430806132026286e-05,
	"loss": 3.1247,
	"step": 7000
	},
	{
	"epoch": 0.4927322000492732,
	"eval_runtime": 193.2211,
	"eval_samples_per_second": 147.049,
	"eval_steps_per_second": 18.383,
	"step": 7000
	},
	{
	"epoch": 0.49977123147854857,
	"grad_norm": 19.936674118041992,
	"learning_rate": 4.630044843049327e-05,
	"loss": 3.0331,
	"step": 7100
	},
	{
	"epoch": 0.5068102629078239,
	"grad_norm": 22.168909072875977,
	"learning_rate": 4.617009072896027e-05,
	"loss": 3.0611,
	"step": 7200
	},
	{
	"epoch": 0.5138492943370992,
	"grad_norm": 19.541671752929688,
	"learning_rate": 4.603973302742726e-05,
	"loss": 2.9378,
	"step": 7300
	},
	{
	"epoch": 0.5208883257663746,
	"grad_norm": 16.111820220947266,
	"learning_rate": 4.5909375325894256e-05,
	"loss": 3.0461,
	"step": 7400
	},
	{
	"epoch": 0.5279273571956499,
	"grad_norm": 18.88793182373047,
	"learning_rate": 4.577901762436125e-05,
	"loss": 3.0183,
	"step": 7500
	},
	{
	"epoch": 0.5279273571956499,
	"eval_runtime": 191.8152,
	"eval_samples_per_second": 148.127,
	"eval_steps_per_second": 18.518,
	"step": 7500
	},
	{
	"epoch": 0.5349663886249252,
	"grad_norm": 15.234626770019531,
	"learning_rate": 4.5648659922828244e-05,
	"loss": 3.0287,
	"step": 7600
	},
	{
	"epoch": 0.5420054200542005,
	"grad_norm": 16.836956024169922,
	"learning_rate": 4.551830222129523e-05,
	"loss": 2.9991,
	"step": 7700
	},
	{
	"epoch": 0.5490444514834759,
	"grad_norm": 20.984453201293945,
	"learning_rate": 4.538794451976223e-05,
	"loss": 3.0765,
	"step": 7800
	},
	{
	"epoch": 0.5560834829127512,
	"grad_norm": 18.113004684448242,
	"learning_rate": 4.5257586818229226e-05,
	"loss": 2.9704,
	"step": 7900
	},
	{
	"epoch": 0.5631225143420265,
	"grad_norm": 20.654579162597656,
	"learning_rate": 4.512722911669622e-05,
	"loss": 3.0604,
	"step": 8000
	},
	{
	"epoch": 0.5631225143420265,
	"eval_runtime": 193.8004,
	"eval_samples_per_second": 146.61,
	"eval_steps_per_second": 18.328,
	"step": 8000
	},
	{
	"epoch": 0.5701615457713018,
	"grad_norm": 18.815162658691406,
	"learning_rate": 4.499687141516321e-05,
	"loss": 2.8726,
	"step": 8100
	},
	{
	"epoch": 0.5772005772005772,
	"grad_norm": 15.366965293884277,
	"learning_rate": 4.48665137136302e-05,
	"loss": 3.0509,
	"step": 8200
	},
	{
	"epoch": 0.5842396086298526,
	"grad_norm": 17.203136444091797,
	"learning_rate": 4.4736156012097196e-05,
	"loss": 2.9718,
	"step": 8300
	},
	{
	"epoch": 0.5912786400591279,
	"grad_norm": 15.31092643737793,
	"learning_rate": 4.460579831056419e-05,
	"loss": 3.0382,
	"step": 8400
	},
	{
	"epoch": 0.5983176714884032,
	"grad_norm": 12.381194114685059,
	"learning_rate": 4.4475440609031184e-05,
	"loss": 2.9945,
	"step": 8500
	},
	{
	"epoch": 0.5983176714884032,
	"eval_runtime": 192.0001,
	"eval_samples_per_second": 147.984,
	"eval_steps_per_second": 18.5,
	"step": 8500
	},
	{
	"epoch": 0.6053567029176785,
	"grad_norm": 13.362293243408203,
	"learning_rate": 4.434508290749818e-05,
	"loss": 3.0427,
	"step": 8600
	},
	{
	"epoch": 0.6123957343469538,
	"grad_norm": 18.495370864868164,
	"learning_rate": 4.4214725205965165e-05,
	"loss": 3.0363,
	"step": 8700
	},
	{
	"epoch": 0.6194347657762292,
	"grad_norm": 16.98731803894043,
	"learning_rate": 4.408436750443216e-05,
	"loss": 2.9257,
	"step": 8800
	},
	{
	"epoch": 0.6264737972055046,
	"grad_norm": 18.510801315307617,
	"learning_rate": 4.395400980289916e-05,
	"loss": 3.0014,
	"step": 8900
	},
	{
	"epoch": 0.6335128286347799,
	"grad_norm": 15.024514198303223,
	"learning_rate": 4.3823652101366155e-05,
	"loss": 3.0435,
	"step": 9000
	},
	{
	"epoch": 0.6335128286347799,
	"eval_runtime": 192.5991,
	"eval_samples_per_second": 147.524,
	"eval_steps_per_second": 18.442,
	"step": 9000
	},
	{
	"epoch": 0.6405518600640552,
	"grad_norm": 19.763547897338867,
	"learning_rate": 4.369329439983315e-05,
	"loss": 2.9219,
	"step": 9100
	},
	{
	"epoch": 0.6475908914933305,
	"grad_norm": 19.536087036132812,
	"learning_rate": 4.3562936698300136e-05,
	"loss": 2.9749,
	"step": 9200
	},
	{
	"epoch": 0.6546299229226058,
	"grad_norm": 15.909920692443848,
	"learning_rate": 4.343257899676713e-05,
	"loss": 2.8793,
	"step": 9300
	},
	{
	"epoch": 0.6616689543518812,
	"grad_norm": 17.25068473815918,
	"learning_rate": 4.3302221295234124e-05,
	"loss": 2.9669,
	"step": 9400
	},
	{
	"epoch": 0.6687079857811565,
	"grad_norm": 14.32239055633545,
	"learning_rate": 4.317186359370112e-05,
	"loss": 2.9066,
	"step": 9500
	},
	{
	"epoch": 0.6687079857811565,
	"eval_runtime": 191.7836,
	"eval_samples_per_second": 148.151,
	"eval_steps_per_second": 18.521,
	"step": 9500
	},
	{
	"epoch": 0.6757470172104318,
	"grad_norm": 22.611879348754883,
	"learning_rate": 4.304150589216811e-05,
	"loss": 2.8333,
	"step": 9600
	},
	{
	"epoch": 0.6827860486397072,
	"grad_norm": 15.549399375915527,
	"learning_rate": 4.2911148190635107e-05,
	"loss": 2.9913,
	"step": 9700
	},
	{
	"epoch": 0.6898250800689825,
	"grad_norm": 13.915739059448242,
	"learning_rate": 4.2780790489102094e-05,
	"loss": 2.9524,
	"step": 9800
	},
	{
	"epoch": 0.6968641114982579,
	"grad_norm": 17.621822357177734,
	"learning_rate": 4.265043278756909e-05,
	"loss": 2.9844,
	"step": 9900
	},
	{
	"epoch": 0.7039031429275332,
	"grad_norm": 22.748342514038086,
	"learning_rate": 4.252007508603609e-05,
	"loss": 2.9083,
	"step": 10000
	},
	{
	"epoch": 0.7039031429275332,
	"eval_runtime": 193.6184,
	"eval_samples_per_second": 146.747,
	"eval_steps_per_second": 18.345,
	"step": 10000
	},
	{
	"epoch": 0.7109421743568085,
	"grad_norm": 18.526578903198242,
	"learning_rate": 4.238971738450308e-05,
	"loss": 2.9706,
	"step": 10100
	},
	{
	"epoch": 0.7179812057860838,
	"grad_norm": 15.676709175109863,
	"learning_rate": 4.225935968297007e-05,
	"loss": 2.8265,
	"step": 10200
	},
	{
	"epoch": 0.7250202372153591,
	"grad_norm": 18.21067237854004,
	"learning_rate": 4.2129001981437064e-05,
	"loss": 2.8592,
	"step": 10300
	},
	{
	"epoch": 0.7320592686446346,
	"grad_norm": 22.188024520874023,
	"learning_rate": 4.199864427990406e-05,
	"loss": 2.8158,
	"step": 10400
	},
	{
	"epoch": 0.7390983000739099,
	"grad_norm": 18.406801223754883,
	"learning_rate": 4.186828657837105e-05,
	"loss": 2.9264,
	"step": 10500
	},
	{
	"epoch": 0.7390983000739099,
	"eval_runtime": 193.9371,
	"eval_samples_per_second": 146.506,
	"eval_steps_per_second": 18.315,
	"step": 10500
	},
	{
	"epoch": 0.7461373315031852,
	"grad_norm": 20.65268325805664,
	"learning_rate": 4.173792887683805e-05,
	"loss": 2.9882,
	"step": 10600
	},
	{
	"epoch": 0.7531763629324605,
	"grad_norm": 12.223052024841309,
	"learning_rate": 4.160757117530504e-05,
	"loss": 2.8969,
	"step": 10700
	},
	{
	"epoch": 0.7602153943617358,
	"grad_norm": 18.218887329101562,
	"learning_rate": 4.147721347377203e-05,
	"loss": 2.8254,
	"step": 10800
	},
	{
	"epoch": 0.7672544257910111,
	"grad_norm": 19.009950637817383,
	"learning_rate": 4.134685577223902e-05,
	"loss": 2.9361,
	"step": 10900
	},
	{
	"epoch": 0.7742934572202865,
	"grad_norm": 33.881927490234375,
	"learning_rate": 4.1216498070706016e-05,
	"loss": 2.8528,
	"step": 11000
	},
	{
	"epoch": 0.7742934572202865,
	"eval_runtime": 194.2555,
	"eval_samples_per_second": 146.266,
	"eval_steps_per_second": 18.285,
	"step": 11000
	},
	{
	"epoch": 0.7813324886495618,
	"grad_norm": 19.02928924560547,
	"learning_rate": 4.108614036917302e-05,
	"loss": 2.9383,
	"step": 11100
	},
	{
	"epoch": 0.7883715200788372,
	"grad_norm": 18.154483795166016,
	"learning_rate": 4.095578266764001e-05,
	"loss": 2.7691,
	"step": 11200
	},
	{
	"epoch": 0.7954105515081125,
	"grad_norm": 13.669476509094238,
	"learning_rate": 4.0825424966107e-05,
	"loss": 2.8306,
	"step": 11300
	},
	{
	"epoch": 0.8024495829373878,
	"grad_norm": 16.23528289794922,
	"learning_rate": 4.069506726457399e-05,
	"loss": 2.8588,
	"step": 11400
	},
	{
	"epoch": 0.8094886143666632,
	"grad_norm": 16.63111686706543,
	"learning_rate": 4.056470956304099e-05,
	"loss": 2.91,
	"step": 11500
	},
	{
	"epoch": 0.8094886143666632,
	"eval_runtime": 193.9814,
	"eval_samples_per_second": 146.473,
	"eval_steps_per_second": 18.311,
	"step": 11500
	},
	{
	"epoch": 0.8165276457959385,
	"grad_norm": 19.989736557006836,
	"learning_rate": 4.043435186150798e-05,
	"loss": 2.8754,
	"step": 11600
	},
	{
	"epoch": 0.8235666772252138,
	"grad_norm": 15.608553886413574,
	"learning_rate": 4.0303994159974975e-05,
	"loss": 2.8896,
	"step": 11700
	},
	{
	"epoch": 0.8306057086544891,
	"grad_norm": 17.236600875854492,
	"learning_rate": 4.017363645844196e-05,
	"loss": 2.8897,
	"step": 11800
	},
	{
	"epoch": 0.8376447400837644,
	"grad_norm": 16.03377342224121,
	"learning_rate": 4.0043278756908957e-05,
	"loss": 2.8936,
	"step": 11900
	},
	{
	"epoch": 0.8446837715130399,
	"grad_norm": 25.3082332611084,
	"learning_rate": 3.991292105537595e-05,
	"loss": 2.8939,
	"step": 12000
	},
	{
	"epoch": 0.8446837715130399,
	"eval_runtime": 192.6986,
	"eval_samples_per_second": 147.448,
	"eval_steps_per_second": 18.433,
	"step": 12000
	},
	{
	"epoch": 0.8517228029423152,
	"grad_norm": 18.766387939453125,
	"learning_rate": 3.9782563353842945e-05,
	"loss": 2.9448,
	"step": 12100
	},
	{
	"epoch": 0.8587618343715905,
	"grad_norm": 17.019485473632812,
	"learning_rate": 3.9652205652309946e-05,
	"loss": 2.7899,
	"step": 12200
	},
	{
	"epoch": 0.8658008658008658,
	"grad_norm": 15.821990966796875,
	"learning_rate": 3.952184795077693e-05,
	"loss": 2.8069,
	"step": 12300
	},
	{
	"epoch": 0.8728398972301411,
	"grad_norm": 19.532939910888672,
	"learning_rate": 3.939149024924393e-05,
	"loss": 2.8797,
	"step": 12400
	},
	{
	"epoch": 0.8798789286594164,
	"grad_norm": 15.134819030761719,
	"learning_rate": 3.926113254771092e-05,
	"loss": 2.89,
	"step": 12500
	},
	{
	"epoch": 0.8798789286594164,
	"eval_runtime": 191.6112,
	"eval_samples_per_second": 148.285,
	"eval_steps_per_second": 18.538,
	"step": 12500
	},
	{
	"epoch": 0.8869179600886918,
	"grad_norm": 15.088654518127441,
	"learning_rate": 3.9130774846177915e-05,
	"loss": 2.8519,
	"step": 12600
	},
	{
	"epoch": 0.8939569915179671,
	"grad_norm": 16.8511962890625,
	"learning_rate": 3.900041714464491e-05,
	"loss": 2.7864,
	"step": 12700
	},
	{
	"epoch": 0.9009960229472425,
	"grad_norm": 19.323467254638672,
	"learning_rate": 3.8870059443111903e-05,
	"loss": 2.9093,
	"step": 12800
	},
	{
	"epoch": 0.9080350543765178,
	"grad_norm": 16.42205810546875,
	"learning_rate": 3.873970174157889e-05,
	"loss": 2.8426,
	"step": 12900
	},
	{
	"epoch": 0.9150740858057931,
	"grad_norm": 16.470041275024414,
	"learning_rate": 3.8609344040045885e-05,
	"loss": 2.9097,
	"step": 13000
	},
	{
	"epoch": 0.9150740858057931,
	"eval_runtime": 192.3033,
	"eval_samples_per_second": 147.751,
	"eval_steps_per_second": 18.471,
	"step": 13000
	},
	{
	"epoch": 0.9221131172350685,
	"grad_norm": 15.83154296875,
	"learning_rate": 3.847898633851288e-05,
	"loss": 2.8286,
	"step": 13100
	},
	{
	"epoch": 0.9291521486643438,
	"grad_norm": 14.70117473602295,
	"learning_rate": 3.834862863697987e-05,
	"loss": 2.7575,
	"step": 13200
	},
	{
	"epoch": 0.9361911800936191,
	"grad_norm": 12.124509811401367,
	"learning_rate": 3.821827093544687e-05,
	"loss": 2.8621,
	"step": 13300
	},
	{
	"epoch": 0.9432302115228944,
	"grad_norm": 16.292022705078125,
	"learning_rate": 3.808791323391386e-05,
	"loss": 2.8619,
	"step": 13400
	},
	{
	"epoch": 0.9502692429521697,
	"grad_norm": 18.999359130859375,
	"learning_rate": 3.7957555532380855e-05,
	"loss": 2.8396,
	"step": 13500
	},
	{
	"epoch": 0.9502692429521697,
	"eval_runtime": 192.4881,
	"eval_samples_per_second": 147.609,
	"eval_steps_per_second": 18.453,
	"step": 13500
	},
	{
	"epoch": 0.9573082743814452,
	"grad_norm": 17.78417205810547,
	"learning_rate": 3.782719783084785e-05,
	"loss": 2.842,
	"step": 13600
	},
	{
	"epoch": 0.9643473058107205,
	"grad_norm": 16.267335891723633,
	"learning_rate": 3.7696840129314844e-05,
	"loss": 2.8373,
	"step": 13700
	},
	{
	"epoch": 0.9713863372399958,
	"grad_norm": 15.711287498474121,
	"learning_rate": 3.756648242778184e-05,
	"loss": 2.9,
	"step": 13800
	},
	{
	"epoch": 0.9784253686692711,
	"grad_norm": 26.957563400268555,
	"learning_rate": 3.7436124726248825e-05,
	"loss": 2.9499,
	"step": 13900
	},
	{
	"epoch": 0.9854644000985464,
	"grad_norm": 11.875740051269531,
	"learning_rate": 3.730576702471582e-05,
	"loss": 2.7061,
	"step": 14000
	},
	{
	"epoch": 0.9854644000985464,
	"eval_runtime": 192.2723,
	"eval_samples_per_second": 147.775,
	"eval_steps_per_second": 18.474,
	"step": 14000
	},
	{
	"epoch": 0.9925034315278217,
	"grad_norm": 21.315786361694336,
	"learning_rate": 3.717540932318281e-05,
	"loss": 2.8303,
	"step": 14100
	},
	{
	"epoch": 0.9995424629570971,
	"grad_norm": 13.713945388793945,
	"learning_rate": 3.704505162164981e-05,
	"loss": 2.7378,
	"step": 14200
	},
	{
	"epoch": 1.0065814943863725,
	"grad_norm": 16.48957633972168,
	"learning_rate": 3.69146939201168e-05,
	"loss": 2.7313,
	"step": 14300
	},
	{
	"epoch": 1.0136205258156479,
	"grad_norm": 19.689464569091797,
	"learning_rate": 3.6784336218583796e-05,
	"loss": 2.7612,
	"step": 14400
	},
	{
	"epoch": 1.020659557244923,
	"grad_norm": 19.848342895507812,
	"learning_rate": 3.665397851705079e-05,
	"loss": 2.8205,
	"step": 14500
	},
	{
	"epoch": 1.020659557244923,
	"eval_runtime": 193.2356,
	"eval_samples_per_second": 147.038,
	"eval_steps_per_second": 18.382,
	"step": 14500
	},
	{
	"epoch": 1.0276985886741985,
	"grad_norm": 23.994319915771484,
	"learning_rate": 3.6523620815517784e-05,
	"loss": 2.7362,
	"step": 14600
	},
	{
	"epoch": 1.0347376201034737,
	"grad_norm": 16.060455322265625,
	"learning_rate": 3.639326311398478e-05,
	"loss": 2.8076,
	"step": 14700
	},
	{
	"epoch": 1.0417766515327491,
	"grad_norm": 17.874704360961914,
	"learning_rate": 3.626290541245177e-05,
	"loss": 2.6903,
	"step": 14800
	},
	{
	"epoch": 1.0488156829620243,
	"grad_norm": 15.949551582336426,
	"learning_rate": 3.613254771091876e-05,
	"loss": 2.7765,
	"step": 14900
	},
	{
	"epoch": 1.0558547143912997,
	"grad_norm": 17.344772338867188,
	"learning_rate": 3.6002190009385754e-05,
	"loss": 2.9004,
	"step": 15000
	},
	{
	"epoch": 1.0558547143912997,
	"eval_runtime": 194.9228,
	"eval_samples_per_second": 145.765,
	"eval_steps_per_second": 18.223,
	"step": 15000
	},
	{
	"epoch": 1.0628937458205752,
	"grad_norm": 13.621015548706055,
	"learning_rate": 3.587183230785275e-05,
	"loss": 2.7808,
	"step": 15100
	},
	{
	"epoch": 1.0699327772498504,
	"grad_norm": 21.069551467895508,
	"learning_rate": 3.574147460631974e-05,
	"loss": 2.7421,
	"step": 15200
	},
	{
	"epoch": 1.0769718086791258,
	"grad_norm": 15.854650497436523,
	"learning_rate": 3.5611116904786736e-05,
	"loss": 2.7086,
	"step": 15300
	},
	{
	"epoch": 1.084010840108401,
	"grad_norm": 19.217153549194336,
	"learning_rate": 3.548075920325373e-05,
	"loss": 2.7957,
	"step": 15400
	},
	{
	"epoch": 1.0910498715376764,
	"grad_norm": 20.781291961669922,
	"learning_rate": 3.5350401501720724e-05,
	"loss": 2.8039,
	"step": 15500
	},
	{
	"epoch": 1.0910498715376764,
	"eval_runtime": 192.3565,
	"eval_samples_per_second": 147.71,
	"eval_steps_per_second": 18.466,
	"step": 15500
	},
	{
	"epoch": 1.0980889029669518,
	"grad_norm": 15.170364379882812,
	"learning_rate": 3.522004380018772e-05,
	"loss": 2.7992,
	"step": 15600
	},
	{
	"epoch": 1.105127934396227,
	"grad_norm": 18.8775634765625,
	"learning_rate": 3.508968609865471e-05,
	"loss": 2.7919,
	"step": 15700
	},
	{
	"epoch": 1.1121669658255025,
	"grad_norm": 19.009754180908203,
	"learning_rate": 3.4959328397121706e-05,
	"loss": 2.7361,
	"step": 15800
	},
	{
	"epoch": 1.1192059972547777,
	"grad_norm": 14.632086753845215,
	"learning_rate": 3.48289706955887e-05,
	"loss": 2.8233,
	"step": 15900
	},
	{
	"epoch": 1.126245028684053,
	"grad_norm": 20.006601333618164,
	"learning_rate": 3.469861299405569e-05,
	"loss": 2.738,
	"step": 16000
	},
	{
	"epoch": 1.126245028684053,
	"eval_runtime": 194.9892,
	"eval_samples_per_second": 145.716,
	"eval_steps_per_second": 18.216,
	"step": 16000
	},
	{
	"epoch": 1.1332840601133285,
	"grad_norm": 14.096820831298828,
	"learning_rate": 3.456825529252268e-05,
	"loss": 2.8094,
	"step": 16100
	},
	{
	"epoch": 1.1403230915426037,
	"grad_norm": 17.261428833007812,
	"learning_rate": 3.4437897590989676e-05,
	"loss": 2.8108,
	"step": 16200
	},
	{
	"epoch": 1.1473621229718791,
	"grad_norm": 14.972962379455566,
	"learning_rate": 3.430753988945667e-05,
	"loss": 2.8055,
	"step": 16300
	},
	{
	"epoch": 1.1544011544011543,
	"grad_norm": 14.345026969909668,
	"learning_rate": 3.4177182187923664e-05,
	"loss": 2.7363,
	"step": 16400
	},
	{
	"epoch": 1.1614401858304297,
	"grad_norm": 15.4429292678833,
	"learning_rate": 3.404682448639065e-05,
	"loss": 2.8642,
	"step": 16500
	},
	{
	"epoch": 1.1614401858304297,
	"eval_runtime": 194.218,
	"eval_samples_per_second": 146.294,
	"eval_steps_per_second": 18.289,
	"step": 16500
	},
	{
	"epoch": 1.1684792172597052,
	"grad_norm": 13.637730598449707,
	"learning_rate": 3.391646678485765e-05,
	"loss": 2.6802,
	"step": 16600
	},
	{
	"epoch": 1.1755182486889804,
	"grad_norm": 16.29159927368164,
	"learning_rate": 3.3786109083324647e-05,
	"loss": 2.7796,
	"step": 16700
	},
	{
	"epoch": 1.1825572801182558,
	"grad_norm": 16.733455657958984,
	"learning_rate": 3.365575138179164e-05,
	"loss": 2.8216,
	"step": 16800
	},
	{
	"epoch": 1.189596311547531,
	"grad_norm": 20.382347106933594,
	"learning_rate": 3.3525393680258635e-05,
	"loss": 2.6737,
	"step": 16900
	},
	{
	"epoch": 1.1966353429768064,
	"grad_norm": 18.506607055664062,
	"learning_rate": 3.339503597872562e-05,
	"loss": 2.7144,
	"step": 17000
	},
	{
	"epoch": 1.1966353429768064,
	"eval_runtime": 192.527,
	"eval_samples_per_second": 147.579,
	"eval_steps_per_second": 18.449,
	"step": 17000
	},
	{
	"epoch": 1.2036743744060816,
	"grad_norm": 16.080759048461914,
	"learning_rate": 3.3264678277192616e-05,
	"loss": 2.8013,
	"step": 17100
	},
	{
	"epoch": 1.210713405835357,
	"grad_norm": 16.123552322387695,
	"learning_rate": 3.313432057565961e-05,
	"loss": 2.7444,
	"step": 17200
	},
	{
	"epoch": 1.2177524372646324,
	"grad_norm": 16.878711700439453,
	"learning_rate": 3.3003962874126604e-05,
	"loss": 2.8241,
	"step": 17300
	},
	{
	"epoch": 1.2247914686939076,
	"grad_norm": 18.64569854736328,
	"learning_rate": 3.28736051725936e-05,
	"loss": 2.684,
	"step": 17400
	},
	{
	"epoch": 1.231830500123183,
	"grad_norm": 16.125022888183594,
	"learning_rate": 3.274324747106059e-05,
	"loss": 2.8633,
	"step": 17500
	},
	{
	"epoch": 1.231830500123183,
	"eval_runtime": 193.4861,
	"eval_samples_per_second": 146.848,
	"eval_steps_per_second": 18.358,
	"step": 17500
	},
	{
	"epoch": 1.2388695315524583,
	"grad_norm": 13.886027336120605,
	"learning_rate": 3.261288976952758e-05,
	"loss": 2.7536,
	"step": 17600
	},
	{
	"epoch": 1.2459085629817337,
	"grad_norm": 15.769869804382324,
	"learning_rate": 3.248253206799458e-05,
	"loss": 2.7889,
	"step": 17700
	},
	{
	"epoch": 1.2529475944110091,
	"grad_norm": 19.419034957885742,
	"learning_rate": 3.2352174366461575e-05,
	"loss": 2.7672,
	"step": 17800
	},
	{
	"epoch": 1.2599866258402843,
	"grad_norm": 18.742015838623047,
	"learning_rate": 3.222181666492857e-05,
	"loss": 2.7427,
	"step": 17900
	},
	{
	"epoch": 1.2670256572695597,
	"grad_norm": 18.40927505493164,
	"learning_rate": 3.209145896339556e-05,
	"loss": 2.7596,
	"step": 18000
	},
	{
	"epoch": 1.2670256572695597,
	"eval_runtime": 194.1066,
	"eval_samples_per_second": 146.378,
	"eval_steps_per_second": 18.299,
	"step": 18000
	},
	{
	"epoch": 1.274064688698835,
	"grad_norm": 21.27202033996582,
	"learning_rate": 3.196110126186255e-05,
	"loss": 2.7888,
	"step": 18100
	},
	{
	"epoch": 1.2811037201281104,
	"grad_norm": 13.953824043273926,
	"learning_rate": 3.1830743560329545e-05,
	"loss": 2.7347,
	"step": 18200
	},
	{
	"epoch": 1.2881427515573858,
	"grad_norm": 16.453821182250977,
	"learning_rate": 3.170038585879654e-05,
	"loss": 2.8821,
	"step": 18300
	},
	{
	"epoch": 1.295181782986661,
	"grad_norm": 16.67236328125,
	"learning_rate": 3.157002815726353e-05,
	"loss": 2.8431,
	"step": 18400
	},
	{
	"epoch": 1.3022208144159364,
	"grad_norm": 13.558029174804688,
	"learning_rate": 3.143967045573053e-05,
	"loss": 2.7499,
	"step": 18500
	},
	{
	"epoch": 1.3022208144159364,
	"eval_runtime": 192.4964,
	"eval_samples_per_second": 147.603,
	"eval_steps_per_second": 18.452,
	"step": 18500
	},
	{
	"epoch": 1.3092598458452116,
	"grad_norm": 15.34234619140625,
	"learning_rate": 3.1309312754197514e-05,
	"loss": 2.8225,
	"step": 18600
	},
	{
	"epoch": 1.316298877274487,
	"grad_norm": 14.304731369018555,
	"learning_rate": 3.117895505266451e-05,
	"loss": 2.8369,
	"step": 18700
	},
	{
	"epoch": 1.3233379087037624,
	"grad_norm": 17.345626831054688,
	"learning_rate": 3.104859735113151e-05,
	"loss": 2.6865,
	"step": 18800
	},
	{
	"epoch": 1.3303769401330376,
	"grad_norm": 16.954349517822266,
	"learning_rate": 3.09182396495985e-05,
	"loss": 2.741,
	"step": 18900
	},
	{
	"epoch": 1.337415971562313,
	"grad_norm": 17.250642776489258,
	"learning_rate": 3.07878819480655e-05,
	"loss": 2.8111,
	"step": 19000
	},
	{
	"epoch": 1.337415971562313,
	"eval_runtime": 192.7825,
	"eval_samples_per_second": 147.384,
	"eval_steps_per_second": 18.425,
	"step": 19000
	},
	{
	"epoch": 1.3444550029915883,
	"grad_norm": 17.004776000976562,
	"learning_rate": 3.0657524246532485e-05,
	"loss": 2.7594,
	"step": 19100
	},
	{
	"epoch": 1.3514940344208637,
	"grad_norm": 15.450813293457031,
	"learning_rate": 3.052716654499948e-05,
	"loss": 2.6522,
	"step": 19200
	},
	{
	"epoch": 1.358533065850139,
	"grad_norm": 15.58588981628418,
	"learning_rate": 3.0396808843466473e-05,
	"loss": 2.8346,
	"step": 19300
	},
	{
	"epoch": 1.3655720972794143,
	"grad_norm": 23.079944610595703,
	"learning_rate": 3.0266451141933467e-05,
	"loss": 2.829,
	"step": 19400
	},
	{
	"epoch": 1.3726111287086897,
	"grad_norm": 23.278108596801758,
	"learning_rate": 3.0136093440400458e-05,
	"loss": 2.809,
	"step": 19500
	},
	{
	"epoch": 1.3726111287086897,
	"eval_runtime": 191.7654,
	"eval_samples_per_second": 148.165,
	"eval_steps_per_second": 18.523,
	"step": 19500
	},
	{
	"epoch": 1.379650160137965,
	"grad_norm": 12.144103050231934,
	"learning_rate": 3.0005735738867452e-05,
	"loss": 2.5999,
	"step": 19600
	},
	{
	"epoch": 1.3866891915672404,
	"grad_norm": 18.378664016723633,
	"learning_rate": 2.9875378037334446e-05,
	"loss": 2.8226,
	"step": 19700
	},
	{
	"epoch": 1.3937282229965158,
	"grad_norm": 15.180033683776855,
	"learning_rate": 2.9745020335801437e-05,
	"loss": 2.7773,
	"step": 19800
	},
	{
	"epoch": 1.400767254425791,
	"grad_norm": 16.611019134521484,
	"learning_rate": 2.9614662634268438e-05,
	"loss": 2.7171,
	"step": 19900
	},
	{
	"epoch": 1.4078062858550664,
	"grad_norm": 14.491551399230957,
	"learning_rate": 2.948430493273543e-05,
	"loss": 2.7234,
	"step": 20000
	},
	{
	"epoch": 1.4078062858550664,
	"eval_runtime": 192.2568,
	"eval_samples_per_second": 147.787,
	"eval_steps_per_second": 18.475,
	"step": 20000
	},
	{
	"epoch": 1.4148453172843416,
	"grad_norm": 15.652689933776855,
	"learning_rate": 2.9353947231202422e-05,
	"loss": 2.6237,
	"step": 20100
	},
	{
	"epoch": 1.421884348713617,
	"grad_norm": 16.404693603515625,
	"learning_rate": 2.9223589529669417e-05,
	"loss": 2.7363,
	"step": 20200
	},
	{
	"epoch": 1.4289233801428924,
	"grad_norm": 13.620403289794922,
	"learning_rate": 2.9093231828136407e-05,
	"loss": 2.7651,
	"step": 20300
	},
	{
	"epoch": 1.4359624115721676,
	"grad_norm": 16.975452423095703,
	"learning_rate": 2.89628741266034e-05,
	"loss": 2.8431,
	"step": 20400
	},
	{
	"epoch": 1.443001443001443,
	"grad_norm": 16.957857131958008,
	"learning_rate": 2.8832516425070395e-05,
	"loss": 2.7442,
	"step": 20500
	},
	{
	"epoch": 1.443001443001443,
	"eval_runtime": 192.9203,
	"eval_samples_per_second": 147.278,
	"eval_steps_per_second": 18.412,
	"step": 20500
	},
	{
	"epoch": 1.4500404744307183,
	"grad_norm": 15.085665702819824,
	"learning_rate": 2.8702158723537386e-05,
	"loss": 2.6764,
	"step": 20600
	},
	{
	"epoch": 1.4570795058599937,
	"grad_norm": 15.870454788208008,
	"learning_rate": 2.857180102200438e-05,
	"loss": 2.6491,
	"step": 20700
	},
	{
	"epoch": 1.464118537289269,
	"grad_norm": 15.54505729675293,
	"learning_rate": 2.844144332047137e-05,
	"loss": 2.785,
	"step": 20800
	},
	{
	"epoch": 1.4711575687185443,
	"grad_norm": 16.786861419677734,
	"learning_rate": 2.8311085618938365e-05,
	"loss": 2.656,
	"step": 20900
	},
	{
	"epoch": 1.4781966001478197,
	"grad_norm": 17.03700828552246,
	"learning_rate": 2.8180727917405363e-05,
	"loss": 2.7337,
	"step": 21000
	},
	{
	"epoch": 1.4781966001478197,
	"eval_runtime": 194.0613,
	"eval_samples_per_second": 146.413,
	"eval_steps_per_second": 18.303,
	"step": 21000
	},
	{
	"epoch": 1.485235631577095,
	"grad_norm": 15.768280982971191,
	"learning_rate": 2.8050370215872357e-05,
	"loss": 2.7419,
	"step": 21100
	},
	{
	"epoch": 1.4922746630063703,
	"grad_norm": 16.70868682861328,
	"learning_rate": 2.792001251433935e-05,
	"loss": 2.7001,
	"step": 21200
	},
	{
	"epoch": 1.4993136944356458,
	"grad_norm": 15.003129005432129,
	"learning_rate": 2.778965481280634e-05,
	"loss": 2.6372,
	"step": 21300
	},
	{
	"epoch": 1.506352725864921,
	"grad_norm": 15.321432113647461,
	"learning_rate": 2.7659297111273336e-05,
	"loss": 2.734,
	"step": 21400
	},
	{
	"epoch": 1.5133917572941962,
	"grad_norm": 12.912035942077637,
	"learning_rate": 2.752893940974033e-05,
	"loss": 2.6854,
	"step": 21500
	},
	{
	"epoch": 1.5133917572941962,
	"eval_runtime": 192.892,
	"eval_samples_per_second": 147.3,
	"eval_steps_per_second": 18.414,
	"step": 21500
	},
	{
	"epoch": 1.5204307887234716,
	"grad_norm": 17.954883575439453,
	"learning_rate": 2.739858170820732e-05,
	"loss": 2.6843,
	"step": 21600
	},
	{
	"epoch": 1.527469820152747,
	"grad_norm": 20.32744026184082,
	"learning_rate": 2.7268224006674315e-05,
	"loss": 2.6404,
	"step": 21700
	},
	{
	"epoch": 1.5345088515820224,
	"grad_norm": 14.839242935180664,
	"learning_rate": 2.713786630514131e-05,
	"loss": 2.7235,
	"step": 21800
	},
	{
	"epoch": 1.5415478830112976,
	"grad_norm": 15.594539642333984,
	"learning_rate": 2.70075086036083e-05,
	"loss": 2.6163,
	"step": 21900
	},
	{
	"epoch": 1.5485869144405728,
	"grad_norm": 14.877588272094727,
	"learning_rate": 2.6877150902075294e-05,
	"loss": 2.6331,
	"step": 22000
	},
	{
	"epoch": 1.5485869144405728,
	"eval_runtime": 191.7338,
	"eval_samples_per_second": 148.19,
	"eval_steps_per_second": 18.526,
	"step": 22000
	},
	{
	"epoch": 1.5556259458698483,
	"grad_norm": 14.593866348266602,
	"learning_rate": 2.674679320054229e-05,
	"loss": 2.7969,
	"step": 22100
	},
	{
	"epoch": 1.5626649772991237,
	"grad_norm": 22.533540725708008,
	"learning_rate": 2.6616435499009285e-05,
	"loss": 2.7841,
	"step": 22200
	},
	{
	"epoch": 1.569704008728399,
	"grad_norm": 16.089982986450195,
	"learning_rate": 2.6486077797476276e-05,
	"loss": 2.667,
	"step": 22300
	},
	{
	"epoch": 1.5767430401576743,
	"grad_norm": 17.49601936340332,
	"learning_rate": 2.635572009594327e-05,
	"loss": 2.7963,
	"step": 22400
	},
	{
	"epoch": 1.5837820715869495,
	"grad_norm": 17.72164535522461,
	"learning_rate": 2.6225362394410264e-05,
	"loss": 2.7669,
	"step": 22500
	},
	{
	"epoch": 1.5837820715869495,
	"eval_runtime": 191.4019,
	"eval_samples_per_second": 148.447,
	"eval_steps_per_second": 18.558,
	"step": 22500
	},
	{
	"epoch": 1.590821103016225,
	"grad_norm": 14.238466262817383,
	"learning_rate": 2.6095004692877255e-05,
	"loss": 2.732,
	"step": 22600
	},
	{
	"epoch": 1.5978601344455003,
	"grad_norm": 19.9779052734375,
	"learning_rate": 2.596464699134425e-05,
	"loss": 2.7353,
	"step": 22700
	},
	{
	"epoch": 1.6048991658747758,
	"grad_norm": 16.89205551147461,
	"learning_rate": 2.5834289289811243e-05,
	"loss": 2.7311,
	"step": 22800
	},
	{
	"epoch": 1.611938197304051,
	"grad_norm": 13.072985649108887,
	"learning_rate": 2.5703931588278234e-05,
	"loss": 2.6313,
	"step": 22900
	},
	{
	"epoch": 1.6189772287333262,
	"grad_norm": 22.408113479614258,
	"learning_rate": 2.5573573886745228e-05,
	"loss": 2.605,
	"step": 23000
	},
	{
	"epoch": 1.6189772287333262,
	"eval_runtime": 192.574,
	"eval_samples_per_second": 147.543,
	"eval_steps_per_second": 18.445,
	"step": 23000
	},
	{
	"epoch": 1.6260162601626016,
	"grad_norm": 21.51888084411621,
	"learning_rate": 2.5443216185212222e-05,
	"loss": 2.5964,
	"step": 23100
	},
	{
	"epoch": 1.633055291591877,
	"grad_norm": 20.486024856567383,
	"learning_rate": 2.531285848367922e-05,
	"loss": 2.6883,
	"step": 23200
	},
	{
	"epoch": 1.6400943230211524,
	"grad_norm": 17.860441207885742,
	"learning_rate": 2.5182500782146214e-05,
	"loss": 2.7572,
	"step": 23300
	},
	{
	"epoch": 1.6471333544504276,
	"grad_norm": 19.4054012298584,
	"learning_rate": 2.5052143080613204e-05,
	"loss": 2.7643,
	"step": 23400
	},
	{
	"epoch": 1.6541723858797028,
	"grad_norm": 15.56551742553711,
	"learning_rate": 2.49217853790802e-05,
	"loss": 2.6638,
	"step": 23500
	},
	{
	"epoch": 1.6541723858797028,
	"eval_runtime": 192.3359,
	"eval_samples_per_second": 147.726,
	"eval_steps_per_second": 18.468,
	"step": 23500
	},
	{
	"epoch": 1.6612114173089783,
	"grad_norm": 22.051755905151367,
	"learning_rate": 2.4791427677547192e-05,
	"loss": 2.6905,
	"step": 23600
	},
	{
	"epoch": 1.6682504487382537,
	"grad_norm": 19.55982208251953,
	"learning_rate": 2.4661069976014183e-05,
	"loss": 2.7178,
	"step": 23700
	},
	{
	"epoch": 1.675289480167529,
	"grad_norm": 14.777819633483887,
	"learning_rate": 2.4530712274481177e-05,
	"loss": 2.6219,
	"step": 23800
	},
	{
	"epoch": 1.6823285115968043,
	"grad_norm": 15.4576997756958,
	"learning_rate": 2.440035457294817e-05,
	"loss": 2.6425,
	"step": 23900
	},
	{
	"epoch": 1.6893675430260795,
	"grad_norm": 18.520376205444336,
	"learning_rate": 2.4269996871415165e-05,
	"loss": 2.6541,
	"step": 24000
	},
	{
	"epoch": 1.6893675430260795,
	"eval_runtime": 191.8782,
	"eval_samples_per_second": 148.078,
	"eval_steps_per_second": 18.512,
	"step": 24000
	},
	{
	"epoch": 1.696406574455355,
	"grad_norm": 18.677989959716797,
	"learning_rate": 2.413963916988216e-05,
	"loss": 2.7502,
	"step": 24100
	},
	{
	"epoch": 1.7034456058846303,
	"grad_norm": 19.01474380493164,
	"learning_rate": 2.400928146834915e-05,
	"loss": 2.5849,
	"step": 24200
	},
	{
	"epoch": 1.7104846373139058,
	"grad_norm": 14.854390144348145,
	"learning_rate": 2.3878923766816144e-05,
	"loss": 2.6224,
	"step": 24300
	},
	{
	"epoch": 1.717523668743181,
	"grad_norm": 16.40928077697754,
	"learning_rate": 2.374856606528314e-05,
	"loss": 2.6996,
	"step": 24400
	},
	{
	"epoch": 1.7245627001724562,
	"grad_norm": 14.962175369262695,
	"learning_rate": 2.3618208363750133e-05,
	"loss": 2.6928,
	"step": 24500
	},
	{
	"epoch": 1.7245627001724562,
	"eval_runtime": 194.5262,
	"eval_samples_per_second": 146.063,
	"eval_steps_per_second": 18.26,
	"step": 24500
	},
	{
	"epoch": 1.7316017316017316,
	"grad_norm": 19.39845085144043,
	"learning_rate": 2.3487850662217127e-05,
	"loss": 2.7458,
	"step": 24600
	},
	{
	"epoch": 1.738640763031007,
	"grad_norm": 16.46622085571289,
	"learning_rate": 2.3357492960684117e-05,
	"loss": 2.7465,
	"step": 24700
	},
	{
	"epoch": 1.7456797944602824,
	"grad_norm": 17.756010055541992,
	"learning_rate": 2.322713525915111e-05,
	"loss": 2.7617,
	"step": 24800
	},
	{
	"epoch": 1.7527188258895576,
	"grad_norm": 17.55894660949707,
	"learning_rate": 2.3096777557618106e-05,
	"loss": 2.6085,
	"step": 24900
	},
	{
	"epoch": 1.7597578573188328,
	"grad_norm": 16.707901000976562,
	"learning_rate": 2.2966419856085096e-05,
	"loss": 2.6305,
	"step": 25000
	},
	{
	"epoch": 1.7597578573188328,
	"eval_runtime": 191.9564,
	"eval_samples_per_second": 148.018,
	"eval_steps_per_second": 18.504,
	"step": 25000
	},
	{
	"epoch": 1.7667968887481083,
	"grad_norm": 21.4102840423584,
	"learning_rate": 2.2836062154552094e-05,
	"loss": 2.7509,
	"step": 25100
	},
	{
	"epoch": 1.7738359201773837,
	"grad_norm": 21.17198944091797,
	"learning_rate": 2.2705704453019085e-05,
	"loss": 2.6602,
	"step": 25200
	},
	{
	"epoch": 1.7808749516066589,
	"grad_norm": 14.665617942810059,
	"learning_rate": 2.257534675148608e-05,
	"loss": 2.6576,
	"step": 25300
	},
	{
	"epoch": 1.7879139830359343,
	"grad_norm": 18.63422393798828,
	"learning_rate": 2.2444989049953073e-05,
	"loss": 2.6682,
	"step": 25400
	},
	{
	"epoch": 1.7949530144652095,
	"grad_norm": 20.478769302368164,
	"learning_rate": 2.2314631348420064e-05,
	"loss": 2.5733,
	"step": 25500
	},
	{
	"epoch": 1.7949530144652095,
	"eval_runtime": 194.5888,
	"eval_samples_per_second": 146.016,
	"eval_steps_per_second": 18.254,
	"step": 25500
	},
	{
	"epoch": 1.801992045894485,
	"grad_norm": 13.144091606140137,
	"learning_rate": 2.218427364688706e-05,
	"loss": 2.5946,
	"step": 25600
	},
	{
	"epoch": 1.8090310773237603,
	"grad_norm": 22.20168685913086,
	"learning_rate": 2.2053915945354052e-05,
	"loss": 2.7029,
	"step": 25700
	},
	{
	"epoch": 1.8160701087530355,
	"grad_norm": 17.39105796813965,
	"learning_rate": 2.1923558243821046e-05,
	"loss": 2.7007,
	"step": 25800
	},
	{
	"epoch": 1.823109140182311,
	"grad_norm": 16.70639419555664,
	"learning_rate": 2.179320054228804e-05,
	"loss": 2.6011,
	"step": 25900
	},
	{
	"epoch": 1.8301481716115862,
	"grad_norm": 23.447750091552734,
	"learning_rate": 2.166284284075503e-05,
	"loss": 2.682,
	"step": 26000
	},
	{
	"epoch": 1.8301481716115862,
	"eval_runtime": 192.912,
	"eval_samples_per_second": 147.285,
	"eval_steps_per_second": 18.413,
	"step": 26000
	},
	{
	"epoch": 1.8371872030408616,
	"grad_norm": 20.410226821899414,
	"learning_rate": 2.1532485139222025e-05,
	"loss": 2.7565,
	"step": 26100
	},
	{
	"epoch": 1.844226234470137,
	"grad_norm": 20.64243507385254,
	"learning_rate": 2.1402127437689022e-05,
	"loss": 2.566,
	"step": 26200
	},
	{
	"epoch": 1.8512652658994122,
	"grad_norm": 15.64989185333252,
	"learning_rate": 2.1271769736156013e-05,
	"loss": 2.7237,
	"step": 26300
	},
	{
	"epoch": 1.8583042973286876,
	"grad_norm": 13.451628684997559,
	"learning_rate": 2.1141412034623007e-05,
	"loss": 2.6218,
	"step": 26400
	},
	{
	"epoch": 1.8653433287579628,
	"grad_norm": 16.763063430786133,
	"learning_rate": 2.1011054333089998e-05,
	"loss": 2.5891,
	"step": 26500
	},
	{
	"epoch": 1.8653433287579628,
	"eval_runtime": 191.7231,
	"eval_samples_per_second": 148.198,
	"eval_steps_per_second": 18.527,
	"step": 26500
	},
	{
	"epoch": 1.8723823601872382,
	"grad_norm": 16.719079971313477,
	"learning_rate": 2.0880696631556992e-05,
	"loss": 2.6568,
	"step": 26600
	},
	{
	"epoch": 1.8794213916165137,
	"grad_norm": 20.345216751098633,
	"learning_rate": 2.075033893002399e-05,
	"loss": 2.5889,
	"step": 26700
	},
	{
	"epoch": 1.8864604230457889,
	"grad_norm": 13.290498733520508,
	"learning_rate": 2.061998122849098e-05,
	"loss": 2.6915,
	"step": 26800
	},
	{
	"epoch": 1.893499454475064,
	"grad_norm": 26.90572738647461,
	"learning_rate": 2.0489623526957974e-05,
	"loss": 2.6635,
	"step": 26900
	},
	{
	"epoch": 1.9005384859043395,
	"grad_norm": 12.706587791442871,
	"learning_rate": 2.035926582542497e-05,
	"loss": 2.6886,
	"step": 27000
	},
	{
	"epoch": 1.9005384859043395,
	"eval_runtime": 193.671,
	"eval_samples_per_second": 146.708,
	"eval_steps_per_second": 18.34,
	"step": 27000
	},
	{
	"epoch": 1.907577517333615,
	"grad_norm": 19.337390899658203,
	"learning_rate": 2.022890812389196e-05,
	"loss": 2.5446,
	"step": 27100
	},
	{
	"epoch": 1.9146165487628903,
	"grad_norm": 16.442127227783203,
	"learning_rate": 2.0098550422358953e-05,
	"loss": 2.6562,
	"step": 27200
	},
	{
	"epoch": 1.9216555801921655,
	"grad_norm": 17.196496963500977,
	"learning_rate": 1.9968192720825947e-05,
	"loss": 2.5869,
	"step": 27300
	},
	{
	"epoch": 1.9286946116214407,
	"grad_norm": 15.884928703308105,
	"learning_rate": 1.983783501929294e-05,
	"loss": 2.6127,
	"step": 27400
	},
	{
	"epoch": 1.9357336430507162,
	"grad_norm": 15.426615715026855,
	"learning_rate": 1.9707477317759935e-05,
	"loss": 2.6043,
	"step": 27500
	},
	{
	"epoch": 1.9357336430507162,
	"eval_runtime": 193.4431,
	"eval_samples_per_second": 146.88,
	"eval_steps_per_second": 18.362,
	"step": 27500
	},
	{
	"epoch": 1.9427726744799916,
	"grad_norm": 20.6138858795166,
	"learning_rate": 1.9577119616226926e-05,
	"loss": 2.6387,
	"step": 27600
	},
	{
	"epoch": 1.949811705909267,
	"grad_norm": 14.545782089233398,
	"learning_rate": 1.944676191469392e-05,
	"loss": 2.7687,
	"step": 27700
	},
	{
	"epoch": 1.9568507373385422,
	"grad_norm": 15.325973510742188,
	"learning_rate": 1.9316404213160914e-05,
	"loss": 2.6876,
	"step": 27800
	},
	{
	"epoch": 1.9638897687678174,
	"grad_norm": 16.72733497619629,
	"learning_rate": 1.918604651162791e-05,
	"loss": 2.6131,
	"step": 27900
	},
	{
	"epoch": 1.9709288001970928,
	"grad_norm": 22.076963424682617,
	"learning_rate": 1.9055688810094903e-05,
	"loss": 2.7044,
	"step": 28000
	},
	{
	"epoch": 1.9709288001970928,
	"eval_runtime": 192.6043,
	"eval_samples_per_second": 147.52,
	"eval_steps_per_second": 18.442,
	"step": 28000
	},
	{
	"epoch": 1.9779678316263682,
	"grad_norm": 17.05091094970703,
	"learning_rate": 1.8925331108561893e-05,
	"loss": 2.6023,
	"step": 28100
	},
	{
	"epoch": 1.9850068630556437,
	"grad_norm": 17.847782135009766,
	"learning_rate": 1.8794973407028887e-05,
	"loss": 2.5752,
	"step": 28200
	},
	{
	"epoch": 1.9920458944849189,
	"grad_norm": 18.966585159301758,
	"learning_rate": 1.866461570549588e-05,
	"loss": 2.6339,
	"step": 28300
	},
	{
	"epoch": 1.999084925914194,
	"grad_norm": 18.27726173400879,
	"learning_rate": 1.8534258003962876e-05,
	"loss": 2.6527,
	"step": 28400
	},
	{
	"epoch": 2.0061239573434695,
	"grad_norm": 16.40408706665039,
	"learning_rate": 1.840390030242987e-05,
	"loss": 2.6285,
	"step": 28500
	},
	{
	"epoch": 2.0061239573434695,
	"eval_runtime": 192.5321,
	"eval_samples_per_second": 147.575,
	"eval_steps_per_second": 18.449,
	"step": 28500
	},
	{
	"epoch": 2.013162988772745,
	"grad_norm": 13.299867630004883,
	"learning_rate": 1.827354260089686e-05,
	"loss": 2.6401,
	"step": 28600
	},
	{
	"epoch": 2.0202020202020203,
	"grad_norm": 16.995622634887695,
	"learning_rate": 1.8143184899363855e-05,
	"loss": 2.5986,
	"step": 28700
	},
	{
	"epoch": 2.0272410516312958,
	"grad_norm": 18.69041633605957,
	"learning_rate": 1.801282719783085e-05,
	"loss": 2.644,
	"step": 28800
	},
	{
	"epoch": 2.0342800830605707,
	"grad_norm": 20.12238883972168,
	"learning_rate": 1.7882469496297843e-05,
	"loss": 2.6802,
	"step": 28900
	},
	{
	"epoch": 2.041319114489846,
	"grad_norm": 14.631281852722168,
	"learning_rate": 1.7752111794764837e-05,
	"loss": 2.6362,
	"step": 29000
	},
	{
	"epoch": 2.041319114489846,
	"eval_runtime": 193.4189,
	"eval_samples_per_second": 146.899,
	"eval_steps_per_second": 18.364,
	"step": 29000
	},
	{
	"epoch": 2.0483581459191216,
	"grad_norm": 16.323118209838867,
	"learning_rate": 1.7621754093231828e-05,
	"loss": 2.6249,
	"step": 29100
	},
	{
	"epoch": 2.055397177348397,
	"grad_norm": 14.623433113098145,
	"learning_rate": 1.7491396391698822e-05,
	"loss": 2.6324,
	"step": 29200
	},
	{
	"epoch": 2.062436208777672,
	"grad_norm": 19.917098999023438,
	"learning_rate": 1.7361038690165816e-05,
	"loss": 2.6893,
	"step": 29300
	},
	{
	"epoch": 2.0694752402069474,
	"grad_norm": 14.357760429382324,
	"learning_rate": 1.7230680988632807e-05,
	"loss": 2.5841,
	"step": 29400
	},
	{
	"epoch": 2.076514271636223,
	"grad_norm": 15.798065185546875,
	"learning_rate": 1.7100323287099804e-05,
	"loss": 2.6374,
	"step": 29500
	},
	{
	"epoch": 2.076514271636223,
	"eval_runtime": 191.4525,
	"eval_samples_per_second": 148.408,
	"eval_steps_per_second": 18.553,
	"step": 29500
	},
	{
	"epoch": 2.0835533030654982,
	"grad_norm": 19.128459930419922,
	"learning_rate": 1.6969965585566798e-05,
	"loss": 2.6451,
	"step": 29600
	},
	{
	"epoch": 2.0905923344947737,
	"grad_norm": 22.39739990234375,
	"learning_rate": 1.683960788403379e-05,
	"loss": 2.6732,
	"step": 29700
	},
	{
	"epoch": 2.0976313659240486,
	"grad_norm": 21.8306827545166,
	"learning_rate": 1.6709250182500783e-05,
	"loss": 2.6381,
	"step": 29800
	},
	{
	"epoch": 2.104670397353324,
	"grad_norm": 16.79404640197754,
	"learning_rate": 1.6578892480967774e-05,
	"loss": 2.6643,
	"step": 29900
	},
	{
	"epoch": 2.1117094287825995,
	"grad_norm": 20.273427963256836,
	"learning_rate": 1.644853477943477e-05,
	"loss": 2.6409,
	"step": 30000
	},
	{
	"epoch": 2.1117094287825995,
	"eval_runtime": 192.3103,
	"eval_samples_per_second": 147.746,
	"eval_steps_per_second": 18.47,
	"step": 30000
	},
	{
	"epoch": 2.118748460211875,
	"grad_norm": 16.260501861572266,
	"learning_rate": 1.6318177077901765e-05,
	"loss": 2.6085,
	"step": 30100
	},
	{
	"epoch": 2.1257874916411503,
	"grad_norm": 17.500699996948242,
	"learning_rate": 1.6187819376368756e-05,
	"loss": 2.5923,
	"step": 30200
	},
	{
	"epoch": 2.1328265230704253,
	"grad_norm": 19.523569107055664,
	"learning_rate": 1.605746167483575e-05,
	"loss": 2.562,
	"step": 30300
	},
	{
	"epoch": 2.1398655544997007,
	"grad_norm": 16.805545806884766,
	"learning_rate": 1.5927103973302744e-05,
	"loss": 2.632,
	"step": 30400
	},
	{
	"epoch": 2.146904585928976,
	"grad_norm": 14.419663429260254,
	"learning_rate": 1.5796746271769735e-05,
	"loss": 2.6956,
	"step": 30500
	},
	{
	"epoch": 2.146904585928976,
	"eval_runtime": 192.4179,
	"eval_samples_per_second": 147.663,
	"eval_steps_per_second": 18.46,
	"step": 30500
	},
	{
	"epoch": 2.1539436173582516,
	"grad_norm": 14.469121932983398,
	"learning_rate": 1.5666388570236732e-05,
	"loss": 2.6734,
	"step": 30600
	},
	{
	"epoch": 2.160982648787527,
	"grad_norm": 14.521267890930176,
	"learning_rate": 1.5536030868703723e-05,
	"loss": 2.6272,
	"step": 30700
	},
	{
	"epoch": 2.168021680216802,
	"grad_norm": 15.565622329711914,
	"learning_rate": 1.5405673167170717e-05,
	"loss": 2.5995,
	"step": 30800
	},
	{
	"epoch": 2.1750607116460774,
	"grad_norm": 18.500350952148438,
	"learning_rate": 1.527531546563771e-05,
	"loss": 2.7019,
	"step": 30900
	},
	{
	"epoch": 2.182099743075353,
	"grad_norm": 18.180660247802734,
	"learning_rate": 1.5144957764104704e-05,
	"loss": 2.6347,
	"step": 31000
	},
	{
	"epoch": 2.182099743075353,
	"eval_runtime": 194.3931,
	"eval_samples_per_second": 146.163,
	"eval_steps_per_second": 18.272,
	"step": 31000
	},
	{
	"epoch": 2.1891387745046282,
	"grad_norm": 15.68535041809082,
	"learning_rate": 1.5014600062571698e-05,
	"loss": 2.6679,
	"step": 31100
	},
	{
	"epoch": 2.1961778059339037,
	"grad_norm": 18.195068359375,
	"learning_rate": 1.4884242361038692e-05,
	"loss": 2.6152,
	"step": 31200
	},
	{
	"epoch": 2.2032168373631786,
	"grad_norm": 19.41796875,
	"learning_rate": 1.4753884659505684e-05,
	"loss": 2.6453,
	"step": 31300
	},
	{
	"epoch": 2.210255868792454,
	"grad_norm": 16.178791046142578,
	"learning_rate": 1.4623526957972677e-05,
	"loss": 2.6175,
	"step": 31400
	},
	{
	"epoch": 2.2172949002217295,
	"grad_norm": 17.970273971557617,
	"learning_rate": 1.4493169256439671e-05,
	"loss": 2.5633,
	"step": 31500
	},
	{
	"epoch": 2.2172949002217295,
	"eval_runtime": 194.9638,
	"eval_samples_per_second": 145.735,
	"eval_steps_per_second": 18.219,
	"step": 31500
	},
	{
	"epoch": 2.224333931651005,
	"grad_norm": 13.679678916931152,
	"learning_rate": 1.4362811554906663e-05,
	"loss": 2.5433,
	"step": 31600
	},
	{
	"epoch": 2.2313729630802803,
	"grad_norm": 18.061559677124023,
	"learning_rate": 1.423245385337366e-05,
	"loss": 2.6087,
	"step": 31700
	},
	{
	"epoch": 2.2384119945095553,
	"grad_norm": 20.32142448425293,
	"learning_rate": 1.4102096151840652e-05,
	"loss": 2.6079,
	"step": 31800
	},
	{
	"epoch": 2.2454510259388307,
	"grad_norm": 16.483491897583008,
	"learning_rate": 1.3971738450307646e-05,
	"loss": 2.6693,
	"step": 31900
	},
	{
	"epoch": 2.252490057368106,
	"grad_norm": 16.30838394165039,
	"learning_rate": 1.3841380748774638e-05,
	"loss": 2.5292,
	"step": 32000
	},
	{
	"epoch": 2.252490057368106,
	"eval_runtime": 192.332,
	"eval_samples_per_second": 147.729,
	"eval_steps_per_second": 18.468,
	"step": 32000
	},
	{
	"epoch": 2.2595290887973816,
	"grad_norm": 18.353946685791016,
	"learning_rate": 1.371102304724163e-05,
	"loss": 2.7162,
	"step": 32100
	},
	{
	"epoch": 2.266568120226657,
	"grad_norm": 14.376470565795898,
	"learning_rate": 1.3580665345708626e-05,
	"loss": 2.6581,
	"step": 32200
	},
	{
	"epoch": 2.273607151655932,
	"grad_norm": 16.625110626220703,
	"learning_rate": 1.3450307644175619e-05,
	"loss": 2.5675,
	"step": 32300
	},
	{
	"epoch": 2.2806461830852074,
	"grad_norm": 17.9268798828125,
	"learning_rate": 1.3319949942642613e-05,
	"loss": 2.6001,
	"step": 32400
	},
	{
	"epoch": 2.287685214514483,
	"grad_norm": 23.196901321411133,
	"learning_rate": 1.3189592241109605e-05,
	"loss": 2.6545,
	"step": 32500
	},
	{
	"epoch": 2.287685214514483,
	"eval_runtime": 192.8693,
	"eval_samples_per_second": 147.317,
	"eval_steps_per_second": 18.417,
	"step": 32500
	},
	{
	"epoch": 2.2947242459437582,
	"grad_norm": 18.328662872314453,
	"learning_rate": 1.3059234539576598e-05,
	"loss": 2.5476,
	"step": 32600
	},
	{
	"epoch": 2.3017632773730337,
	"grad_norm": 16.62209129333496,
	"learning_rate": 1.2928876838043592e-05,
	"loss": 2.6778,
	"step": 32700
	},
	{
	"epoch": 2.3088023088023086,
	"grad_norm": 15.676456451416016,
	"learning_rate": 1.2798519136510586e-05,
	"loss": 2.6188,
	"step": 32800
	},
	{
	"epoch": 2.315841340231584,
	"grad_norm": 21.3188533782959,
	"learning_rate": 1.266816143497758e-05,
	"loss": 2.5383,
	"step": 32900
	},
	{
	"epoch": 2.3228803716608595,
	"grad_norm": 15.253218650817871,
	"learning_rate": 1.2537803733444572e-05,
	"loss": 2.6703,
	"step": 33000
	},
	{
	"epoch": 2.3228803716608595,
	"eval_runtime": 192.6821,
	"eval_samples_per_second": 147.46,
	"eval_steps_per_second": 18.435,
	"step": 33000
	},
	{
	"epoch": 2.329919403090135,
	"grad_norm": 17.341787338256836,
	"learning_rate": 1.2407446031911565e-05,
	"loss": 2.6903,
	"step": 33100
	},
	{
	"epoch": 2.3369584345194103,
	"grad_norm": 14.856354713439941,
	"learning_rate": 1.2277088330378559e-05,
	"loss": 2.5655,
	"step": 33200
	},
	{
	"epoch": 2.3439974659486853,
	"grad_norm": 17.669092178344727,
	"learning_rate": 1.2146730628845553e-05,
	"loss": 2.6723,
	"step": 33300
	},
	{
	"epoch": 2.3510364973779607,
	"grad_norm": 18.183189392089844,
	"learning_rate": 1.2016372927312545e-05,
	"loss": 2.6732,
	"step": 33400
	},
	{
	"epoch": 2.358075528807236,
	"grad_norm": 20.30499267578125,
	"learning_rate": 1.188601522577954e-05,
	"loss": 2.6527,
	"step": 33500
	},
	{
	"epoch": 2.358075528807236,
	"eval_runtime": 192.939,
	"eval_samples_per_second": 147.264,
	"eval_steps_per_second": 18.41,
	"step": 33500
	},
	{
	"epoch": 2.3651145602365116,
	"grad_norm": 22.915029525756836,
	"learning_rate": 1.1755657524246532e-05,
	"loss": 2.4797,
	"step": 33600
	},
	{
	"epoch": 2.3721535916657865,
	"grad_norm": 16.179378509521484,
	"learning_rate": 1.1625299822713528e-05,
	"loss": 2.5854,
	"step": 33700
	},
	{
	"epoch": 2.379192623095062,
	"grad_norm": 14.764082908630371,
	"learning_rate": 1.149494212118052e-05,
	"loss": 2.4972,
	"step": 33800
	},
	{
	"epoch": 2.3862316545243374,
	"grad_norm": 21.402334213256836,
	"learning_rate": 1.1364584419647513e-05,
	"loss": 2.5752,
	"step": 33900
	},
	{
	"epoch": 2.393270685953613,
	"grad_norm": 19.00446891784668,
	"learning_rate": 1.1234226718114507e-05,
	"loss": 2.4806,
	"step": 34000
	},
	{
	"epoch": 2.393270685953613,
	"eval_runtime": 192.7281,
	"eval_samples_per_second": 147.425,
	"eval_steps_per_second": 18.43,
	"step": 34000
	},
	{
	"epoch": 2.4003097173828882,
	"grad_norm": 21.23725700378418,
	"learning_rate": 1.11038690165815e-05,
	"loss": 2.5424,
	"step": 34100
	},
	{
	"epoch": 2.407348748812163,
	"grad_norm": 14.942157745361328,
	"learning_rate": 1.0973511315048493e-05,
	"loss": 2.5926,
	"step": 34200
	},
	{
	"epoch": 2.4143877802414386,
	"grad_norm": 17.429502487182617,
	"learning_rate": 1.0843153613515487e-05,
	"loss": 2.5892,
	"step": 34300
	},
	{
	"epoch": 2.421426811670714,
	"grad_norm": 15.42565631866455,
	"learning_rate": 1.071279591198248e-05,
	"loss": 2.5758,
	"step": 34400
	},
	{
	"epoch": 2.4284658430999895,
	"grad_norm": 20.9206600189209,
	"learning_rate": 1.0582438210449474e-05,
	"loss": 2.6666,
	"step": 34500
	},
	{
	"epoch": 2.4284658430999895,
	"eval_runtime": 192.2868,
	"eval_samples_per_second": 147.764,
	"eval_steps_per_second": 18.472,
	"step": 34500
	},
	{
	"epoch": 2.435504874529265,
	"grad_norm": 16.189416885375977,
	"learning_rate": 1.0452080508916468e-05,
	"loss": 2.5727,
	"step": 34600
	},
	{
	"epoch": 2.44254390595854,
	"grad_norm": 17.95191192626953,
	"learning_rate": 1.032172280738346e-05,
	"loss": 2.6171,
	"step": 34700
	},
	{
	"epoch": 2.4495829373878153,
	"grad_norm": 15.953314781188965,
	"learning_rate": 1.0191365105850454e-05,
	"loss": 2.5181,
	"step": 34800
	},
	{
	"epoch": 2.4566219688170907,
	"grad_norm": 20.293758392333984,
	"learning_rate": 1.0061007404317447e-05,
	"loss": 2.6109,
	"step": 34900
	},
	{
	"epoch": 2.463661000246366,
	"grad_norm": 13.837769508361816,
	"learning_rate": 9.930649702784441e-06,
	"loss": 2.6833,
	"step": 35000
	},
	{
	"epoch": 2.463661000246366,
	"eval_runtime": 192.3429,
	"eval_samples_per_second": 147.721,
	"eval_steps_per_second": 18.467,
	"step": 35000
	},
	{
	"epoch": 2.4707000316756416,
	"grad_norm": 15.594371795654297,
	"learning_rate": 9.800292001251435e-06,
	"loss": 2.6111,
	"step": 35100
	},
	{
	"epoch": 2.4777390631049165,
	"grad_norm": 18.549043655395508,
	"learning_rate": 9.669934299718427e-06,
	"loss": 2.5622,
	"step": 35200
	},
	{
	"epoch": 2.484778094534192,
	"grad_norm": 15.56165599822998,
	"learning_rate": 9.53957659818542e-06,
	"loss": 2.5254,
	"step": 35300
	},
	{
	"epoch": 2.4918171259634674,
	"grad_norm": 14.361612319946289,
	"learning_rate": 9.409218896652416e-06,
	"loss": 2.5388,
	"step": 35400
	},
	{
	"epoch": 2.498856157392743,
	"grad_norm": 17.944364547729492,
	"learning_rate": 9.278861195119408e-06,
	"loss": 2.5671,
	"step": 35500
	},
	{
	"epoch": 2.498856157392743,
	"eval_runtime": 193.2612,
	"eval_samples_per_second": 147.019,
	"eval_steps_per_second": 18.379,
	"step": 35500
	},
	{
	"epoch": 2.5058951888220182,
	"grad_norm": 15.994379043579102,
	"learning_rate": 9.1485034935864e-06,
	"loss": 2.4926,
	"step": 35600
	},
	{
	"epoch": 2.512934220251293,
	"grad_norm": 15.721161842346191,
	"learning_rate": 9.018145792053395e-06,
	"loss": 2.5956,
	"step": 35700
	},
	{
	"epoch": 2.5199732516805686,
	"grad_norm": 21.510955810546875,
	"learning_rate": 8.887788090520389e-06,
	"loss": 2.6592,
	"step": 35800
	},
	{
	"epoch": 2.527012283109844,
	"grad_norm": 16.77272605895996,
	"learning_rate": 8.757430388987383e-06,
	"loss": 2.655,
	"step": 35900
	},
	{
	"epoch": 2.5340513145391195,
	"grad_norm": 18.944421768188477,
	"learning_rate": 8.627072687454375e-06,
	"loss": 2.5201,
	"step": 36000
	},
	{
	"epoch": 2.5340513145391195,
	"eval_runtime": 192.2731,
	"eval_samples_per_second": 147.774,
	"eval_steps_per_second": 18.474,
	"step": 36000
	},
	{
	"epoch": 2.541090345968395,
	"grad_norm": 19.00555992126465,
	"learning_rate": 8.496714985921368e-06,
	"loss": 2.5858,
	"step": 36100
	},
	{
	"epoch": 2.54812937739767,
	"grad_norm": 16.338956832885742,
	"learning_rate": 8.366357284388362e-06,
	"loss": 2.5963,
	"step": 36200
	},
	{
	"epoch": 2.5551684088269453,
	"grad_norm": 15.704483032226562,
	"learning_rate": 8.235999582855356e-06,
	"loss": 2.5504,
	"step": 36300
	},
	{
	"epoch": 2.5622074402562207,
	"grad_norm": 17.013628005981445,
	"learning_rate": 8.105641881322348e-06,
	"loss": 2.6663,
	"step": 36400
	},
	{
	"epoch": 2.569246471685496,
	"grad_norm": 16.901050567626953,
	"learning_rate": 7.975284179789342e-06,
	"loss": 2.5827,
	"step": 36500
	},
	{
	"epoch": 2.569246471685496,
	"eval_runtime": 192.5506,
	"eval_samples_per_second": 147.561,
	"eval_steps_per_second": 18.447,
	"step": 36500
	},
	{
	"epoch": 2.5762855031147716,
	"grad_norm": 16.243534088134766,
	"learning_rate": 7.844926478256335e-06,
	"loss": 2.6065,
	"step": 36600
	},
	{
	"epoch": 2.5833245345440465,
	"grad_norm": 17.0561580657959,
	"learning_rate": 7.714568776723329e-06,
	"loss": 2.5166,
	"step": 36700
	},
	{
	"epoch": 2.590363565973322,
	"grad_norm": 14.800107955932617,
	"learning_rate": 7.584211075190323e-06,
	"loss": 2.6966,
	"step": 36800
	},
	{
	"epoch": 2.5974025974025974,
	"grad_norm": 17.22756576538086,
	"learning_rate": 7.453853373657315e-06,
	"loss": 2.5921,
	"step": 36900
	},
	{
	"epoch": 2.604441628831873,
	"grad_norm": 16.94314956665039,
	"learning_rate": 7.32349567212431e-06,
	"loss": 2.7039,
	"step": 37000
	},
	{
	"epoch": 2.604441628831873,
	"eval_runtime": 192.7372,
	"eval_samples_per_second": 147.418,
	"eval_steps_per_second": 18.429,
	"step": 37000
	},
	{
	"epoch": 2.6114806602611482,
	"grad_norm": 15.262337684631348,
	"learning_rate": 7.193137970591303e-06,
	"loss": 2.5053,
	"step": 37100
	},
	{
	"epoch": 2.618519691690423,
	"grad_norm": 16.485326766967773,
	"learning_rate": 7.062780269058296e-06,
	"loss": 2.6282,
	"step": 37200
	},
	{
	"epoch": 2.6255587231196986,
	"grad_norm": 23.574670791625977,
	"learning_rate": 6.93242256752529e-06,
	"loss": 2.5995,
	"step": 37300
	},
	{
	"epoch": 2.632597754548974,
	"grad_norm": 16.39130973815918,
	"learning_rate": 6.802064865992283e-06,
	"loss": 2.5522,
	"step": 37400
	},
	{
	"epoch": 2.6396367859782495,
	"grad_norm": 20.67544174194336,
	"learning_rate": 6.671707164459276e-06,
	"loss": 2.6411,
	"step": 37500
	},
	{
	"epoch": 2.6396367859782495,
	"eval_runtime": 192.0322,
	"eval_samples_per_second": 147.96,
	"eval_steps_per_second": 18.497,
	"step": 37500
	},
	{
	"epoch": 2.646675817407525,
	"grad_norm": 17.333271026611328,
	"learning_rate": 6.54134946292627e-06,
	"loss": 2.6002,
	"step": 37600
	},
	{
	"epoch": 2.6537148488368,
	"grad_norm": 17.444929122924805,
	"learning_rate": 6.410991761393263e-06,
	"loss": 2.4802,
	"step": 37700
	},
	{
	"epoch": 2.6607538802660753,
	"grad_norm": 17.62455940246582,
	"learning_rate": 6.2806340598602564e-06,
	"loss": 2.5169,
	"step": 37800
	},
	{
	"epoch": 2.6677929116953507,
	"grad_norm": 23.869504928588867,
	"learning_rate": 6.1502763583272506e-06,
	"loss": 2.6119,
	"step": 37900
	},
	{
	"epoch": 2.674831943124626,
	"grad_norm": 14.378959655761719,
	"learning_rate": 6.019918656794243e-06,
	"loss": 2.6484,
	"step": 38000
	},
	{
	"epoch": 2.674831943124626,
	"eval_runtime": 191.7147,
	"eval_samples_per_second": 148.205,
	"eval_steps_per_second": 18.528,
	"step": 38000
	},
	{
	"epoch": 2.6818709745539016,
	"grad_norm": 13.199753761291504,
	"learning_rate": 5.889560955261237e-06,
	"loss": 2.5929,
	"step": 38100
	},
	{
	"epoch": 2.6889100059831765,
	"grad_norm": 19.931673049926758,
	"learning_rate": 5.75920325372823e-06,
	"loss": 2.5691,
	"step": 38200
	},
	{
	"epoch": 2.695949037412452,
	"grad_norm": 16.0571346282959,
	"learning_rate": 5.6288455521952244e-06,
	"loss": 2.5593,
	"step": 38300
	},
	{
	"epoch": 2.7029880688417274,
	"grad_norm": 14.09821605682373,
	"learning_rate": 5.498487850662217e-06,
	"loss": 2.5663,
	"step": 38400
	},
	{
	"epoch": 2.710027100271003,
	"grad_norm": 16.2088680267334,
	"learning_rate": 5.368130149129211e-06,
	"loss": 2.5763,
	"step": 38500
	},
	{
	"epoch": 2.710027100271003,
	"eval_runtime": 192.1652,
	"eval_samples_per_second": 147.857,
	"eval_steps_per_second": 18.484,
	"step": 38500
	},
	{
	"epoch": 2.717066131700278,
	"grad_norm": 26.869508743286133,
	"learning_rate": 5.237772447596204e-06,
	"loss": 2.7026,
	"step": 38600
	},
	{
	"epoch": 2.724105163129553,
	"grad_norm": 17.842239379882812,
	"learning_rate": 5.107414746063198e-06,
	"loss": 2.69,
	"step": 38700
	},
	{
	"epoch": 2.7311441945588286,
	"grad_norm": 17.31543731689453,
	"learning_rate": 4.977057044530191e-06,
	"loss": 2.6621,
	"step": 38800
	},
	{
	"epoch": 2.738183225988104,
	"grad_norm": 15.826437950134277,
	"learning_rate": 4.846699342997185e-06,
	"loss": 2.7036,
	"step": 38900
	},
	{
	"epoch": 2.7452222574173795,
	"grad_norm": 16.656599044799805,
	"learning_rate": 4.716341641464178e-06,
	"loss": 2.5078,
	"step": 39000
	},
	{
	"epoch": 2.7452222574173795,
	"eval_runtime": 191.4626,
	"eval_samples_per_second": 148.4,
	"eval_steps_per_second": 18.552,
	"step": 39000
	},
	{
	"epoch": 2.752261288846655,
	"grad_norm": 16.501192092895508,
	"learning_rate": 4.585983939931171e-06,
	"loss": 2.5312,
	"step": 39100
	},
	{
	"epoch": 2.75930032027593,
	"grad_norm": 17.555389404296875,
	"learning_rate": 4.455626238398165e-06,
	"loss": 2.5059,
	"step": 39200
	},
	{
	"epoch": 2.7663393517052053,
	"grad_norm": 18.289548873901367,
	"learning_rate": 4.325268536865158e-06,
	"loss": 2.6702,
	"step": 39300
	},
	{
	"epoch": 2.7733783831344807,
	"grad_norm": 15.688879013061523,
	"learning_rate": 4.194910835332152e-06,
	"loss": 2.5357,
	"step": 39400
	},
	{
	"epoch": 2.780417414563756,
	"grad_norm": 14.281635284423828,
	"learning_rate": 4.064553133799144e-06,
	"loss": 2.6129,
	"step": 39500
	},
	{
	"epoch": 2.780417414563756,
	"eval_runtime": 193.5326,
	"eval_samples_per_second": 146.812,
	"eval_steps_per_second": 18.353,
	"step": 39500
	},
	{
	"epoch": 2.7874564459930316,
	"grad_norm": 22.23700523376465,
	"learning_rate": 3.9341954322661385e-06,
	"loss": 2.5335,
	"step": 39600
	},
	{
	"epoch": 2.7944954774223065,
	"grad_norm": 17.91628074645996,
	"learning_rate": 3.803837730733132e-06,
	"loss": 2.5757,
	"step": 39700
	},
	{
	"epoch": 2.801534508851582,
	"grad_norm": 16.670568466186523,
	"learning_rate": 3.6734800292001254e-06,
	"loss": 2.5679,
	"step": 39800
	},
	{
	"epoch": 2.8085735402808574,
	"grad_norm": 17.128202438354492,
	"learning_rate": 3.5431223276671187e-06,
	"loss": 2.5285,
	"step": 39900
	},
	{
	"epoch": 2.815612571710133,
	"grad_norm": 14.024889945983887,
	"learning_rate": 3.412764626134112e-06,
	"loss": 2.515,
	"step": 40000
	},
	{
	"epoch": 2.815612571710133,
	"eval_runtime": 192.6175,
	"eval_samples_per_second": 147.51,
	"eval_steps_per_second": 18.441,
	"step": 40000
	},
	{
	"epoch": 2.822651603139408,
	"grad_norm": 16.694087982177734,
	"learning_rate": 3.2824069246011056e-06,
	"loss": 2.625,
	"step": 40100
	},
	{
	"epoch": 2.829690634568683,
	"grad_norm": 22.633140563964844,
	"learning_rate": 3.1520492230680985e-06,
	"loss": 2.5637,
	"step": 40200
	},
	{
	"epoch": 2.8367296659979586,
	"grad_norm": 18.231454849243164,
	"learning_rate": 3.021691521535092e-06,
	"loss": 2.5672,
	"step": 40300
	},
	{
	"epoch": 2.843768697427234,
	"grad_norm": 15.228378295898438,
	"learning_rate": 2.891333820002086e-06,
	"loss": 2.6203,
	"step": 40400
	},
	{
	"epoch": 2.8508077288565095,
	"grad_norm": 19.437833786010742,
	"learning_rate": 2.760976118469079e-06,
	"loss": 2.626,
	"step": 40500
	},
	{
	"epoch": 2.8508077288565095,
	"eval_runtime": 192.5589,
	"eval_samples_per_second": 147.555,
	"eval_steps_per_second": 18.446,
	"step": 40500
	},
	{
	"epoch": 2.857846760285785,
	"grad_norm": 16.506317138671875,
	"learning_rate": 2.630618416936073e-06,
	"loss": 2.5625,
	"step": 40600
	},
	{
	"epoch": 2.86488579171506,
	"grad_norm": 25.00144386291504,
	"learning_rate": 2.500260715403066e-06,
	"loss": 2.616,
	"step": 40700
	},
	{
	"epoch": 2.8719248231443353,
	"grad_norm": 16.7978572845459,
	"learning_rate": 2.3699030138700597e-06,
	"loss": 2.5959,
	"step": 40800
	},
	{
	"epoch": 2.8789638545736107,
	"grad_norm": 15.795037269592285,
	"learning_rate": 2.239545312337053e-06,
	"loss": 2.6245,
	"step": 40900
	},
	{
	"epoch": 2.886002886002886,
	"grad_norm": 16.411415100097656,
	"learning_rate": 2.1091876108040467e-06,
	"loss": 2.6368,
	"step": 41000
	},
	{
	"epoch": 2.886002886002886,
	"eval_runtime": 192.2421,
	"eval_samples_per_second": 147.798,
	"eval_steps_per_second": 18.477,
	"step": 41000
	},
	{
	"epoch": 2.8930419174321615,
	"grad_norm": 16.8485050201416,
	"learning_rate": 1.97882990927104e-06,
	"loss": 2.5946,
	"step": 41100
	},
	{
	"epoch": 2.9000809488614365,
	"grad_norm": 15.294781684875488,
	"learning_rate": 1.8484722077380334e-06,
	"loss": 2.6035,
	"step": 41200
	},
	{
	"epoch": 2.907119980290712,
	"grad_norm": 26.89401626586914,
	"learning_rate": 1.7181145062050267e-06,
	"loss": 2.6353,
	"step": 41300
	},
	{
	"epoch": 2.9141590117199874,
	"grad_norm": 13.004213333129883,
	"learning_rate": 1.58775680467202e-06,
	"loss": 2.6299,
	"step": 41400
	},
	{
	"epoch": 2.921198043149263,
	"grad_norm": 17.197162628173828,
	"learning_rate": 1.4573991031390136e-06,
	"loss": 2.6031,
	"step": 41500
	},
	{
	"epoch": 2.921198043149263,
	"eval_runtime": 192.0882,
	"eval_samples_per_second": 147.916,
	"eval_steps_per_second": 18.492,
	"step": 41500
	},
	{
	"epoch": 2.928237074578538,
	"grad_norm": 16.04857063293457,
	"learning_rate": 1.327041401606007e-06,
	"loss": 2.5869,
	"step": 41600
	},
	{
	"epoch": 2.935276106007813,
	"grad_norm": 14.147359848022461,
	"learning_rate": 1.1966837000730005e-06,
	"loss": 2.5851,
	"step": 41700
	},
	{
	"epoch": 2.9423151374370886,
	"grad_norm": 17.802715301513672,
	"learning_rate": 1.0663259985399938e-06,
	"loss": 2.4637,
	"step": 41800
	},
	{
	"epoch": 2.949354168866364,
	"grad_norm": 20.130615234375,
	"learning_rate": 9.359682970069872e-07,
	"loss": 2.5418,
	"step": 41900
	},
	{
	"epoch": 2.9563932002956395,
	"grad_norm": 18.158117294311523,
	"learning_rate": 8.056105954739805e-07,
	"loss": 2.5456,
	"step": 42000
	},
	{
	"epoch": 2.9563932002956395,
	"eval_runtime": 192.2432,
	"eval_samples_per_second": 147.797,
	"eval_steps_per_second": 18.477,
	"step": 42000
	},
	{
	"epoch": 2.963432231724915,
	"grad_norm": 15.710502624511719,
	"learning_rate": 6.75252893940974e-07,
	"loss": 2.6082,
	"step": 42100
	},
	{
	"epoch": 2.97047126315419,
	"grad_norm": 15.316740989685059,
	"learning_rate": 5.448951924079675e-07,
	"loss": 2.5569,
	"step": 42200
	},
	{
	"epoch": 2.9775102945834653,
	"grad_norm": 17.120691299438477,
	"learning_rate": 4.145374908749609e-07,
	"loss": 2.6017,
	"step": 42300
	},
	{
	"epoch": 2.9845493260127407,
	"grad_norm": 14.475923538208008,
	"learning_rate": 2.841797893419543e-07,
	"loss": 2.5627,
	"step": 42400
	},
	{
	"epoch": 2.991588357442016,
	"grad_norm": 16.937416076660156,
	"learning_rate": 1.5382208780894776e-07,
	"loss": 2.557,
	"step": 42500
	},
	{
	"epoch": 2.991588357442016,
	"eval_runtime": 192.9822,
	"eval_samples_per_second": 147.231,
	"eval_steps_per_second": 18.406,
	"step": 42500
	},
	{
	"epoch": 2.9986273888712915,
	"grad_norm": 25.87067413330078,
	"learning_rate": 2.3464386275941184e-08,
	"loss": 2.5282,
	"step": 42600
	}
	],
	"logging_steps": 100,
	"max_steps": 42618,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1152556854519332e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}