Upload MolCrawl genome-sequence BERT small model

c53a6fe verified about 2 months ago

236 kB

	{
	"best_metric": 6.374266624450684,
	"best_model_checkpoint": "learning_source_20260316/genome_sequence/bert-output/genome_sequence-small/checkpoint-46600",
	"epoch": 133.29387302467424,
	"eval_steps": 100,
	"global_step": 60000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.22179096201829776,
	"grad_norm": 0.9666945338249207,
	"learning_rate": 3e-06,
	"loss": 8.2198,
	"step": 100
	},
	{
	"epoch": 0.22179096201829776,
	"eval_loss": 7.910184383392334,
	"eval_runtime": 100.9607,
	"eval_samples_per_second": 99.048,
	"eval_steps_per_second": 99.048,
	"step": 100
	},
	{
	"epoch": 0.4435819240365955,
	"grad_norm": 0.7436413764953613,
	"learning_rate": 6e-06,
	"loss": 7.7448,
	"step": 200
	},
	{
	"epoch": 0.4435819240365955,
	"eval_loss": 7.522714138031006,
	"eval_runtime": 101.1239,
	"eval_samples_per_second": 98.889,
	"eval_steps_per_second": 98.889,
	"step": 200
	},
	{
	"epoch": 0.6653728860548933,
	"grad_norm": 0.5597550868988037,
	"learning_rate": 5.998999666555519e-06,
	"loss": 7.3644,
	"step": 300
	},
	{
	"epoch": 0.6653728860548933,
	"eval_loss": 7.118653297424316,
	"eval_runtime": 101.7208,
	"eval_samples_per_second": 98.308,
	"eval_steps_per_second": 98.308,
	"step": 300
	},
	{
	"epoch": 0.887163848073191,
	"grad_norm": 0.3977542519569397,
	"learning_rate": 5.997999333111037e-06,
	"loss": 7.039,
	"step": 400
	},
	{
	"epoch": 0.887163848073191,
	"eval_loss": 6.858039855957031,
	"eval_runtime": 103.108,
	"eval_samples_per_second": 96.986,
	"eval_steps_per_second": 96.986,
	"step": 400
	},
	{
	"epoch": 1.1089548100914888,
	"grad_norm": 0.31371042132377625,
	"learning_rate": 5.9969989996665554e-06,
	"loss": 6.8537,
	"step": 500
	},
	{
	"epoch": 1.1089548100914888,
	"eval_loss": 6.725042343139648,
	"eval_runtime": 100.7633,
	"eval_samples_per_second": 99.243,
	"eval_steps_per_second": 99.243,
	"step": 500
	},
	{
	"epoch": 1.3307457721097866,
	"grad_norm": 0.2910732924938202,
	"learning_rate": 5.995998666222074e-06,
	"loss": 6.749,
	"step": 600
	},
	{
	"epoch": 1.3307457721097866,
	"eval_loss": 6.648338317871094,
	"eval_runtime": 103.8281,
	"eval_samples_per_second": 96.313,
	"eval_steps_per_second": 96.313,
	"step": 600
	},
	{
	"epoch": 1.5525367341280842,
	"grad_norm": 0.38117602467536926,
	"learning_rate": 5.994998332777593e-06,
	"loss": 6.6809,
	"step": 700
	},
	{
	"epoch": 1.5525367341280842,
	"eval_loss": 6.598635196685791,
	"eval_runtime": 100.7294,
	"eval_samples_per_second": 99.276,
	"eval_steps_per_second": 99.276,
	"step": 700
	},
	{
	"epoch": 1.774327696146382,
	"grad_norm": 0.23082487285137177,
	"learning_rate": 5.9939979993331115e-06,
	"loss": 6.6363,
	"step": 800
	},
	{
	"epoch": 1.774327696146382,
	"eval_loss": 6.5613298416137695,
	"eval_runtime": 100.99,
	"eval_samples_per_second": 99.02,
	"eval_steps_per_second": 99.02,
	"step": 800
	},
	{
	"epoch": 1.9961186581646797,
	"grad_norm": 0.3537309169769287,
	"learning_rate": 5.992997665888629e-06,
	"loss": 6.6008,
	"step": 900
	},
	{
	"epoch": 1.9961186581646797,
	"eval_loss": 6.539489269256592,
	"eval_runtime": 103.6291,
	"eval_samples_per_second": 96.498,
	"eval_steps_per_second": 96.498,
	"step": 900
	},
	{
	"epoch": 2.2179096201829775,
	"grad_norm": 0.22692321240901947,
	"learning_rate": 5.991997332444148e-06,
	"loss": 6.5735,
	"step": 1000
	},
	{
	"epoch": 2.2179096201829775,
	"eval_loss": 6.521015644073486,
	"eval_runtime": 100.5379,
	"eval_samples_per_second": 99.465,
	"eval_steps_per_second": 99.465,
	"step": 1000
	},
	{
	"epoch": 2.4397005822012754,
	"grad_norm": 0.5465587973594666,
	"learning_rate": 5.990996998999667e-06,
	"loss": 6.5555,
	"step": 1100
	},
	{
	"epoch": 2.4397005822012754,
	"eval_loss": 6.505192279815674,
	"eval_runtime": 101.8008,
	"eval_samples_per_second": 98.231,
	"eval_steps_per_second": 98.231,
	"step": 1100
	},
	{
	"epoch": 2.6614915442195732,
	"grad_norm": 0.6720498204231262,
	"learning_rate": 5.989996665555185e-06,
	"loss": 6.5407,
	"step": 1200
	},
	{
	"epoch": 2.6614915442195732,
	"eval_loss": 6.497246265411377,
	"eval_runtime": 103.0853,
	"eval_samples_per_second": 97.007,
	"eval_steps_per_second": 97.007,
	"step": 1200
	},
	{
	"epoch": 2.8832825062378706,
	"grad_norm": 0.3426739275455475,
	"learning_rate": 5.988996332110703e-06,
	"loss": 6.529,
	"step": 1300
	},
	{
	"epoch": 2.8832825062378706,
	"eval_loss": 6.488556861877441,
	"eval_runtime": 100.6535,
	"eval_samples_per_second": 99.351,
	"eval_steps_per_second": 99.351,
	"step": 1300
	},
	{
	"epoch": 3.1050734682561685,
	"grad_norm": 0.2463805377483368,
	"learning_rate": 5.987995998666222e-06,
	"loss": 6.5196,
	"step": 1400
	},
	{
	"epoch": 3.1050734682561685,
	"eval_loss": 6.484075546264648,
	"eval_runtime": 104.3708,
	"eval_samples_per_second": 95.812,
	"eval_steps_per_second": 95.812,
	"step": 1400
	},
	{
	"epoch": 3.3268644302744663,
	"grad_norm": 0.1849370300769806,
	"learning_rate": 5.986995665221741e-06,
	"loss": 6.5099,
	"step": 1500
	},
	{
	"epoch": 3.3268644302744663,
	"eval_loss": 6.476208209991455,
	"eval_runtime": 100.8511,
	"eval_samples_per_second": 99.156,
	"eval_steps_per_second": 99.156,
	"step": 1500
	},
	{
	"epoch": 3.548655392292764,
	"grad_norm": 0.23534879088401794,
	"learning_rate": 5.9859953317772595e-06,
	"loss": 6.503,
	"step": 1600
	},
	{
	"epoch": 3.548655392292764,
	"eval_loss": 6.473758220672607,
	"eval_runtime": 100.8445,
	"eval_samples_per_second": 99.163,
	"eval_steps_per_second": 99.163,
	"step": 1600
	},
	{
	"epoch": 3.770446354311062,
	"grad_norm": 0.3312935531139374,
	"learning_rate": 5.984994998332777e-06,
	"loss": 6.4991,
	"step": 1700
	},
	{
	"epoch": 3.770446354311062,
	"eval_loss": 6.471902370452881,
	"eval_runtime": 104.4468,
	"eval_samples_per_second": 95.743,
	"eval_steps_per_second": 95.743,
	"step": 1700
	},
	{
	"epoch": 3.9922373163293594,
	"grad_norm": 0.27324172854423523,
	"learning_rate": 5.983994664888296e-06,
	"loss": 6.4936,
	"step": 1800
	},
	{
	"epoch": 3.9922373163293594,
	"eval_loss": 6.464596271514893,
	"eval_runtime": 100.6385,
	"eval_samples_per_second": 99.366,
	"eval_steps_per_second": 99.366,
	"step": 1800
	},
	{
	"epoch": 4.214028278347658,
	"grad_norm": 0.29278630018234253,
	"learning_rate": 5.982994331443815e-06,
	"loss": 6.4875,
	"step": 1900
	},
	{
	"epoch": 4.214028278347658,
	"eval_loss": 6.462095260620117,
	"eval_runtime": 100.6404,
	"eval_samples_per_second": 99.364,
	"eval_steps_per_second": 99.364,
	"step": 1900
	},
	{
	"epoch": 4.435819240365955,
	"grad_norm": 0.26022714376449585,
	"learning_rate": 5.981993997999333e-06,
	"loss": 6.4834,
	"step": 2000
	},
	{
	"epoch": 4.435819240365955,
	"eval_loss": 6.45832633972168,
	"eval_runtime": 104.5104,
	"eval_samples_per_second": 95.684,
	"eval_steps_per_second": 95.684,
	"step": 2000
	},
	{
	"epoch": 4.6576102023842525,
	"grad_norm": 0.7873703837394714,
	"learning_rate": 5.980993664554851e-06,
	"loss": 6.4796,
	"step": 2100
	},
	{
	"epoch": 4.6576102023842525,
	"eval_loss": 6.456444263458252,
	"eval_runtime": 100.8687,
	"eval_samples_per_second": 99.139,
	"eval_steps_per_second": 99.139,
	"step": 2100
	},
	{
	"epoch": 4.887163848073191,
	"grad_norm": 0.7525845766067505,
	"learning_rate": 5.979993331110371e-06,
	"loss": 6.4755,
	"step": 2200
	},
	{
	"epoch": 4.887163848073191,
	"eval_loss": 6.453465938568115,
	"eval_runtime": 66.4579,
	"eval_samples_per_second": 150.471,
	"eval_steps_per_second": 18.809,
	"step": 2200
	},
	{
	"epoch": 5.108954810091489,
	"grad_norm": 0.5191181302070618,
	"learning_rate": 5.978992997665889e-06,
	"loss": 6.472,
	"step": 2300
	},
	{
	"epoch": 5.108954810091489,
	"eval_loss": 6.44980525970459,
	"eval_runtime": 63.8377,
	"eval_samples_per_second": 156.647,
	"eval_steps_per_second": 19.581,
	"step": 2300
	},
	{
	"epoch": 5.330745772109786,
	"grad_norm": 0.31189826130867004,
	"learning_rate": 5.9779926642214075e-06,
	"loss": 6.4681,
	"step": 2400
	},
	{
	"epoch": 5.330745772109786,
	"eval_loss": 6.448277473449707,
	"eval_runtime": 63.9509,
	"eval_samples_per_second": 156.37,
	"eval_steps_per_second": 19.546,
	"step": 2400
	},
	{
	"epoch": 5.5525367341280845,
	"grad_norm": 0.4947231113910675,
	"learning_rate": 5.976992330776926e-06,
	"loss": 6.4659,
	"step": 2500
	},
	{
	"epoch": 5.5525367341280845,
	"eval_loss": 6.4454731941223145,
	"eval_runtime": 66.4235,
	"eval_samples_per_second": 150.549,
	"eval_steps_per_second": 18.819,
	"step": 2500
	},
	{
	"epoch": 5.774327696146382,
	"grad_norm": 0.22547227144241333,
	"learning_rate": 5.975991997332444e-06,
	"loss": 6.4619,
	"step": 2600
	},
	{
	"epoch": 5.774327696146382,
	"eval_loss": 6.444580554962158,
	"eval_runtime": 63.7522,
	"eval_samples_per_second": 156.857,
	"eval_steps_per_second": 19.607,
	"step": 2600
	},
	{
	"epoch": 5.99611865816468,
	"grad_norm": 0.2726474404335022,
	"learning_rate": 5.974991663887963e-06,
	"loss": 6.4594,
	"step": 2700
	},
	{
	"epoch": 5.99611865816468,
	"eval_loss": 6.44156551361084,
	"eval_runtime": 66.3901,
	"eval_samples_per_second": 150.625,
	"eval_steps_per_second": 18.828,
	"step": 2700
	},
	{
	"epoch": 6.2179096201829775,
	"grad_norm": 0.17645886540412903,
	"learning_rate": 5.973991330443481e-06,
	"loss": 6.4574,
	"step": 2800
	},
	{
	"epoch": 6.2179096201829775,
	"eval_loss": 6.4393510818481445,
	"eval_runtime": 63.8118,
	"eval_samples_per_second": 156.711,
	"eval_steps_per_second": 19.589,
	"step": 2800
	},
	{
	"epoch": 6.439700582201275,
	"grad_norm": 0.9444617629051208,
	"learning_rate": 5.972990996999e-06,
	"loss": 6.4546,
	"step": 2900
	},
	{
	"epoch": 6.439700582201275,
	"eval_loss": 6.439332008361816,
	"eval_runtime": 63.6523,
	"eval_samples_per_second": 157.103,
	"eval_steps_per_second": 19.638,
	"step": 2900
	},
	{
	"epoch": 6.661491544219573,
	"grad_norm": 0.4472251534461975,
	"learning_rate": 5.971990663554519e-06,
	"loss": 6.4515,
	"step": 3000
	},
	{
	"epoch": 6.661491544219573,
	"eval_loss": 6.435446262359619,
	"eval_runtime": 63.845,
	"eval_samples_per_second": 156.629,
	"eval_steps_per_second": 19.579,
	"step": 3000
	},
	{
	"epoch": 6.883282506237871,
	"grad_norm": 0.29884466528892517,
	"learning_rate": 5.970990330110037e-06,
	"loss": 6.4483,
	"step": 3100
	},
	{
	"epoch": 6.883282506237871,
	"eval_loss": 6.433766841888428,
	"eval_runtime": 66.4883,
	"eval_samples_per_second": 150.402,
	"eval_steps_per_second": 18.8,
	"step": 3100
	},
	{
	"epoch": 7.105073468256169,
	"grad_norm": 0.4576103687286377,
	"learning_rate": 5.9699899966655554e-06,
	"loss": 6.4465,
	"step": 3200
	},
	{
	"epoch": 7.105073468256169,
	"eval_loss": 6.432063102722168,
	"eval_runtime": 63.7483,
	"eval_samples_per_second": 156.867,
	"eval_steps_per_second": 19.608,
	"step": 3200
	},
	{
	"epoch": 7.326864430274466,
	"grad_norm": 0.1679336577653885,
	"learning_rate": 5.968989663221074e-06,
	"loss": 6.4453,
	"step": 3300
	},
	{
	"epoch": 7.326864430274466,
	"eval_loss": 6.430073261260986,
	"eval_runtime": 63.7036,
	"eval_samples_per_second": 156.977,
	"eval_steps_per_second": 19.622,
	"step": 3300
	},
	{
	"epoch": 7.548655392292764,
	"grad_norm": 0.3880283236503601,
	"learning_rate": 5.967989329776592e-06,
	"loss": 6.4406,
	"step": 3400
	},
	{
	"epoch": 7.548655392292764,
	"eval_loss": 6.431549072265625,
	"eval_runtime": 66.1695,
	"eval_samples_per_second": 151.127,
	"eval_steps_per_second": 18.891,
	"step": 3400
	},
	{
	"epoch": 7.770446354311062,
	"grad_norm": 0.8515690565109253,
	"learning_rate": 5.966988996332111e-06,
	"loss": 6.4413,
	"step": 3500
	},
	{
	"epoch": 7.770446354311062,
	"eval_loss": 6.42842435836792,
	"eval_runtime": 63.7187,
	"eval_samples_per_second": 156.94,
	"eval_steps_per_second": 19.617,
	"step": 3500
	},
	{
	"epoch": 7.992237316329359,
	"grad_norm": 0.4197738468647003,
	"learning_rate": 5.965988662887629e-06,
	"loss": 6.4404,
	"step": 3600
	},
	{
	"epoch": 7.992237316329359,
	"eval_loss": 6.429299354553223,
	"eval_runtime": 63.7081,
	"eval_samples_per_second": 156.966,
	"eval_steps_per_second": 19.621,
	"step": 3600
	},
	{
	"epoch": 8.214028278347657,
	"grad_norm": 0.16546382009983063,
	"learning_rate": 5.964988329443148e-06,
	"loss": 6.438,
	"step": 3700
	},
	{
	"epoch": 8.214028278347657,
	"eval_loss": 6.426889896392822,
	"eval_runtime": 66.066,
	"eval_samples_per_second": 151.364,
	"eval_steps_per_second": 18.92,
	"step": 3700
	},
	{
	"epoch": 8.435819240365955,
	"grad_norm": 0.48783496022224426,
	"learning_rate": 5.963987995998667e-06,
	"loss": 6.437,
	"step": 3800
	},
	{
	"epoch": 8.435819240365955,
	"eval_loss": 6.424874305725098,
	"eval_runtime": 63.6818,
	"eval_samples_per_second": 157.031,
	"eval_steps_per_second": 19.629,
	"step": 3800
	},
	{
	"epoch": 8.657610202384253,
	"grad_norm": 0.2994876205921173,
	"learning_rate": 5.962987662554185e-06,
	"loss": 6.434,
	"step": 3900
	},
	{
	"epoch": 8.657610202384253,
	"eval_loss": 6.428049087524414,
	"eval_runtime": 63.6981,
	"eval_samples_per_second": 156.991,
	"eval_steps_per_second": 19.624,
	"step": 3900
	},
	{
	"epoch": 8.87940116440255,
	"grad_norm": 0.26397526264190674,
	"learning_rate": 5.961987329109703e-06,
	"loss": 6.4344,
	"step": 4000
	},
	{
	"epoch": 8.87940116440255,
	"eval_loss": 6.427630424499512,
	"eval_runtime": 63.7853,
	"eval_samples_per_second": 156.776,
	"eval_steps_per_second": 19.597,
	"step": 4000
	},
	{
	"epoch": 9.101192126420848,
	"grad_norm": 0.6336208581924438,
	"learning_rate": 5.960986995665222e-06,
	"loss": 6.4322,
	"step": 4100
	},
	{
	"epoch": 9.101192126420848,
	"eval_loss": 6.423878192901611,
	"eval_runtime": 66.3296,
	"eval_samples_per_second": 150.762,
	"eval_steps_per_second": 18.845,
	"step": 4100
	},
	{
	"epoch": 9.322983088439146,
	"grad_norm": 0.5242211818695068,
	"learning_rate": 5.95998666222074e-06,
	"loss": 6.4302,
	"step": 4200
	},
	{
	"epoch": 9.322983088439146,
	"eval_loss": 6.42392110824585,
	"eval_runtime": 63.7079,
	"eval_samples_per_second": 156.966,
	"eval_steps_per_second": 19.621,
	"step": 4200
	},
	{
	"epoch": 9.544774050457445,
	"grad_norm": 0.49379467964172363,
	"learning_rate": 5.958986328776259e-06,
	"loss": 6.4307,
	"step": 4300
	},
	{
	"epoch": 9.544774050457445,
	"eval_loss": 6.422423839569092,
	"eval_runtime": 63.6859,
	"eval_samples_per_second": 157.021,
	"eval_steps_per_second": 19.628,
	"step": 4300
	},
	{
	"epoch": 9.766565012475741,
	"grad_norm": 0.305960476398468,
	"learning_rate": 5.957985995331777e-06,
	"loss": 6.4285,
	"step": 4400
	},
	{
	"epoch": 9.766565012475741,
	"eval_loss": 6.421577453613281,
	"eval_runtime": 66.1928,
	"eval_samples_per_second": 151.074,
	"eval_steps_per_second": 18.884,
	"step": 4400
	},
	{
	"epoch": 9.98835597449404,
	"grad_norm": 0.3036479353904724,
	"learning_rate": 5.956985661887296e-06,
	"loss": 6.4249,
	"step": 4500
	},
	{
	"epoch": 9.98835597449404,
	"eval_loss": 6.41899299621582,
	"eval_runtime": 63.6775,
	"eval_samples_per_second": 157.041,
	"eval_steps_per_second": 19.63,
	"step": 4500
	},
	{
	"epoch": 10.210146936512338,
	"grad_norm": 1.1105852127075195,
	"learning_rate": 5.955985328442815e-06,
	"loss": 6.4262,
	"step": 4600
	},
	{
	"epoch": 10.210146936512338,
	"eval_loss": 6.420323371887207,
	"eval_runtime": 63.5916,
	"eval_samples_per_second": 157.253,
	"eval_steps_per_second": 19.657,
	"step": 4600
	},
	{
	"epoch": 10.431937898530634,
	"grad_norm": 0.38992971181869507,
	"learning_rate": 5.954984994998333e-06,
	"loss": 6.4259,
	"step": 4700
	},
	{
	"epoch": 10.431937898530634,
	"eval_loss": 6.415469646453857,
	"eval_runtime": 63.7968,
	"eval_samples_per_second": 156.748,
	"eval_steps_per_second": 19.593,
	"step": 4700
	},
	{
	"epoch": 10.653728860548933,
	"grad_norm": 0.39246854186058044,
	"learning_rate": 5.953984661553851e-06,
	"loss": 6.4258,
	"step": 4800
	},
	{
	"epoch": 10.653728860548933,
	"eval_loss": 6.414693832397461,
	"eval_runtime": 66.2863,
	"eval_samples_per_second": 150.861,
	"eval_steps_per_second": 18.858,
	"step": 4800
	},
	{
	"epoch": 10.875519822567231,
	"grad_norm": 0.6589607000350952,
	"learning_rate": 5.95298432810937e-06,
	"loss": 6.4226,
	"step": 4900
	},
	{
	"epoch": 10.875519822567231,
	"eval_loss": 6.417821884155273,
	"eval_runtime": 63.7381,
	"eval_samples_per_second": 156.892,
	"eval_steps_per_second": 19.612,
	"step": 4900
	},
	{
	"epoch": 11.097310784585527,
	"grad_norm": 0.44160690903663635,
	"learning_rate": 5.951983994664888e-06,
	"loss": 6.4223,
	"step": 5000
	},
	{
	"epoch": 11.097310784585527,
	"eval_loss": 6.417135715484619,
	"eval_runtime": 63.7803,
	"eval_samples_per_second": 156.788,
	"eval_steps_per_second": 19.599,
	"step": 5000
	},
	{
	"epoch": 11.319101746603826,
	"grad_norm": 0.7182816863059998,
	"learning_rate": 5.950983661220407e-06,
	"loss": 6.4221,
	"step": 5100
	},
	{
	"epoch": 11.319101746603826,
	"eval_loss": 6.417608737945557,
	"eval_runtime": 66.5138,
	"eval_samples_per_second": 150.345,
	"eval_steps_per_second": 18.793,
	"step": 5100
	},
	{
	"epoch": 11.540892708622124,
	"grad_norm": 0.45741328597068787,
	"learning_rate": 5.949983327775925e-06,
	"loss": 6.4211,
	"step": 5200
	},
	{
	"epoch": 11.540892708622124,
	"eval_loss": 6.411616325378418,
	"eval_runtime": 63.8646,
	"eval_samples_per_second": 156.581,
	"eval_steps_per_second": 19.573,
	"step": 5200
	},
	{
	"epoch": 11.76268367064042,
	"grad_norm": 0.37045249342918396,
	"learning_rate": 5.948982994331444e-06,
	"loss": 6.4203,
	"step": 5300
	},
	{
	"epoch": 11.76268367064042,
	"eval_loss": 6.415543556213379,
	"eval_runtime": 63.6959,
	"eval_samples_per_second": 156.996,
	"eval_steps_per_second": 19.624,
	"step": 5300
	},
	{
	"epoch": 11.984474632658719,
	"grad_norm": 0.5875869989395142,
	"learning_rate": 5.947982660886963e-06,
	"loss": 6.4189,
	"step": 5400
	},
	{
	"epoch": 11.984474632658719,
	"eval_loss": 6.417328834533691,
	"eval_runtime": 63.8682,
	"eval_samples_per_second": 156.572,
	"eval_steps_per_second": 19.572,
	"step": 5400
	},
	{
	"epoch": 12.206265594677017,
	"grad_norm": 0.39769718050956726,
	"learning_rate": 5.9469823274424815e-06,
	"loss": 6.4185,
	"step": 5500
	},
	{
	"epoch": 12.206265594677017,
	"eval_loss": 6.417914390563965,
	"eval_runtime": 66.821,
	"eval_samples_per_second": 149.653,
	"eval_steps_per_second": 18.707,
	"step": 5500
	},
	{
	"epoch": 12.428056556695315,
	"grad_norm": 0.8144527673721313,
	"learning_rate": 5.945981993997999e-06,
	"loss": 6.417,
	"step": 5600
	},
	{
	"epoch": 12.428056556695315,
	"eval_loss": 6.414742946624756,
	"eval_runtime": 63.6455,
	"eval_samples_per_second": 157.12,
	"eval_steps_per_second": 19.64,
	"step": 5600
	},
	{
	"epoch": 12.649847518713612,
	"grad_norm": 0.304855078458786,
	"learning_rate": 5.944981660553518e-06,
	"loss": 6.4169,
	"step": 5700
	},
	{
	"epoch": 12.649847518713612,
	"eval_loss": 6.411574363708496,
	"eval_runtime": 63.6479,
	"eval_samples_per_second": 157.114,
	"eval_steps_per_second": 19.639,
	"step": 5700
	},
	{
	"epoch": 12.87163848073191,
	"grad_norm": 0.5774130821228027,
	"learning_rate": 5.943981327109036e-06,
	"loss": 6.4162,
	"step": 5800
	},
	{
	"epoch": 12.87163848073191,
	"eval_loss": 6.4110517501831055,
	"eval_runtime": 66.215,
	"eval_samples_per_second": 151.023,
	"eval_steps_per_second": 18.878,
	"step": 5800
	},
	{
	"epoch": 13.093429442750208,
	"grad_norm": 0.6892155408859253,
	"learning_rate": 5.942980993664555e-06,
	"loss": 6.414,
	"step": 5900
	},
	{
	"epoch": 13.093429442750208,
	"eval_loss": 6.413996696472168,
	"eval_runtime": 63.6174,
	"eval_samples_per_second": 157.19,
	"eval_steps_per_second": 19.649,
	"step": 5900
	},
	{
	"epoch": 13.315220404768505,
	"grad_norm": 0.5487566590309143,
	"learning_rate": 5.941980660220073e-06,
	"loss": 6.4153,
	"step": 6000
	},
	{
	"epoch": 13.315220404768505,
	"eval_loss": 6.414098739624023,
	"eval_runtime": 63.6464,
	"eval_samples_per_second": 157.118,
	"eval_steps_per_second": 19.64,
	"step": 6000
	},
	{
	"epoch": 13.537011366786803,
	"grad_norm": 0.7147879004478455,
	"learning_rate": 5.940980326775592e-06,
	"loss": 6.4132,
	"step": 6100
	},
	{
	"epoch": 13.537011366786803,
	"eval_loss": 6.411059379577637,
	"eval_runtime": 66.5345,
	"eval_samples_per_second": 150.298,
	"eval_steps_per_second": 18.787,
	"step": 6100
	},
	{
	"epoch": 13.758802328805102,
	"grad_norm": 0.4990188181400299,
	"learning_rate": 5.939979993331111e-06,
	"loss": 6.4127,
	"step": 6200
	},
	{
	"epoch": 13.758802328805102,
	"eval_loss": 6.411470890045166,
	"eval_runtime": 63.7718,
	"eval_samples_per_second": 156.809,
	"eval_steps_per_second": 19.601,
	"step": 6200
	},
	{
	"epoch": 13.9805932908234,
	"grad_norm": 0.3841017782688141,
	"learning_rate": 5.9389796598866294e-06,
	"loss": 6.4133,
	"step": 6300
	},
	{
	"epoch": 13.9805932908234,
	"eval_loss": 6.4090681076049805,
	"eval_runtime": 63.7617,
	"eval_samples_per_second": 156.834,
	"eval_steps_per_second": 19.604,
	"step": 6300
	},
	{
	"epoch": 14.202384252841696,
	"grad_norm": 0.3359989523887634,
	"learning_rate": 5.937979326442147e-06,
	"loss": 6.4107,
	"step": 6400
	},
	{
	"epoch": 14.202384252841696,
	"eval_loss": 6.409322738647461,
	"eval_runtime": 63.5969,
	"eval_samples_per_second": 157.24,
	"eval_steps_per_second": 19.655,
	"step": 6400
	},
	{
	"epoch": 14.424175214859995,
	"grad_norm": 0.5810059905052185,
	"learning_rate": 5.936978992997666e-06,
	"loss": 6.411,
	"step": 6500
	},
	{
	"epoch": 14.424175214859995,
	"eval_loss": 6.411257743835449,
	"eval_runtime": 66.5523,
	"eval_samples_per_second": 150.258,
	"eval_steps_per_second": 18.782,
	"step": 6500
	},
	{
	"epoch": 14.645966176878293,
	"grad_norm": 0.45823681354522705,
	"learning_rate": 5.935978659553185e-06,
	"loss": 6.4107,
	"step": 6600
	},
	{
	"epoch": 14.645966176878293,
	"eval_loss": 6.4073872566223145,
	"eval_runtime": 63.6788,
	"eval_samples_per_second": 157.038,
	"eval_steps_per_second": 19.63,
	"step": 6600
	},
	{
	"epoch": 14.86775713889659,
	"grad_norm": 0.6735783815383911,
	"learning_rate": 5.9349783261087026e-06,
	"loss": 6.4112,
	"step": 6700
	},
	{
	"epoch": 14.86775713889659,
	"eval_loss": 6.411919593811035,
	"eval_runtime": 63.7297,
	"eval_samples_per_second": 156.913,
	"eval_steps_per_second": 19.614,
	"step": 6700
	},
	{
	"epoch": 15.089548100914888,
	"grad_norm": 0.5670196413993835,
	"learning_rate": 5.933977992664221e-06,
	"loss": 6.4099,
	"step": 6800
	},
	{
	"epoch": 15.089548100914888,
	"eval_loss": 6.407878875732422,
	"eval_runtime": 66.3771,
	"eval_samples_per_second": 150.654,
	"eval_steps_per_second": 18.832,
	"step": 6800
	},
	{
	"epoch": 15.311339062933186,
	"grad_norm": 0.3068266808986664,
	"learning_rate": 5.93297765921974e-06,
	"loss": 6.4089,
	"step": 6900
	},
	{
	"epoch": 15.311339062933186,
	"eval_loss": 6.4104766845703125,
	"eval_runtime": 63.6627,
	"eval_samples_per_second": 157.078,
	"eval_steps_per_second": 19.635,
	"step": 6900
	},
	{
	"epoch": 15.533130024951483,
	"grad_norm": 0.8304972052574158,
	"learning_rate": 5.931977325775259e-06,
	"loss": 6.409,
	"step": 7000
	},
	{
	"epoch": 15.533130024951483,
	"eval_loss": 6.414528846740723,
	"eval_runtime": 63.6701,
	"eval_samples_per_second": 157.06,
	"eval_steps_per_second": 19.632,
	"step": 7000
	},
	{
	"epoch": 15.75492098696978,
	"grad_norm": 0.5522041916847229,
	"learning_rate": 5.930976992330777e-06,
	"loss": 6.4089,
	"step": 7100
	},
	{
	"epoch": 15.75492098696978,
	"eval_loss": 6.407095909118652,
	"eval_runtime": 66.1999,
	"eval_samples_per_second": 151.058,
	"eval_steps_per_second": 18.882,
	"step": 7100
	},
	{
	"epoch": 15.97671194898808,
	"grad_norm": 0.373626708984375,
	"learning_rate": 5.929976658886295e-06,
	"loss": 6.4071,
	"step": 7200
	},
	{
	"epoch": 15.97671194898808,
	"eval_loss": 6.4060258865356445,
	"eval_runtime": 63.7049,
	"eval_samples_per_second": 156.974,
	"eval_steps_per_second": 19.622,
	"step": 7200
	},
	{
	"epoch": 16.198502911006376,
	"grad_norm": 0.3747236132621765,
	"learning_rate": 5.928976325441814e-06,
	"loss": 6.4072,
	"step": 7300
	},
	{
	"epoch": 16.198502911006376,
	"eval_loss": 6.403803825378418,
	"eval_runtime": 63.6478,
	"eval_samples_per_second": 157.115,
	"eval_steps_per_second": 19.639,
	"step": 7300
	},
	{
	"epoch": 16.420293873024676,
	"grad_norm": 0.9381150007247925,
	"learning_rate": 5.927975991997333e-06,
	"loss": 6.4068,
	"step": 7400
	},
	{
	"epoch": 16.420293873024676,
	"eval_loss": 6.406477451324463,
	"eval_runtime": 66.4296,
	"eval_samples_per_second": 150.535,
	"eval_steps_per_second": 18.817,
	"step": 7400
	},
	{
	"epoch": 16.642084835042972,
	"grad_norm": 0.4905136823654175,
	"learning_rate": 5.9269756585528505e-06,
	"loss": 6.4047,
	"step": 7500
	},
	{
	"epoch": 16.642084835042972,
	"eval_loss": 6.4078850746154785,
	"eval_runtime": 63.7258,
	"eval_samples_per_second": 156.922,
	"eval_steps_per_second": 19.615,
	"step": 7500
	},
	{
	"epoch": 16.86387579706127,
	"grad_norm": 0.5776643753051758,
	"learning_rate": 5.92597532510837e-06,
	"loss": 6.4054,
	"step": 7600
	},
	{
	"epoch": 16.86387579706127,
	"eval_loss": 6.403768539428711,
	"eval_runtime": 63.7461,
	"eval_samples_per_second": 156.872,
	"eval_steps_per_second": 19.609,
	"step": 7600
	},
	{
	"epoch": 17.08566675907957,
	"grad_norm": 0.791892945766449,
	"learning_rate": 5.924974991663888e-06,
	"loss": 6.4051,
	"step": 7700
	},
	{
	"epoch": 17.08566675907957,
	"eval_loss": 6.403835773468018,
	"eval_runtime": 63.9137,
	"eval_samples_per_second": 156.461,
	"eval_steps_per_second": 19.558,
	"step": 7700
	},
	{
	"epoch": 17.307457721097865,
	"grad_norm": 0.485984206199646,
	"learning_rate": 5.923974658219407e-06,
	"loss": 6.4058,
	"step": 7800
	},
	{
	"epoch": 17.307457721097865,
	"eval_loss": 6.405175685882568,
	"eval_runtime": 66.2871,
	"eval_samples_per_second": 150.859,
	"eval_steps_per_second": 18.857,
	"step": 7800
	},
	{
	"epoch": 17.529248683116162,
	"grad_norm": 1.0781219005584717,
	"learning_rate": 5.922974324774925e-06,
	"loss": 6.4037,
	"step": 7900
	},
	{
	"epoch": 17.529248683116162,
	"eval_loss": 6.408561706542969,
	"eval_runtime": 66.8857,
	"eval_samples_per_second": 149.509,
	"eval_steps_per_second": 18.689,
	"step": 7900
	},
	{
	"epoch": 17.751039645134462,
	"grad_norm": 0.6358538269996643,
	"learning_rate": 5.921973991330443e-06,
	"loss": 6.403,
	"step": 8000
	},
	{
	"epoch": 17.751039645134462,
	"eval_loss": 6.402519702911377,
	"eval_runtime": 63.7653,
	"eval_samples_per_second": 156.825,
	"eval_steps_per_second": 19.603,
	"step": 8000
	},
	{
	"epoch": 17.97283060715276,
	"grad_norm": 0.5632463097572327,
	"learning_rate": 5.920973657885962e-06,
	"loss": 6.4034,
	"step": 8100
	},
	{
	"epoch": 17.97283060715276,
	"eval_loss": 6.403571128845215,
	"eval_runtime": 63.7754,
	"eval_samples_per_second": 156.8,
	"eval_steps_per_second": 19.6,
	"step": 8100
	},
	{
	"epoch": 18.194621569171055,
	"grad_norm": 0.23312948644161224,
	"learning_rate": 5.919973324441481e-06,
	"loss": 6.4048,
	"step": 8200
	},
	{
	"epoch": 18.194621569171055,
	"eval_loss": 6.404890060424805,
	"eval_runtime": 63.6831,
	"eval_samples_per_second": 157.028,
	"eval_steps_per_second": 19.628,
	"step": 8200
	},
	{
	"epoch": 18.416412531189355,
	"grad_norm": 0.5255222916603088,
	"learning_rate": 5.918972990996999e-06,
	"loss": 6.4018,
	"step": 8300
	},
	{
	"epoch": 18.416412531189355,
	"eval_loss": 6.401614665985107,
	"eval_runtime": 66.6013,
	"eval_samples_per_second": 150.147,
	"eval_steps_per_second": 18.768,
	"step": 8300
	},
	{
	"epoch": 18.63820349320765,
	"grad_norm": 0.44263362884521484,
	"learning_rate": 5.917972657552518e-06,
	"loss": 6.4018,
	"step": 8400
	},
	{
	"epoch": 18.63820349320765,
	"eval_loss": 6.40390682220459,
	"eval_runtime": 63.7484,
	"eval_samples_per_second": 156.867,
	"eval_steps_per_second": 19.608,
	"step": 8400
	},
	{
	"epoch": 18.859994455225948,
	"grad_norm": 0.5826687812805176,
	"learning_rate": 5.916972324108037e-06,
	"loss": 6.402,
	"step": 8500
	},
	{
	"epoch": 18.859994455225948,
	"eval_loss": 6.401444911956787,
	"eval_runtime": 63.73,
	"eval_samples_per_second": 156.912,
	"eval_steps_per_second": 19.614,
	"step": 8500
	},
	{
	"epoch": 19.081785417244248,
	"grad_norm": 0.5808525681495667,
	"learning_rate": 5.915971990663555e-06,
	"loss": 6.4031,
	"step": 8600
	},
	{
	"epoch": 19.081785417244248,
	"eval_loss": 6.398373126983643,
	"eval_runtime": 66.6574,
	"eval_samples_per_second": 150.021,
	"eval_steps_per_second": 18.753,
	"step": 8600
	},
	{
	"epoch": 19.303576379262545,
	"grad_norm": 0.9179806113243103,
	"learning_rate": 5.914971657219073e-06,
	"loss": 6.4019,
	"step": 8700
	},
	{
	"epoch": 19.303576379262545,
	"eval_loss": 6.399080276489258,
	"eval_runtime": 63.6271,
	"eval_samples_per_second": 157.166,
	"eval_steps_per_second": 19.646,
	"step": 8700
	},
	{
	"epoch": 19.52536734128084,
	"grad_norm": 0.45992511510849,
	"learning_rate": 5.913971323774591e-06,
	"loss": 6.4,
	"step": 8800
	},
	{
	"epoch": 19.52536734128084,
	"eval_loss": 6.403900623321533,
	"eval_runtime": 63.7034,
	"eval_samples_per_second": 156.977,
	"eval_steps_per_second": 19.622,
	"step": 8800
	},
	{
	"epoch": 19.74715830329914,
	"grad_norm": 0.702781081199646,
	"learning_rate": 5.91297099033011e-06,
	"loss": 6.3993,
	"step": 8900
	},
	{
	"epoch": 19.74715830329914,
	"eval_loss": 6.401424884796143,
	"eval_runtime": 66.2276,
	"eval_samples_per_second": 150.994,
	"eval_steps_per_second": 18.874,
	"step": 8900
	},
	{
	"epoch": 19.968949265317438,
	"grad_norm": 0.6189502477645874,
	"learning_rate": 5.911970656885629e-06,
	"loss": 6.3999,
	"step": 9000
	},
	{
	"epoch": 19.968949265317438,
	"eval_loss": 6.400846481323242,
	"eval_runtime": 63.7467,
	"eval_samples_per_second": 156.871,
	"eval_steps_per_second": 19.609,
	"step": 9000
	},
	{
	"epoch": 20.190740227335738,
	"grad_norm": 0.37635141611099243,
	"learning_rate": 5.910970323441147e-06,
	"loss": 6.3994,
	"step": 9100
	},
	{
	"epoch": 20.190740227335738,
	"eval_loss": 6.402886867523193,
	"eval_runtime": 63.6159,
	"eval_samples_per_second": 157.193,
	"eval_steps_per_second": 19.649,
	"step": 9100
	},
	{
	"epoch": 20.412531189354034,
	"grad_norm": 0.5809453129768372,
	"learning_rate": 5.909969989996666e-06,
	"loss": 6.3996,
	"step": 9200
	},
	{
	"epoch": 20.412531189354034,
	"eval_loss": 6.399085998535156,
	"eval_runtime": 66.2096,
	"eval_samples_per_second": 151.035,
	"eval_steps_per_second": 18.879,
	"step": 9200
	},
	{
	"epoch": 20.63432215137233,
	"grad_norm": 0.535410463809967,
	"learning_rate": 5.908969656552185e-06,
	"loss": 6.3985,
	"step": 9300
	},
	{
	"epoch": 20.63432215137233,
	"eval_loss": 6.399356842041016,
	"eval_runtime": 63.8098,
	"eval_samples_per_second": 156.716,
	"eval_steps_per_second": 19.589,
	"step": 9300
	},
	{
	"epoch": 20.85611311339063,
	"grad_norm": 0.5065354108810425,
	"learning_rate": 5.907969323107703e-06,
	"loss": 6.3993,
	"step": 9400
	},
	{
	"epoch": 20.85611311339063,
	"eval_loss": 6.401696681976318,
	"eval_runtime": 63.6775,
	"eval_samples_per_second": 157.041,
	"eval_steps_per_second": 19.63,
	"step": 9400
	},
	{
	"epoch": 21.077904075408927,
	"grad_norm": 0.4803392291069031,
	"learning_rate": 5.906968989663221e-06,
	"loss": 6.4003,
	"step": 9500
	},
	{
	"epoch": 21.077904075408927,
	"eval_loss": 6.399422645568848,
	"eval_runtime": 63.6426,
	"eval_samples_per_second": 157.127,
	"eval_steps_per_second": 19.641,
	"step": 9500
	},
	{
	"epoch": 21.299695037427224,
	"grad_norm": 0.7447142004966736,
	"learning_rate": 5.90596865621874e-06,
	"loss": 6.3992,
	"step": 9600
	},
	{
	"epoch": 21.299695037427224,
	"eval_loss": 6.397017002105713,
	"eval_runtime": 66.4941,
	"eval_samples_per_second": 150.389,
	"eval_steps_per_second": 18.799,
	"step": 9600
	},
	{
	"epoch": 21.521485999445524,
	"grad_norm": 0.2856753468513489,
	"learning_rate": 5.904968322774258e-06,
	"loss": 6.3999,
	"step": 9700
	},
	{
	"epoch": 21.521485999445524,
	"eval_loss": 6.400000095367432,
	"eval_runtime": 63.7186,
	"eval_samples_per_second": 156.94,
	"eval_steps_per_second": 19.618,
	"step": 9700
	},
	{
	"epoch": 21.74327696146382,
	"grad_norm": 0.8077158331871033,
	"learning_rate": 5.9039679893297766e-06,
	"loss": 6.3981,
	"step": 9800
	},
	{
	"epoch": 21.74327696146382,
	"eval_loss": 6.398531436920166,
	"eval_runtime": 63.7668,
	"eval_samples_per_second": 156.821,
	"eval_steps_per_second": 19.603,
	"step": 9800
	},
	{
	"epoch": 21.965067923482117,
	"grad_norm": 0.8744412660598755,
	"learning_rate": 5.902967655885295e-06,
	"loss": 6.3988,
	"step": 9900
	},
	{
	"epoch": 21.965067923482117,
	"eval_loss": 6.396906852722168,
	"eval_runtime": 66.2535,
	"eval_samples_per_second": 150.935,
	"eval_steps_per_second": 18.867,
	"step": 9900
	},
	{
	"epoch": 22.186858885500417,
	"grad_norm": 0.44601574540138245,
	"learning_rate": 5.901967322440814e-06,
	"loss": 6.3969,
	"step": 10000
	},
	{
	"epoch": 22.186858885500417,
	"eval_loss": 6.395452976226807,
	"eval_runtime": 63.6969,
	"eval_samples_per_second": 156.994,
	"eval_steps_per_second": 19.624,
	"step": 10000
	},
	{
	"epoch": 22.408649847518713,
	"grad_norm": 0.6895701289176941,
	"learning_rate": 5.900966988996333e-06,
	"loss": 6.3967,
	"step": 10100
	},
	{
	"epoch": 22.408649847518713,
	"eval_loss": 6.40028190612793,
	"eval_runtime": 63.7023,
	"eval_samples_per_second": 156.98,
	"eval_steps_per_second": 19.623,
	"step": 10100
	},
	{
	"epoch": 22.63044080953701,
	"grad_norm": 0.6166660189628601,
	"learning_rate": 5.8999666555518505e-06,
	"loss": 6.3968,
	"step": 10200
	},
	{
	"epoch": 22.63044080953701,
	"eval_loss": 6.397933483123779,
	"eval_runtime": 66.8627,
	"eval_samples_per_second": 149.56,
	"eval_steps_per_second": 18.695,
	"step": 10200
	},
	{
	"epoch": 22.85223177155531,
	"grad_norm": 1.0633758306503296,
	"learning_rate": 5.898966322107369e-06,
	"loss": 6.3976,
	"step": 10300
	},
	{
	"epoch": 22.85223177155531,
	"eval_loss": 6.396650791168213,
	"eval_runtime": 63.7935,
	"eval_samples_per_second": 156.756,
	"eval_steps_per_second": 19.594,
	"step": 10300
	},
	{
	"epoch": 23.074022733573607,
	"grad_norm": 0.4864283502101898,
	"learning_rate": 5.897965988662888e-06,
	"loss": 6.3967,
	"step": 10400
	},
	{
	"epoch": 23.074022733573607,
	"eval_loss": 6.39711332321167,
	"eval_runtime": 63.6284,
	"eval_samples_per_second": 157.163,
	"eval_steps_per_second": 19.645,
	"step": 10400
	},
	{
	"epoch": 23.295813695591903,
	"grad_norm": 0.65082186460495,
	"learning_rate": 5.896965655218406e-06,
	"loss": 6.3973,
	"step": 10500
	},
	{
	"epoch": 23.295813695591903,
	"eval_loss": 6.395853519439697,
	"eval_runtime": 66.242,
	"eval_samples_per_second": 150.962,
	"eval_steps_per_second": 18.87,
	"step": 10500
	},
	{
	"epoch": 23.517604657610203,
	"grad_norm": 0.45799535512924194,
	"learning_rate": 5.8959653217739245e-06,
	"loss": 6.396,
	"step": 10600
	},
	{
	"epoch": 23.517604657610203,
	"eval_loss": 6.398243427276611,
	"eval_runtime": 63.7686,
	"eval_samples_per_second": 156.817,
	"eval_steps_per_second": 19.602,
	"step": 10600
	},
	{
	"epoch": 23.7393956196285,
	"grad_norm": 0.5860775709152222,
	"learning_rate": 5.894964988329443e-06,
	"loss": 6.3956,
	"step": 10700
	},
	{
	"epoch": 23.7393956196285,
	"eval_loss": 6.3961687088012695,
	"eval_runtime": 67.0182,
	"eval_samples_per_second": 149.213,
	"eval_steps_per_second": 18.652,
	"step": 10700
	},
	{
	"epoch": 23.9611865816468,
	"grad_norm": 0.5584791898727417,
	"learning_rate": 5.893964654884962e-06,
	"loss": 6.3957,
	"step": 10800
	},
	{
	"epoch": 23.9611865816468,
	"eval_loss": 6.396393775939941,
	"eval_runtime": 63.8981,
	"eval_samples_per_second": 156.499,
	"eval_steps_per_second": 19.562,
	"step": 10800
	},
	{
	"epoch": 24.182977543665096,
	"grad_norm": 0.7845295667648315,
	"learning_rate": 5.892964321440481e-06,
	"loss": 6.3956,
	"step": 10900
	},
	{
	"epoch": 24.182977543665096,
	"eval_loss": 6.397210121154785,
	"eval_runtime": 64.0302,
	"eval_samples_per_second": 156.176,
	"eval_steps_per_second": 19.522,
	"step": 10900
	},
	{
	"epoch": 24.404768505683393,
	"grad_norm": 0.564857006072998,
	"learning_rate": 5.8919639879959985e-06,
	"loss": 6.3955,
	"step": 11000
	},
	{
	"epoch": 24.404768505683393,
	"eval_loss": 6.395459175109863,
	"eval_runtime": 67.2462,
	"eval_samples_per_second": 148.707,
	"eval_steps_per_second": 18.588,
	"step": 11000
	},
	{
	"epoch": 24.665372886054893,
	"grad_norm": 0.7520161271095276,
	"learning_rate": 4.906354515050168e-06,
	"loss": 6.3944,
	"step": 11100
	},
	{
	"epoch": 24.665372886054893,
	"eval_loss": 6.389779567718506,
	"eval_runtime": 87.8112,
	"eval_samples_per_second": 113.881,
	"eval_steps_per_second": 14.235,
	"step": 11100
	},
	{
	"epoch": 24.88716384807319,
	"grad_norm": 0.6003276705741882,
	"learning_rate": 4.8963210702341136e-06,
	"loss": 6.394,
	"step": 11200
	},
	{
	"epoch": 24.88716384807319,
	"eval_loss": 6.394806861877441,
	"eval_runtime": 75.8812,
	"eval_samples_per_second": 131.785,
	"eval_steps_per_second": 16.473,
	"step": 11200
	},
	{
	"epoch": 25.10895481009149,
	"grad_norm": 0.28259870409965515,
	"learning_rate": 4.88628762541806e-06,
	"loss": 6.3945,
	"step": 11300
	},
	{
	"epoch": 25.10895481009149,
	"eval_loss": 6.398300647735596,
	"eval_runtime": 88.2774,
	"eval_samples_per_second": 113.279,
	"eval_steps_per_second": 14.16,
	"step": 11300
	},
	{
	"epoch": 25.330745772109786,
	"grad_norm": 0.30802807211875916,
	"learning_rate": 4.876254180602007e-06,
	"loss": 6.3941,
	"step": 11400
	},
	{
	"epoch": 25.330745772109786,
	"eval_loss": 6.394501686096191,
	"eval_runtime": 66.156,
	"eval_samples_per_second": 151.158,
	"eval_steps_per_second": 18.895,
	"step": 11400
	},
	{
	"epoch": 25.552536734128083,
	"grad_norm": 0.5175557732582092,
	"learning_rate": 4.866220735785953e-06,
	"loss": 6.394,
	"step": 11500
	},
	{
	"epoch": 25.552536734128083,
	"eval_loss": 6.3985795974731445,
	"eval_runtime": 63.6993,
	"eval_samples_per_second": 156.988,
	"eval_steps_per_second": 19.623,
	"step": 11500
	},
	{
	"epoch": 25.774327696146383,
	"grad_norm": 0.5214359164237976,
	"learning_rate": 4.8561872909699e-06,
	"loss": 6.3942,
	"step": 11600
	},
	{
	"epoch": 25.774327696146383,
	"eval_loss": 6.391521453857422,
	"eval_runtime": 63.6987,
	"eval_samples_per_second": 156.989,
	"eval_steps_per_second": 19.624,
	"step": 11600
	},
	{
	"epoch": 25.99611865816468,
	"grad_norm": 0.5827904343605042,
	"learning_rate": 4.8461538461538465e-06,
	"loss": 6.3953,
	"step": 11700
	},
	{
	"epoch": 25.99611865816468,
	"eval_loss": 6.393467903137207,
	"eval_runtime": 66.2727,
	"eval_samples_per_second": 150.892,
	"eval_steps_per_second": 18.861,
	"step": 11700
	},
	{
	"epoch": 26.21790962018298,
	"grad_norm": 0.24229009449481964,
	"learning_rate": 4.8361204013377925e-06,
	"loss": 6.3945,
	"step": 11800
	},
	{
	"epoch": 26.21790962018298,
	"eval_loss": 6.39454460144043,
	"eval_runtime": 63.6782,
	"eval_samples_per_second": 157.04,
	"eval_steps_per_second": 19.63,
	"step": 11800
	},
	{
	"epoch": 26.439700582201276,
	"grad_norm": 0.6859923005104065,
	"learning_rate": 4.826086956521739e-06,
	"loss": 6.3929,
	"step": 11900
	},
	{
	"epoch": 26.439700582201276,
	"eval_loss": 6.394321918487549,
	"eval_runtime": 66.2701,
	"eval_samples_per_second": 150.898,
	"eval_steps_per_second": 18.862,
	"step": 11900
	},
	{
	"epoch": 26.661491544219572,
	"grad_norm": 0.4267604947090149,
	"learning_rate": 4.816053511705686e-06,
	"loss": 6.3941,
	"step": 12000
	},
	{
	"epoch": 26.661491544219572,
	"eval_loss": 6.394528865814209,
	"eval_runtime": 63.7313,
	"eval_samples_per_second": 156.909,
	"eval_steps_per_second": 19.614,
	"step": 12000
	},
	{
	"epoch": 26.883282506237872,
	"grad_norm": 0.43895894289016724,
	"learning_rate": 4.806020066889633e-06,
	"loss": 6.3929,
	"step": 12100
	},
	{
	"epoch": 26.883282506237872,
	"eval_loss": 6.3936076164245605,
	"eval_runtime": 66.3275,
	"eval_samples_per_second": 150.767,
	"eval_steps_per_second": 18.846,
	"step": 12100
	},
	{
	"epoch": 27.10507346825617,
	"grad_norm": 0.3438960015773773,
	"learning_rate": 4.795986622073579e-06,
	"loss": 6.3933,
	"step": 12200
	},
	{
	"epoch": 27.10507346825617,
	"eval_loss": 6.397474765777588,
	"eval_runtime": 63.621,
	"eval_samples_per_second": 157.181,
	"eval_steps_per_second": 19.648,
	"step": 12200
	},
	{
	"epoch": 27.326864430274465,
	"grad_norm": 0.5950188636779785,
	"learning_rate": 4.785953177257525e-06,
	"loss": 6.394,
	"step": 12300
	},
	{
	"epoch": 27.326864430274465,
	"eval_loss": 6.393238544464111,
	"eval_runtime": 63.6999,
	"eval_samples_per_second": 156.986,
	"eval_steps_per_second": 19.623,
	"step": 12300
	},
	{
	"epoch": 27.548655392292765,
	"grad_norm": 0.34001484513282776,
	"learning_rate": 4.775919732441472e-06,
	"loss": 6.3947,
	"step": 12400
	},
	{
	"epoch": 27.548655392292765,
	"eval_loss": 6.394363880157471,
	"eval_runtime": 66.2457,
	"eval_samples_per_second": 150.953,
	"eval_steps_per_second": 18.869,
	"step": 12400
	},
	{
	"epoch": 27.770446354311062,
	"grad_norm": 0.47045424580574036,
	"learning_rate": 4.765886287625418e-06,
	"loss": 6.3929,
	"step": 12500
	},
	{
	"epoch": 27.770446354311062,
	"eval_loss": 6.393606185913086,
	"eval_runtime": 63.7187,
	"eval_samples_per_second": 156.94,
	"eval_steps_per_second": 19.617,
	"step": 12500
	},
	{
	"epoch": 27.99223731632936,
	"grad_norm": 0.6604583859443665,
	"learning_rate": 4.755852842809365e-06,
	"loss": 6.3931,
	"step": 12600
	},
	{
	"epoch": 27.99223731632936,
	"eval_loss": 6.39324426651001,
	"eval_runtime": 63.6887,
	"eval_samples_per_second": 157.014,
	"eval_steps_per_second": 19.627,
	"step": 12600
	},
	{
	"epoch": 28.21402827834766,
	"grad_norm": 0.6491646766662598,
	"learning_rate": 4.745819397993312e-06,
	"loss": 6.3912,
	"step": 12700
	},
	{
	"epoch": 28.21402827834766,
	"eval_loss": 6.394981384277344,
	"eval_runtime": 66.2742,
	"eval_samples_per_second": 150.888,
	"eval_steps_per_second": 18.861,
	"step": 12700
	},
	{
	"epoch": 28.435819240365955,
	"grad_norm": 0.5381952524185181,
	"learning_rate": 4.7357859531772575e-06,
	"loss": 6.3929,
	"step": 12800
	},
	{
	"epoch": 28.435819240365955,
	"eval_loss": 6.392743110656738,
	"eval_runtime": 63.6892,
	"eval_samples_per_second": 157.012,
	"eval_steps_per_second": 19.627,
	"step": 12800
	},
	{
	"epoch": 28.65761020238425,
	"grad_norm": 0.7769903540611267,
	"learning_rate": 4.725752508361204e-06,
	"loss": 6.3927,
	"step": 12900
	},
	{
	"epoch": 28.65761020238425,
	"eval_loss": 6.390952110290527,
	"eval_runtime": 66.3226,
	"eval_samples_per_second": 150.778,
	"eval_steps_per_second": 18.847,
	"step": 12900
	},
	{
	"epoch": 28.87940116440255,
	"grad_norm": 0.4297138452529907,
	"learning_rate": 4.715719063545151e-06,
	"loss": 6.393,
	"step": 13000
	},
	{
	"epoch": 28.87940116440255,
	"eval_loss": 6.390758037567139,
	"eval_runtime": 63.8216,
	"eval_samples_per_second": 156.687,
	"eval_steps_per_second": 19.586,
	"step": 13000
	},
	{
	"epoch": 29.101192126420848,
	"grad_norm": 0.7731721997261047,
	"learning_rate": 4.705685618729097e-06,
	"loss": 6.3923,
	"step": 13100
	},
	{
	"epoch": 29.101192126420848,
	"eval_loss": 6.392960071563721,
	"eval_runtime": 63.6867,
	"eval_samples_per_second": 157.019,
	"eval_steps_per_second": 19.627,
	"step": 13100
	},
	{
	"epoch": 29.322983088439145,
	"grad_norm": 0.27714040875434875,
	"learning_rate": 4.695652173913044e-06,
	"loss": 6.3934,
	"step": 13200
	},
	{
	"epoch": 29.322983088439145,
	"eval_loss": 6.395288944244385,
	"eval_runtime": 66.2909,
	"eval_samples_per_second": 150.85,
	"eval_steps_per_second": 18.856,
	"step": 13200
	},
	{
	"epoch": 29.544774050457445,
	"grad_norm": 0.5391174554824829,
	"learning_rate": 4.6856187290969905e-06,
	"loss": 6.3927,
	"step": 13300
	},
	{
	"epoch": 29.544774050457445,
	"eval_loss": 6.395300388336182,
	"eval_runtime": 63.6935,
	"eval_samples_per_second": 157.002,
	"eval_steps_per_second": 19.625,
	"step": 13300
	},
	{
	"epoch": 29.76656501247574,
	"grad_norm": 0.9717122912406921,
	"learning_rate": 4.675585284280936e-06,
	"loss": 6.391,
	"step": 13400
	},
	{
	"epoch": 29.76656501247574,
	"eval_loss": 6.3939642906188965,
	"eval_runtime": 64.4676,
	"eval_samples_per_second": 155.117,
	"eval_steps_per_second": 19.39,
	"step": 13400
	},
	{
	"epoch": 29.988355974494038,
	"grad_norm": 0.3409580588340759,
	"learning_rate": 4.665551839464883e-06,
	"loss": 6.3929,
	"step": 13500
	},
	{
	"epoch": 29.988355974494038,
	"eval_loss": 6.393261909484863,
	"eval_runtime": 65.5531,
	"eval_samples_per_second": 152.548,
	"eval_steps_per_second": 19.069,
	"step": 13500
	},
	{
	"epoch": 30.210146936512338,
	"grad_norm": 0.7017607092857361,
	"learning_rate": 4.65551839464883e-06,
	"loss": 6.3914,
	"step": 13600
	},
	{
	"epoch": 30.210146936512338,
	"eval_loss": 6.389814853668213,
	"eval_runtime": 63.5889,
	"eval_samples_per_second": 157.26,
	"eval_steps_per_second": 19.658,
	"step": 13600
	},
	{
	"epoch": 30.431937898530634,
	"grad_norm": 0.494228720664978,
	"learning_rate": 4.645484949832776e-06,
	"loss": 6.3913,
	"step": 13700
	},
	{
	"epoch": 30.431937898530634,
	"eval_loss": 6.389814853668213,
	"eval_runtime": 63.6983,
	"eval_samples_per_second": 156.99,
	"eval_steps_per_second": 19.624,
	"step": 13700
	},
	{
	"epoch": 30.65372886054893,
	"grad_norm": 0.6848724484443665,
	"learning_rate": 4.635451505016723e-06,
	"loss": 6.3909,
	"step": 13800
	},
	{
	"epoch": 30.65372886054893,
	"eval_loss": 6.391334533691406,
	"eval_runtime": 66.3245,
	"eval_samples_per_second": 150.774,
	"eval_steps_per_second": 18.847,
	"step": 13800
	},
	{
	"epoch": 30.87551982256723,
	"grad_norm": 0.5187550187110901,
	"learning_rate": 4.625418060200669e-06,
	"loss": 6.3905,
	"step": 13900
	},
	{
	"epoch": 30.87551982256723,
	"eval_loss": 6.393035411834717,
	"eval_runtime": 63.667,
	"eval_samples_per_second": 157.067,
	"eval_steps_per_second": 19.633,
	"step": 13900
	},
	{
	"epoch": 31.097310784585527,
	"grad_norm": 0.4394451081752777,
	"learning_rate": 4.615384615384616e-06,
	"loss": 6.3902,
	"step": 14000
	},
	{
	"epoch": 31.097310784585527,
	"eval_loss": 6.391651630401611,
	"eval_runtime": 66.2607,
	"eval_samples_per_second": 150.919,
	"eval_steps_per_second": 18.865,
	"step": 14000
	},
	{
	"epoch": 31.319101746603828,
	"grad_norm": 0.6403105854988098,
	"learning_rate": 4.605351170568562e-06,
	"loss": 6.3904,
	"step": 14100
	},
	{
	"epoch": 31.319101746603828,
	"eval_loss": 6.390075206756592,
	"eval_runtime": 63.7818,
	"eval_samples_per_second": 156.785,
	"eval_steps_per_second": 19.598,
	"step": 14100
	},
	{
	"epoch": 31.540892708622124,
	"grad_norm": 0.41991308331489563,
	"learning_rate": 4.595317725752509e-06,
	"loss": 6.3915,
	"step": 14200
	},
	{
	"epoch": 31.540892708622124,
	"eval_loss": 6.390388488769531,
	"eval_runtime": 66.3061,
	"eval_samples_per_second": 150.816,
	"eval_steps_per_second": 18.852,
	"step": 14200
	},
	{
	"epoch": 31.76268367064042,
	"grad_norm": 0.5049502849578857,
	"learning_rate": 4.585284280936456e-06,
	"loss": 6.3901,
	"step": 14300
	},
	{
	"epoch": 31.76268367064042,
	"eval_loss": 6.394845485687256,
	"eval_runtime": 63.7361,
	"eval_samples_per_second": 156.897,
	"eval_steps_per_second": 19.612,
	"step": 14300
	},
	{
	"epoch": 31.98447463265872,
	"grad_norm": 0.5375522375106812,
	"learning_rate": 4.5752508361204015e-06,
	"loss": 6.3901,
	"step": 14400
	},
	{
	"epoch": 31.98447463265872,
	"eval_loss": 6.3919267654418945,
	"eval_runtime": 63.6609,
	"eval_samples_per_second": 157.082,
	"eval_steps_per_second": 19.635,
	"step": 14400
	},
	{
	"epoch": 32.206265594677014,
	"grad_norm": 0.6649445295333862,
	"learning_rate": 4.565217391304348e-06,
	"loss": 6.3897,
	"step": 14500
	},
	{
	"epoch": 32.206265594677014,
	"eval_loss": 6.391171932220459,
	"eval_runtime": 66.188,
	"eval_samples_per_second": 151.085,
	"eval_steps_per_second": 18.886,
	"step": 14500
	},
	{
	"epoch": 32.42805655669532,
	"grad_norm": 0.5367133021354675,
	"learning_rate": 4.555183946488295e-06,
	"loss": 6.3903,
	"step": 14600
	},
	{
	"epoch": 32.42805655669532,
	"eval_loss": 6.390655517578125,
	"eval_runtime": 63.747,
	"eval_samples_per_second": 156.87,
	"eval_steps_per_second": 19.609,
	"step": 14600
	},
	{
	"epoch": 32.649847518713614,
	"grad_norm": 0.5683135986328125,
	"learning_rate": 4.545150501672241e-06,
	"loss": 6.3881,
	"step": 14700
	},
	{
	"epoch": 32.649847518713614,
	"eval_loss": 6.387674808502197,
	"eval_runtime": 63.678,
	"eval_samples_per_second": 157.04,
	"eval_steps_per_second": 19.63,
	"step": 14700
	},
	{
	"epoch": 32.87163848073191,
	"grad_norm": 0.697325587272644,
	"learning_rate": 4.535117056856188e-06,
	"loss": 6.3908,
	"step": 14800
	},
	{
	"epoch": 32.87163848073191,
	"eval_loss": 6.393805027008057,
	"eval_runtime": 63.7212,
	"eval_samples_per_second": 156.934,
	"eval_steps_per_second": 19.617,
	"step": 14800
	},
	{
	"epoch": 33.09342944275021,
	"grad_norm": 0.5757908225059509,
	"learning_rate": 4.5250836120401345e-06,
	"loss": 6.3907,
	"step": 14900
	},
	{
	"epoch": 33.09342944275021,
	"eval_loss": 6.393499851226807,
	"eval_runtime": 66.2096,
	"eval_samples_per_second": 151.035,
	"eval_steps_per_second": 18.879,
	"step": 14900
	},
	{
	"epoch": 33.3152204047685,
	"grad_norm": 0.3517054319381714,
	"learning_rate": 4.51505016722408e-06,
	"loss": 6.3902,
	"step": 15000
	},
	{
	"epoch": 33.3152204047685,
	"eval_loss": 6.386899471282959,
	"eval_runtime": 63.7082,
	"eval_samples_per_second": 156.966,
	"eval_steps_per_second": 19.621,
	"step": 15000
	},
	{
	"epoch": 33.53701136678681,
	"grad_norm": 0.7311076521873474,
	"learning_rate": 4.505016722408027e-06,
	"loss": 6.3905,
	"step": 15100
	},
	{
	"epoch": 33.53701136678681,
	"eval_loss": 6.391955375671387,
	"eval_runtime": 63.6711,
	"eval_samples_per_second": 157.057,
	"eval_steps_per_second": 19.632,
	"step": 15100
	},
	{
	"epoch": 33.7588023288051,
	"grad_norm": 0.4526328444480896,
	"learning_rate": 4.494983277591973e-06,
	"loss": 6.3891,
	"step": 15200
	},
	{
	"epoch": 33.7588023288051,
	"eval_loss": 6.390474796295166,
	"eval_runtime": 66.2489,
	"eval_samples_per_second": 150.946,
	"eval_steps_per_second": 18.868,
	"step": 15200
	},
	{
	"epoch": 33.9805932908234,
	"grad_norm": 0.5623629093170166,
	"learning_rate": 4.48494983277592e-06,
	"loss": 6.3901,
	"step": 15300
	},
	{
	"epoch": 33.9805932908234,
	"eval_loss": 6.388679027557373,
	"eval_runtime": 63.6854,
	"eval_samples_per_second": 157.022,
	"eval_steps_per_second": 19.628,
	"step": 15300
	},
	{
	"epoch": 34.202384252841696,
	"grad_norm": 0.49122416973114014,
	"learning_rate": 4.474916387959866e-06,
	"loss": 6.389,
	"step": 15400
	},
	{
	"epoch": 34.202384252841696,
	"eval_loss": 6.39013671875,
	"eval_runtime": 63.5858,
	"eval_samples_per_second": 157.268,
	"eval_steps_per_second": 19.658,
	"step": 15400
	},
	{
	"epoch": 34.42417521485999,
	"grad_norm": 0.674659013748169,
	"learning_rate": 4.4648829431438125e-06,
	"loss": 6.3887,
	"step": 15500
	},
	{
	"epoch": 34.42417521485999,
	"eval_loss": 6.392813205718994,
	"eval_runtime": 66.2307,
	"eval_samples_per_second": 150.987,
	"eval_steps_per_second": 18.873,
	"step": 15500
	},
	{
	"epoch": 34.64596617687829,
	"grad_norm": 0.43613201379776,
	"learning_rate": 4.454849498327759e-06,
	"loss": 6.3889,
	"step": 15600
	},
	{
	"epoch": 34.64596617687829,
	"eval_loss": 6.388660907745361,
	"eval_runtime": 63.6774,
	"eval_samples_per_second": 157.042,
	"eval_steps_per_second": 19.63,
	"step": 15600
	},
	{
	"epoch": 34.86775713889659,
	"grad_norm": 0.737578272819519,
	"learning_rate": 4.444816053511705e-06,
	"loss": 6.3894,
	"step": 15700
	},
	{
	"epoch": 34.86775713889659,
	"eval_loss": 6.389644145965576,
	"eval_runtime": 63.7079,
	"eval_samples_per_second": 156.966,
	"eval_steps_per_second": 19.621,
	"step": 15700
	},
	{
	"epoch": 35.08954810091489,
	"grad_norm": 0.4716251790523529,
	"learning_rate": 4.434782608695652e-06,
	"loss": 6.3885,
	"step": 15800
	},
	{
	"epoch": 35.08954810091489,
	"eval_loss": 6.392263412475586,
	"eval_runtime": 66.1971,
	"eval_samples_per_second": 151.064,
	"eval_steps_per_second": 18.883,
	"step": 15800
	},
	{
	"epoch": 35.311339062933186,
	"grad_norm": 0.47875767946243286,
	"learning_rate": 4.424749163879599e-06,
	"loss": 6.3886,
	"step": 15900
	},
	{
	"epoch": 35.311339062933186,
	"eval_loss": 6.389831066131592,
	"eval_runtime": 63.6821,
	"eval_samples_per_second": 157.03,
	"eval_steps_per_second": 19.629,
	"step": 15900
	},
	{
	"epoch": 35.53313002495148,
	"grad_norm": 0.43402403593063354,
	"learning_rate": 4.414715719063545e-06,
	"loss": 6.3909,
	"step": 16000
	},
	{
	"epoch": 35.53313002495148,
	"eval_loss": 6.389725208282471,
	"eval_runtime": 63.7124,
	"eval_samples_per_second": 156.955,
	"eval_steps_per_second": 19.619,
	"step": 16000
	},
	{
	"epoch": 35.75492098696978,
	"grad_norm": 0.5011460781097412,
	"learning_rate": 4.404682274247491e-06,
	"loss": 6.3891,
	"step": 16100
	},
	{
	"epoch": 35.75492098696978,
	"eval_loss": 6.388359546661377,
	"eval_runtime": 66.2636,
	"eval_samples_per_second": 150.912,
	"eval_steps_per_second": 18.864,
	"step": 16100
	},
	{
	"epoch": 35.976711948988076,
	"grad_norm": 0.4029878079891205,
	"learning_rate": 4.394648829431438e-06,
	"loss": 6.3875,
	"step": 16200
	},
	{
	"epoch": 35.976711948988076,
	"eval_loss": 6.387814044952393,
	"eval_runtime": 63.7085,
	"eval_samples_per_second": 156.965,
	"eval_steps_per_second": 19.621,
	"step": 16200
	},
	{
	"epoch": 36.19850291100638,
	"grad_norm": 0.5763450264930725,
	"learning_rate": 4.384615384615384e-06,
	"loss": 6.3889,
	"step": 16300
	},
	{
	"epoch": 36.19850291100638,
	"eval_loss": 6.389321327209473,
	"eval_runtime": 65.8717,
	"eval_samples_per_second": 151.81,
	"eval_steps_per_second": 18.976,
	"step": 16300
	},
	{
	"epoch": 36.420293873024676,
	"grad_norm": 0.4742737412452698,
	"learning_rate": 4.374581939799331e-06,
	"loss": 6.3886,
	"step": 16400
	},
	{
	"epoch": 36.420293873024676,
	"eval_loss": 6.388833522796631,
	"eval_runtime": 63.752,
	"eval_samples_per_second": 156.858,
	"eval_steps_per_second": 19.607,
	"step": 16400
	},
	{
	"epoch": 36.64208483504297,
	"grad_norm": 0.4631459414958954,
	"learning_rate": 4.364548494983278e-06,
	"loss": 6.3886,
	"step": 16500
	},
	{
	"epoch": 36.64208483504297,
	"eval_loss": 6.387075901031494,
	"eval_runtime": 63.6816,
	"eval_samples_per_second": 157.031,
	"eval_steps_per_second": 19.629,
	"step": 16500
	},
	{
	"epoch": 36.86387579706127,
	"grad_norm": 0.5047929286956787,
	"learning_rate": 4.354515050167224e-06,
	"loss": 6.3869,
	"step": 16600
	},
	{
	"epoch": 36.86387579706127,
	"eval_loss": 6.39074182510376,
	"eval_runtime": 64.7171,
	"eval_samples_per_second": 154.519,
	"eval_steps_per_second": 19.315,
	"step": 16600
	},
	{
	"epoch": 37.085666759079565,
	"grad_norm": 0.45218634605407715,
	"learning_rate": 4.34448160535117e-06,
	"loss": 6.3894,
	"step": 16700
	},
	{
	"epoch": 37.085666759079565,
	"eval_loss": 6.393436908721924,
	"eval_runtime": 64.9705,
	"eval_samples_per_second": 153.916,
	"eval_steps_per_second": 19.24,
	"step": 16700
	},
	{
	"epoch": 37.30745772109786,
	"grad_norm": 0.5652719736099243,
	"learning_rate": 4.334448160535117e-06,
	"loss": 6.3873,
	"step": 16800
	},
	{
	"epoch": 37.30745772109786,
	"eval_loss": 6.391731262207031,
	"eval_runtime": 63.565,
	"eval_samples_per_second": 157.319,
	"eval_steps_per_second": 19.665,
	"step": 16800
	},
	{
	"epoch": 37.529248683116165,
	"grad_norm": 0.28403371572494507,
	"learning_rate": 4.324414715719064e-06,
	"loss": 6.3882,
	"step": 16900
	},
	{
	"epoch": 37.529248683116165,
	"eval_loss": 6.390590190887451,
	"eval_runtime": 63.6107,
	"eval_samples_per_second": 157.206,
	"eval_steps_per_second": 19.651,
	"step": 16900
	},
	{
	"epoch": 37.75103964513446,
	"grad_norm": 0.477235347032547,
	"learning_rate": 4.31438127090301e-06,
	"loss": 6.3872,
	"step": 17000
	},
	{
	"epoch": 37.75103964513446,
	"eval_loss": 6.390269756317139,
	"eval_runtime": 66.2763,
	"eval_samples_per_second": 150.884,
	"eval_steps_per_second": 18.86,
	"step": 17000
	},
	{
	"epoch": 37.97283060715276,
	"grad_norm": 0.37472817301750183,
	"learning_rate": 4.3043478260869565e-06,
	"loss": 6.3874,
	"step": 17100
	},
	{
	"epoch": 37.97283060715276,
	"eval_loss": 6.390199184417725,
	"eval_runtime": 63.6243,
	"eval_samples_per_second": 157.173,
	"eval_steps_per_second": 19.647,
	"step": 17100
	},
	{
	"epoch": 38.194621569171055,
	"grad_norm": 0.3379691243171692,
	"learning_rate": 4.294314381270903e-06,
	"loss": 6.387,
	"step": 17200
	},
	{
	"epoch": 38.194621569171055,
	"eval_loss": 6.386340618133545,
	"eval_runtime": 63.5571,
	"eval_samples_per_second": 157.339,
	"eval_steps_per_second": 19.667,
	"step": 17200
	},
	{
	"epoch": 38.41641253118935,
	"grad_norm": 0.46496257185935974,
	"learning_rate": 4.284280936454849e-06,
	"loss": 6.3856,
	"step": 17300
	},
	{
	"epoch": 38.41641253118935,
	"eval_loss": 6.3855695724487305,
	"eval_runtime": 65.9737,
	"eval_samples_per_second": 151.576,
	"eval_steps_per_second": 18.947,
	"step": 17300
	},
	{
	"epoch": 38.638203493207655,
	"grad_norm": 0.37888166308403015,
	"learning_rate": 4.274247491638796e-06,
	"loss": 6.3884,
	"step": 17400
	},
	{
	"epoch": 38.638203493207655,
	"eval_loss": 6.388376235961914,
	"eval_runtime": 63.6302,
	"eval_samples_per_second": 157.158,
	"eval_steps_per_second": 19.645,
	"step": 17400
	},
	{
	"epoch": 38.85999445522595,
	"grad_norm": 0.25813955068588257,
	"learning_rate": 4.264214046822743e-06,
	"loss": 6.3885,
	"step": 17500
	},
	{
	"epoch": 38.85999445522595,
	"eval_loss": 6.389296054840088,
	"eval_runtime": 63.7359,
	"eval_samples_per_second": 156.897,
	"eval_steps_per_second": 19.612,
	"step": 17500
	},
	{
	"epoch": 39.08178541724425,
	"grad_norm": 0.4262288510799408,
	"learning_rate": 4.254180602006689e-06,
	"loss": 6.3873,
	"step": 17600
	},
	{
	"epoch": 39.08178541724425,
	"eval_loss": 6.389705657958984,
	"eval_runtime": 66.0125,
	"eval_samples_per_second": 151.486,
	"eval_steps_per_second": 18.936,
	"step": 17600
	},
	{
	"epoch": 39.303576379262545,
	"grad_norm": 0.5291593074798584,
	"learning_rate": 4.244147157190635e-06,
	"loss": 6.3875,
	"step": 17700
	},
	{
	"epoch": 39.303576379262545,
	"eval_loss": 6.390807628631592,
	"eval_runtime": 63.619,
	"eval_samples_per_second": 157.186,
	"eval_steps_per_second": 19.648,
	"step": 17700
	},
	{
	"epoch": 39.52536734128084,
	"grad_norm": 0.3667999505996704,
	"learning_rate": 4.234113712374582e-06,
	"loss": 6.3887,
	"step": 17800
	},
	{
	"epoch": 39.52536734128084,
	"eval_loss": 6.3871259689331055,
	"eval_runtime": 63.6878,
	"eval_samples_per_second": 157.016,
	"eval_steps_per_second": 19.627,
	"step": 17800
	},
	{
	"epoch": 39.74715830329914,
	"grad_norm": 0.40572404861450195,
	"learning_rate": 4.224080267558528e-06,
	"loss": 6.3877,
	"step": 17900
	},
	{
	"epoch": 39.74715830329914,
	"eval_loss": 6.387050628662109,
	"eval_runtime": 66.0715,
	"eval_samples_per_second": 151.351,
	"eval_steps_per_second": 18.919,
	"step": 17900
	},
	{
	"epoch": 39.96894926531744,
	"grad_norm": 0.5057101845741272,
	"learning_rate": 4.214046822742475e-06,
	"loss": 6.385,
	"step": 18000
	},
	{
	"epoch": 39.96894926531744,
	"eval_loss": 6.388771057128906,
	"eval_runtime": 63.6312,
	"eval_samples_per_second": 157.156,
	"eval_steps_per_second": 19.644,
	"step": 18000
	},
	{
	"epoch": 40.19074022733574,
	"grad_norm": 0.5846272110939026,
	"learning_rate": 4.2040133779264216e-06,
	"loss": 6.3873,
	"step": 18100
	},
	{
	"epoch": 40.19074022733574,
	"eval_loss": 6.388961315155029,
	"eval_runtime": 63.6009,
	"eval_samples_per_second": 157.23,
	"eval_steps_per_second": 19.654,
	"step": 18100
	},
	{
	"epoch": 40.412531189354034,
	"grad_norm": 0.40428778529167175,
	"learning_rate": 4.1939799331103675e-06,
	"loss": 6.3878,
	"step": 18200
	},
	{
	"epoch": 40.412531189354034,
	"eval_loss": 6.392088413238525,
	"eval_runtime": 66.128,
	"eval_samples_per_second": 151.222,
	"eval_steps_per_second": 18.903,
	"step": 18200
	},
	{
	"epoch": 40.63432215137233,
	"grad_norm": 0.46563634276390076,
	"learning_rate": 4.183946488294314e-06,
	"loss": 6.386,
	"step": 18300
	},
	{
	"epoch": 40.63432215137233,
	"eval_loss": 6.389146327972412,
	"eval_runtime": 63.6612,
	"eval_samples_per_second": 157.082,
	"eval_steps_per_second": 19.635,
	"step": 18300
	},
	{
	"epoch": 40.85611311339063,
	"grad_norm": 0.4533691704273224,
	"learning_rate": 4.173913043478261e-06,
	"loss": 6.3874,
	"step": 18400
	},
	{
	"epoch": 40.85611311339063,
	"eval_loss": 6.386475086212158,
	"eval_runtime": 63.7394,
	"eval_samples_per_second": 156.889,
	"eval_steps_per_second": 19.611,
	"step": 18400
	},
	{
	"epoch": 41.077904075408924,
	"grad_norm": 0.38121113181114197,
	"learning_rate": 4.163879598662208e-06,
	"loss": 6.3862,
	"step": 18500
	},
	{
	"epoch": 41.077904075408924,
	"eval_loss": 6.384340763092041,
	"eval_runtime": 65.9841,
	"eval_samples_per_second": 151.552,
	"eval_steps_per_second": 18.944,
	"step": 18500
	},
	{
	"epoch": 41.29969503742723,
	"grad_norm": 0.4599936604499817,
	"learning_rate": 4.153846153846154e-06,
	"loss": 6.3871,
	"step": 18600
	},
	{
	"epoch": 41.29969503742723,
	"eval_loss": 6.38564395904541,
	"eval_runtime": 63.6008,
	"eval_samples_per_second": 157.231,
	"eval_steps_per_second": 19.654,
	"step": 18600
	},
	{
	"epoch": 41.521485999445524,
	"grad_norm": 0.6862403154373169,
	"learning_rate": 4.1438127090301005e-06,
	"loss": 6.3867,
	"step": 18700
	},
	{
	"epoch": 41.521485999445524,
	"eval_loss": 6.385303020477295,
	"eval_runtime": 63.6207,
	"eval_samples_per_second": 157.181,
	"eval_steps_per_second": 19.648,
	"step": 18700
	},
	{
	"epoch": 41.74327696146382,
	"grad_norm": 0.26633918285369873,
	"learning_rate": 4.133779264214047e-06,
	"loss": 6.3869,
	"step": 18800
	},
	{
	"epoch": 41.74327696146382,
	"eval_loss": 6.389577388763428,
	"eval_runtime": 66.0775,
	"eval_samples_per_second": 151.337,
	"eval_steps_per_second": 18.917,
	"step": 18800
	},
	{
	"epoch": 41.96506792348212,
	"grad_norm": 0.30118024349212646,
	"learning_rate": 4.123745819397993e-06,
	"loss": 6.3869,
	"step": 18900
	},
	{
	"epoch": 41.96506792348212,
	"eval_loss": 6.387940406799316,
	"eval_runtime": 63.6813,
	"eval_samples_per_second": 157.032,
	"eval_steps_per_second": 19.629,
	"step": 18900
	},
	{
	"epoch": 42.18685888550041,
	"grad_norm": 0.6833294630050659,
	"learning_rate": 4.11371237458194e-06,
	"loss": 6.3857,
	"step": 19000
	},
	{
	"epoch": 42.18685888550041,
	"eval_loss": 6.3908514976501465,
	"eval_runtime": 66.0844,
	"eval_samples_per_second": 151.322,
	"eval_steps_per_second": 18.915,
	"step": 19000
	},
	{
	"epoch": 42.40864984751872,
	"grad_norm": 0.35510268807411194,
	"learning_rate": 4.103678929765887e-06,
	"loss": 6.3862,
	"step": 19100
	},
	{
	"epoch": 42.40864984751872,
	"eval_loss": 6.3866119384765625,
	"eval_runtime": 63.7625,
	"eval_samples_per_second": 156.832,
	"eval_steps_per_second": 19.604,
	"step": 19100
	},
	{
	"epoch": 42.63044080953701,
	"grad_norm": 0.5903100371360779,
	"learning_rate": 4.0936454849498326e-06,
	"loss": 6.3857,
	"step": 19200
	},
	{
	"epoch": 42.63044080953701,
	"eval_loss": 6.385927677154541,
	"eval_runtime": 63.6174,
	"eval_samples_per_second": 157.19,
	"eval_steps_per_second": 19.649,
	"step": 19200
	},
	{
	"epoch": 42.85223177155531,
	"grad_norm": 0.4845108091831207,
	"learning_rate": 4.083612040133779e-06,
	"loss": 6.387,
	"step": 19300
	},
	{
	"epoch": 42.85223177155531,
	"eval_loss": 6.38942289352417,
	"eval_runtime": 66.1264,
	"eval_samples_per_second": 151.226,
	"eval_steps_per_second": 18.903,
	"step": 19300
	},
	{
	"epoch": 43.07402273357361,
	"grad_norm": 0.3592558801174164,
	"learning_rate": 4.073578595317726e-06,
	"loss": 6.3862,
	"step": 19400
	},
	{
	"epoch": 43.07402273357361,
	"eval_loss": 6.389144420623779,
	"eval_runtime": 63.5655,
	"eval_samples_per_second": 157.318,
	"eval_steps_per_second": 19.665,
	"step": 19400
	},
	{
	"epoch": 43.2958136955919,
	"grad_norm": 0.5529589056968689,
	"learning_rate": 4.063545150501672e-06,
	"loss": 6.3842,
	"step": 19500
	},
	{
	"epoch": 43.2958136955919,
	"eval_loss": 6.386436939239502,
	"eval_runtime": 66.2264,
	"eval_samples_per_second": 150.997,
	"eval_steps_per_second": 18.875,
	"step": 19500
	},
	{
	"epoch": 43.5176046576102,
	"grad_norm": 0.42238518595695496,
	"learning_rate": 4.053511705685619e-06,
	"loss": 6.3866,
	"step": 19600
	},
	{
	"epoch": 43.5176046576102,
	"eval_loss": 6.385384559631348,
	"eval_runtime": 63.7683,
	"eval_samples_per_second": 156.818,
	"eval_steps_per_second": 19.602,
	"step": 19600
	},
	{
	"epoch": 43.7393956196285,
	"grad_norm": 0.5223355293273926,
	"learning_rate": 4.0434782608695655e-06,
	"loss": 6.3853,
	"step": 19700
	},
	{
	"epoch": 43.7393956196285,
	"eval_loss": 6.385824203491211,
	"eval_runtime": 63.6506,
	"eval_samples_per_second": 157.108,
	"eval_steps_per_second": 19.638,
	"step": 19700
	},
	{
	"epoch": 43.9611865816468,
	"grad_norm": 0.46218928694725037,
	"learning_rate": 4.0334448160535115e-06,
	"loss": 6.387,
	"step": 19800
	},
	{
	"epoch": 43.9611865816468,
	"eval_loss": 6.38681697845459,
	"eval_runtime": 66.1858,
	"eval_samples_per_second": 151.09,
	"eval_steps_per_second": 18.886,
	"step": 19800
	},
	{
	"epoch": 44.182977543665096,
	"grad_norm": 0.3450022041797638,
	"learning_rate": 4.023411371237458e-06,
	"loss": 6.3845,
	"step": 19900
	},
	{
	"epoch": 44.182977543665096,
	"eval_loss": 6.386622428894043,
	"eval_runtime": 63.5361,
	"eval_samples_per_second": 157.391,
	"eval_steps_per_second": 19.674,
	"step": 19900
	},
	{
	"epoch": 44.40476850568339,
	"grad_norm": 0.39958134293556213,
	"learning_rate": 4.013377926421405e-06,
	"loss": 6.3863,
	"step": 20000
	},
	{
	"epoch": 44.40476850568339,
	"eval_loss": 6.387628555297852,
	"eval_runtime": 63.6316,
	"eval_samples_per_second": 157.155,
	"eval_steps_per_second": 19.644,
	"step": 20000
	},
	{
	"epoch": 44.62655946770169,
	"grad_norm": 0.28472310304641724,
	"learning_rate": 4.003344481605351e-06,
	"loss": 6.3851,
	"step": 20100
	},
	{
	"epoch": 44.62655946770169,
	"eval_loss": 6.388401031494141,
	"eval_runtime": 63.6958,
	"eval_samples_per_second": 156.996,
	"eval_steps_per_second": 19.625,
	"step": 20100
	},
	{
	"epoch": 44.848350429719986,
	"grad_norm": 0.39134547114372253,
	"learning_rate": 3.993311036789298e-06,
	"loss": 6.3849,
	"step": 20200
	},
	{
	"epoch": 44.848350429719986,
	"eval_loss": 6.389621734619141,
	"eval_runtime": 66.137,
	"eval_samples_per_second": 151.201,
	"eval_steps_per_second": 18.9,
	"step": 20200
	},
	{
	"epoch": 45.07014139173829,
	"grad_norm": 0.5134591460227966,
	"learning_rate": 3.9832775919732444e-06,
	"loss": 6.3847,
	"step": 20300
	},
	{
	"epoch": 45.07014139173829,
	"eval_loss": 6.387813568115234,
	"eval_runtime": 63.5686,
	"eval_samples_per_second": 157.31,
	"eval_steps_per_second": 19.664,
	"step": 20300
	},
	{
	"epoch": 45.291932353756586,
	"grad_norm": 0.2885007858276367,
	"learning_rate": 3.97324414715719e-06,
	"loss": 6.3865,
	"step": 20400
	},
	{
	"epoch": 45.291932353756586,
	"eval_loss": 6.389806270599365,
	"eval_runtime": 63.5893,
	"eval_samples_per_second": 157.259,
	"eval_steps_per_second": 19.657,
	"step": 20400
	},
	{
	"epoch": 45.51372331577488,
	"grad_norm": 0.37093526124954224,
	"learning_rate": 3.963210702341137e-06,
	"loss": 6.3842,
	"step": 20500
	},
	{
	"epoch": 45.51372331577488,
	"eval_loss": 6.386034965515137,
	"eval_runtime": 66.1094,
	"eval_samples_per_second": 151.265,
	"eval_steps_per_second": 18.908,
	"step": 20500
	},
	{
	"epoch": 45.73551427779318,
	"grad_norm": 0.4181094169616699,
	"learning_rate": 3.953177257525084e-06,
	"loss": 6.3827,
	"step": 20600
	},
	{
	"epoch": 45.73551427779318,
	"eval_loss": 6.386598587036133,
	"eval_runtime": 63.6628,
	"eval_samples_per_second": 157.078,
	"eval_steps_per_second": 19.635,
	"step": 20600
	},
	{
	"epoch": 45.957305239811475,
	"grad_norm": 0.6212390661239624,
	"learning_rate": 3.943143812709031e-06,
	"loss": 6.3864,
	"step": 20700
	},
	{
	"epoch": 45.957305239811475,
	"eval_loss": 6.3882646560668945,
	"eval_runtime": 65.9973,
	"eval_samples_per_second": 151.521,
	"eval_steps_per_second": 18.94,
	"step": 20700
	},
	{
	"epoch": 46.17909620182977,
	"grad_norm": 0.443857878446579,
	"learning_rate": 3.9331103678929765e-06,
	"loss": 6.3859,
	"step": 20800
	},
	{
	"epoch": 46.17909620182977,
	"eval_loss": 6.388275623321533,
	"eval_runtime": 63.7053,
	"eval_samples_per_second": 156.973,
	"eval_steps_per_second": 19.622,
	"step": 20800
	},
	{
	"epoch": 46.400887163848076,
	"grad_norm": 0.2678993344306946,
	"learning_rate": 3.923076923076923e-06,
	"loss": 6.3865,
	"step": 20900
	},
	{
	"epoch": 46.400887163848076,
	"eval_loss": 6.38779354095459,
	"eval_runtime": 63.6908,
	"eval_samples_per_second": 157.009,
	"eval_steps_per_second": 19.626,
	"step": 20900
	},
	{
	"epoch": 46.62267812586637,
	"grad_norm": 0.35121896862983704,
	"learning_rate": 3.91304347826087e-06,
	"loss": 6.3842,
	"step": 21000
	},
	{
	"epoch": 46.62267812586637,
	"eval_loss": 6.385668754577637,
	"eval_runtime": 66.0547,
	"eval_samples_per_second": 151.39,
	"eval_steps_per_second": 18.924,
	"step": 21000
	},
	{
	"epoch": 46.84446908788467,
	"grad_norm": 0.6166325807571411,
	"learning_rate": 3.903010033444816e-06,
	"loss": 6.3848,
	"step": 21100
	},
	{
	"epoch": 46.84446908788467,
	"eval_loss": 6.385282516479492,
	"eval_runtime": 63.6134,
	"eval_samples_per_second": 157.2,
	"eval_steps_per_second": 19.65,
	"step": 21100
	},
	{
	"epoch": 47.066260049902965,
	"grad_norm": 0.5324620008468628,
	"learning_rate": 3.892976588628763e-06,
	"loss": 6.3847,
	"step": 21200
	},
	{
	"epoch": 47.066260049902965,
	"eval_loss": 6.386166572570801,
	"eval_runtime": 63.7747,
	"eval_samples_per_second": 156.802,
	"eval_steps_per_second": 19.6,
	"step": 21200
	},
	{
	"epoch": 47.28805101192126,
	"grad_norm": 0.37806278467178345,
	"learning_rate": 3.8829431438127095e-06,
	"loss": 6.3847,
	"step": 21300
	},
	{
	"epoch": 47.28805101192126,
	"eval_loss": 6.387280464172363,
	"eval_runtime": 66.0795,
	"eval_samples_per_second": 151.333,
	"eval_steps_per_second": 18.917,
	"step": 21300
	},
	{
	"epoch": 47.509841973939565,
	"grad_norm": 0.2344857156276703,
	"learning_rate": 3.8729096989966554e-06,
	"loss": 6.3851,
	"step": 21400
	},
	{
	"epoch": 47.509841973939565,
	"eval_loss": 6.38550329208374,
	"eval_runtime": 63.7048,
	"eval_samples_per_second": 156.974,
	"eval_steps_per_second": 19.622,
	"step": 21400
	},
	{
	"epoch": 47.73163293595786,
	"grad_norm": 0.47279292345046997,
	"learning_rate": 3.862876254180602e-06,
	"loss": 6.3843,
	"step": 21500
	},
	{
	"epoch": 47.73163293595786,
	"eval_loss": 6.390079021453857,
	"eval_runtime": 63.7137,
	"eval_samples_per_second": 156.952,
	"eval_steps_per_second": 19.619,
	"step": 21500
	},
	{
	"epoch": 47.95342389797616,
	"grad_norm": 0.5413157343864441,
	"learning_rate": 3.852842809364549e-06,
	"loss": 6.3844,
	"step": 21600
	},
	{
	"epoch": 47.95342389797616,
	"eval_loss": 6.385741233825684,
	"eval_runtime": 66.101,
	"eval_samples_per_second": 151.284,
	"eval_steps_per_second": 18.91,
	"step": 21600
	},
	{
	"epoch": 48.175214859994455,
	"grad_norm": 0.48085787892341614,
	"learning_rate": 3.842809364548495e-06,
	"loss": 6.3851,
	"step": 21700
	},
	{
	"epoch": 48.175214859994455,
	"eval_loss": 6.385941505432129,
	"eval_runtime": 63.6718,
	"eval_samples_per_second": 157.055,
	"eval_steps_per_second": 19.632,
	"step": 21700
	},
	{
	"epoch": 48.39700582201275,
	"grad_norm": 0.6270382404327393,
	"learning_rate": 3.832775919732442e-06,
	"loss": 6.3845,
	"step": 21800
	},
	{
	"epoch": 48.39700582201275,
	"eval_loss": 6.387849807739258,
	"eval_runtime": 66.1314,
	"eval_samples_per_second": 151.214,
	"eval_steps_per_second": 18.902,
	"step": 21800
	},
	{
	"epoch": 48.61879678403105,
	"grad_norm": 0.36722734570503235,
	"learning_rate": 3.822742474916388e-06,
	"loss": 6.3848,
	"step": 21900
	},
	{
	"epoch": 48.61879678403105,
	"eval_loss": 6.387927532196045,
	"eval_runtime": 63.6715,
	"eval_samples_per_second": 157.056,
	"eval_steps_per_second": 19.632,
	"step": 21900
	},
	{
	"epoch": 48.84058774604935,
	"grad_norm": 0.4715673327445984,
	"learning_rate": 3.8127090301003347e-06,
	"loss": 6.3828,
	"step": 22000
	},
	{
	"epoch": 48.84058774604935,
	"eval_loss": 6.388005256652832,
	"eval_runtime": 63.7564,
	"eval_samples_per_second": 156.847,
	"eval_steps_per_second": 19.606,
	"step": 22000
	},
	{
	"epoch": 49.06237870806765,
	"grad_norm": 0.46226397156715393,
	"learning_rate": 3.802675585284281e-06,
	"loss": 6.3839,
	"step": 22100
	},
	{
	"epoch": 49.06237870806765,
	"eval_loss": 6.386138439178467,
	"eval_runtime": 65.9562,
	"eval_samples_per_second": 151.616,
	"eval_steps_per_second": 18.952,
	"step": 22100
	},
	{
	"epoch": 49.284169670085944,
	"grad_norm": 0.48933687806129456,
	"learning_rate": 3.792642140468228e-06,
	"loss": 6.3835,
	"step": 22200
	},
	{
	"epoch": 49.284169670085944,
	"eval_loss": 6.386913776397705,
	"eval_runtime": 63.5702,
	"eval_samples_per_second": 157.306,
	"eval_steps_per_second": 19.663,
	"step": 22200
	},
	{
	"epoch": 49.50596063210424,
	"grad_norm": 0.4057106375694275,
	"learning_rate": 3.782608695652174e-06,
	"loss": 6.3831,
	"step": 22300
	},
	{
	"epoch": 49.50596063210424,
	"eval_loss": 6.3875555992126465,
	"eval_runtime": 63.6283,
	"eval_samples_per_second": 157.163,
	"eval_steps_per_second": 19.645,
	"step": 22300
	},
	{
	"epoch": 49.72775159412254,
	"grad_norm": 0.4397966265678406,
	"learning_rate": 3.7725752508361205e-06,
	"loss": 6.3847,
	"step": 22400
	},
	{
	"epoch": 49.72775159412254,
	"eval_loss": 6.386244297027588,
	"eval_runtime": 63.6792,
	"eval_samples_per_second": 157.037,
	"eval_steps_per_second": 19.63,
	"step": 22400
	},
	{
	"epoch": 49.949542556140834,
	"grad_norm": 0.4629203677177429,
	"learning_rate": 3.7625418060200673e-06,
	"loss": 6.384,
	"step": 22500
	},
	{
	"epoch": 49.949542556140834,
	"eval_loss": 6.386322498321533,
	"eval_runtime": 66.1359,
	"eval_samples_per_second": 151.204,
	"eval_steps_per_second": 18.9,
	"step": 22500
	},
	{
	"epoch": 50.17133351815914,
	"grad_norm": 0.43559348583221436,
	"learning_rate": 3.7525083612040136e-06,
	"loss": 6.3831,
	"step": 22600
	},
	{
	"epoch": 50.17133351815914,
	"eval_loss": 6.386173248291016,
	"eval_runtime": 63.6043,
	"eval_samples_per_second": 157.222,
	"eval_steps_per_second": 19.653,
	"step": 22600
	},
	{
	"epoch": 50.393124480177434,
	"grad_norm": 0.3772810399532318,
	"learning_rate": 3.74247491638796e-06,
	"loss": 6.3836,
	"step": 22700
	},
	{
	"epoch": 50.393124480177434,
	"eval_loss": 6.38073205947876,
	"eval_runtime": 63.7199,
	"eval_samples_per_second": 156.937,
	"eval_steps_per_second": 19.617,
	"step": 22700
	},
	{
	"epoch": 50.61491544219573,
	"grad_norm": 0.36232537031173706,
	"learning_rate": 3.7324414715719067e-06,
	"loss": 6.3837,
	"step": 22800
	},
	{
	"epoch": 50.61491544219573,
	"eval_loss": 6.385157108306885,
	"eval_runtime": 66.1214,
	"eval_samples_per_second": 151.237,
	"eval_steps_per_second": 18.905,
	"step": 22800
	},
	{
	"epoch": 50.83670640421403,
	"grad_norm": 0.3568231165409088,
	"learning_rate": 3.722408026755853e-06,
	"loss": 6.3837,
	"step": 22900
	},
	{
	"epoch": 50.83670640421403,
	"eval_loss": 6.388894081115723,
	"eval_runtime": 63.6202,
	"eval_samples_per_second": 157.183,
	"eval_steps_per_second": 19.648,
	"step": 22900
	},
	{
	"epoch": 51.058497366232324,
	"grad_norm": 0.5292544960975647,
	"learning_rate": 3.7123745819398e-06,
	"loss": 6.3824,
	"step": 23000
	},
	{
	"epoch": 51.058497366232324,
	"eval_loss": 6.382253170013428,
	"eval_runtime": 63.6223,
	"eval_samples_per_second": 157.178,
	"eval_steps_per_second": 19.647,
	"step": 23000
	},
	{
	"epoch": 51.28028832825063,
	"grad_norm": 0.47718894481658936,
	"learning_rate": 3.702341137123746e-06,
	"loss": 6.3833,
	"step": 23100
	},
	{
	"epoch": 51.28028832825063,
	"eval_loss": 6.389714241027832,
	"eval_runtime": 66.0943,
	"eval_samples_per_second": 151.299,
	"eval_steps_per_second": 18.912,
	"step": 23100
	},
	{
	"epoch": 51.502079290268924,
	"grad_norm": 0.2303953319787979,
	"learning_rate": 3.6923076923076925e-06,
	"loss": 6.3822,
	"step": 23200
	},
	{
	"epoch": 51.502079290268924,
	"eval_loss": 6.384761810302734,
	"eval_runtime": 63.6768,
	"eval_samples_per_second": 157.043,
	"eval_steps_per_second": 19.63,
	"step": 23200
	},
	{
	"epoch": 51.72387025228722,
	"grad_norm": 0.4536280035972595,
	"learning_rate": 3.6822742474916393e-06,
	"loss": 6.3829,
	"step": 23300
	},
	{
	"epoch": 51.72387025228722,
	"eval_loss": 6.38330078125,
	"eval_runtime": 63.6407,
	"eval_samples_per_second": 157.132,
	"eval_steps_per_second": 19.642,
	"step": 23300
	},
	{
	"epoch": 51.94566121430552,
	"grad_norm": 0.36595970392227173,
	"learning_rate": 3.6722408026755856e-06,
	"loss": 6.3839,
	"step": 23400
	},
	{
	"epoch": 51.94566121430552,
	"eval_loss": 6.384377956390381,
	"eval_runtime": 63.6117,
	"eval_samples_per_second": 157.204,
	"eval_steps_per_second": 19.65,
	"step": 23400
	},
	{
	"epoch": 52.16745217632381,
	"grad_norm": 0.4151841104030609,
	"learning_rate": 3.662207357859532e-06,
	"loss": 6.3838,
	"step": 23500
	},
	{
	"epoch": 52.16745217632381,
	"eval_loss": 6.385963439941406,
	"eval_runtime": 66.0487,
	"eval_samples_per_second": 151.403,
	"eval_steps_per_second": 18.925,
	"step": 23500
	},
	{
	"epoch": 52.38924313834211,
	"grad_norm": 0.3460543155670166,
	"learning_rate": 3.6521739130434787e-06,
	"loss": 6.3828,
	"step": 23600
	},
	{
	"epoch": 52.38924313834211,
	"eval_loss": 6.384364128112793,
	"eval_runtime": 63.6451,
	"eval_samples_per_second": 157.121,
	"eval_steps_per_second": 19.64,
	"step": 23600
	},
	{
	"epoch": 52.61103410036041,
	"grad_norm": 0.35991814732551575,
	"learning_rate": 3.642140468227425e-06,
	"loss": 6.3828,
	"step": 23700
	},
	{
	"epoch": 52.61103410036041,
	"eval_loss": 6.382322311401367,
	"eval_runtime": 63.5885,
	"eval_samples_per_second": 157.261,
	"eval_steps_per_second": 19.658,
	"step": 23700
	},
	{
	"epoch": 52.83282506237871,
	"grad_norm": 0.556122899055481,
	"learning_rate": 3.6321070234113714e-06,
	"loss": 6.383,
	"step": 23800
	},
	{
	"epoch": 52.83282506237871,
	"eval_loss": 6.387279987335205,
	"eval_runtime": 63.668,
	"eval_samples_per_second": 157.065,
	"eval_steps_per_second": 19.633,
	"step": 23800
	},
	{
	"epoch": 53.054616024397006,
	"grad_norm": 0.4246836304664612,
	"learning_rate": 3.622073578595318e-06,
	"loss": 6.3842,
	"step": 23900
	},
	{
	"epoch": 53.054616024397006,
	"eval_loss": 6.382977485656738,
	"eval_runtime": 65.9495,
	"eval_samples_per_second": 151.631,
	"eval_steps_per_second": 18.954,
	"step": 23900
	},
	{
	"epoch": 53.2764069864153,
	"grad_norm": 0.4062933027744293,
	"learning_rate": 3.6120401337792645e-06,
	"loss": 6.3829,
	"step": 24000
	},
	{
	"epoch": 53.2764069864153,
	"eval_loss": 6.386227130889893,
	"eval_runtime": 63.6044,
	"eval_samples_per_second": 157.222,
	"eval_steps_per_second": 19.653,
	"step": 24000
	},
	{
	"epoch": 53.4981979484336,
	"grad_norm": 0.36249685287475586,
	"learning_rate": 3.6020066889632112e-06,
	"loss": 6.3841,
	"step": 24100
	},
	{
	"epoch": 53.4981979484336,
	"eval_loss": 6.388720989227295,
	"eval_runtime": 63.7502,
	"eval_samples_per_second": 156.862,
	"eval_steps_per_second": 19.608,
	"step": 24100
	},
	{
	"epoch": 53.719988910451896,
	"grad_norm": 0.464330792427063,
	"learning_rate": 3.5919732441471576e-06,
	"loss": 6.3821,
	"step": 24200
	},
	{
	"epoch": 53.719988910451896,
	"eval_loss": 6.385589122772217,
	"eval_runtime": 66.108,
	"eval_samples_per_second": 151.268,
	"eval_steps_per_second": 18.908,
	"step": 24200
	},
	{
	"epoch": 53.9417798724702,
	"grad_norm": 0.36706265807151794,
	"learning_rate": 3.581939799331104e-06,
	"loss": 6.3834,
	"step": 24300
	},
	{
	"epoch": 53.9417798724702,
	"eval_loss": 6.385077476501465,
	"eval_runtime": 63.7574,
	"eval_samples_per_second": 156.844,
	"eval_steps_per_second": 19.606,
	"step": 24300
	},
	{
	"epoch": 54.2217909620183,
	"grad_norm": 0.5084080100059509,
	"learning_rate": 3.5719063545150507e-06,
	"loss": 6.3829,
	"step": 24400
	},
	{
	"epoch": 54.2217909620183,
	"eval_loss": 6.384501934051514,
	"eval_runtime": 66.1045,
	"eval_samples_per_second": 151.276,
	"eval_steps_per_second": 18.909,
	"step": 24400
	},
	{
	"epoch": 54.44358192403659,
	"grad_norm": 0.2843925952911377,
	"learning_rate": 3.561872909698997e-06,
	"loss": 6.3828,
	"step": 24500
	},
	{
	"epoch": 54.44358192403659,
	"eval_loss": 6.386019706726074,
	"eval_runtime": 63.7676,
	"eval_samples_per_second": 156.819,
	"eval_steps_per_second": 19.602,
	"step": 24500
	},
	{
	"epoch": 54.6653728860549,
	"grad_norm": 0.3394639492034912,
	"learning_rate": 3.5518394648829434e-06,
	"loss": 6.3839,
	"step": 24600
	},
	{
	"epoch": 54.6653728860549,
	"eval_loss": 6.385280132293701,
	"eval_runtime": 64.0386,
	"eval_samples_per_second": 156.156,
	"eval_steps_per_second": 19.519,
	"step": 24600
	},
	{
	"epoch": 54.88716384807319,
	"grad_norm": 0.5277294516563416,
	"learning_rate": 3.54180602006689e-06,
	"loss": 6.3827,
	"step": 24700
	},
	{
	"epoch": 54.88716384807319,
	"eval_loss": 6.382243633270264,
	"eval_runtime": 66.1687,
	"eval_samples_per_second": 151.129,
	"eval_steps_per_second": 18.891,
	"step": 24700
	},
	{
	"epoch": 55.10895481009149,
	"grad_norm": 0.4542704224586487,
	"learning_rate": 3.5317725752508365e-06,
	"loss": 6.3835,
	"step": 24800
	},
	{
	"epoch": 55.10895481009149,
	"eval_loss": 6.384250640869141,
	"eval_runtime": 63.6729,
	"eval_samples_per_second": 157.053,
	"eval_steps_per_second": 19.632,
	"step": 24800
	},
	{
	"epoch": 55.330745772109786,
	"grad_norm": 0.4311918318271637,
	"learning_rate": 3.521739130434783e-06,
	"loss": 6.3821,
	"step": 24900
	},
	{
	"epoch": 55.330745772109786,
	"eval_loss": 6.382208824157715,
	"eval_runtime": 63.7247,
	"eval_samples_per_second": 156.925,
	"eval_steps_per_second": 19.616,
	"step": 24900
	},
	{
	"epoch": 55.55253673412808,
	"grad_norm": 0.5033969283103943,
	"learning_rate": 3.5117056856187296e-06,
	"loss": 6.3828,
	"step": 25000
	},
	{
	"epoch": 55.55253673412808,
	"eval_loss": 6.384891510009766,
	"eval_runtime": 66.1992,
	"eval_samples_per_second": 151.059,
	"eval_steps_per_second": 18.882,
	"step": 25000
	},
	{
	"epoch": 55.77432769614638,
	"grad_norm": 0.389417827129364,
	"learning_rate": 3.501672240802676e-06,
	"loss": 6.3821,
	"step": 25100
	},
	{
	"epoch": 55.77432769614638,
	"eval_loss": 6.3841633796691895,
	"eval_runtime": 63.7582,
	"eval_samples_per_second": 156.843,
	"eval_steps_per_second": 19.605,
	"step": 25100
	},
	{
	"epoch": 55.99611865816468,
	"grad_norm": 0.35223087668418884,
	"learning_rate": 3.491638795986622e-06,
	"loss": 6.382,
	"step": 25200
	},
	{
	"epoch": 55.99611865816468,
	"eval_loss": 6.3838019371032715,
	"eval_runtime": 63.6971,
	"eval_samples_per_second": 156.993,
	"eval_steps_per_second": 19.624,
	"step": 25200
	},
	{
	"epoch": 56.21790962018298,
	"grad_norm": 0.3913029134273529,
	"learning_rate": 3.481605351170568e-06,
	"loss": 6.3815,
	"step": 25300
	},
	{
	"epoch": 56.21790962018298,
	"eval_loss": 6.3869524002075195,
	"eval_runtime": 66.1208,
	"eval_samples_per_second": 151.238,
	"eval_steps_per_second": 18.905,
	"step": 25300
	},
	{
	"epoch": 56.439700582201276,
	"grad_norm": 0.4827691614627838,
	"learning_rate": 3.471571906354515e-06,
	"loss": 6.3827,
	"step": 25400
	},
	{
	"epoch": 56.439700582201276,
	"eval_loss": 6.384666442871094,
	"eval_runtime": 63.6765,
	"eval_samples_per_second": 157.044,
	"eval_steps_per_second": 19.63,
	"step": 25400
	},
	{
	"epoch": 56.66149154421957,
	"grad_norm": 0.3427080512046814,
	"learning_rate": 3.4615384615384613e-06,
	"loss": 6.3827,
	"step": 25500
	},
	{
	"epoch": 56.66149154421957,
	"eval_loss": 6.384727478027344,
	"eval_runtime": 66.2151,
	"eval_samples_per_second": 151.023,
	"eval_steps_per_second": 18.878,
	"step": 25500
	},
	{
	"epoch": 56.88328250623787,
	"grad_norm": 0.43282854557037354,
	"learning_rate": 3.4515050167224076e-06,
	"loss": 6.3822,
	"step": 25600
	},
	{
	"epoch": 56.88328250623787,
	"eval_loss": 6.384084224700928,
	"eval_runtime": 63.8392,
	"eval_samples_per_second": 156.643,
	"eval_steps_per_second": 19.58,
	"step": 25600
	},
	{
	"epoch": 57.105073468256165,
	"grad_norm": 0.42564040422439575,
	"learning_rate": 3.4414715719063544e-06,
	"loss": 6.3814,
	"step": 25700
	},
	{
	"epoch": 57.105073468256165,
	"eval_loss": 6.383011817932129,
	"eval_runtime": 63.6955,
	"eval_samples_per_second": 156.997,
	"eval_steps_per_second": 19.625,
	"step": 25700
	},
	{
	"epoch": 57.32686443027447,
	"grad_norm": 0.3655114471912384,
	"learning_rate": 3.4314381270903007e-06,
	"loss": 6.3813,
	"step": 25800
	},
	{
	"epoch": 57.32686443027447,
	"eval_loss": 6.384052753448486,
	"eval_runtime": 66.0629,
	"eval_samples_per_second": 151.371,
	"eval_steps_per_second": 18.921,
	"step": 25800
	},
	{
	"epoch": 57.548655392292765,
	"grad_norm": 0.4009644389152527,
	"learning_rate": 3.4214046822742475e-06,
	"loss": 6.3819,
	"step": 25900
	},
	{
	"epoch": 57.548655392292765,
	"eval_loss": 6.384483814239502,
	"eval_runtime": 63.6201,
	"eval_samples_per_second": 157.183,
	"eval_steps_per_second": 19.648,
	"step": 25900
	},
	{
	"epoch": 57.77044635431106,
	"grad_norm": 0.45892468094825745,
	"learning_rate": 3.411371237458194e-06,
	"loss": 6.3823,
	"step": 26000
	},
	{
	"epoch": 57.77044635431106,
	"eval_loss": 6.382046222686768,
	"eval_runtime": 63.6871,
	"eval_samples_per_second": 157.018,
	"eval_steps_per_second": 19.627,
	"step": 26000
	},
	{
	"epoch": 57.99223731632936,
	"grad_norm": 0.6261206865310669,
	"learning_rate": 3.40133779264214e-06,
	"loss": 6.3822,
	"step": 26100
	},
	{
	"epoch": 57.99223731632936,
	"eval_loss": 6.385235786437988,
	"eval_runtime": 66.2139,
	"eval_samples_per_second": 151.026,
	"eval_steps_per_second": 18.878,
	"step": 26100
	},
	{
	"epoch": 58.214028278347655,
	"grad_norm": 0.38988542556762695,
	"learning_rate": 3.391304347826087e-06,
	"loss": 6.3817,
	"step": 26200
	},
	{
	"epoch": 58.214028278347655,
	"eval_loss": 6.385043144226074,
	"eval_runtime": 63.6337,
	"eval_samples_per_second": 157.149,
	"eval_steps_per_second": 19.644,
	"step": 26200
	},
	{
	"epoch": 58.43581924036596,
	"grad_norm": 0.3526028096675873,
	"learning_rate": 3.3812709030100333e-06,
	"loss": 6.3819,
	"step": 26300
	},
	{
	"epoch": 58.43581924036596,
	"eval_loss": 6.385810375213623,
	"eval_runtime": 63.6001,
	"eval_samples_per_second": 157.233,
	"eval_steps_per_second": 19.654,
	"step": 26300
	},
	{
	"epoch": 58.657610202384255,
	"grad_norm": 0.38116052746772766,
	"learning_rate": 3.3712374581939796e-06,
	"loss": 6.3835,
	"step": 26400
	},
	{
	"epoch": 58.657610202384255,
	"eval_loss": 6.383828639984131,
	"eval_runtime": 66.0823,
	"eval_samples_per_second": 151.327,
	"eval_steps_per_second": 18.916,
	"step": 26400
	},
	{
	"epoch": 58.87940116440255,
	"grad_norm": 0.5195460319519043,
	"learning_rate": 3.3612040133779264e-06,
	"loss": 6.3824,
	"step": 26500
	},
	{
	"epoch": 58.87940116440255,
	"eval_loss": 6.3872599601745605,
	"eval_runtime": 63.6944,
	"eval_samples_per_second": 157.0,
	"eval_steps_per_second": 19.625,
	"step": 26500
	},
	{
	"epoch": 59.10119212642085,
	"grad_norm": 0.3986002206802368,
	"learning_rate": 3.3511705685618727e-06,
	"loss": 6.3813,
	"step": 26600
	},
	{
	"epoch": 59.10119212642085,
	"eval_loss": 6.384389877319336,
	"eval_runtime": 63.651,
	"eval_samples_per_second": 157.107,
	"eval_steps_per_second": 19.638,
	"step": 26600
	},
	{
	"epoch": 59.322983088439145,
	"grad_norm": 0.3788560628890991,
	"learning_rate": 3.3411371237458195e-06,
	"loss": 6.3834,
	"step": 26700
	},
	{
	"epoch": 59.322983088439145,
	"eval_loss": 6.383492946624756,
	"eval_runtime": 66.1062,
	"eval_samples_per_second": 151.272,
	"eval_steps_per_second": 18.909,
	"step": 26700
	},
	{
	"epoch": 59.54477405045744,
	"grad_norm": 0.3633769750595093,
	"learning_rate": 3.331103678929766e-06,
	"loss": 6.3806,
	"step": 26800
	},
	{
	"epoch": 59.54477405045744,
	"eval_loss": 6.383812427520752,
	"eval_runtime": 63.6852,
	"eval_samples_per_second": 157.022,
	"eval_steps_per_second": 19.628,
	"step": 26800
	},
	{
	"epoch": 59.766565012475745,
	"grad_norm": 0.5389061570167542,
	"learning_rate": 3.321070234113712e-06,
	"loss": 6.3818,
	"step": 26900
	},
	{
	"epoch": 59.766565012475745,
	"eval_loss": 6.386070251464844,
	"eval_runtime": 63.6726,
	"eval_samples_per_second": 157.054,
	"eval_steps_per_second": 19.632,
	"step": 26900
	},
	{
	"epoch": 59.98835597449404,
	"grad_norm": 0.5415310263633728,
	"learning_rate": 3.311036789297659e-06,
	"loss": 6.3812,
	"step": 27000
	},
	{
	"epoch": 59.98835597449404,
	"eval_loss": 6.386297702789307,
	"eval_runtime": 66.0998,
	"eval_samples_per_second": 151.286,
	"eval_steps_per_second": 18.911,
	"step": 27000
	},
	{
	"epoch": 60.21014693651234,
	"grad_norm": 0.25073182582855225,
	"learning_rate": 3.3010033444816052e-06,
	"loss": 6.3825,
	"step": 27100
	},
	{
	"epoch": 60.21014693651234,
	"eval_loss": 6.384896278381348,
	"eval_runtime": 63.7213,
	"eval_samples_per_second": 156.933,
	"eval_steps_per_second": 19.617,
	"step": 27100
	},
	{
	"epoch": 60.431937898530634,
	"grad_norm": 0.2894960045814514,
	"learning_rate": 3.2909698996655516e-06,
	"loss": 6.3806,
	"step": 27200
	},
	{
	"epoch": 60.431937898530634,
	"eval_loss": 6.383223533630371,
	"eval_runtime": 66.1431,
	"eval_samples_per_second": 151.187,
	"eval_steps_per_second": 18.898,
	"step": 27200
	},
	{
	"epoch": 60.65372886054893,
	"grad_norm": 0.48593568801879883,
	"learning_rate": 3.2809364548494983e-06,
	"loss": 6.3814,
	"step": 27300
	},
	{
	"epoch": 60.65372886054893,
	"eval_loss": 6.382923603057861,
	"eval_runtime": 63.8018,
	"eval_samples_per_second": 156.735,
	"eval_steps_per_second": 19.592,
	"step": 27300
	},
	{
	"epoch": 60.87551982256723,
	"grad_norm": 0.3919661343097687,
	"learning_rate": 3.2709030100334447e-06,
	"loss": 6.3812,
	"step": 27400
	},
	{
	"epoch": 60.87551982256723,
	"eval_loss": 6.384592056274414,
	"eval_runtime": 63.6834,
	"eval_samples_per_second": 157.027,
	"eval_steps_per_second": 19.628,
	"step": 27400
	},
	{
	"epoch": 61.09731078458553,
	"grad_norm": 0.41026151180267334,
	"learning_rate": 3.260869565217391e-06,
	"loss": 6.3823,
	"step": 27500
	},
	{
	"epoch": 61.09731078458553,
	"eval_loss": 6.385217189788818,
	"eval_runtime": 66.0642,
	"eval_samples_per_second": 151.368,
	"eval_steps_per_second": 18.921,
	"step": 27500
	},
	{
	"epoch": 61.31910174660383,
	"grad_norm": 0.3794995844364166,
	"learning_rate": 3.2508361204013378e-06,
	"loss": 6.3811,
	"step": 27600
	},
	{
	"epoch": 61.31910174660383,
	"eval_loss": 6.383106231689453,
	"eval_runtime": 63.705,
	"eval_samples_per_second": 156.973,
	"eval_steps_per_second": 19.622,
	"step": 27600
	},
	{
	"epoch": 61.540892708622124,
	"grad_norm": 0.4461415410041809,
	"learning_rate": 3.240802675585284e-06,
	"loss": 6.3828,
	"step": 27700
	},
	{
	"epoch": 61.540892708622124,
	"eval_loss": 6.384341239929199,
	"eval_runtime": 63.6974,
	"eval_samples_per_second": 156.992,
	"eval_steps_per_second": 19.624,
	"step": 27700
	},
	{
	"epoch": 61.76268367064042,
	"grad_norm": 0.24599848687648773,
	"learning_rate": 3.230769230769231e-06,
	"loss": 6.3807,
	"step": 27800
	},
	{
	"epoch": 61.76268367064042,
	"eval_loss": 6.384603023529053,
	"eval_runtime": 66.1353,
	"eval_samples_per_second": 151.205,
	"eval_steps_per_second": 18.901,
	"step": 27800
	},
	{
	"epoch": 61.98447463265872,
	"grad_norm": 0.2466522455215454,
	"learning_rate": 3.2207357859531772e-06,
	"loss": 6.3823,
	"step": 27900
	},
	{
	"epoch": 61.98447463265872,
	"eval_loss": 6.383478164672852,
	"eval_runtime": 63.6948,
	"eval_samples_per_second": 156.999,
	"eval_steps_per_second": 19.625,
	"step": 27900
	},
	{
	"epoch": 62.206265594677014,
	"grad_norm": 0.3806278705596924,
	"learning_rate": 3.2107023411371236e-06,
	"loss": 6.3806,
	"step": 28000
	},
	{
	"epoch": 62.206265594677014,
	"eval_loss": 6.382126331329346,
	"eval_runtime": 63.5806,
	"eval_samples_per_second": 157.281,
	"eval_steps_per_second": 19.66,
	"step": 28000
	},
	{
	"epoch": 62.42805655669532,
	"grad_norm": 0.5161334872245789,
	"learning_rate": 3.2006688963210703e-06,
	"loss": 6.3816,
	"step": 28100
	},
	{
	"epoch": 62.42805655669532,
	"eval_loss": 6.384099960327148,
	"eval_runtime": 66.2035,
	"eval_samples_per_second": 151.049,
	"eval_steps_per_second": 18.881,
	"step": 28100
	},
	{
	"epoch": 62.649847518713614,
	"grad_norm": 0.44599130749702454,
	"learning_rate": 3.1906354515050167e-06,
	"loss": 6.3799,
	"step": 28200
	},
	{
	"epoch": 62.649847518713614,
	"eval_loss": 6.385605335235596,
	"eval_runtime": 63.6738,
	"eval_samples_per_second": 157.051,
	"eval_steps_per_second": 19.631,
	"step": 28200
	},
	{
	"epoch": 62.87163848073191,
	"grad_norm": 0.49202173948287964,
	"learning_rate": 3.180602006688963e-06,
	"loss": 6.3817,
	"step": 28300
	},
	{
	"epoch": 62.87163848073191,
	"eval_loss": 6.3858418464660645,
	"eval_runtime": 63.6792,
	"eval_samples_per_second": 157.037,
	"eval_steps_per_second": 19.63,
	"step": 28300
	},
	{
	"epoch": 63.09342944275021,
	"grad_norm": 0.4090692400932312,
	"learning_rate": 3.1705685618729098e-06,
	"loss": 6.3797,
	"step": 28400
	},
	{
	"epoch": 63.09342944275021,
	"eval_loss": 6.381466388702393,
	"eval_runtime": 66.0632,
	"eval_samples_per_second": 151.37,
	"eval_steps_per_second": 18.921,
	"step": 28400
	},
	{
	"epoch": 63.3152204047685,
	"grad_norm": 0.4286213517189026,
	"learning_rate": 3.160535117056856e-06,
	"loss": 6.3816,
	"step": 28500
	},
	{
	"epoch": 63.3152204047685,
	"eval_loss": 6.383074760437012,
	"eval_runtime": 63.6206,
	"eval_samples_per_second": 157.182,
	"eval_steps_per_second": 19.648,
	"step": 28500
	},
	{
	"epoch": 63.53701136678681,
	"grad_norm": 0.36026620864868164,
	"learning_rate": 3.1505016722408024e-06,
	"loss": 6.3811,
	"step": 28600
	},
	{
	"epoch": 63.53701136678681,
	"eval_loss": 6.383544445037842,
	"eval_runtime": 63.7194,
	"eval_samples_per_second": 156.938,
	"eval_steps_per_second": 19.617,
	"step": 28600
	},
	{
	"epoch": 63.7588023288051,
	"grad_norm": 0.5875244140625,
	"learning_rate": 3.140468227424749e-06,
	"loss": 6.3822,
	"step": 28700
	},
	{
	"epoch": 63.7588023288051,
	"eval_loss": 6.384294033050537,
	"eval_runtime": 66.1191,
	"eval_samples_per_second": 151.242,
	"eval_steps_per_second": 18.905,
	"step": 28700
	},
	{
	"epoch": 63.9805932908234,
	"grad_norm": 0.39102068543434143,
	"learning_rate": 3.1304347826086955e-06,
	"loss": 6.3823,
	"step": 28800
	},
	{
	"epoch": 63.9805932908234,
	"eval_loss": 6.381502628326416,
	"eval_runtime": 63.7504,
	"eval_samples_per_second": 156.862,
	"eval_steps_per_second": 19.608,
	"step": 28800
	},
	{
	"epoch": 64.2023842528417,
	"grad_norm": 0.4450345039367676,
	"learning_rate": 3.1204013377926423e-06,
	"loss": 6.3813,
	"step": 28900
	},
	{
	"epoch": 64.2023842528417,
	"eval_loss": 6.384424209594727,
	"eval_runtime": 66.2286,
	"eval_samples_per_second": 150.992,
	"eval_steps_per_second": 18.874,
	"step": 28900
	},
	{
	"epoch": 64.42417521486,
	"grad_norm": 0.3168383240699768,
	"learning_rate": 3.1103678929765886e-06,
	"loss": 6.383,
	"step": 29000
	},
	{
	"epoch": 64.42417521486,
	"eval_loss": 6.385626316070557,
	"eval_runtime": 63.7217,
	"eval_samples_per_second": 156.932,
	"eval_steps_per_second": 19.617,
	"step": 29000
	},
	{
	"epoch": 64.64596617687829,
	"grad_norm": 0.3088781535625458,
	"learning_rate": 3.100334448160535e-06,
	"loss": 6.3807,
	"step": 29100
	},
	{
	"epoch": 64.64596617687829,
	"eval_loss": 6.385305881500244,
	"eval_runtime": 63.6226,
	"eval_samples_per_second": 157.177,
	"eval_steps_per_second": 19.647,
	"step": 29100
	},
	{
	"epoch": 64.8677571388966,
	"grad_norm": 0.4493953287601471,
	"learning_rate": 3.0903010033444818e-06,
	"loss": 6.381,
	"step": 29200
	},
	{
	"epoch": 64.8677571388966,
	"eval_loss": 6.383870601654053,
	"eval_runtime": 66.0987,
	"eval_samples_per_second": 151.289,
	"eval_steps_per_second": 18.911,
	"step": 29200
	},
	{
	"epoch": 65.08954810091488,
	"grad_norm": 0.3246123194694519,
	"learning_rate": 3.080267558528428e-06,
	"loss": 6.3811,
	"step": 29300
	},
	{
	"epoch": 65.08954810091488,
	"eval_loss": 6.383446216583252,
	"eval_runtime": 63.63,
	"eval_samples_per_second": 157.159,
	"eval_steps_per_second": 19.645,
	"step": 29300
	},
	{
	"epoch": 65.31133906293319,
	"grad_norm": 0.2923065721988678,
	"learning_rate": 3.0702341137123744e-06,
	"loss": 6.3805,
	"step": 29400
	},
	{
	"epoch": 65.31133906293319,
	"eval_loss": 6.382349014282227,
	"eval_runtime": 66.1161,
	"eval_samples_per_second": 151.249,
	"eval_steps_per_second": 18.906,
	"step": 29400
	},
	{
	"epoch": 65.53313002495149,
	"grad_norm": 0.48411309719085693,
	"learning_rate": 3.060200668896321e-06,
	"loss": 6.3816,
	"step": 29500
	},
	{
	"epoch": 65.53313002495149,
	"eval_loss": 6.381749153137207,
	"eval_runtime": 63.6992,
	"eval_samples_per_second": 156.988,
	"eval_steps_per_second": 19.623,
	"step": 29500
	},
	{
	"epoch": 65.75492098696978,
	"grad_norm": 0.3250056803226471,
	"learning_rate": 3.0501672240802675e-06,
	"loss": 6.3806,
	"step": 29600
	},
	{
	"epoch": 65.75492098696978,
	"eval_loss": 6.383174896240234,
	"eval_runtime": 63.6191,
	"eval_samples_per_second": 157.185,
	"eval_steps_per_second": 19.648,
	"step": 29600
	},
	{
	"epoch": 65.97671194898808,
	"grad_norm": 0.337882399559021,
	"learning_rate": 3.0401337792642143e-06,
	"loss": 6.3793,
	"step": 29700
	},
	{
	"epoch": 65.97671194898808,
	"eval_loss": 6.383576393127441,
	"eval_runtime": 66.0393,
	"eval_samples_per_second": 151.425,
	"eval_steps_per_second": 18.928,
	"step": 29700
	},
	{
	"epoch": 66.19850291100637,
	"grad_norm": 0.36923250555992126,
	"learning_rate": 3.0301003344481606e-06,
	"loss": 6.3805,
	"step": 29800
	},
	{
	"epoch": 66.19850291100637,
	"eval_loss": 6.383658409118652,
	"eval_runtime": 63.5576,
	"eval_samples_per_second": 157.338,
	"eval_steps_per_second": 19.667,
	"step": 29800
	},
	{
	"epoch": 66.42029387302468,
	"grad_norm": 0.3375002443790436,
	"learning_rate": 3.020066889632107e-06,
	"loss": 6.3805,
	"step": 29900
	},
	{
	"epoch": 66.42029387302468,
	"eval_loss": 6.382904529571533,
	"eval_runtime": 66.0839,
	"eval_samples_per_second": 151.323,
	"eval_steps_per_second": 18.915,
	"step": 29900
	},
	{
	"epoch": 66.64208483504297,
	"grad_norm": 0.44055986404418945,
	"learning_rate": 3.0100334448160537e-06,
	"loss": 6.3812,
	"step": 30000
	},
	{
	"epoch": 66.64208483504297,
	"eval_loss": 6.384601593017578,
	"eval_runtime": 63.7135,
	"eval_samples_per_second": 156.953,
	"eval_steps_per_second": 19.619,
	"step": 30000
	},
	{
	"epoch": 66.86387579706127,
	"grad_norm": 0.5010361075401306,
	"learning_rate": 3e-06,
	"loss": 6.3814,
	"step": 30100
	},
	{
	"epoch": 66.86387579706127,
	"eval_loss": 6.38201904296875,
	"eval_runtime": 63.631,
	"eval_samples_per_second": 157.156,
	"eval_steps_per_second": 19.645,
	"step": 30100
	},
	{
	"epoch": 67.08566675907957,
	"grad_norm": 0.36018142104148865,
	"learning_rate": 2.9899665551839464e-06,
	"loss": 6.3801,
	"step": 30200
	},
	{
	"epoch": 67.08566675907957,
	"eval_loss": 6.384942054748535,
	"eval_runtime": 66.0805,
	"eval_samples_per_second": 151.331,
	"eval_steps_per_second": 18.916,
	"step": 30200
	},
	{
	"epoch": 67.30745772109786,
	"grad_norm": 0.34176790714263916,
	"learning_rate": 2.979933110367893e-06,
	"loss": 6.3815,
	"step": 30300
	},
	{
	"epoch": 67.30745772109786,
	"eval_loss": 6.382652282714844,
	"eval_runtime": 63.6886,
	"eval_samples_per_second": 157.014,
	"eval_steps_per_second": 19.627,
	"step": 30300
	},
	{
	"epoch": 67.52924868311617,
	"grad_norm": 0.43459710478782654,
	"learning_rate": 2.9698996655518395e-06,
	"loss": 6.3811,
	"step": 30400
	},
	{
	"epoch": 67.52924868311617,
	"eval_loss": 6.386653423309326,
	"eval_runtime": 63.7002,
	"eval_samples_per_second": 156.985,
	"eval_steps_per_second": 19.623,
	"step": 30400
	},
	{
	"epoch": 67.75103964513445,
	"grad_norm": 0.37743738293647766,
	"learning_rate": 2.959866220735786e-06,
	"loss": 6.3804,
	"step": 30500
	},
	{
	"epoch": 67.75103964513445,
	"eval_loss": 6.383271217346191,
	"eval_runtime": 66.2218,
	"eval_samples_per_second": 151.008,
	"eval_steps_per_second": 18.876,
	"step": 30500
	},
	{
	"epoch": 67.97283060715276,
	"grad_norm": 0.34814783930778503,
	"learning_rate": 2.9498327759197326e-06,
	"loss": 6.3803,
	"step": 30600
	},
	{
	"epoch": 67.97283060715276,
	"eval_loss": 6.38237190246582,
	"eval_runtime": 63.6997,
	"eval_samples_per_second": 156.987,
	"eval_steps_per_second": 19.623,
	"step": 30600
	},
	{
	"epoch": 68.19462156917106,
	"grad_norm": 0.344685435295105,
	"learning_rate": 2.939799331103679e-06,
	"loss": 6.3795,
	"step": 30700
	},
	{
	"epoch": 68.19462156917106,
	"eval_loss": 6.384911060333252,
	"eval_runtime": 63.7005,
	"eval_samples_per_second": 156.985,
	"eval_steps_per_second": 19.623,
	"step": 30700
	},
	{
	"epoch": 68.41641253118935,
	"grad_norm": 0.30350542068481445,
	"learning_rate": 2.9297658862876257e-06,
	"loss": 6.3799,
	"step": 30800
	},
	{
	"epoch": 68.41641253118935,
	"eval_loss": 6.383020401000977,
	"eval_runtime": 66.1786,
	"eval_samples_per_second": 151.106,
	"eval_steps_per_second": 18.888,
	"step": 30800
	},
	{
	"epoch": 68.63820349320766,
	"grad_norm": 0.33513781428337097,
	"learning_rate": 2.919732441471572e-06,
	"loss": 6.3808,
	"step": 30900
	},
	{
	"epoch": 68.63820349320766,
	"eval_loss": 6.38442325592041,
	"eval_runtime": 63.6954,
	"eval_samples_per_second": 156.997,
	"eval_steps_per_second": 19.625,
	"step": 30900
	},
	{
	"epoch": 68.85999445522594,
	"grad_norm": 0.38895151019096375,
	"learning_rate": 2.9096989966555184e-06,
	"loss": 6.3803,
	"step": 31000
	},
	{
	"epoch": 68.85999445522594,
	"eval_loss": 6.382268905639648,
	"eval_runtime": 66.1082,
	"eval_samples_per_second": 151.267,
	"eval_steps_per_second": 18.908,
	"step": 31000
	},
	{
	"epoch": 69.08178541724425,
	"grad_norm": 0.49591463804244995,
	"learning_rate": 2.899665551839465e-06,
	"loss": 6.381,
	"step": 31100
	},
	{
	"epoch": 69.08178541724425,
	"eval_loss": 6.384127140045166,
	"eval_runtime": 63.6361,
	"eval_samples_per_second": 157.144,
	"eval_steps_per_second": 19.643,
	"step": 31100
	},
	{
	"epoch": 69.30357637926255,
	"grad_norm": 0.47946080565452576,
	"learning_rate": 2.8896321070234115e-06,
	"loss": 6.3803,
	"step": 31200
	},
	{
	"epoch": 69.30357637926255,
	"eval_loss": 6.380748748779297,
	"eval_runtime": 63.7274,
	"eval_samples_per_second": 156.918,
	"eval_steps_per_second": 19.615,
	"step": 31200
	},
	{
	"epoch": 69.52536734128084,
	"grad_norm": 0.33409592509269714,
	"learning_rate": 2.879598662207358e-06,
	"loss": 6.3795,
	"step": 31300
	},
	{
	"epoch": 69.52536734128084,
	"eval_loss": 6.3822197914123535,
	"eval_runtime": 66.2573,
	"eval_samples_per_second": 150.927,
	"eval_steps_per_second": 18.866,
	"step": 31300
	},
	{
	"epoch": 69.74715830329914,
	"grad_norm": 0.36530378460884094,
	"learning_rate": 2.8695652173913046e-06,
	"loss": 6.3793,
	"step": 31400
	},
	{
	"epoch": 69.74715830329914,
	"eval_loss": 6.3831787109375,
	"eval_runtime": 63.6807,
	"eval_samples_per_second": 157.034,
	"eval_steps_per_second": 19.629,
	"step": 31400
	},
	{
	"epoch": 69.96894926531743,
	"grad_norm": 0.4838181436061859,
	"learning_rate": 2.859531772575251e-06,
	"loss": 6.3802,
	"step": 31500
	},
	{
	"epoch": 69.96894926531743,
	"eval_loss": 6.383909225463867,
	"eval_runtime": 66.1242,
	"eval_samples_per_second": 151.231,
	"eval_steps_per_second": 18.904,
	"step": 31500
	},
	{
	"epoch": 70.19074022733574,
	"grad_norm": 0.3999974727630615,
	"learning_rate": 2.8494983277591977e-06,
	"loss": 6.3817,
	"step": 31600
	},
	{
	"epoch": 70.19074022733574,
	"eval_loss": 6.382571220397949,
	"eval_runtime": 63.5921,
	"eval_samples_per_second": 157.252,
	"eval_steps_per_second": 19.657,
	"step": 31600
	},
	{
	"epoch": 70.41253118935403,
	"grad_norm": 0.37044674158096313,
	"learning_rate": 2.839464882943144e-06,
	"loss": 6.3785,
	"step": 31700
	},
	{
	"epoch": 70.41253118935403,
	"eval_loss": 6.381692886352539,
	"eval_runtime": 66.1492,
	"eval_samples_per_second": 151.173,
	"eval_steps_per_second": 18.897,
	"step": 31700
	},
	{
	"epoch": 70.63432215137233,
	"grad_norm": 0.43440505862236023,
	"learning_rate": 2.8294314381270904e-06,
	"loss": 6.3811,
	"step": 31800
	},
	{
	"epoch": 70.63432215137233,
	"eval_loss": 6.384181499481201,
	"eval_runtime": 63.7156,
	"eval_samples_per_second": 156.947,
	"eval_steps_per_second": 19.618,
	"step": 31800
	},
	{
	"epoch": 70.85611311339063,
	"grad_norm": 0.45394232869148254,
	"learning_rate": 2.819397993311037e-06,
	"loss": 6.3803,
	"step": 31900
	},
	{
	"epoch": 70.85611311339063,
	"eval_loss": 6.382298469543457,
	"eval_runtime": 66.1426,
	"eval_samples_per_second": 151.189,
	"eval_steps_per_second": 18.899,
	"step": 31900
	},
	{
	"epoch": 71.07790407540892,
	"grad_norm": 0.24088256061077118,
	"learning_rate": 2.8093645484949835e-06,
	"loss": 6.3789,
	"step": 32000
	},
	{
	"epoch": 71.07790407540892,
	"eval_loss": 6.378951072692871,
	"eval_runtime": 63.7166,
	"eval_samples_per_second": 156.945,
	"eval_steps_per_second": 19.618,
	"step": 32000
	},
	{
	"epoch": 71.29969503742723,
	"grad_norm": 0.3836078643798828,
	"learning_rate": 2.79933110367893e-06,
	"loss": 6.3793,
	"step": 32100
	},
	{
	"epoch": 71.29969503742723,
	"eval_loss": 6.382381916046143,
	"eval_runtime": 63.7336,
	"eval_samples_per_second": 156.903,
	"eval_steps_per_second": 19.613,
	"step": 32100
	},
	{
	"epoch": 71.52148599944552,
	"grad_norm": 0.3558043837547302,
	"learning_rate": 2.7892976588628766e-06,
	"loss": 6.3779,
	"step": 32200
	},
	{
	"epoch": 71.52148599944552,
	"eval_loss": 6.3820366859436035,
	"eval_runtime": 66.1055,
	"eval_samples_per_second": 151.273,
	"eval_steps_per_second": 18.909,
	"step": 32200
	},
	{
	"epoch": 71.74327696146382,
	"grad_norm": 0.2369541972875595,
	"learning_rate": 2.779264214046823e-06,
	"loss": 6.3808,
	"step": 32300
	},
	{
	"epoch": 71.74327696146382,
	"eval_loss": 6.37972354888916,
	"eval_runtime": 63.6602,
	"eval_samples_per_second": 157.084,
	"eval_steps_per_second": 19.636,
	"step": 32300
	},
	{
	"epoch": 71.96506792348212,
	"grad_norm": 0.3357178270816803,
	"learning_rate": 2.7692307692307693e-06,
	"loss": 6.3796,
	"step": 32400
	},
	{
	"epoch": 71.96506792348212,
	"eval_loss": 6.3810296058654785,
	"eval_runtime": 66.2569,
	"eval_samples_per_second": 150.928,
	"eval_steps_per_second": 18.866,
	"step": 32400
	},
	{
	"epoch": 72.18685888550041,
	"grad_norm": 0.2965914011001587,
	"learning_rate": 2.759197324414716e-06,
	"loss": 6.3794,
	"step": 32500
	},
	{
	"epoch": 72.18685888550041,
	"eval_loss": 6.381561756134033,
	"eval_runtime": 63.6325,
	"eval_samples_per_second": 157.152,
	"eval_steps_per_second": 19.644,
	"step": 32500
	},
	{
	"epoch": 72.40864984751872,
	"grad_norm": 0.31444767117500305,
	"learning_rate": 2.749163879598662e-06,
	"loss": 6.3811,
	"step": 32600
	},
	{
	"epoch": 72.40864984751872,
	"eval_loss": 6.383826732635498,
	"eval_runtime": 63.819,
	"eval_samples_per_second": 156.693,
	"eval_steps_per_second": 19.587,
	"step": 32600
	},
	{
	"epoch": 72.630440809537,
	"grad_norm": 0.335440456867218,
	"learning_rate": 2.7391304347826087e-06,
	"loss": 6.3787,
	"step": 32700
	},
	{
	"epoch": 72.630440809537,
	"eval_loss": 6.382222652435303,
	"eval_runtime": 66.3235,
	"eval_samples_per_second": 150.776,
	"eval_steps_per_second": 18.847,
	"step": 32700
	},
	{
	"epoch": 72.85223177155531,
	"grad_norm": 0.3031088411808014,
	"learning_rate": 2.729096989966555e-06,
	"loss": 6.379,
	"step": 32800
	},
	{
	"epoch": 72.85223177155531,
	"eval_loss": 6.380151748657227,
	"eval_runtime": 63.7642,
	"eval_samples_per_second": 156.828,
	"eval_steps_per_second": 19.603,
	"step": 32800
	},
	{
	"epoch": 73.07402273357361,
	"grad_norm": 0.2734851539134979,
	"learning_rate": 2.7190635451505014e-06,
	"loss": 6.3796,
	"step": 32900
	},
	{
	"epoch": 73.07402273357361,
	"eval_loss": 6.381131172180176,
	"eval_runtime": 66.3028,
	"eval_samples_per_second": 150.823,
	"eval_steps_per_second": 18.853,
	"step": 32900
	},
	{
	"epoch": 73.2958136955919,
	"grad_norm": 0.4682227671146393,
	"learning_rate": 2.709030100334448e-06,
	"loss": 6.3791,
	"step": 33000
	},
	{
	"epoch": 73.2958136955919,
	"eval_loss": 6.382552146911621,
	"eval_runtime": 63.7907,
	"eval_samples_per_second": 156.763,
	"eval_steps_per_second": 19.595,
	"step": 33000
	},
	{
	"epoch": 73.5176046576102,
	"grad_norm": 0.38640567660331726,
	"learning_rate": 2.6989966555183945e-06,
	"loss": 6.378,
	"step": 33100
	},
	{
	"epoch": 73.5176046576102,
	"eval_loss": 6.37783670425415,
	"eval_runtime": 66.2991,
	"eval_samples_per_second": 150.832,
	"eval_steps_per_second": 18.854,
	"step": 33100
	},
	{
	"epoch": 73.7393956196285,
	"grad_norm": 0.3248431086540222,
	"learning_rate": 2.6889632107023413e-06,
	"loss": 6.3798,
	"step": 33200
	},
	{
	"epoch": 73.7393956196285,
	"eval_loss": 6.382781982421875,
	"eval_runtime": 63.7636,
	"eval_samples_per_second": 156.829,
	"eval_steps_per_second": 19.604,
	"step": 33200
	},
	{
	"epoch": 73.9611865816468,
	"grad_norm": 0.40707120299339294,
	"learning_rate": 2.6789297658862876e-06,
	"loss": 6.3787,
	"step": 33300
	},
	{
	"epoch": 73.9611865816468,
	"eval_loss": 6.381734371185303,
	"eval_runtime": 63.7575,
	"eval_samples_per_second": 156.844,
	"eval_steps_per_second": 19.606,
	"step": 33300
	},
	{
	"epoch": 74.18297754366509,
	"grad_norm": 0.3740542232990265,
	"learning_rate": 2.668896321070234e-06,
	"loss": 6.3799,
	"step": 33400
	},
	{
	"epoch": 74.18297754366509,
	"eval_loss": 6.38359260559082,
	"eval_runtime": 63.7058,
	"eval_samples_per_second": 156.972,
	"eval_steps_per_second": 19.621,
	"step": 33400
	},
	{
	"epoch": 74.40476850568339,
	"grad_norm": 0.3560076057910919,
	"learning_rate": 2.6588628762541807e-06,
	"loss": 6.3788,
	"step": 33500
	},
	{
	"epoch": 74.40476850568339,
	"eval_loss": 6.380216598510742,
	"eval_runtime": 66.3163,
	"eval_samples_per_second": 150.792,
	"eval_steps_per_second": 18.849,
	"step": 33500
	},
	{
	"epoch": 74.6265594677017,
	"grad_norm": 0.2998209595680237,
	"learning_rate": 2.648829431438127e-06,
	"loss": 6.3798,
	"step": 33600
	},
	{
	"epoch": 74.6265594677017,
	"eval_loss": 6.3799357414245605,
	"eval_runtime": 63.7525,
	"eval_samples_per_second": 156.857,
	"eval_steps_per_second": 19.607,
	"step": 33600
	},
	{
	"epoch": 74.84835042971999,
	"grad_norm": 0.42181283235549927,
	"learning_rate": 2.6387959866220734e-06,
	"loss": 6.3797,
	"step": 33700
	},
	{
	"epoch": 74.84835042971999,
	"eval_loss": 6.3854804039001465,
	"eval_runtime": 63.7045,
	"eval_samples_per_second": 156.975,
	"eval_steps_per_second": 19.622,
	"step": 33700
	},
	{
	"epoch": 75.07014139173829,
	"grad_norm": 0.35232749581336975,
	"learning_rate": 2.62876254180602e-06,
	"loss": 6.3794,
	"step": 33800
	},
	{
	"epoch": 75.07014139173829,
	"eval_loss": 6.38426399230957,
	"eval_runtime": 66.2061,
	"eval_samples_per_second": 151.043,
	"eval_steps_per_second": 18.88,
	"step": 33800
	},
	{
	"epoch": 75.29193235375658,
	"grad_norm": 0.3319035470485687,
	"learning_rate": 2.6187290969899665e-06,
	"loss": 6.3801,
	"step": 33900
	},
	{
	"epoch": 75.29193235375658,
	"eval_loss": 6.382733345031738,
	"eval_runtime": 63.7241,
	"eval_samples_per_second": 156.927,
	"eval_steps_per_second": 19.616,
	"step": 33900
	},
	{
	"epoch": 75.51372331577488,
	"grad_norm": 0.320116251707077,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 6.3796,
	"step": 34000
	},
	{
	"epoch": 75.51372331577488,
	"eval_loss": 6.383172035217285,
	"eval_runtime": 66.2886,
	"eval_samples_per_second": 150.856,
	"eval_steps_per_second": 18.857,
	"step": 34000
	},
	{
	"epoch": 75.73551427779319,
	"grad_norm": 0.25732365250587463,
	"learning_rate": 2.5986622073578596e-06,
	"loss": 6.3793,
	"step": 34100
	},
	{
	"epoch": 75.73551427779319,
	"eval_loss": 6.3826189041137695,
	"eval_runtime": 63.7021,
	"eval_samples_per_second": 156.981,
	"eval_steps_per_second": 19.623,
	"step": 34100
	},
	{
	"epoch": 75.95730523981148,
	"grad_norm": 0.41861915588378906,
	"learning_rate": 2.588628762541806e-06,
	"loss": 6.3806,
	"step": 34200
	},
	{
	"epoch": 75.95730523981148,
	"eval_loss": 6.3810224533081055,
	"eval_runtime": 63.8703,
	"eval_samples_per_second": 156.567,
	"eval_steps_per_second": 19.571,
	"step": 34200
	},
	{
	"epoch": 76.17909620182978,
	"grad_norm": 0.37039920687675476,
	"learning_rate": 2.5785953177257527e-06,
	"loss": 6.3782,
	"step": 34300
	},
	{
	"epoch": 76.17909620182978,
	"eval_loss": 6.384817600250244,
	"eval_runtime": 63.7083,
	"eval_samples_per_second": 156.965,
	"eval_steps_per_second": 19.621,
	"step": 34300
	},
	{
	"epoch": 76.40088716384807,
	"grad_norm": 0.29002711176872253,
	"learning_rate": 2.568561872909699e-06,
	"loss": 6.3804,
	"step": 34400
	},
	{
	"epoch": 76.40088716384807,
	"eval_loss": 6.381626605987549,
	"eval_runtime": 66.318,
	"eval_samples_per_second": 150.789,
	"eval_steps_per_second": 18.849,
	"step": 34400
	},
	{
	"epoch": 76.62267812586637,
	"grad_norm": 0.3963169455528259,
	"learning_rate": 2.5585284280936454e-06,
	"loss": 6.3802,
	"step": 34500
	},
	{
	"epoch": 76.62267812586637,
	"eval_loss": 6.385863304138184,
	"eval_runtime": 63.683,
	"eval_samples_per_second": 157.028,
	"eval_steps_per_second": 19.628,
	"step": 34500
	},
	{
	"epoch": 76.84446908788468,
	"grad_norm": 0.3641812801361084,
	"learning_rate": 2.548494983277592e-06,
	"loss": 6.3794,
	"step": 34600
	},
	{
	"epoch": 76.84446908788468,
	"eval_loss": 6.379196643829346,
	"eval_runtime": 63.7355,
	"eval_samples_per_second": 156.899,
	"eval_steps_per_second": 19.612,
	"step": 34600
	},
	{
	"epoch": 77.06626004990297,
	"grad_norm": 0.34516364336013794,
	"learning_rate": 2.5384615384615385e-06,
	"loss": 6.3781,
	"step": 34700
	},
	{
	"epoch": 77.06626004990297,
	"eval_loss": 6.381167411804199,
	"eval_runtime": 66.2593,
	"eval_samples_per_second": 150.922,
	"eval_steps_per_second": 18.865,
	"step": 34700
	},
	{
	"epoch": 77.28805101192127,
	"grad_norm": 0.37135106325149536,
	"learning_rate": 2.528428093645485e-06,
	"loss": 6.3791,
	"step": 34800
	},
	{
	"epoch": 77.28805101192127,
	"eval_loss": 6.3796210289001465,
	"eval_runtime": 63.5952,
	"eval_samples_per_second": 157.245,
	"eval_steps_per_second": 19.656,
	"step": 34800
	},
	{
	"epoch": 77.50984197393956,
	"grad_norm": 0.27615365386009216,
	"learning_rate": 2.5183946488294316e-06,
	"loss": 6.3788,
	"step": 34900
	},
	{
	"epoch": 77.50984197393956,
	"eval_loss": 6.38156270980835,
	"eval_runtime": 63.666,
	"eval_samples_per_second": 157.07,
	"eval_steps_per_second": 19.634,
	"step": 34900
	},
	{
	"epoch": 77.73163293595786,
	"grad_norm": 0.40949293971061707,
	"learning_rate": 2.508361204013378e-06,
	"loss": 6.3784,
	"step": 35000
	},
	{
	"epoch": 77.73163293595786,
	"eval_loss": 6.379955291748047,
	"eval_runtime": 66.2108,
	"eval_samples_per_second": 151.033,
	"eval_steps_per_second": 18.879,
	"step": 35000
	},
	{
	"epoch": 77.95342389797615,
	"grad_norm": 0.21426652371883392,
	"learning_rate": 2.4983277591973247e-06,
	"loss": 6.3792,
	"step": 35100
	},
	{
	"epoch": 77.95342389797615,
	"eval_loss": 6.38067102432251,
	"eval_runtime": 63.6933,
	"eval_samples_per_second": 157.002,
	"eval_steps_per_second": 19.625,
	"step": 35100
	},
	{
	"epoch": 78.17521485999445,
	"grad_norm": 0.3121929466724396,
	"learning_rate": 2.488294314381271e-06,
	"loss": 6.3799,
	"step": 35200
	},
	{
	"epoch": 78.17521485999445,
	"eval_loss": 6.383203983306885,
	"eval_runtime": 63.6759,
	"eval_samples_per_second": 157.045,
	"eval_steps_per_second": 19.631,
	"step": 35200
	},
	{
	"epoch": 78.39700582201276,
	"grad_norm": 0.3007084131240845,
	"learning_rate": 2.4782608695652173e-06,
	"loss": 6.3782,
	"step": 35300
	},
	{
	"epoch": 78.39700582201276,
	"eval_loss": 6.380030632019043,
	"eval_runtime": 65.4722,
	"eval_samples_per_second": 152.737,
	"eval_steps_per_second": 19.092,
	"step": 35300
	},
	{
	"epoch": 78.61879678403105,
	"grad_norm": 0.4903746247291565,
	"learning_rate": 2.468227424749164e-06,
	"loss": 6.3791,
	"step": 35400
	},
	{
	"epoch": 78.61879678403105,
	"eval_loss": 6.382900714874268,
	"eval_runtime": 64.4146,
	"eval_samples_per_second": 155.244,
	"eval_steps_per_second": 19.406,
	"step": 35400
	},
	{
	"epoch": 78.84058774604935,
	"grad_norm": 0.41819822788238525,
	"learning_rate": 2.4581939799331104e-06,
	"loss": 6.3779,
	"step": 35500
	},
	{
	"epoch": 78.84058774604935,
	"eval_loss": 6.380439281463623,
	"eval_runtime": 63.6771,
	"eval_samples_per_second": 157.042,
	"eval_steps_per_second": 19.63,
	"step": 35500
	},
	{
	"epoch": 79.06237870806764,
	"grad_norm": 0.4207383990287781,
	"learning_rate": 2.4481605351170568e-06,
	"loss": 6.3794,
	"step": 35600
	},
	{
	"epoch": 79.06237870806764,
	"eval_loss": 6.381216049194336,
	"eval_runtime": 63.8668,
	"eval_samples_per_second": 156.576,
	"eval_steps_per_second": 19.572,
	"step": 35600
	},
	{
	"epoch": 79.28416967008594,
	"grad_norm": 0.3821701109409332,
	"learning_rate": 2.4381270903010035e-06,
	"loss": 6.3796,
	"step": 35700
	},
	{
	"epoch": 79.28416967008594,
	"eval_loss": 6.380701541900635,
	"eval_runtime": 66.2305,
	"eval_samples_per_second": 150.988,
	"eval_steps_per_second": 18.873,
	"step": 35700
	},
	{
	"epoch": 79.50596063210425,
	"grad_norm": 0.3124147653579712,
	"learning_rate": 2.42809364548495e-06,
	"loss": 6.3792,
	"step": 35800
	},
	{
	"epoch": 79.50596063210425,
	"eval_loss": 6.383649826049805,
	"eval_runtime": 63.6853,
	"eval_samples_per_second": 157.022,
	"eval_steps_per_second": 19.628,
	"step": 35800
	},
	{
	"epoch": 79.72775159412254,
	"grad_norm": 0.37319284677505493,
	"learning_rate": 2.4180602006688962e-06,
	"loss": 6.3793,
	"step": 35900
	},
	{
	"epoch": 79.72775159412254,
	"eval_loss": 6.379690647125244,
	"eval_runtime": 63.71,
	"eval_samples_per_second": 156.961,
	"eval_steps_per_second": 19.62,
	"step": 35900
	},
	{
	"epoch": 79.94954255614084,
	"grad_norm": 0.3518475890159607,
	"learning_rate": 2.408026755852843e-06,
	"loss": 6.3794,
	"step": 36000
	},
	{
	"epoch": 79.94954255614084,
	"eval_loss": 6.3837385177612305,
	"eval_runtime": 66.2591,
	"eval_samples_per_second": 150.923,
	"eval_steps_per_second": 18.865,
	"step": 36000
	},
	{
	"epoch": 80.17133351815913,
	"grad_norm": 0.3394939601421356,
	"learning_rate": 2.3979933110367893e-06,
	"loss": 6.3779,
	"step": 36100
	},
	{
	"epoch": 80.17133351815913,
	"eval_loss": 6.383784294128418,
	"eval_runtime": 63.536,
	"eval_samples_per_second": 157.391,
	"eval_steps_per_second": 19.674,
	"step": 36100
	},
	{
	"epoch": 80.39312448017743,
	"grad_norm": 0.2030980885028839,
	"learning_rate": 2.387959866220736e-06,
	"loss": 6.3787,
	"step": 36200
	},
	{
	"epoch": 80.39312448017743,
	"eval_loss": 6.381889820098877,
	"eval_runtime": 63.5998,
	"eval_samples_per_second": 157.233,
	"eval_steps_per_second": 19.654,
	"step": 36200
	},
	{
	"epoch": 80.61491544219572,
	"grad_norm": 0.35631629824638367,
	"learning_rate": 2.3779264214046824e-06,
	"loss": 6.3778,
	"step": 36300
	},
	{
	"epoch": 80.61491544219572,
	"eval_loss": 6.382266998291016,
	"eval_runtime": 66.2682,
	"eval_samples_per_second": 150.902,
	"eval_steps_per_second": 18.863,
	"step": 36300
	},
	{
	"epoch": 80.83670640421403,
	"grad_norm": 0.38831663131713867,
	"learning_rate": 2.3678929765886288e-06,
	"loss": 6.3796,
	"step": 36400
	},
	{
	"epoch": 80.83670640421403,
	"eval_loss": 6.379624843597412,
	"eval_runtime": 63.7336,
	"eval_samples_per_second": 156.903,
	"eval_steps_per_second": 19.613,
	"step": 36400
	},
	{
	"epoch": 81.05849736623233,
	"grad_norm": 0.29808080196380615,
	"learning_rate": 2.3578595317725755e-06,
	"loss": 6.3787,
	"step": 36500
	},
	{
	"epoch": 81.05849736623233,
	"eval_loss": 6.380765914916992,
	"eval_runtime": 63.6941,
	"eval_samples_per_second": 157.0,
	"eval_steps_per_second": 19.625,
	"step": 36500
	},
	{
	"epoch": 81.28028832825062,
	"grad_norm": 0.32311221957206726,
	"learning_rate": 2.347826086956522e-06,
	"loss": 6.3795,
	"step": 36600
	},
	{
	"epoch": 81.28028832825062,
	"eval_loss": 6.38113260269165,
	"eval_runtime": 66.3064,
	"eval_samples_per_second": 150.815,
	"eval_steps_per_second": 18.852,
	"step": 36600
	},
	{
	"epoch": 81.50207929026892,
	"grad_norm": 0.3027205765247345,
	"learning_rate": 2.337792642140468e-06,
	"loss": 6.3777,
	"step": 36700
	},
	{
	"epoch": 81.50207929026892,
	"eval_loss": 6.378735542297363,
	"eval_runtime": 63.8029,
	"eval_samples_per_second": 156.733,
	"eval_steps_per_second": 19.592,
	"step": 36700
	},
	{
	"epoch": 81.72387025228721,
	"grad_norm": 0.44942182302474976,
	"learning_rate": 2.327759197324415e-06,
	"loss": 6.3793,
	"step": 36800
	},
	{
	"epoch": 81.72387025228721,
	"eval_loss": 6.382872104644775,
	"eval_runtime": 63.7382,
	"eval_samples_per_second": 156.892,
	"eval_steps_per_second": 19.611,
	"step": 36800
	},
	{
	"epoch": 81.94566121430552,
	"grad_norm": 0.3363696038722992,
	"learning_rate": 2.3177257525083613e-06,
	"loss": 6.3786,
	"step": 36900
	},
	{
	"epoch": 81.94566121430552,
	"eval_loss": 6.3805928230285645,
	"eval_runtime": 66.2659,
	"eval_samples_per_second": 150.907,
	"eval_steps_per_second": 18.863,
	"step": 36900
	},
	{
	"epoch": 82.16745217632382,
	"grad_norm": 0.3836919367313385,
	"learning_rate": 2.307692307692308e-06,
	"loss": 6.378,
	"step": 37000
	},
	{
	"epoch": 82.16745217632382,
	"eval_loss": 6.381478786468506,
	"eval_runtime": 63.6472,
	"eval_samples_per_second": 157.116,
	"eval_steps_per_second": 19.64,
	"step": 37000
	},
	{
	"epoch": 82.38924313834211,
	"grad_norm": 0.3322221338748932,
	"learning_rate": 2.2976588628762544e-06,
	"loss": 6.3774,
	"step": 37100
	},
	{
	"epoch": 82.38924313834211,
	"eval_loss": 6.381748199462891,
	"eval_runtime": 63.7815,
	"eval_samples_per_second": 156.785,
	"eval_steps_per_second": 19.598,
	"step": 37100
	},
	{
	"epoch": 82.61103410036041,
	"grad_norm": 0.33737483620643616,
	"learning_rate": 2.2876254180602008e-06,
	"loss": 6.3792,
	"step": 37200
	},
	{
	"epoch": 82.61103410036041,
	"eval_loss": 6.381521224975586,
	"eval_runtime": 66.3297,
	"eval_samples_per_second": 150.762,
	"eval_steps_per_second": 18.845,
	"step": 37200
	},
	{
	"epoch": 82.8328250623787,
	"grad_norm": 0.34915590286254883,
	"learning_rate": 2.2775919732441475e-06,
	"loss": 6.3792,
	"step": 37300
	},
	{
	"epoch": 82.8328250623787,
	"eval_loss": 6.382421493530273,
	"eval_runtime": 63.7523,
	"eval_samples_per_second": 156.857,
	"eval_steps_per_second": 19.607,
	"step": 37300
	},
	{
	"epoch": 83.054616024397,
	"grad_norm": 0.2967890202999115,
	"learning_rate": 2.267558528428094e-06,
	"loss": 6.379,
	"step": 37400
	},
	{
	"epoch": 83.054616024397,
	"eval_loss": 6.379049301147461,
	"eval_runtime": 63.7339,
	"eval_samples_per_second": 156.902,
	"eval_steps_per_second": 19.613,
	"step": 37400
	},
	{
	"epoch": 83.27640698641531,
	"grad_norm": 0.3198423385620117,
	"learning_rate": 2.25752508361204e-06,
	"loss": 6.3784,
	"step": 37500
	},
	{
	"epoch": 83.27640698641531,
	"eval_loss": 6.380875110626221,
	"eval_runtime": 66.2715,
	"eval_samples_per_second": 150.894,
	"eval_steps_per_second": 18.862,
	"step": 37500
	},
	{
	"epoch": 83.4981979484336,
	"grad_norm": 0.22756338119506836,
	"learning_rate": 2.2474916387959865e-06,
	"loss": 6.3772,
	"step": 37600
	},
	{
	"epoch": 83.4981979484336,
	"eval_loss": 6.380899429321289,
	"eval_runtime": 63.6746,
	"eval_samples_per_second": 157.048,
	"eval_steps_per_second": 19.631,
	"step": 37600
	},
	{
	"epoch": 83.7199889104519,
	"grad_norm": 0.375475138425827,
	"learning_rate": 2.237458193979933e-06,
	"loss": 6.38,
	"step": 37700
	},
	{
	"epoch": 83.7199889104519,
	"eval_loss": 6.379432201385498,
	"eval_runtime": 63.7694,
	"eval_samples_per_second": 156.815,
	"eval_steps_per_second": 19.602,
	"step": 37700
	},
	{
	"epoch": 83.99805932908234,
	"grad_norm": 0.26553675532341003,
	"learning_rate": 2.2274247491638796e-06,
	"loss": 6.3791,
	"step": 37800
	},
	{
	"epoch": 83.99805932908234,
	"eval_loss": 6.386465072631836,
	"eval_runtime": 66.2313,
	"eval_samples_per_second": 150.986,
	"eval_steps_per_second": 18.873,
	"step": 37800
	},
	{
	"epoch": 84.21985029110064,
	"grad_norm": 0.2572327256202698,
	"learning_rate": 2.217391304347826e-06,
	"loss": 6.3779,
	"step": 37900
	},
	{
	"epoch": 84.21985029110064,
	"eval_loss": 6.381786823272705,
	"eval_runtime": 63.8252,
	"eval_samples_per_second": 156.678,
	"eval_steps_per_second": 19.585,
	"step": 37900
	},
	{
	"epoch": 84.44164125311893,
	"grad_norm": 0.3603324294090271,
	"learning_rate": 2.2073578595317723e-06,
	"loss": 6.3796,
	"step": 38000
	},
	{
	"epoch": 84.44164125311893,
	"eval_loss": 6.381040573120117,
	"eval_runtime": 64.0412,
	"eval_samples_per_second": 156.15,
	"eval_steps_per_second": 19.519,
	"step": 38000
	},
	{
	"epoch": 84.66343221513723,
	"grad_norm": 0.3384093642234802,
	"learning_rate": 2.197324414715719e-06,
	"loss": 6.3778,
	"step": 38100
	},
	{
	"epoch": 84.66343221513723,
	"eval_loss": 6.377985000610352,
	"eval_runtime": 66.1598,
	"eval_samples_per_second": 151.149,
	"eval_steps_per_second": 18.894,
	"step": 38100
	},
	{
	"epoch": 84.88522317715552,
	"grad_norm": 0.3742137551307678,
	"learning_rate": 2.1872909698996654e-06,
	"loss": 6.3788,
	"step": 38200
	},
	{
	"epoch": 84.88522317715552,
	"eval_loss": 6.382181167602539,
	"eval_runtime": 63.6067,
	"eval_samples_per_second": 157.216,
	"eval_steps_per_second": 19.652,
	"step": 38200
	},
	{
	"epoch": 85.10701413917383,
	"grad_norm": 0.31179383397102356,
	"learning_rate": 2.177257525083612e-06,
	"loss": 6.3771,
	"step": 38300
	},
	{
	"epoch": 85.10701413917383,
	"eval_loss": 6.380379676818848,
	"eval_runtime": 66.212,
	"eval_samples_per_second": 151.03,
	"eval_steps_per_second": 18.879,
	"step": 38300
	},
	{
	"epoch": 85.32880510119213,
	"grad_norm": 0.36700376868247986,
	"learning_rate": 2.1672240802675585e-06,
	"loss": 6.3767,
	"step": 38400
	},
	{
	"epoch": 85.32880510119213,
	"eval_loss": 6.3812575340271,
	"eval_runtime": 63.6889,
	"eval_samples_per_second": 157.013,
	"eval_steps_per_second": 19.627,
	"step": 38400
	},
	{
	"epoch": 85.55059606321042,
	"grad_norm": 0.38559991121292114,
	"learning_rate": 2.157190635451505e-06,
	"loss": 6.3781,
	"step": 38500
	},
	{
	"epoch": 85.55059606321042,
	"eval_loss": 6.384213447570801,
	"eval_runtime": 66.1477,
	"eval_samples_per_second": 151.177,
	"eval_steps_per_second": 18.897,
	"step": 38500
	},
	{
	"epoch": 85.77238702522872,
	"grad_norm": 0.2753937244415283,
	"learning_rate": 2.1471571906354516e-06,
	"loss": 6.3795,
	"step": 38600
	},
	{
	"epoch": 85.77238702522872,
	"eval_loss": 6.37845516204834,
	"eval_runtime": 63.6513,
	"eval_samples_per_second": 157.106,
	"eval_steps_per_second": 19.638,
	"step": 38600
	},
	{
	"epoch": 85.99417798724701,
	"grad_norm": 0.22831951081752777,
	"learning_rate": 2.137123745819398e-06,
	"loss": 6.3789,
	"step": 38700
	},
	{
	"epoch": 85.99417798724701,
	"eval_loss": 6.381505966186523,
	"eval_runtime": 66.231,
	"eval_samples_per_second": 150.987,
	"eval_steps_per_second": 18.873,
	"step": 38700
	},
	{
	"epoch": 86.21596894926532,
	"grad_norm": 0.339546799659729,
	"learning_rate": 2.1270903010033443e-06,
	"loss": 6.379,
	"step": 38800
	},
	{
	"epoch": 86.21596894926532,
	"eval_loss": 6.381498336791992,
	"eval_runtime": 63.6802,
	"eval_samples_per_second": 157.035,
	"eval_steps_per_second": 19.629,
	"step": 38800
	},
	{
	"epoch": 86.43775991128362,
	"grad_norm": 0.2600659728050232,
	"learning_rate": 2.117056856187291e-06,
	"loss": 6.3774,
	"step": 38900
	},
	{
	"epoch": 86.43775991128362,
	"eval_loss": 6.381589889526367,
	"eval_runtime": 63.6804,
	"eval_samples_per_second": 157.034,
	"eval_steps_per_second": 19.629,
	"step": 38900
	},
	{
	"epoch": 86.65955087330191,
	"grad_norm": 0.32178473472595215,
	"learning_rate": 2.1070234113712374e-06,
	"loss": 6.3785,
	"step": 39000
	},
	{
	"epoch": 86.65955087330191,
	"eval_loss": 6.377468585968018,
	"eval_runtime": 66.295,
	"eval_samples_per_second": 150.841,
	"eval_steps_per_second": 18.855,
	"step": 39000
	},
	{
	"epoch": 86.88134183532021,
	"grad_norm": 0.28717854619026184,
	"learning_rate": 2.0969899665551837e-06,
	"loss": 6.377,
	"step": 39100
	},
	{
	"epoch": 86.88134183532021,
	"eval_loss": 6.3805928230285645,
	"eval_runtime": 63.7605,
	"eval_samples_per_second": 156.837,
	"eval_steps_per_second": 19.605,
	"step": 39100
	},
	{
	"epoch": 87.1031327973385,
	"grad_norm": 0.2932318150997162,
	"learning_rate": 2.0869565217391305e-06,
	"loss": 6.3791,
	"step": 39200
	},
	{
	"epoch": 87.1031327973385,
	"eval_loss": 6.380700588226318,
	"eval_runtime": 63.6583,
	"eval_samples_per_second": 157.089,
	"eval_steps_per_second": 19.636,
	"step": 39200
	},
	{
	"epoch": 87.3249237593568,
	"grad_norm": 0.39832741022109985,
	"learning_rate": 2.076923076923077e-06,
	"loss": 6.3784,
	"step": 39300
	},
	{
	"epoch": 87.3249237593568,
	"eval_loss": 6.37957763671875,
	"eval_runtime": 66.5746,
	"eval_samples_per_second": 150.207,
	"eval_steps_per_second": 18.776,
	"step": 39300
	},
	{
	"epoch": 87.54671472137511,
	"grad_norm": 0.3088468611240387,
	"learning_rate": 2.0668896321070236e-06,
	"loss": 6.3774,
	"step": 39400
	},
	{
	"epoch": 87.54671472137511,
	"eval_loss": 6.379054069519043,
	"eval_runtime": 66.2367,
	"eval_samples_per_second": 150.974,
	"eval_steps_per_second": 18.872,
	"step": 39400
	},
	{
	"epoch": 87.7685056833934,
	"grad_norm": 0.284956693649292,
	"learning_rate": 2.05685618729097e-06,
	"loss": 6.3777,
	"step": 39500
	},
	{
	"epoch": 87.7685056833934,
	"eval_loss": 6.381918907165527,
	"eval_runtime": 66.2296,
	"eval_samples_per_second": 150.99,
	"eval_steps_per_second": 18.874,
	"step": 39500
	},
	{
	"epoch": 87.9902966454117,
	"grad_norm": 0.26180529594421387,
	"learning_rate": 2.0468227424749163e-06,
	"loss": 6.3779,
	"step": 39600
	},
	{
	"epoch": 87.9902966454117,
	"eval_loss": 6.381536483764648,
	"eval_runtime": 66.1969,
	"eval_samples_per_second": 151.064,
	"eval_steps_per_second": 18.883,
	"step": 39600
	},
	{
	"epoch": 88.21208760742999,
	"grad_norm": 0.39024651050567627,
	"learning_rate": 2.036789297658863e-06,
	"loss": 6.377,
	"step": 39700
	},
	{
	"epoch": 88.21208760742999,
	"eval_loss": 6.3777618408203125,
	"eval_runtime": 66.1491,
	"eval_samples_per_second": 151.174,
	"eval_steps_per_second": 18.897,
	"step": 39700
	},
	{
	"epoch": 88.4338785694483,
	"grad_norm": 0.2729719579219818,
	"learning_rate": 2.0267558528428094e-06,
	"loss": 6.3782,
	"step": 39800
	},
	{
	"epoch": 88.4338785694483,
	"eval_loss": 6.382574081420898,
	"eval_runtime": 66.1908,
	"eval_samples_per_second": 151.078,
	"eval_steps_per_second": 18.885,
	"step": 39800
	},
	{
	"epoch": 88.65566953146659,
	"grad_norm": 0.23033183813095093,
	"learning_rate": 2.0167224080267557e-06,
	"loss": 6.3776,
	"step": 39900
	},
	{
	"epoch": 88.65566953146659,
	"eval_loss": 6.378293514251709,
	"eval_runtime": 66.1466,
	"eval_samples_per_second": 151.179,
	"eval_steps_per_second": 18.897,
	"step": 39900
	},
	{
	"epoch": 88.87746049348489,
	"grad_norm": 0.43995988368988037,
	"learning_rate": 2.0066889632107025e-06,
	"loss": 6.3793,
	"step": 40000
	},
	{
	"epoch": 88.87746049348489,
	"eval_loss": 6.380235195159912,
	"eval_runtime": 66.2981,
	"eval_samples_per_second": 150.834,
	"eval_steps_per_second": 18.854,
	"step": 40000
	},
	{
	"epoch": 89.0992514555032,
	"grad_norm": 0.2878618836402893,
	"learning_rate": 1.996655518394649e-06,
	"loss": 6.3783,
	"step": 40100
	},
	{
	"epoch": 89.0992514555032,
	"eval_loss": 6.379173755645752,
	"eval_runtime": 63.6984,
	"eval_samples_per_second": 156.99,
	"eval_steps_per_second": 19.624,
	"step": 40100
	},
	{
	"epoch": 89.32104241752148,
	"grad_norm": 0.22379851341247559,
	"learning_rate": 1.986622073578595e-06,
	"loss": 6.3785,
	"step": 40200
	},
	{
	"epoch": 89.32104241752148,
	"eval_loss": 6.38173770904541,
	"eval_runtime": 63.792,
	"eval_samples_per_second": 156.759,
	"eval_steps_per_second": 19.595,
	"step": 40200
	},
	{
	"epoch": 89.54283337953979,
	"grad_norm": 0.3321212828159332,
	"learning_rate": 1.976588628762542e-06,
	"loss": 6.3775,
	"step": 40300
	},
	{
	"epoch": 89.54283337953979,
	"eval_loss": 6.377793788909912,
	"eval_runtime": 66.2425,
	"eval_samples_per_second": 150.96,
	"eval_steps_per_second": 18.87,
	"step": 40300
	},
	{
	"epoch": 89.76462434155808,
	"grad_norm": 0.3513726592063904,
	"learning_rate": 1.9665551839464883e-06,
	"loss": 6.3777,
	"step": 40400
	},
	{
	"epoch": 89.76462434155808,
	"eval_loss": 6.38060998916626,
	"eval_runtime": 66.2865,
	"eval_samples_per_second": 150.86,
	"eval_steps_per_second": 18.858,
	"step": 40400
	},
	{
	"epoch": 89.98641530357638,
	"grad_norm": 0.3225536048412323,
	"learning_rate": 1.956521739130435e-06,
	"loss": 6.3781,
	"step": 40500
	},
	{
	"epoch": 89.98641530357638,
	"eval_loss": 6.3820648193359375,
	"eval_runtime": 63.6933,
	"eval_samples_per_second": 157.002,
	"eval_steps_per_second": 19.625,
	"step": 40500
	},
	{
	"epoch": 90.20820626559468,
	"grad_norm": 0.3866877853870392,
	"learning_rate": 1.9464882943143814e-06,
	"loss": 6.3772,
	"step": 40600
	},
	{
	"epoch": 90.20820626559468,
	"eval_loss": 6.382141590118408,
	"eval_runtime": 63.7832,
	"eval_samples_per_second": 156.781,
	"eval_steps_per_second": 19.598,
	"step": 40600
	},
	{
	"epoch": 90.42999722761297,
	"grad_norm": 0.43070387840270996,
	"learning_rate": 1.9364548494983277e-06,
	"loss": 6.3778,
	"step": 40700
	},
	{
	"epoch": 90.42999722761297,
	"eval_loss": 6.375494480133057,
	"eval_runtime": 65.724,
	"eval_samples_per_second": 152.152,
	"eval_steps_per_second": 19.019,
	"step": 40700
	},
	{
	"epoch": 90.65178818963128,
	"grad_norm": 0.35665562748908997,
	"learning_rate": 1.9264214046822745e-06,
	"loss": 6.3767,
	"step": 40800
	},
	{
	"epoch": 90.65178818963128,
	"eval_loss": 6.379345417022705,
	"eval_runtime": 64.4622,
	"eval_samples_per_second": 155.13,
	"eval_steps_per_second": 19.391,
	"step": 40800
	},
	{
	"epoch": 90.87357915164957,
	"grad_norm": 0.35841798782348633,
	"learning_rate": 1.916387959866221e-06,
	"loss": 6.3765,
	"step": 40900
	},
	{
	"epoch": 90.87357915164957,
	"eval_loss": 6.379830360412598,
	"eval_runtime": 66.3033,
	"eval_samples_per_second": 150.822,
	"eval_steps_per_second": 18.853,
	"step": 40900
	},
	{
	"epoch": 91.09537011366787,
	"grad_norm": 0.29910504817962646,
	"learning_rate": 1.9063545150501674e-06,
	"loss": 6.3774,
	"step": 41000
	},
	{
	"epoch": 91.09537011366787,
	"eval_loss": 6.380716323852539,
	"eval_runtime": 63.7905,
	"eval_samples_per_second": 156.763,
	"eval_steps_per_second": 19.595,
	"step": 41000
	},
	{
	"epoch": 91.31716107568617,
	"grad_norm": 0.3775427043437958,
	"learning_rate": 1.896321070234114e-06,
	"loss": 6.3784,
	"step": 41100
	},
	{
	"epoch": 91.31716107568617,
	"eval_loss": 6.38125467300415,
	"eval_runtime": 63.7934,
	"eval_samples_per_second": 156.756,
	"eval_steps_per_second": 19.595,
	"step": 41100
	},
	{
	"epoch": 91.53895203770446,
	"grad_norm": 0.2421695590019226,
	"learning_rate": 1.8862876254180603e-06,
	"loss": 6.377,
	"step": 41200
	},
	{
	"epoch": 91.53895203770446,
	"eval_loss": 6.381397724151611,
	"eval_runtime": 66.2535,
	"eval_samples_per_second": 150.935,
	"eval_steps_per_second": 18.867,
	"step": 41200
	},
	{
	"epoch": 91.76074299972277,
	"grad_norm": 0.2967372238636017,
	"learning_rate": 1.8762541806020068e-06,
	"loss": 6.3783,
	"step": 41300
	},
	{
	"epoch": 91.76074299972277,
	"eval_loss": 6.380742073059082,
	"eval_runtime": 63.7433,
	"eval_samples_per_second": 156.879,
	"eval_steps_per_second": 19.61,
	"step": 41300
	},
	{
	"epoch": 91.98253396174105,
	"grad_norm": 0.3849758505821228,
	"learning_rate": 1.8662207357859534e-06,
	"loss": 6.3789,
	"step": 41400
	},
	{
	"epoch": 91.98253396174105,
	"eval_loss": 6.3830342292785645,
	"eval_runtime": 66.3151,
	"eval_samples_per_second": 150.795,
	"eval_steps_per_second": 18.849,
	"step": 41400
	},
	{
	"epoch": 92.20432492375936,
	"grad_norm": 0.377841055393219,
	"learning_rate": 1.8561872909699e-06,
	"loss": 6.3769,
	"step": 41500
	},
	{
	"epoch": 92.20432492375936,
	"eval_loss": 6.381241798400879,
	"eval_runtime": 63.6855,
	"eval_samples_per_second": 157.022,
	"eval_steps_per_second": 19.628,
	"step": 41500
	},
	{
	"epoch": 92.42611588577765,
	"grad_norm": 0.4062901437282562,
	"learning_rate": 1.8461538461538462e-06,
	"loss": 6.3791,
	"step": 41600
	},
	{
	"epoch": 92.42611588577765,
	"eval_loss": 6.378665924072266,
	"eval_runtime": 63.7914,
	"eval_samples_per_second": 156.761,
	"eval_steps_per_second": 19.595,
	"step": 41600
	},
	{
	"epoch": 92.64790684779595,
	"grad_norm": 0.33464646339416504,
	"learning_rate": 1.8361204013377928e-06,
	"loss": 6.3782,
	"step": 41700
	},
	{
	"epoch": 92.64790684779595,
	"eval_loss": 6.379201412200928,
	"eval_runtime": 66.2071,
	"eval_samples_per_second": 151.041,
	"eval_steps_per_second": 18.88,
	"step": 41700
	},
	{
	"epoch": 92.86969780981426,
	"grad_norm": 0.26191645860671997,
	"learning_rate": 1.8260869565217394e-06,
	"loss": 6.3768,
	"step": 41800
	},
	{
	"epoch": 92.86969780981426,
	"eval_loss": 6.380030632019043,
	"eval_runtime": 63.7463,
	"eval_samples_per_second": 156.872,
	"eval_steps_per_second": 19.609,
	"step": 41800
	},
	{
	"epoch": 93.09148877183254,
	"grad_norm": 0.4473271667957306,
	"learning_rate": 1.8160535117056857e-06,
	"loss": 6.376,
	"step": 41900
	},
	{
	"epoch": 93.09148877183254,
	"eval_loss": 6.383362293243408,
	"eval_runtime": 66.2652,
	"eval_samples_per_second": 150.909,
	"eval_steps_per_second": 18.864,
	"step": 41900
	},
	{
	"epoch": 93.31327973385085,
	"grad_norm": 0.30396267771720886,
	"learning_rate": 1.8060200668896322e-06,
	"loss": 6.3782,
	"step": 42000
	},
	{
	"epoch": 93.31327973385085,
	"eval_loss": 6.382277965545654,
	"eval_runtime": 63.811,
	"eval_samples_per_second": 156.713,
	"eval_steps_per_second": 19.589,
	"step": 42000
	},
	{
	"epoch": 93.53507069586914,
	"grad_norm": 0.2819732129573822,
	"learning_rate": 1.7959866220735788e-06,
	"loss": 6.3782,
	"step": 42100
	},
	{
	"epoch": 93.53507069586914,
	"eval_loss": 6.381258010864258,
	"eval_runtime": 63.7343,
	"eval_samples_per_second": 156.901,
	"eval_steps_per_second": 19.613,
	"step": 42100
	},
	{
	"epoch": 93.75686165788744,
	"grad_norm": 0.2994706630706787,
	"learning_rate": 1.7859531772575253e-06,
	"loss": 6.3786,
	"step": 42200
	},
	{
	"epoch": 93.75686165788744,
	"eval_loss": 6.381169319152832,
	"eval_runtime": 66.2919,
	"eval_samples_per_second": 150.848,
	"eval_steps_per_second": 18.856,
	"step": 42200
	},
	{
	"epoch": 93.97865261990574,
	"grad_norm": 0.31294333934783936,
	"learning_rate": 1.7759197324414717e-06,
	"loss": 6.3766,
	"step": 42300
	},
	{
	"epoch": 93.97865261990574,
	"eval_loss": 6.379955291748047,
	"eval_runtime": 63.7737,
	"eval_samples_per_second": 156.804,
	"eval_steps_per_second": 19.601,
	"step": 42300
	},
	{
	"epoch": 94.20044358192403,
	"grad_norm": 0.291477769613266,
	"learning_rate": 1.7658862876254182e-06,
	"loss": 6.3777,
	"step": 42400
	},
	{
	"epoch": 94.20044358192403,
	"eval_loss": 6.379477500915527,
	"eval_runtime": 66.2866,
	"eval_samples_per_second": 150.86,
	"eval_steps_per_second": 18.857,
	"step": 42400
	},
	{
	"epoch": 94.42223454394234,
	"grad_norm": 0.23638038337230682,
	"learning_rate": 1.7558528428093648e-06,
	"loss": 6.3781,
	"step": 42500
	},
	{
	"epoch": 94.42223454394234,
	"eval_loss": 6.380892753601074,
	"eval_runtime": 63.8247,
	"eval_samples_per_second": 156.679,
	"eval_steps_per_second": 19.585,
	"step": 42500
	},
	{
	"epoch": 94.64402550596063,
	"grad_norm": 0.3445935547351837,
	"learning_rate": 1.745819397993311e-06,
	"loss": 6.3768,
	"step": 42600
	},
	{
	"epoch": 94.64402550596063,
	"eval_loss": 6.382579803466797,
	"eval_runtime": 63.8197,
	"eval_samples_per_second": 156.691,
	"eval_steps_per_second": 19.586,
	"step": 42600
	},
	{
	"epoch": 94.86581646797893,
	"grad_norm": 0.3376341462135315,
	"learning_rate": 1.7357859531772575e-06,
	"loss": 6.3768,
	"step": 42700
	},
	{
	"epoch": 94.86581646797893,
	"eval_loss": 6.381232261657715,
	"eval_runtime": 66.3632,
	"eval_samples_per_second": 150.686,
	"eval_steps_per_second": 18.836,
	"step": 42700
	},
	{
	"epoch": 95.08760742999723,
	"grad_norm": 0.29045116901397705,
	"learning_rate": 1.7257525083612038e-06,
	"loss": 6.3763,
	"step": 42800
	},
	{
	"epoch": 95.08760742999723,
	"eval_loss": 6.3776373863220215,
	"eval_runtime": 63.6759,
	"eval_samples_per_second": 157.045,
	"eval_steps_per_second": 19.631,
	"step": 42800
	},
	{
	"epoch": 95.30939839201552,
	"grad_norm": 0.2851983308792114,
	"learning_rate": 1.7157190635451504e-06,
	"loss": 6.3778,
	"step": 42900
	},
	{
	"epoch": 95.30939839201552,
	"eval_loss": 6.380300998687744,
	"eval_runtime": 63.8175,
	"eval_samples_per_second": 156.697,
	"eval_steps_per_second": 19.587,
	"step": 42900
	},
	{
	"epoch": 95.53118935403383,
	"grad_norm": 0.33936771750450134,
	"learning_rate": 1.705685618729097e-06,
	"loss": 6.3787,
	"step": 43000
	},
	{
	"epoch": 95.53118935403383,
	"eval_loss": 6.37871789932251,
	"eval_runtime": 63.8614,
	"eval_samples_per_second": 156.589,
	"eval_steps_per_second": 19.574,
	"step": 43000
	},
	{
	"epoch": 95.75298031605212,
	"grad_norm": 0.4443320333957672,
	"learning_rate": 1.6956521739130435e-06,
	"loss": 6.3781,
	"step": 43100
	},
	{
	"epoch": 95.75298031605212,
	"eval_loss": 6.382043838500977,
	"eval_runtime": 66.3729,
	"eval_samples_per_second": 150.664,
	"eval_steps_per_second": 18.833,
	"step": 43100
	},
	{
	"epoch": 95.97477127807042,
	"grad_norm": 0.33091309666633606,
	"learning_rate": 1.6856187290969898e-06,
	"loss": 6.3772,
	"step": 43200
	},
	{
	"epoch": 95.97477127807042,
	"eval_loss": 6.380916595458984,
	"eval_runtime": 63.7824,
	"eval_samples_per_second": 156.783,
	"eval_steps_per_second": 19.598,
	"step": 43200
	},
	{
	"epoch": 96.19656224008871,
	"grad_norm": 0.3929876685142517,
	"learning_rate": 1.6755852842809363e-06,
	"loss": 6.3785,
	"step": 43300
	},
	{
	"epoch": 96.19656224008871,
	"eval_loss": 6.377211570739746,
	"eval_runtime": 66.2793,
	"eval_samples_per_second": 150.877,
	"eval_steps_per_second": 18.86,
	"step": 43300
	},
	{
	"epoch": 96.41835320210701,
	"grad_norm": 0.3379896581172943,
	"learning_rate": 1.665551839464883e-06,
	"loss": 6.3772,
	"step": 43400
	},
	{
	"epoch": 96.41835320210701,
	"eval_loss": 6.380885124206543,
	"eval_runtime": 63.8749,
	"eval_samples_per_second": 156.556,
	"eval_steps_per_second": 19.569,
	"step": 43400
	},
	{
	"epoch": 96.64014416412532,
	"grad_norm": 0.3330114483833313,
	"learning_rate": 1.6555183946488294e-06,
	"loss": 6.378,
	"step": 43500
	},
	{
	"epoch": 96.64014416412532,
	"eval_loss": 6.381417751312256,
	"eval_runtime": 66.3248,
	"eval_samples_per_second": 150.773,
	"eval_steps_per_second": 18.847,
	"step": 43500
	},
	{
	"epoch": 96.8619351261436,
	"grad_norm": 0.5002055168151855,
	"learning_rate": 1.6454849498327758e-06,
	"loss": 6.3772,
	"step": 43600
	},
	{
	"epoch": 96.8619351261436,
	"eval_loss": 6.379367351531982,
	"eval_runtime": 63.7674,
	"eval_samples_per_second": 156.82,
	"eval_steps_per_second": 19.603,
	"step": 43600
	},
	{
	"epoch": 97.08372608816191,
	"grad_norm": 0.4039636552333832,
	"learning_rate": 1.6354515050167223e-06,
	"loss": 6.376,
	"step": 43700
	},
	{
	"epoch": 97.08372608816191,
	"eval_loss": 6.379873275756836,
	"eval_runtime": 63.6881,
	"eval_samples_per_second": 157.015,
	"eval_steps_per_second": 19.627,
	"step": 43700
	},
	{
	"epoch": 97.3055170501802,
	"grad_norm": 0.3500140309333801,
	"learning_rate": 1.6254180602006689e-06,
	"loss": 6.3793,
	"step": 43800
	},
	{
	"epoch": 97.3055170501802,
	"eval_loss": 6.3825764656066895,
	"eval_runtime": 66.2863,
	"eval_samples_per_second": 150.861,
	"eval_steps_per_second": 18.858,
	"step": 43800
	},
	{
	"epoch": 97.5273080121985,
	"grad_norm": 0.343735009431839,
	"learning_rate": 1.6153846153846154e-06,
	"loss": 6.3779,
	"step": 43900
	},
	{
	"epoch": 97.5273080121985,
	"eval_loss": 6.378231525421143,
	"eval_runtime": 63.7143,
	"eval_samples_per_second": 156.951,
	"eval_steps_per_second": 19.619,
	"step": 43900
	},
	{
	"epoch": 97.7490989742168,
	"grad_norm": 0.3836156129837036,
	"learning_rate": 1.6053511705685618e-06,
	"loss": 6.3773,
	"step": 44000
	},
	{
	"epoch": 97.7490989742168,
	"eval_loss": 6.37751579284668,
	"eval_runtime": 63.729,
	"eval_samples_per_second": 156.915,
	"eval_steps_per_second": 19.614,
	"step": 44000
	},
	{
	"epoch": 97.9708899362351,
	"grad_norm": 0.3120937645435333,
	"learning_rate": 1.5953177257525083e-06,
	"loss": 6.3755,
	"step": 44100
	},
	{
	"epoch": 97.9708899362351,
	"eval_loss": 6.3800272941589355,
	"eval_runtime": 64.1744,
	"eval_samples_per_second": 155.825,
	"eval_steps_per_second": 19.478,
	"step": 44100
	},
	{
	"epoch": 98.1926808982534,
	"grad_norm": 0.33682048320770264,
	"learning_rate": 1.5852842809364549e-06,
	"loss": 6.3765,
	"step": 44200
	},
	{
	"epoch": 98.1926808982534,
	"eval_loss": 6.378459930419922,
	"eval_runtime": 65.8486,
	"eval_samples_per_second": 151.864,
	"eval_steps_per_second": 18.983,
	"step": 44200
	},
	{
	"epoch": 98.41447186027169,
	"grad_norm": 0.33430323004722595,
	"learning_rate": 1.5752508361204012e-06,
	"loss": 6.3784,
	"step": 44300
	},
	{
	"epoch": 98.41447186027169,
	"eval_loss": 6.37835693359375,
	"eval_runtime": 63.7423,
	"eval_samples_per_second": 156.882,
	"eval_steps_per_second": 19.61,
	"step": 44300
	},
	{
	"epoch": 98.63626282228999,
	"grad_norm": 0.3729492425918579,
	"learning_rate": 1.5652173913043478e-06,
	"loss": 6.3775,
	"step": 44400
	},
	{
	"epoch": 98.63626282228999,
	"eval_loss": 6.379312515258789,
	"eval_runtime": 67.1919,
	"eval_samples_per_second": 148.827,
	"eval_steps_per_second": 18.603,
	"step": 44400
	},
	{
	"epoch": 98.8580537843083,
	"grad_norm": 0.30378684401512146,
	"learning_rate": 1.5551839464882943e-06,
	"loss": 6.3773,
	"step": 44500
	},
	{
	"epoch": 98.8580537843083,
	"eval_loss": 6.380176544189453,
	"eval_runtime": 66.2505,
	"eval_samples_per_second": 150.942,
	"eval_steps_per_second": 18.868,
	"step": 44500
	},
	{
	"epoch": 99.07984474632659,
	"grad_norm": 0.2708960771560669,
	"learning_rate": 1.5451505016722409e-06,
	"loss": 6.3791,
	"step": 44600
	},
	{
	"epoch": 99.07984474632659,
	"eval_loss": 6.381106853485107,
	"eval_runtime": 63.6851,
	"eval_samples_per_second": 157.023,
	"eval_steps_per_second": 19.628,
	"step": 44600
	},
	{
	"epoch": 99.30163570834489,
	"grad_norm": 0.28966355323791504,
	"learning_rate": 1.5351170568561872e-06,
	"loss": 6.3769,
	"step": 44700
	},
	{
	"epoch": 99.30163570834489,
	"eval_loss": 6.380806922912598,
	"eval_runtime": 66.2295,
	"eval_samples_per_second": 150.99,
	"eval_steps_per_second": 18.874,
	"step": 44700
	},
	{
	"epoch": 99.52342667036318,
	"grad_norm": 0.33378317952156067,
	"learning_rate": 1.5250836120401338e-06,
	"loss": 6.3764,
	"step": 44800
	},
	{
	"epoch": 99.52342667036318,
	"eval_loss": 6.378901481628418,
	"eval_runtime": 63.7387,
	"eval_samples_per_second": 156.89,
	"eval_steps_per_second": 19.611,
	"step": 44800
	},
	{
	"epoch": 99.74521763238148,
	"grad_norm": 0.2659667134284973,
	"learning_rate": 1.5150501672240803e-06,
	"loss": 6.3763,
	"step": 44900
	},
	{
	"epoch": 99.74521763238148,
	"eval_loss": 6.378689289093018,
	"eval_runtime": 66.291,
	"eval_samples_per_second": 150.85,
	"eval_steps_per_second": 18.856,
	"step": 44900
	},
	{
	"epoch": 99.96700859439977,
	"grad_norm": 0.36868181824684143,
	"learning_rate": 1.5050167224080269e-06,
	"loss": 6.3773,
	"step": 45000
	},
	{
	"epoch": 99.96700859439977,
	"eval_loss": 6.379394054412842,
	"eval_runtime": 63.8432,
	"eval_samples_per_second": 156.634,
	"eval_steps_per_second": 19.579,
	"step": 45000
	},
	{
	"epoch": 100.18879955641808,
	"grad_norm": 0.2957492768764496,
	"learning_rate": 1.4949832775919732e-06,
	"loss": 6.3777,
	"step": 45100
	},
	{
	"epoch": 100.18879955641808,
	"eval_loss": 6.37989616394043,
	"eval_runtime": 63.7161,
	"eval_samples_per_second": 156.946,
	"eval_steps_per_second": 19.618,
	"step": 45100
	},
	{
	"epoch": 100.41059051843638,
	"grad_norm": 0.36346226930618286,
	"learning_rate": 1.4849498327759198e-06,
	"loss": 6.3771,
	"step": 45200
	},
	{
	"epoch": 100.41059051843638,
	"eval_loss": 6.382117748260498,
	"eval_runtime": 66.181,
	"eval_samples_per_second": 151.101,
	"eval_steps_per_second": 18.888,
	"step": 45200
	},
	{
	"epoch": 100.63238148045467,
	"grad_norm": 0.21758611500263214,
	"learning_rate": 1.4749163879598663e-06,
	"loss": 6.3768,
	"step": 45300
	},
	{
	"epoch": 100.63238148045467,
	"eval_loss": 6.378548622131348,
	"eval_runtime": 63.8643,
	"eval_samples_per_second": 156.582,
	"eval_steps_per_second": 19.573,
	"step": 45300
	},
	{
	"epoch": 100.85417244247297,
	"grad_norm": 0.21891988813877106,
	"learning_rate": 1.4648829431438129e-06,
	"loss": 6.3759,
	"step": 45400
	},
	{
	"epoch": 100.85417244247297,
	"eval_loss": 6.3807806968688965,
	"eval_runtime": 66.1954,
	"eval_samples_per_second": 151.068,
	"eval_steps_per_second": 18.883,
	"step": 45400
	},
	{
	"epoch": 101.07596340449126,
	"grad_norm": 0.31398728489875793,
	"learning_rate": 1.4548494983277592e-06,
	"loss": 6.3783,
	"step": 45500
	},
	{
	"epoch": 101.07596340449126,
	"eval_loss": 6.3800740242004395,
	"eval_runtime": 63.74,
	"eval_samples_per_second": 156.887,
	"eval_steps_per_second": 19.611,
	"step": 45500
	},
	{
	"epoch": 101.29775436650957,
	"grad_norm": 0.3506067991256714,
	"learning_rate": 1.4448160535117058e-06,
	"loss": 6.3757,
	"step": 45600
	},
	{
	"epoch": 101.29775436650957,
	"eval_loss": 6.3802642822265625,
	"eval_runtime": 66.3029,
	"eval_samples_per_second": 150.823,
	"eval_steps_per_second": 18.853,
	"step": 45600
	},
	{
	"epoch": 101.51954532852787,
	"grad_norm": 0.4127357304096222,
	"learning_rate": 1.4347826086956523e-06,
	"loss": 6.377,
	"step": 45700
	},
	{
	"epoch": 101.51954532852787,
	"eval_loss": 6.379199028015137,
	"eval_runtime": 63.6147,
	"eval_samples_per_second": 157.196,
	"eval_steps_per_second": 19.65,
	"step": 45700
	},
	{
	"epoch": 101.74133629054616,
	"grad_norm": 0.40180787444114685,
	"learning_rate": 1.4247491638795989e-06,
	"loss": 6.3774,
	"step": 45800
	},
	{
	"epoch": 101.74133629054616,
	"eval_loss": 6.378483295440674,
	"eval_runtime": 63.6205,
	"eval_samples_per_second": 157.182,
	"eval_steps_per_second": 19.648,
	"step": 45800
	},
	{
	"epoch": 101.96312725256446,
	"grad_norm": 0.2862705588340759,
	"learning_rate": 1.4147157190635452e-06,
	"loss": 6.3777,
	"step": 45900
	},
	{
	"epoch": 101.96312725256446,
	"eval_loss": 6.377134323120117,
	"eval_runtime": 63.9897,
	"eval_samples_per_second": 156.275,
	"eval_steps_per_second": 19.534,
	"step": 45900
	},
	{
	"epoch": 102.18491821458275,
	"grad_norm": 0.2539602816104889,
	"learning_rate": 1.4046822742474917e-06,
	"loss": 6.3786,
	"step": 46000
	},
	{
	"epoch": 102.18491821458275,
	"eval_loss": 6.379866123199463,
	"eval_runtime": 66.1001,
	"eval_samples_per_second": 151.286,
	"eval_steps_per_second": 18.911,
	"step": 46000
	},
	{
	"epoch": 102.40670917660105,
	"grad_norm": 0.36692872643470764,
	"learning_rate": 1.3946488294314383e-06,
	"loss": 6.3771,
	"step": 46100
	},
	{
	"epoch": 102.40670917660105,
	"eval_loss": 6.379576683044434,
	"eval_runtime": 63.6911,
	"eval_samples_per_second": 157.008,
	"eval_steps_per_second": 19.626,
	"step": 46100
	},
	{
	"epoch": 102.62850013861934,
	"grad_norm": 0.3044676184654236,
	"learning_rate": 1.3846153846153846e-06,
	"loss": 6.3772,
	"step": 46200
	},
	{
	"epoch": 102.62850013861934,
	"eval_loss": 6.381227493286133,
	"eval_runtime": 63.7064,
	"eval_samples_per_second": 156.97,
	"eval_steps_per_second": 19.621,
	"step": 46200
	},
	{
	"epoch": 102.85029110063765,
	"grad_norm": 0.3508971035480499,
	"learning_rate": 1.374581939799331e-06,
	"loss": 6.3762,
	"step": 46300
	},
	{
	"epoch": 102.85029110063765,
	"eval_loss": 6.377274513244629,
	"eval_runtime": 66.2947,
	"eval_samples_per_second": 150.842,
	"eval_steps_per_second": 18.855,
	"step": 46300
	},
	{
	"epoch": 103.07208206265595,
	"grad_norm": 0.31413570046424866,
	"learning_rate": 1.3645484949832775e-06,
	"loss": 6.3774,
	"step": 46400
	},
	{
	"epoch": 103.07208206265595,
	"eval_loss": 6.380115032196045,
	"eval_runtime": 63.6441,
	"eval_samples_per_second": 157.124,
	"eval_steps_per_second": 19.64,
	"step": 46400
	},
	{
	"epoch": 103.29387302467424,
	"grad_norm": 0.2552104890346527,
	"learning_rate": 1.354515050167224e-06,
	"loss": 6.3775,
	"step": 46500
	},
	{
	"epoch": 103.29387302467424,
	"eval_loss": 6.379015922546387,
	"eval_runtime": 63.6755,
	"eval_samples_per_second": 157.046,
	"eval_steps_per_second": 19.631,
	"step": 46500
	},
	{
	"epoch": 103.51566398669254,
	"grad_norm": 0.3744960129261017,
	"learning_rate": 1.3444816053511706e-06,
	"loss": 6.3763,
	"step": 46600
	},
	{
	"epoch": 103.51566398669254,
	"eval_loss": 6.374266624450684,
	"eval_runtime": 66.5834,
	"eval_samples_per_second": 150.188,
	"eval_steps_per_second": 18.773,
	"step": 46600
	},
	{
	"epoch": 103.73745494871083,
	"grad_norm": 0.27893921732902527,
	"learning_rate": 1.334448160535117e-06,
	"loss": 6.3775,
	"step": 46700
	},
	{
	"epoch": 103.73745494871083,
	"eval_loss": 6.380270957946777,
	"eval_runtime": 66.2442,
	"eval_samples_per_second": 150.957,
	"eval_steps_per_second": 18.87,
	"step": 46700
	},
	{
	"epoch": 103.95924591072914,
	"grad_norm": 0.2601492404937744,
	"learning_rate": 1.3244147157190635e-06,
	"loss": 6.3775,
	"step": 46800
	},
	{
	"epoch": 103.95924591072914,
	"eval_loss": 6.380533218383789,
	"eval_runtime": 66.2494,
	"eval_samples_per_second": 150.945,
	"eval_steps_per_second": 18.868,
	"step": 46800
	},
	{
	"epoch": 104.18103687274744,
	"grad_norm": 0.28285419940948486,
	"learning_rate": 1.31438127090301e-06,
	"loss": 6.3776,
	"step": 46900
	},
	{
	"epoch": 104.18103687274744,
	"eval_loss": 6.3801751136779785,
	"eval_runtime": 66.2411,
	"eval_samples_per_second": 150.964,
	"eval_steps_per_second": 18.87,
	"step": 46900
	},
	{
	"epoch": 104.40282783476573,
	"grad_norm": 0.4723234176635742,
	"learning_rate": 1.3043478260869566e-06,
	"loss": 6.376,
	"step": 47000
	},
	{
	"epoch": 104.40282783476573,
	"eval_loss": 6.379186153411865,
	"eval_runtime": 63.7279,
	"eval_samples_per_second": 156.917,
	"eval_steps_per_second": 19.615,
	"step": 47000
	},
	{
	"epoch": 104.62461879678403,
	"grad_norm": 0.3108322322368622,
	"learning_rate": 1.294314381270903e-06,
	"loss": 6.3773,
	"step": 47100
	},
	{
	"epoch": 104.62461879678403,
	"eval_loss": 6.3764142990112305,
	"eval_runtime": 63.7167,
	"eval_samples_per_second": 156.945,
	"eval_steps_per_second": 19.618,
	"step": 47100
	},
	{
	"epoch": 104.84640975880232,
	"grad_norm": 0.38544511795043945,
	"learning_rate": 1.2842809364548495e-06,
	"loss": 6.3773,
	"step": 47200
	},
	{
	"epoch": 104.84640975880232,
	"eval_loss": 6.379009246826172,
	"eval_runtime": 66.2408,
	"eval_samples_per_second": 150.964,
	"eval_steps_per_second": 18.871,
	"step": 47200
	},
	{
	"epoch": 105.06820072082063,
	"grad_norm": 0.2773985266685486,
	"learning_rate": 1.274247491638796e-06,
	"loss": 6.3772,
	"step": 47300
	},
	{
	"epoch": 105.06820072082063,
	"eval_loss": 6.3756842613220215,
	"eval_runtime": 63.6518,
	"eval_samples_per_second": 157.105,
	"eval_steps_per_second": 19.638,
	"step": 47300
	},
	{
	"epoch": 105.28999168283893,
	"grad_norm": 0.2765492796897888,
	"learning_rate": 1.2642140468227424e-06,
	"loss": 6.3764,
	"step": 47400
	},
	{
	"epoch": 105.28999168283893,
	"eval_loss": 6.377975940704346,
	"eval_runtime": 66.2572,
	"eval_samples_per_second": 150.927,
	"eval_steps_per_second": 18.866,
	"step": 47400
	},
	{
	"epoch": 105.51178264485722,
	"grad_norm": 0.30239638686180115,
	"learning_rate": 1.254180602006689e-06,
	"loss": 6.3761,
	"step": 47500
	},
	{
	"epoch": 105.51178264485722,
	"eval_loss": 6.379149436950684,
	"eval_runtime": 63.8068,
	"eval_samples_per_second": 156.723,
	"eval_steps_per_second": 19.59,
	"step": 47500
	},
	{
	"epoch": 105.73357360687552,
	"grad_norm": 0.22471874952316284,
	"learning_rate": 1.2441471571906355e-06,
	"loss": 6.3775,
	"step": 47600
	},
	{
	"epoch": 105.73357360687552,
	"eval_loss": 6.3783087730407715,
	"eval_runtime": 66.2436,
	"eval_samples_per_second": 150.958,
	"eval_steps_per_second": 18.87,
	"step": 47600
	},
	{
	"epoch": 105.95536456889381,
	"grad_norm": 0.23722052574157715,
	"learning_rate": 1.234113712374582e-06,
	"loss": 6.377,
	"step": 47700
	},
	{
	"epoch": 105.95536456889381,
	"eval_loss": 6.376536846160889,
	"eval_runtime": 63.6766,
	"eval_samples_per_second": 157.044,
	"eval_steps_per_second": 19.63,
	"step": 47700
	},
	{
	"epoch": 106.17715553091212,
	"grad_norm": 0.26499879360198975,
	"learning_rate": 1.2240802675585284e-06,
	"loss": 6.3758,
	"step": 47800
	},
	{
	"epoch": 106.17715553091212,
	"eval_loss": 6.380406856536865,
	"eval_runtime": 66.1835,
	"eval_samples_per_second": 151.095,
	"eval_steps_per_second": 18.887,
	"step": 47800
	},
	{
	"epoch": 106.3989464929304,
	"grad_norm": 0.32900717854499817,
	"learning_rate": 1.214046822742475e-06,
	"loss": 6.375,
	"step": 47900
	},
	{
	"epoch": 106.3989464929304,
	"eval_loss": 6.375906467437744,
	"eval_runtime": 63.8048,
	"eval_samples_per_second": 156.728,
	"eval_steps_per_second": 19.591,
	"step": 47900
	},
	{
	"epoch": 106.62073745494871,
	"grad_norm": 0.3241865932941437,
	"learning_rate": 1.2040133779264215e-06,
	"loss": 6.3792,
	"step": 48000
	},
	{
	"epoch": 106.62073745494871,
	"eval_loss": 6.37775993347168,
	"eval_runtime": 66.3426,
	"eval_samples_per_second": 150.733,
	"eval_steps_per_second": 18.842,
	"step": 48000
	},
	{
	"epoch": 106.84252841696701,
	"grad_norm": 0.3194703757762909,
	"learning_rate": 1.193979933110368e-06,
	"loss": 6.3766,
	"step": 48100
	},
	{
	"epoch": 106.84252841696701,
	"eval_loss": 6.37912654876709,
	"eval_runtime": 63.7236,
	"eval_samples_per_second": 156.928,
	"eval_steps_per_second": 19.616,
	"step": 48100
	},
	{
	"epoch": 107.0643193789853,
	"grad_norm": 0.25526002049446106,
	"learning_rate": 1.1839464882943144e-06,
	"loss": 6.3776,
	"step": 48200
	},
	{
	"epoch": 107.0643193789853,
	"eval_loss": 6.38245153427124,
	"eval_runtime": 66.2659,
	"eval_samples_per_second": 150.907,
	"eval_steps_per_second": 18.863,
	"step": 48200
	},
	{
	"epoch": 107.2861103410036,
	"grad_norm": 0.2747518718242645,
	"learning_rate": 1.173913043478261e-06,
	"loss": 6.3768,
	"step": 48300
	},
	{
	"epoch": 107.2861103410036,
	"eval_loss": 6.380572319030762,
	"eval_runtime": 63.8901,
	"eval_samples_per_second": 156.519,
	"eval_steps_per_second": 19.565,
	"step": 48300
	},
	{
	"epoch": 107.5079013030219,
	"grad_norm": 0.2569632828235626,
	"learning_rate": 1.1638795986622075e-06,
	"loss": 6.3764,
	"step": 48400
	},
	{
	"epoch": 107.5079013030219,
	"eval_loss": 6.380358695983887,
	"eval_runtime": 66.316,
	"eval_samples_per_second": 150.793,
	"eval_steps_per_second": 18.849,
	"step": 48400
	},
	{
	"epoch": 107.7296922650402,
	"grad_norm": 0.28270038962364197,
	"learning_rate": 1.153846153846154e-06,
	"loss": 6.3772,
	"step": 48500
	},
	{
	"epoch": 107.7296922650402,
	"eval_loss": 6.3787407875061035,
	"eval_runtime": 63.7582,
	"eval_samples_per_second": 156.842,
	"eval_steps_per_second": 19.605,
	"step": 48500
	},
	{
	"epoch": 107.9514832270585,
	"grad_norm": 0.35361409187316895,
	"learning_rate": 1.1438127090301004e-06,
	"loss": 6.3754,
	"step": 48600
	},
	{
	"epoch": 107.9514832270585,
	"eval_loss": 6.37959098815918,
	"eval_runtime": 63.698,
	"eval_samples_per_second": 156.991,
	"eval_steps_per_second": 19.624,
	"step": 48600
	},
	{
	"epoch": 108.17327418907679,
	"grad_norm": 0.2802847921848297,
	"learning_rate": 1.133779264214047e-06,
	"loss": 6.375,
	"step": 48700
	},
	{
	"epoch": 108.17327418907679,
	"eval_loss": 6.376708030700684,
	"eval_runtime": 66.263,
	"eval_samples_per_second": 150.914,
	"eval_steps_per_second": 18.864,
	"step": 48700
	},
	{
	"epoch": 108.3950651510951,
	"grad_norm": 0.3533788323402405,
	"learning_rate": 1.1237458193979933e-06,
	"loss": 6.3757,
	"step": 48800
	},
	{
	"epoch": 108.3950651510951,
	"eval_loss": 6.380278587341309,
	"eval_runtime": 67.3818,
	"eval_samples_per_second": 148.408,
	"eval_steps_per_second": 18.551,
	"step": 48800
	},
	{
	"epoch": 108.61685611311339,
	"grad_norm": 0.21207566559314728,
	"learning_rate": 1.1137123745819398e-06,
	"loss": 6.3776,
	"step": 48900
	},
	{
	"epoch": 108.61685611311339,
	"eval_loss": 6.375850200653076,
	"eval_runtime": 63.7895,
	"eval_samples_per_second": 156.766,
	"eval_steps_per_second": 19.596,
	"step": 48900
	},
	{
	"epoch": 108.83864707513169,
	"grad_norm": 0.33531099557876587,
	"learning_rate": 1.1036789297658862e-06,
	"loss": 6.3765,
	"step": 49000
	},
	{
	"epoch": 108.83864707513169,
	"eval_loss": 6.378798484802246,
	"eval_runtime": 63.7683,
	"eval_samples_per_second": 156.818,
	"eval_steps_per_second": 19.602,
	"step": 49000
	},
	{
	"epoch": 109.06043803714999,
	"grad_norm": 0.39727288484573364,
	"learning_rate": 1.0936454849498327e-06,
	"loss": 6.3774,
	"step": 49100
	},
	{
	"epoch": 109.06043803714999,
	"eval_loss": 6.379205703735352,
	"eval_runtime": 66.2384,
	"eval_samples_per_second": 150.97,
	"eval_steps_per_second": 18.871,
	"step": 49100
	},
	{
	"epoch": 109.28222899916828,
	"grad_norm": 0.3876926004886627,
	"learning_rate": 1.0836120401337793e-06,
	"loss": 6.3772,
	"step": 49200
	},
	{
	"epoch": 109.28222899916828,
	"eval_loss": 6.382777214050293,
	"eval_runtime": 63.7163,
	"eval_samples_per_second": 156.946,
	"eval_steps_per_second": 19.618,
	"step": 49200
	},
	{
	"epoch": 109.50401996118659,
	"grad_norm": 0.3268238604068756,
	"learning_rate": 1.0735785953177258e-06,
	"loss": 6.3765,
	"step": 49300
	},
	{
	"epoch": 109.50401996118659,
	"eval_loss": 6.378788471221924,
	"eval_runtime": 66.3254,
	"eval_samples_per_second": 150.772,
	"eval_steps_per_second": 18.846,
	"step": 49300
	},
	{
	"epoch": 109.72581092320488,
	"grad_norm": 0.24343077838420868,
	"learning_rate": 1.0635451505016722e-06,
	"loss": 6.3766,
	"step": 49400
	},
	{
	"epoch": 109.72581092320488,
	"eval_loss": 6.379393577575684,
	"eval_runtime": 63.7485,
	"eval_samples_per_second": 156.866,
	"eval_steps_per_second": 19.608,
	"step": 49400
	},
	{
	"epoch": 109.94760188522318,
	"grad_norm": 0.3532174229621887,
	"learning_rate": 1.0535117056856187e-06,
	"loss": 6.3762,
	"step": 49500
	},
	{
	"epoch": 109.94760188522318,
	"eval_loss": 6.383326530456543,
	"eval_runtime": 63.7304,
	"eval_samples_per_second": 156.911,
	"eval_steps_per_second": 19.614,
	"step": 49500
	},
	{
	"epoch": 110.16939284724147,
	"grad_norm": 0.28071361780166626,
	"learning_rate": 1.0434782608695653e-06,
	"loss": 6.3763,
	"step": 49600
	},
	{
	"epoch": 110.16939284724147,
	"eval_loss": 6.376327991485596,
	"eval_runtime": 66.248,
	"eval_samples_per_second": 150.948,
	"eval_steps_per_second": 18.868,
	"step": 49600
	},
	{
	"epoch": 110.39118380925977,
	"grad_norm": 0.3425652086734772,
	"learning_rate": 1.0334448160535118e-06,
	"loss": 6.3755,
	"step": 49700
	},
	{
	"epoch": 110.39118380925977,
	"eval_loss": 6.3802337646484375,
	"eval_runtime": 63.7015,
	"eval_samples_per_second": 156.982,
	"eval_steps_per_second": 19.623,
	"step": 49700
	},
	{
	"epoch": 110.61297477127808,
	"grad_norm": 0.22676917910575867,
	"learning_rate": 1.0234113712374581e-06,
	"loss": 6.3773,
	"step": 49800
	},
	{
	"epoch": 110.61297477127808,
	"eval_loss": 6.3807525634765625,
	"eval_runtime": 66.2796,
	"eval_samples_per_second": 150.876,
	"eval_steps_per_second": 18.86,
	"step": 49800
	},
	{
	"epoch": 110.83476573329636,
	"grad_norm": 0.25897106528282166,
	"learning_rate": 1.0133779264214047e-06,
	"loss": 6.3768,
	"step": 49900
	},
	{
	"epoch": 110.83476573329636,
	"eval_loss": 6.381240367889404,
	"eval_runtime": 63.8656,
	"eval_samples_per_second": 156.579,
	"eval_steps_per_second": 19.572,
	"step": 49900
	},
	{
	"epoch": 111.05655669531467,
	"grad_norm": 0.2521306574344635,
	"learning_rate": 1.0033444816053512e-06,
	"loss": 6.3748,
	"step": 50000
	},
	{
	"epoch": 111.05655669531467,
	"eval_loss": 6.379097938537598,
	"eval_runtime": 63.7336,
	"eval_samples_per_second": 156.903,
	"eval_steps_per_second": 19.613,
	"step": 50000
	},
	{
	"epoch": 111.27834765733296,
	"grad_norm": 0.32774215936660767,
	"learning_rate": 9.933110367892976e-07,
	"loss": 6.3777,
	"step": 50100
	},
	{
	"epoch": 111.27834765733296,
	"eval_loss": 6.379392147064209,
	"eval_runtime": 66.4051,
	"eval_samples_per_second": 150.591,
	"eval_steps_per_second": 18.824,
	"step": 50100
	},
	{
	"epoch": 111.50013861935126,
	"grad_norm": 0.23284611105918884,
	"learning_rate": 9.832775919732441e-07,
	"loss": 6.3746,
	"step": 50200
	},
	{
	"epoch": 111.50013861935126,
	"eval_loss": 6.377693176269531,
	"eval_runtime": 64.6002,
	"eval_samples_per_second": 154.798,
	"eval_steps_per_second": 19.35,
	"step": 50200
	},
	{
	"epoch": 111.72192958136957,
	"grad_norm": 0.2757164537906647,
	"learning_rate": 9.732441471571907e-07,
	"loss": 6.3743,
	"step": 50300
	},
	{
	"epoch": 111.72192958136957,
	"eval_loss": 6.38041877746582,
	"eval_runtime": 65.5393,
	"eval_samples_per_second": 152.58,
	"eval_steps_per_second": 19.073,
	"step": 50300
	},
	{
	"epoch": 111.94372054338785,
	"grad_norm": 0.326815128326416,
	"learning_rate": 9.632107023411372e-07,
	"loss": 6.3765,
	"step": 50400
	},
	{
	"epoch": 111.94372054338785,
	"eval_loss": 6.37969970703125,
	"eval_runtime": 63.7883,
	"eval_samples_per_second": 156.769,
	"eval_steps_per_second": 19.596,
	"step": 50400
	},
	{
	"epoch": 112.16551150540616,
	"grad_norm": 0.34073254466056824,
	"learning_rate": 9.531772575250837e-07,
	"loss": 6.3758,
	"step": 50500
	},
	{
	"epoch": 112.16551150540616,
	"eval_loss": 6.380171298980713,
	"eval_runtime": 66.2335,
	"eval_samples_per_second": 150.981,
	"eval_steps_per_second": 18.873,
	"step": 50500
	},
	{
	"epoch": 112.38730246742445,
	"grad_norm": 0.2289067655801773,
	"learning_rate": 9.431438127090301e-07,
	"loss": 6.3766,
	"step": 50600
	},
	{
	"epoch": 112.38730246742445,
	"eval_loss": 6.379415035247803,
	"eval_runtime": 63.6851,
	"eval_samples_per_second": 157.023,
	"eval_steps_per_second": 19.628,
	"step": 50600
	},
	{
	"epoch": 112.60909342944275,
	"grad_norm": 0.2386418581008911,
	"learning_rate": 9.331103678929767e-07,
	"loss": 6.375,
	"step": 50700
	},
	{
	"epoch": 112.60909342944275,
	"eval_loss": 6.375070571899414,
	"eval_runtime": 66.2164,
	"eval_samples_per_second": 151.02,
	"eval_steps_per_second": 18.878,
	"step": 50700
	},
	{
	"epoch": 112.83088439146105,
	"grad_norm": 0.26779764890670776,
	"learning_rate": 9.230769230769231e-07,
	"loss": 6.3754,
	"step": 50800
	},
	{
	"epoch": 112.83088439146105,
	"eval_loss": 6.377529621124268,
	"eval_runtime": 63.7216,
	"eval_samples_per_second": 156.933,
	"eval_steps_per_second": 19.617,
	"step": 50800
	},
	{
	"epoch": 113.05267535347934,
	"grad_norm": 0.2792610228061676,
	"learning_rate": 9.130434782608697e-07,
	"loss": 6.3768,
	"step": 50900
	},
	{
	"epoch": 113.05267535347934,
	"eval_loss": 6.376430988311768,
	"eval_runtime": 66.1841,
	"eval_samples_per_second": 151.094,
	"eval_steps_per_second": 18.887,
	"step": 50900
	},
	{
	"epoch": 113.27446631549765,
	"grad_norm": 0.26424017548561096,
	"learning_rate": 9.030100334448161e-07,
	"loss": 6.3748,
	"step": 51000
	},
	{
	"epoch": 113.27446631549765,
	"eval_loss": 6.37862491607666,
	"eval_runtime": 63.7419,
	"eval_samples_per_second": 156.883,
	"eval_steps_per_second": 19.61,
	"step": 51000
	},
	{
	"epoch": 113.49625727751594,
	"grad_norm": 0.26083120703697205,
	"learning_rate": 8.929765886287627e-07,
	"loss": 6.3779,
	"step": 51100
	},
	{
	"epoch": 113.49625727751594,
	"eval_loss": 6.379500389099121,
	"eval_runtime": 66.2253,
	"eval_samples_per_second": 151.0,
	"eval_steps_per_second": 18.875,
	"step": 51100
	},
	{
	"epoch": 113.77626836706405,
	"grad_norm": 0.25904449820518494,
	"learning_rate": 8.829431438127091e-07,
	"loss": 6.3757,
	"step": 51200
	},
	{
	"epoch": 113.77626836706405,
	"eval_loss": 6.375171661376953,
	"eval_runtime": 66.093,
	"eval_samples_per_second": 151.302,
	"eval_steps_per_second": 18.913,
	"step": 51200
	},
	{
	"epoch": 113.99805932908234,
	"grad_norm": 0.2680477499961853,
	"learning_rate": 8.729096989966555e-07,
	"loss": 6.3769,
	"step": 51300
	},
	{
	"epoch": 113.99805932908234,
	"eval_loss": 6.376518726348877,
	"eval_runtime": 63.5204,
	"eval_samples_per_second": 157.43,
	"eval_steps_per_second": 19.679,
	"step": 51300
	},
	{
	"epoch": 114.21985029110064,
	"grad_norm": 0.30891552567481995,
	"learning_rate": 8.628762541806019e-07,
	"loss": 6.3752,
	"step": 51400
	},
	{
	"epoch": 114.21985029110064,
	"eval_loss": 6.377015590667725,
	"eval_runtime": 63.4143,
	"eval_samples_per_second": 157.693,
	"eval_steps_per_second": 19.712,
	"step": 51400
	},
	{
	"epoch": 114.44164125311893,
	"grad_norm": 0.32155531644821167,
	"learning_rate": 8.528428093645485e-07,
	"loss": 6.3767,
	"step": 51500
	},
	{
	"epoch": 114.44164125311893,
	"eval_loss": 6.377589702606201,
	"eval_runtime": 66.1364,
	"eval_samples_per_second": 151.203,
	"eval_steps_per_second": 18.9,
	"step": 51500
	},
	{
	"epoch": 114.66343221513723,
	"grad_norm": 0.28316569328308105,
	"learning_rate": 8.428093645484949e-07,
	"loss": 6.3755,
	"step": 51600
	},
	{
	"epoch": 114.66343221513723,
	"eval_loss": 6.3766303062438965,
	"eval_runtime": 65.9296,
	"eval_samples_per_second": 151.677,
	"eval_steps_per_second": 18.96,
	"step": 51600
	},
	{
	"epoch": 114.88522317715552,
	"grad_norm": 0.24125680327415466,
	"learning_rate": 8.327759197324414e-07,
	"loss": 6.3773,
	"step": 51700
	},
	{
	"epoch": 114.88522317715552,
	"eval_loss": 6.37697172164917,
	"eval_runtime": 65.9478,
	"eval_samples_per_second": 151.635,
	"eval_steps_per_second": 18.954,
	"step": 51700
	},
	{
	"epoch": 115.10701413917383,
	"grad_norm": 0.21407043933868408,
	"learning_rate": 8.227424749163879e-07,
	"loss": 6.3751,
	"step": 51800
	},
	{
	"epoch": 115.10701413917383,
	"eval_loss": 6.377639293670654,
	"eval_runtime": 63.6016,
	"eval_samples_per_second": 157.229,
	"eval_steps_per_second": 19.654,
	"step": 51800
	},
	{
	"epoch": 115.32880510119213,
	"grad_norm": 0.23014885187149048,
	"learning_rate": 8.127090301003344e-07,
	"loss": 6.3771,
	"step": 51900
	},
	{
	"epoch": 115.32880510119213,
	"eval_loss": 6.380842208862305,
	"eval_runtime": 63.4674,
	"eval_samples_per_second": 157.561,
	"eval_steps_per_second": 19.695,
	"step": 51900
	},
	{
	"epoch": 115.55059606321042,
	"grad_norm": 0.2553617060184479,
	"learning_rate": 8.026755852842809e-07,
	"loss": 6.3752,
	"step": 52000
	},
	{
	"epoch": 115.55059606321042,
	"eval_loss": 6.377804756164551,
	"eval_runtime": 64.2492,
	"eval_samples_per_second": 155.644,
	"eval_steps_per_second": 19.456,
	"step": 52000
	},
	{
	"epoch": 115.77238702522872,
	"grad_norm": 0.32242822647094727,
	"learning_rate": 7.926421404682274e-07,
	"loss": 6.3762,
	"step": 52100
	},
	{
	"epoch": 115.77238702522872,
	"eval_loss": 6.382247447967529,
	"eval_runtime": 65.2652,
	"eval_samples_per_second": 153.221,
	"eval_steps_per_second": 19.153,
	"step": 52100
	},
	{
	"epoch": 115.99417798724701,
	"grad_norm": 0.25089436769485474,
	"learning_rate": 7.826086956521739e-07,
	"loss": 6.3757,
	"step": 52200
	},
	{
	"epoch": 115.99417798724701,
	"eval_loss": 6.379915714263916,
	"eval_runtime": 63.3864,
	"eval_samples_per_second": 157.763,
	"eval_steps_per_second": 19.72,
	"step": 52200
	},
	{
	"epoch": 116.21596894926532,
	"grad_norm": 0.24113717675209045,
	"learning_rate": 7.725752508361204e-07,
	"loss": 6.3761,
	"step": 52300
	},
	{
	"epoch": 116.21596894926532,
	"eval_loss": 6.376662731170654,
	"eval_runtime": 63.5361,
	"eval_samples_per_second": 157.391,
	"eval_steps_per_second": 19.674,
	"step": 52300
	},
	{
	"epoch": 116.43775991128362,
	"grad_norm": 0.3414776027202606,
	"learning_rate": 7.625418060200669e-07,
	"loss": 6.3757,
	"step": 52400
	},
	{
	"epoch": 116.43775991128362,
	"eval_loss": 6.377313137054443,
	"eval_runtime": 63.5522,
	"eval_samples_per_second": 157.351,
	"eval_steps_per_second": 19.669,
	"step": 52400
	},
	{
	"epoch": 116.65955087330191,
	"grad_norm": 0.24650247395038605,
	"learning_rate": 7.525083612040134e-07,
	"loss": 6.3754,
	"step": 52500
	},
	{
	"epoch": 116.65955087330191,
	"eval_loss": 6.37901496887207,
	"eval_runtime": 65.8363,
	"eval_samples_per_second": 151.892,
	"eval_steps_per_second": 18.986,
	"step": 52500
	},
	{
	"epoch": 116.88134183532021,
	"grad_norm": 0.27944493293762207,
	"learning_rate": 7.424749163879599e-07,
	"loss": 6.3776,
	"step": 52600
	},
	{
	"epoch": 116.88134183532021,
	"eval_loss": 6.376550197601318,
	"eval_runtime": 63.5812,
	"eval_samples_per_second": 157.279,
	"eval_steps_per_second": 19.66,
	"step": 52600
	},
	{
	"epoch": 117.1031327973385,
	"grad_norm": 0.2298879325389862,
	"learning_rate": 7.324414715719064e-07,
	"loss": 6.3751,
	"step": 52700
	},
	{
	"epoch": 117.1031327973385,
	"eval_loss": 6.377909183502197,
	"eval_runtime": 63.3541,
	"eval_samples_per_second": 157.843,
	"eval_steps_per_second": 19.73,
	"step": 52700
	},
	{
	"epoch": 117.3249237593568,
	"grad_norm": 0.25682932138442993,
	"learning_rate": 7.224080267558529e-07,
	"loss": 6.3757,
	"step": 52800
	},
	{
	"epoch": 117.3249237593568,
	"eval_loss": 6.378458023071289,
	"eval_runtime": 65.7985,
	"eval_samples_per_second": 151.979,
	"eval_steps_per_second": 18.997,
	"step": 52800
	},
	{
	"epoch": 117.54671472137511,
	"grad_norm": 0.2633031904697418,
	"learning_rate": 7.123745819397994e-07,
	"loss": 6.3767,
	"step": 52900
	},
	{
	"epoch": 117.54671472137511,
	"eval_loss": 6.380926132202148,
	"eval_runtime": 63.5491,
	"eval_samples_per_second": 157.359,
	"eval_steps_per_second": 19.67,
	"step": 52900
	},
	{
	"epoch": 117.7685056833934,
	"grad_norm": 0.26749059557914734,
	"learning_rate": 7.023411371237459e-07,
	"loss": 6.3767,
	"step": 53000
	},
	{
	"epoch": 117.7685056833934,
	"eval_loss": 6.381775856018066,
	"eval_runtime": 63.4542,
	"eval_samples_per_second": 157.594,
	"eval_steps_per_second": 19.699,
	"step": 53000
	},
	{
	"epoch": 117.9902966454117,
	"grad_norm": 0.22249187529087067,
	"learning_rate": 6.923076923076923e-07,
	"loss": 6.377,
	"step": 53100
	},
	{
	"epoch": 117.9902966454117,
	"eval_loss": 6.38169002532959,
	"eval_runtime": 63.5488,
	"eval_samples_per_second": 157.359,
	"eval_steps_per_second": 19.67,
	"step": 53100
	},
	{
	"epoch": 118.21208760742999,
	"grad_norm": 0.22224722802639008,
	"learning_rate": 6.822742474916388e-07,
	"loss": 6.3764,
	"step": 53200
	},
	{
	"epoch": 118.21208760742999,
	"eval_loss": 6.37975549697876,
	"eval_runtime": 65.9614,
	"eval_samples_per_second": 151.604,
	"eval_steps_per_second": 18.95,
	"step": 53200
	},
	{
	"epoch": 118.4338785694483,
	"grad_norm": 0.2897886037826538,
	"learning_rate": 6.722408026755853e-07,
	"loss": 6.3737,
	"step": 53300
	},
	{
	"epoch": 118.4338785694483,
	"eval_loss": 6.376906394958496,
	"eval_runtime": 63.536,
	"eval_samples_per_second": 157.391,
	"eval_steps_per_second": 19.674,
	"step": 53300
	},
	{
	"epoch": 118.65566953146659,
	"grad_norm": 0.2731805145740509,
	"learning_rate": 6.622073578595318e-07,
	"loss": 6.3774,
	"step": 53400
	},
	{
	"epoch": 118.65566953146659,
	"eval_loss": 6.377748489379883,
	"eval_runtime": 63.612,
	"eval_samples_per_second": 157.203,
	"eval_steps_per_second": 19.65,
	"step": 53400
	},
	{
	"epoch": 118.87746049348489,
	"grad_norm": 0.22697260975837708,
	"learning_rate": 6.521739130434783e-07,
	"loss": 6.3767,
	"step": 53500
	},
	{
	"epoch": 118.87746049348489,
	"eval_loss": 6.381230354309082,
	"eval_runtime": 65.9156,
	"eval_samples_per_second": 151.709,
	"eval_steps_per_second": 18.964,
	"step": 53500
	},
	{
	"epoch": 119.0992514555032,
	"grad_norm": 0.30966779589653015,
	"learning_rate": 6.421404682274248e-07,
	"loss": 6.376,
	"step": 53600
	},
	{
	"epoch": 119.0992514555032,
	"eval_loss": 6.37573766708374,
	"eval_runtime": 63.3841,
	"eval_samples_per_second": 157.768,
	"eval_steps_per_second": 19.721,
	"step": 53600
	},
	{
	"epoch": 119.32104241752148,
	"grad_norm": 0.2676733136177063,
	"learning_rate": 6.321070234113712e-07,
	"loss": 6.3759,
	"step": 53700
	},
	{
	"epoch": 119.32104241752148,
	"eval_loss": 6.374691963195801,
	"eval_runtime": 63.4737,
	"eval_samples_per_second": 157.545,
	"eval_steps_per_second": 19.693,
	"step": 53700
	},
	{
	"epoch": 119.54283337953979,
	"grad_norm": 0.2713070213794708,
	"learning_rate": 6.220735785953178e-07,
	"loss": 6.3768,
	"step": 53800
	},
	{
	"epoch": 119.54283337953979,
	"eval_loss": 6.378169059753418,
	"eval_runtime": 65.7452,
	"eval_samples_per_second": 152.102,
	"eval_steps_per_second": 19.013,
	"step": 53800
	},
	{
	"epoch": 119.76462434155808,
	"grad_norm": 0.2583908140659332,
	"learning_rate": 6.120401337792642e-07,
	"loss": 6.3756,
	"step": 53900
	},
	{
	"epoch": 119.76462434155808,
	"eval_loss": 6.380895137786865,
	"eval_runtime": 63.7905,
	"eval_samples_per_second": 156.763,
	"eval_steps_per_second": 19.595,
	"step": 53900
	},
	{
	"epoch": 119.98641530357638,
	"grad_norm": 0.2636660933494568,
	"learning_rate": 6.020066889632107e-07,
	"loss": 6.376,
	"step": 54000
	},
	{
	"epoch": 119.98641530357638,
	"eval_loss": 6.378993034362793,
	"eval_runtime": 63.4987,
	"eval_samples_per_second": 157.483,
	"eval_steps_per_second": 19.685,
	"step": 54000
	},
	{
	"epoch": 120.20820626559468,
	"grad_norm": 0.2040402740240097,
	"learning_rate": 5.919732441471572e-07,
	"loss": 6.3742,
	"step": 54100
	},
	{
	"epoch": 120.20820626559468,
	"eval_loss": 6.379099369049072,
	"eval_runtime": 63.4641,
	"eval_samples_per_second": 157.569,
	"eval_steps_per_second": 19.696,
	"step": 54100
	},
	{
	"epoch": 120.42999722761297,
	"grad_norm": 0.2771637439727783,
	"learning_rate": 5.819397993311037e-07,
	"loss": 6.377,
	"step": 54200
	},
	{
	"epoch": 120.42999722761297,
	"eval_loss": 6.380918025970459,
	"eval_runtime": 63.5735,
	"eval_samples_per_second": 157.298,
	"eval_steps_per_second": 19.662,
	"step": 54200
	},
	{
	"epoch": 120.65178818963128,
	"grad_norm": 0.2907504141330719,
	"learning_rate": 5.719063545150502e-07,
	"loss": 6.3771,
	"step": 54300
	},
	{
	"epoch": 120.65178818963128,
	"eval_loss": 6.379312515258789,
	"eval_runtime": 65.9548,
	"eval_samples_per_second": 151.619,
	"eval_steps_per_second": 18.952,
	"step": 54300
	},
	{
	"epoch": 120.87357915164957,
	"grad_norm": 0.30987074971199036,
	"learning_rate": 5.618729096989966e-07,
	"loss": 6.3768,
	"step": 54400
	},
	{
	"epoch": 120.87357915164957,
	"eval_loss": 6.37892484664917,
	"eval_runtime": 63.4967,
	"eval_samples_per_second": 157.488,
	"eval_steps_per_second": 19.686,
	"step": 54400
	},
	{
	"epoch": 121.09537011366787,
	"grad_norm": 0.3270675837993622,
	"learning_rate": 5.518394648829431e-07,
	"loss": 6.376,
	"step": 54500
	},
	{
	"epoch": 121.09537011366787,
	"eval_loss": 6.377264976501465,
	"eval_runtime": 63.4405,
	"eval_samples_per_second": 157.628,
	"eval_steps_per_second": 19.704,
	"step": 54500
	},
	{
	"epoch": 121.31716107568617,
	"grad_norm": 0.23159100115299225,
	"learning_rate": 5.418060200668896e-07,
	"loss": 6.3773,
	"step": 54600
	},
	{
	"epoch": 121.31716107568617,
	"eval_loss": 6.379176616668701,
	"eval_runtime": 66.0387,
	"eval_samples_per_second": 151.426,
	"eval_steps_per_second": 18.928,
	"step": 54600
	},
	{
	"epoch": 121.53895203770446,
	"grad_norm": 0.231267511844635,
	"learning_rate": 5.317725752508361e-07,
	"loss": 6.3773,
	"step": 54700
	},
	{
	"epoch": 121.53895203770446,
	"eval_loss": 6.376558780670166,
	"eval_runtime": 63.5938,
	"eval_samples_per_second": 157.248,
	"eval_steps_per_second": 19.656,
	"step": 54700
	},
	{
	"epoch": 121.76074299972277,
	"grad_norm": 0.24276390671730042,
	"learning_rate": 5.217391304347826e-07,
	"loss": 6.3754,
	"step": 54800
	},
	{
	"epoch": 121.76074299972277,
	"eval_loss": 6.378441333770752,
	"eval_runtime": 63.5257,
	"eval_samples_per_second": 157.417,
	"eval_steps_per_second": 19.677,
	"step": 54800
	},
	{
	"epoch": 121.98253396174105,
	"grad_norm": 0.26921290159225464,
	"learning_rate": 5.117056856187291e-07,
	"loss": 6.3751,
	"step": 54900
	},
	{
	"epoch": 121.98253396174105,
	"eval_loss": 6.378532886505127,
	"eval_runtime": 63.5535,
	"eval_samples_per_second": 157.348,
	"eval_steps_per_second": 19.668,
	"step": 54900
	},
	{
	"epoch": 122.20432492375936,
	"grad_norm": 0.274029016494751,
	"learning_rate": 5.016722408026756e-07,
	"loss": 6.376,
	"step": 55000
	},
	{
	"epoch": 122.20432492375936,
	"eval_loss": 6.378449440002441,
	"eval_runtime": 65.8768,
	"eval_samples_per_second": 151.798,
	"eval_steps_per_second": 18.975,
	"step": 55000
	},
	{
	"epoch": 122.42611588577765,
	"grad_norm": 0.27585527300834656,
	"learning_rate": 4.916387959866221e-07,
	"loss": 6.376,
	"step": 55100
	},
	{
	"epoch": 122.42611588577765,
	"eval_loss": 6.37809944152832,
	"eval_runtime": 63.5221,
	"eval_samples_per_second": 157.426,
	"eval_steps_per_second": 19.678,
	"step": 55100
	},
	{
	"epoch": 122.64790684779595,
	"grad_norm": 0.2652019262313843,
	"learning_rate": 4.816053511705686e-07,
	"loss": 6.3753,
	"step": 55200
	},
	{
	"epoch": 122.64790684779595,
	"eval_loss": 6.38352632522583,
	"eval_runtime": 63.4719,
	"eval_samples_per_second": 157.55,
	"eval_steps_per_second": 19.694,
	"step": 55200
	},
	{
	"epoch": 122.86969780981426,
	"grad_norm": 0.24283932149410248,
	"learning_rate": 4.7157190635451506e-07,
	"loss": 6.3761,
	"step": 55300
	},
	{
	"epoch": 122.86969780981426,
	"eval_loss": 6.376107215881348,
	"eval_runtime": 63.547,
	"eval_samples_per_second": 157.364,
	"eval_steps_per_second": 19.67,
	"step": 55300
	},
	{
	"epoch": 123.09148877183254,
	"grad_norm": 0.29150310158729553,
	"learning_rate": 4.6153846153846156e-07,
	"loss": 6.3765,
	"step": 55400
	},
	{
	"epoch": 123.09148877183254,
	"eval_loss": 6.37521505355835,
	"eval_runtime": 65.9064,
	"eval_samples_per_second": 151.73,
	"eval_steps_per_second": 18.966,
	"step": 55400
	},
	{
	"epoch": 123.31327973385085,
	"grad_norm": 0.28435659408569336,
	"learning_rate": 4.5150501672240806e-07,
	"loss": 6.3757,
	"step": 55500
	},
	{
	"epoch": 123.31327973385085,
	"eval_loss": 6.378593921661377,
	"eval_runtime": 63.5654,
	"eval_samples_per_second": 157.318,
	"eval_steps_per_second": 19.665,
	"step": 55500
	},
	{
	"epoch": 123.53507069586914,
	"grad_norm": 0.2412547916173935,
	"learning_rate": 4.4147157190635456e-07,
	"loss": 6.3757,
	"step": 55600
	},
	{
	"epoch": 123.53507069586914,
	"eval_loss": 6.377431869506836,
	"eval_runtime": 66.0043,
	"eval_samples_per_second": 151.505,
	"eval_steps_per_second": 18.938,
	"step": 55600
	},
	{
	"epoch": 123.75686165788744,
	"grad_norm": 0.21835213899612427,
	"learning_rate": 4.3143812709030095e-07,
	"loss": 6.3763,
	"step": 55700
	},
	{
	"epoch": 123.75686165788744,
	"eval_loss": 6.378489971160889,
	"eval_runtime": 63.7489,
	"eval_samples_per_second": 156.865,
	"eval_steps_per_second": 19.608,
	"step": 55700
	},
	{
	"epoch": 123.97865261990574,
	"grad_norm": 0.18911224603652954,
	"learning_rate": 4.2140468227424745e-07,
	"loss": 6.3754,
	"step": 55800
	},
	{
	"epoch": 123.97865261990574,
	"eval_loss": 6.379303932189941,
	"eval_runtime": 66.1257,
	"eval_samples_per_second": 151.227,
	"eval_steps_per_second": 18.903,
	"step": 55800
	},
	{
	"epoch": 124.20044358192403,
	"grad_norm": 0.283447265625,
	"learning_rate": 4.1137123745819395e-07,
	"loss": 6.3743,
	"step": 55900
	},
	{
	"epoch": 124.20044358192403,
	"eval_loss": 6.381599426269531,
	"eval_runtime": 63.605,
	"eval_samples_per_second": 157.22,
	"eval_steps_per_second": 19.653,
	"step": 55900
	},
	{
	"epoch": 124.42223454394234,
	"grad_norm": 0.1898406594991684,
	"learning_rate": 4.0133779264214045e-07,
	"loss": 6.3755,
	"step": 56000
	},
	{
	"epoch": 124.42223454394234,
	"eval_loss": 6.376759052276611,
	"eval_runtime": 64.3574,
	"eval_samples_per_second": 155.382,
	"eval_steps_per_second": 19.423,
	"step": 56000
	},
	{
	"epoch": 124.64402550596063,
	"grad_norm": 0.2740555703639984,
	"learning_rate": 3.9130434782608694e-07,
	"loss": 6.3767,
	"step": 56100
	},
	{
	"epoch": 124.64402550596063,
	"eval_loss": 6.377686023712158,
	"eval_runtime": 65.4964,
	"eval_samples_per_second": 152.68,
	"eval_steps_per_second": 19.085,
	"step": 56100
	},
	{
	"epoch": 124.86581646797893,
	"grad_norm": 0.24969562888145447,
	"learning_rate": 3.8127090301003344e-07,
	"loss": 6.3749,
	"step": 56200
	},
	{
	"epoch": 124.86581646797893,
	"eval_loss": 6.3803300857543945,
	"eval_runtime": 63.6262,
	"eval_samples_per_second": 157.168,
	"eval_steps_per_second": 19.646,
	"step": 56200
	},
	{
	"epoch": 125.08760742999723,
	"grad_norm": 0.271085649728775,
	"learning_rate": 3.7123745819397994e-07,
	"loss": 6.3761,
	"step": 56300
	},
	{
	"epoch": 125.08760742999723,
	"eval_loss": 6.377999782562256,
	"eval_runtime": 63.5511,
	"eval_samples_per_second": 157.354,
	"eval_steps_per_second": 19.669,
	"step": 56300
	},
	{
	"epoch": 125.30939839201552,
	"grad_norm": 0.2341337651014328,
	"learning_rate": 3.6120401337792644e-07,
	"loss": 6.3787,
	"step": 56400
	},
	{
	"epoch": 125.30939839201552,
	"eval_loss": 6.377155780792236,
	"eval_runtime": 66.011,
	"eval_samples_per_second": 151.49,
	"eval_steps_per_second": 18.936,
	"step": 56400
	},
	{
	"epoch": 125.53118935403383,
	"grad_norm": 0.2656327784061432,
	"learning_rate": 3.5117056856187294e-07,
	"loss": 6.3742,
	"step": 56500
	},
	{
	"epoch": 125.53118935403383,
	"eval_loss": 6.378920078277588,
	"eval_runtime": 63.6517,
	"eval_samples_per_second": 157.105,
	"eval_steps_per_second": 19.638,
	"step": 56500
	},
	{
	"epoch": 125.75298031605212,
	"grad_norm": 0.261843204498291,
	"learning_rate": 3.411371237458194e-07,
	"loss": 6.3742,
	"step": 56600
	},
	{
	"epoch": 125.75298031605212,
	"eval_loss": 6.376353740692139,
	"eval_runtime": 65.896,
	"eval_samples_per_second": 151.754,
	"eval_steps_per_second": 18.969,
	"step": 56600
	},
	{
	"epoch": 125.97477127807042,
	"grad_norm": 0.27163127064704895,
	"learning_rate": 3.311036789297659e-07,
	"loss": 6.3765,
	"step": 56700
	},
	{
	"epoch": 125.97477127807042,
	"eval_loss": 6.3804826736450195,
	"eval_runtime": 63.514,
	"eval_samples_per_second": 157.446,
	"eval_steps_per_second": 19.681,
	"step": 56700
	},
	{
	"epoch": 126.19656224008871,
	"grad_norm": 0.2797481417655945,
	"learning_rate": 3.210702341137124e-07,
	"loss": 6.3764,
	"step": 56800
	},
	{
	"epoch": 126.19656224008871,
	"eval_loss": 6.378259658813477,
	"eval_runtime": 63.4475,
	"eval_samples_per_second": 157.611,
	"eval_steps_per_second": 19.701,
	"step": 56800
	},
	{
	"epoch": 126.41835320210701,
	"grad_norm": 0.21093739569187164,
	"learning_rate": 3.110367892976589e-07,
	"loss": 6.3764,
	"step": 56900
	},
	{
	"epoch": 126.41835320210701,
	"eval_loss": 6.378982067108154,
	"eval_runtime": 66.045,
	"eval_samples_per_second": 151.412,
	"eval_steps_per_second": 18.927,
	"step": 56900
	},
	{
	"epoch": 126.64014416412532,
	"grad_norm": 0.268632173538208,
	"learning_rate": 3.010033444816054e-07,
	"loss": 6.3762,
	"step": 57000
	},
	{
	"epoch": 126.64014416412532,
	"eval_loss": 6.379413604736328,
	"eval_runtime": 63.641,
	"eval_samples_per_second": 157.131,
	"eval_steps_per_second": 19.641,
	"step": 57000
	},
	{
	"epoch": 126.8619351261436,
	"grad_norm": 0.2878783047199249,
	"learning_rate": 2.9096989966555187e-07,
	"loss": 6.376,
	"step": 57100
	},
	{
	"epoch": 126.8619351261436,
	"eval_loss": 6.378924369812012,
	"eval_runtime": 66.1831,
	"eval_samples_per_second": 151.096,
	"eval_steps_per_second": 18.887,
	"step": 57100
	},
	{
	"epoch": 127.08372608816191,
	"grad_norm": 0.2618252635002136,
	"learning_rate": 2.809364548494983e-07,
	"loss": 6.3768,
	"step": 57200
	},
	{
	"epoch": 127.08372608816191,
	"eval_loss": 6.37802267074585,
	"eval_runtime": 63.5424,
	"eval_samples_per_second": 157.375,
	"eval_steps_per_second": 19.672,
	"step": 57200
	},
	{
	"epoch": 127.3055170501802,
	"grad_norm": 0.20790652930736542,
	"learning_rate": 2.709030100334448e-07,
	"loss": 6.3763,
	"step": 57300
	},
	{
	"epoch": 127.3055170501802,
	"eval_loss": 6.377635955810547,
	"eval_runtime": 66.2394,
	"eval_samples_per_second": 150.967,
	"eval_steps_per_second": 18.871,
	"step": 57300
	},
	{
	"epoch": 127.5273080121985,
	"grad_norm": 0.23446954786777496,
	"learning_rate": 2.608695652173913e-07,
	"loss": 6.3758,
	"step": 57400
	},
	{
	"epoch": 127.5273080121985,
	"eval_loss": 6.378016471862793,
	"eval_runtime": 63.7187,
	"eval_samples_per_second": 156.94,
	"eval_steps_per_second": 19.617,
	"step": 57400
	},
	{
	"epoch": 127.7490989742168,
	"grad_norm": 0.2730012536048889,
	"learning_rate": 2.508361204013378e-07,
	"loss": 6.3771,
	"step": 57500
	},
	{
	"epoch": 127.7490989742168,
	"eval_loss": 6.378283500671387,
	"eval_runtime": 66.0326,
	"eval_samples_per_second": 151.44,
	"eval_steps_per_second": 18.93,
	"step": 57500
	},
	{
	"epoch": 127.9708899362351,
	"grad_norm": 0.19740967452526093,
	"learning_rate": 2.408026755852843e-07,
	"loss": 6.3754,
	"step": 57600
	},
	{
	"epoch": 127.9708899362351,
	"eval_loss": 6.377573490142822,
	"eval_runtime": 68.5433,
	"eval_samples_per_second": 145.893,
	"eval_steps_per_second": 18.237,
	"step": 57600
	},
	{
	"epoch": 128.1926808982534,
	"grad_norm": 0.20099857449531555,
	"learning_rate": 2.3076923076923078e-07,
	"loss": 6.3763,
	"step": 57700
	},
	{
	"epoch": 128.1926808982534,
	"eval_loss": 6.380809783935547,
	"eval_runtime": 63.6372,
	"eval_samples_per_second": 157.141,
	"eval_steps_per_second": 19.643,
	"step": 57700
	},
	{
	"epoch": 128.4144718602717,
	"grad_norm": 0.26378223299980164,
	"learning_rate": 2.2073578595317728e-07,
	"loss": 6.3742,
	"step": 57800
	},
	{
	"epoch": 128.4144718602717,
	"eval_loss": 6.377455234527588,
	"eval_runtime": 63.6147,
	"eval_samples_per_second": 157.196,
	"eval_steps_per_second": 19.65,
	"step": 57800
	},
	{
	"epoch": 128.63626282228998,
	"grad_norm": 0.22778332233428955,
	"learning_rate": 2.1070234113712372e-07,
	"loss": 6.3757,
	"step": 57900
	},
	{
	"epoch": 128.63626282228998,
	"eval_loss": 6.376725196838379,
	"eval_runtime": 63.6324,
	"eval_samples_per_second": 157.153,
	"eval_steps_per_second": 19.644,
	"step": 57900
	},
	{
	"epoch": 128.85805378430828,
	"grad_norm": 0.25024932622909546,
	"learning_rate": 2.0066889632107022e-07,
	"loss": 6.3767,
	"step": 58000
	},
	{
	"epoch": 128.85805378430828,
	"eval_loss": 6.378956317901611,
	"eval_runtime": 66.0444,
	"eval_samples_per_second": 151.413,
	"eval_steps_per_second": 18.927,
	"step": 58000
	},
	{
	"epoch": 129.0798447463266,
	"grad_norm": 0.22629129886627197,
	"learning_rate": 1.9063545150501672e-07,
	"loss": 6.3751,
	"step": 58100
	},
	{
	"epoch": 129.0798447463266,
	"eval_loss": 6.378350734710693,
	"eval_runtime": 63.6424,
	"eval_samples_per_second": 157.128,
	"eval_steps_per_second": 19.641,
	"step": 58100
	},
	{
	"epoch": 129.3016357083449,
	"grad_norm": 0.22958730161190033,
	"learning_rate": 1.8060200668896322e-07,
	"loss": 6.3754,
	"step": 58200
	},
	{
	"epoch": 129.3016357083449,
	"eval_loss": 6.379317760467529,
	"eval_runtime": 66.1349,
	"eval_samples_per_second": 151.206,
	"eval_steps_per_second": 18.901,
	"step": 58200
	},
	{
	"epoch": 129.5234266703632,
	"grad_norm": 0.29147765040397644,
	"learning_rate": 1.705685618729097e-07,
	"loss": 6.3766,
	"step": 58300
	},
	{
	"epoch": 129.5234266703632,
	"eval_loss": 6.379565238952637,
	"eval_runtime": 63.6308,
	"eval_samples_per_second": 157.157,
	"eval_steps_per_second": 19.645,
	"step": 58300
	},
	{
	"epoch": 129.74521763238147,
	"grad_norm": 0.2274588942527771,
	"learning_rate": 1.605351170568562e-07,
	"loss": 6.3766,
	"step": 58400
	},
	{
	"epoch": 129.74521763238147,
	"eval_loss": 6.378822326660156,
	"eval_runtime": 63.7248,
	"eval_samples_per_second": 156.925,
	"eval_steps_per_second": 19.616,
	"step": 58400
	},
	{
	"epoch": 129.96700859439977,
	"grad_norm": 0.27082857489585876,
	"learning_rate": 1.505016722408027e-07,
	"loss": 6.3762,
	"step": 58500
	},
	{
	"epoch": 129.96700859439977,
	"eval_loss": 6.376942157745361,
	"eval_runtime": 66.2694,
	"eval_samples_per_second": 150.899,
	"eval_steps_per_second": 18.862,
	"step": 58500
	},
	{
	"epoch": 130.18879955641808,
	"grad_norm": 0.2117777317762375,
	"learning_rate": 1.4046822742474916e-07,
	"loss": 6.3756,
	"step": 58600
	},
	{
	"epoch": 130.18879955641808,
	"eval_loss": 6.381185054779053,
	"eval_runtime": 63.6203,
	"eval_samples_per_second": 157.183,
	"eval_steps_per_second": 19.648,
	"step": 58600
	},
	{
	"epoch": 130.41059051843638,
	"grad_norm": 0.244340181350708,
	"learning_rate": 1.3043478260869566e-07,
	"loss": 6.3746,
	"step": 58700
	},
	{
	"epoch": 130.41059051843638,
	"eval_loss": 6.378442764282227,
	"eval_runtime": 63.6467,
	"eval_samples_per_second": 157.117,
	"eval_steps_per_second": 19.64,
	"step": 58700
	},
	{
	"epoch": 130.63238148045468,
	"grad_norm": 0.23617205023765564,
	"learning_rate": 1.2040133779264215e-07,
	"loss": 6.3759,
	"step": 58800
	},
	{
	"epoch": 130.63238148045468,
	"eval_loss": 6.377311706542969,
	"eval_runtime": 66.2898,
	"eval_samples_per_second": 150.853,
	"eval_steps_per_second": 18.857,
	"step": 58800
	},
	{
	"epoch": 130.85417244247296,
	"grad_norm": 0.22402510046958923,
	"learning_rate": 1.1036789297658864e-07,
	"loss": 6.3766,
	"step": 58900
	},
	{
	"epoch": 130.85417244247296,
	"eval_loss": 6.378325939178467,
	"eval_runtime": 63.7783,
	"eval_samples_per_second": 156.793,
	"eval_steps_per_second": 19.599,
	"step": 58900
	},
	{
	"epoch": 131.07596340449126,
	"grad_norm": 0.22382721304893494,
	"learning_rate": 1.0033444816053511e-07,
	"loss": 6.377,
	"step": 59000
	},
	{
	"epoch": 131.07596340449126,
	"eval_loss": 6.375909328460693,
	"eval_runtime": 63.6862,
	"eval_samples_per_second": 157.02,
	"eval_steps_per_second": 19.627,
	"step": 59000
	},
	{
	"epoch": 131.29775436650957,
	"grad_norm": 0.2319914549589157,
	"learning_rate": 9.030100334448161e-08,
	"loss": 6.3759,
	"step": 59100
	},
	{
	"epoch": 131.29775436650957,
	"eval_loss": 6.380961894989014,
	"eval_runtime": 63.73,
	"eval_samples_per_second": 156.912,
	"eval_steps_per_second": 19.614,
	"step": 59100
	},
	{
	"epoch": 131.51954532852787,
	"grad_norm": 0.27138957381248474,
	"learning_rate": 8.02675585284281e-08,
	"loss": 6.3765,
	"step": 59200
	},
	{
	"epoch": 131.51954532852787,
	"eval_loss": 6.378270626068115,
	"eval_runtime": 66.164,
	"eval_samples_per_second": 151.14,
	"eval_steps_per_second": 18.892,
	"step": 59200
	},
	{
	"epoch": 131.74133629054617,
	"grad_norm": 0.24163523316383362,
	"learning_rate": 7.023411371237458e-08,
	"loss": 6.3758,
	"step": 59300
	},
	{
	"epoch": 131.74133629054617,
	"eval_loss": 6.379899024963379,
	"eval_runtime": 66.2406,
	"eval_samples_per_second": 150.965,
	"eval_steps_per_second": 18.871,
	"step": 59300
	},
	{
	"epoch": 131.96312725256445,
	"grad_norm": 0.20410296320915222,
	"learning_rate": 6.020066889632108e-08,
	"loss": 6.3753,
	"step": 59400
	},
	{
	"epoch": 131.96312725256445,
	"eval_loss": 6.378077983856201,
	"eval_runtime": 63.7013,
	"eval_samples_per_second": 156.983,
	"eval_steps_per_second": 19.623,
	"step": 59400
	},
	{
	"epoch": 132.18491821458275,
	"grad_norm": 0.15991632640361786,
	"learning_rate": 5.0167224080267556e-08,
	"loss": 6.3762,
	"step": 59500
	},
	{
	"epoch": 132.18491821458275,
	"eval_loss": 6.379003524780273,
	"eval_runtime": 63.6773,
	"eval_samples_per_second": 157.042,
	"eval_steps_per_second": 19.63,
	"step": 59500
	},
	{
	"epoch": 132.40670917660105,
	"grad_norm": 0.2014060765504837,
	"learning_rate": 4.013377926421405e-08,
	"loss": 6.3734,
	"step": 59600
	},
	{
	"epoch": 132.40670917660105,
	"eval_loss": 6.377279758453369,
	"eval_runtime": 64.9426,
	"eval_samples_per_second": 153.982,
	"eval_steps_per_second": 19.248,
	"step": 59600
	},
	{
	"epoch": 132.62850013861936,
	"grad_norm": 0.23493210971355438,
	"learning_rate": 3.010033444816054e-08,
	"loss": 6.3767,
	"step": 59700
	},
	{
	"epoch": 132.62850013861936,
	"eval_loss": 6.378801345825195,
	"eval_runtime": 65.0941,
	"eval_samples_per_second": 153.624,
	"eval_steps_per_second": 19.203,
	"step": 59700
	},
	{
	"epoch": 132.85029110063766,
	"grad_norm": 0.2207670956850052,
	"learning_rate": 2.0066889632107024e-08,
	"loss": 6.3764,
	"step": 59800
	},
	{
	"epoch": 132.85029110063766,
	"eval_loss": 6.377054691314697,
	"eval_runtime": 63.7133,
	"eval_samples_per_second": 156.953,
	"eval_steps_per_second": 19.619,
	"step": 59800
	},
	{
	"epoch": 133.07208206265594,
	"grad_norm": 0.21483196318149567,
	"learning_rate": 1.0033444816053512e-08,
	"loss": 6.3763,
	"step": 59900
	},
	{
	"epoch": 133.07208206265594,
	"eval_loss": 6.3776984214782715,
	"eval_runtime": 63.6217,
	"eval_samples_per_second": 157.179,
	"eval_steps_per_second": 19.647,
	"step": 59900
	},
	{
	"epoch": 133.29387302467424,
	"grad_norm": 0.1953832507133484,
	"learning_rate": 0.0,
	"loss": 6.3751,
	"step": 60000
	},
	{
	"epoch": 133.29387302467424,
	"eval_loss": 6.377795219421387,
	"eval_runtime": 66.2186,
	"eval_samples_per_second": 151.015,
	"eval_steps_per_second": 18.877,
	"step": 60000
	}
	],
	"logging_steps": 100,
	"max_steps": 60000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 134,
	"save_steps": 100,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 10,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 10
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.020754951164035e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}