gpn-msa-model-h1 / trainer_state.json

upload trained GPN MSA model

a0c756c verified 3 months ago

79 kB

	{
	"best_metric": 0.16085075220051892,
	"best_model_checkpoint": "checkpoints/checkpoint-6750",
	"epoch": 4.6360686138154845,
	"eval_steps": 50,
	"global_step": 10000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.023180343069077423,
	"grad_norm": 0.08667636662721634,
	"learning_rate": 5e-05,
	"loss": 0.6255,
	"step": 50
	},
	{
	"epoch": 0.023180343069077423,
	"eval_loss": 0.2028235954199523,
	"eval_runtime": 58.9481,
	"eval_samples_per_second": 705.468,
	"eval_steps_per_second": 0.356,
	"step": 50
	},
	{
	"epoch": 0.04636068613815485,
	"grad_norm": 0.0631365031003952,
	"learning_rate": 0.0001,
	"loss": 0.1532,
	"step": 100
	},
	{
	"epoch": 0.04636068613815485,
	"eval_loss": 0.1865187252730081,
	"eval_runtime": 59.7995,
	"eval_samples_per_second": 695.424,
	"eval_steps_per_second": 0.351,
	"step": 100
	},
	{
	"epoch": 0.06954102920723226,
	"grad_norm": 0.11565029621124268,
	"learning_rate": 9.999370638369377e-05,
	"loss": 0.1448,
	"step": 150
	},
	{
	"epoch": 0.06954102920723226,
	"eval_loss": 0.1811586473052961,
	"eval_runtime": 59.448,
	"eval_samples_per_second": 699.536,
	"eval_steps_per_second": 0.353,
	"step": 150
	},
	{
	"epoch": 0.0927213722763097,
	"grad_norm": 0.12287624180316925,
	"learning_rate": 9.997482711915927e-05,
	"loss": 0.1431,
	"step": 200
	},
	{
	"epoch": 0.0927213722763097,
	"eval_loss": 0.17856710216099736,
	"eval_runtime": 59.6811,
	"eval_samples_per_second": 696.803,
	"eval_steps_per_second": 0.352,
	"step": 200
	},
	{
	"epoch": 0.11590171534538711,
	"grad_norm": 0.1239687129855156,
	"learning_rate": 9.99433669591504e-05,
	"loss": 0.1423,
	"step": 250
	},
	{
	"epoch": 0.11590171534538711,
	"eval_loss": 0.17694150013393828,
	"eval_runtime": 59.3601,
	"eval_samples_per_second": 700.572,
	"eval_steps_per_second": 0.354,
	"step": 250
	},
	{
	"epoch": 0.13908205841446453,
	"grad_norm": 0.08375083655118942,
	"learning_rate": 9.989933382359422e-05,
	"loss": 0.1413,
	"step": 300
	},
	{
	"epoch": 0.13908205841446453,
	"eval_loss": 0.17530383900746715,
	"eval_runtime": 59.6335,
	"eval_samples_per_second": 697.359,
	"eval_steps_per_second": 0.352,
	"step": 300
	},
	{
	"epoch": 0.16226240148354196,
	"grad_norm": 0.07470008730888367,
	"learning_rate": 9.984273879759713e-05,
	"loss": 0.1391,
	"step": 350
	},
	{
	"epoch": 0.16226240148354196,
	"eval_loss": 0.17539924518994512,
	"eval_runtime": 59.2699,
	"eval_samples_per_second": 701.638,
	"eval_steps_per_second": 0.354,
	"step": 350
	},
	{
	"epoch": 0.1854427445526194,
	"grad_norm": 0.11057748645544052,
	"learning_rate": 9.977359612865423e-05,
	"loss": 0.1398,
	"step": 400
	},
	{
	"epoch": 0.1854427445526194,
	"eval_loss": 0.17613958094562268,
	"eval_runtime": 59.3258,
	"eval_samples_per_second": 700.977,
	"eval_steps_per_second": 0.354,
	"step": 400
	},
	{
	"epoch": 0.2086230876216968,
	"grad_norm": 0.10229019820690155,
	"learning_rate": 9.969192322306271e-05,
	"loss": 0.1398,
	"step": 450
	},
	{
	"epoch": 0.2086230876216968,
	"eval_loss": 0.17319489228196833,
	"eval_runtime": 59.4596,
	"eval_samples_per_second": 699.399,
	"eval_steps_per_second": 0.353,
	"step": 450
	},
	{
	"epoch": 0.23180343069077422,
	"grad_norm": 0.10784970223903656,
	"learning_rate": 9.959774064153977e-05,
	"loss": 0.1384,
	"step": 500
	},
	{
	"epoch": 0.23180343069077422,
	"eval_loss": 0.17334065558523068,
	"eval_runtime": 59.5777,
	"eval_samples_per_second": 698.012,
	"eval_steps_per_second": 0.352,
	"step": 500
	},
	{
	"epoch": 0.25498377375985165,
	"grad_norm": 0.08434706926345825,
	"learning_rate": 9.949107209404665e-05,
	"loss": 0.1386,
	"step": 550
	},
	{
	"epoch": 0.25498377375985165,
	"eval_loss": 0.17196178719739552,
	"eval_runtime": 59.6138,
	"eval_samples_per_second": 697.59,
	"eval_steps_per_second": 0.352,
	"step": 550
	},
	{
	"epoch": 0.27816411682892905,
	"grad_norm": 0.08924778550863266,
	"learning_rate": 9.937194443381972e-05,
	"loss": 0.1377,
	"step": 600
	},
	{
	"epoch": 0.27816411682892905,
	"eval_loss": 0.1740634102700707,
	"eval_runtime": 59.422,
	"eval_samples_per_second": 699.842,
	"eval_steps_per_second": 0.353,
	"step": 600
	},
	{
	"epoch": 0.3013444598980065,
	"grad_norm": 0.15332703292369843,
	"learning_rate": 9.924038765061042e-05,
	"loss": 0.1372,
	"step": 650
	},
	{
	"epoch": 0.3013444598980065,
	"eval_loss": 0.17391025863974857,
	"eval_runtime": 59.5007,
	"eval_samples_per_second": 698.917,
	"eval_steps_per_second": 0.353,
	"step": 650
	},
	{
	"epoch": 0.3245248029670839,
	"grad_norm": 0.08973913639783859,
	"learning_rate": 9.909643486313533e-05,
	"loss": 0.1374,
	"step": 700
	},
	{
	"epoch": 0.3245248029670839,
	"eval_loss": 0.17245501519579134,
	"eval_runtime": 59.2504,
	"eval_samples_per_second": 701.868,
	"eval_steps_per_second": 0.354,
	"step": 700
	},
	{
	"epoch": 0.3477051460361613,
	"grad_norm": 0.07252663373947144,
	"learning_rate": 9.894012231073894e-05,
	"loss": 0.1378,
	"step": 750
	},
	{
	"epoch": 0.3477051460361613,
	"eval_loss": 0.1731146153162719,
	"eval_runtime": 59.6278,
	"eval_samples_per_second": 697.426,
	"eval_steps_per_second": 0.352,
	"step": 750
	},
	{
	"epoch": 0.3708854891052388,
	"grad_norm": 0.09351957589387894,
	"learning_rate": 9.877148934427037e-05,
	"loss": 0.1371,
	"step": 800
	},
	{
	"epoch": 0.3708854891052388,
	"eval_loss": 0.17056697699015605,
	"eval_runtime": 59.4338,
	"eval_samples_per_second": 699.703,
	"eval_steps_per_second": 0.353,
	"step": 800
	},
	{
	"epoch": 0.3940658321743162,
	"grad_norm": 0.06937623023986816,
	"learning_rate": 9.859057841617709e-05,
	"loss": 0.1364,
	"step": 850
	},
	{
	"epoch": 0.3940658321743162,
	"eval_loss": 0.1730773180756858,
	"eval_runtime": 59.2237,
	"eval_samples_per_second": 702.185,
	"eval_steps_per_second": 0.355,
	"step": 850
	},
	{
	"epoch": 0.4172461752433936,
	"grad_norm": 0.1241346001625061,
	"learning_rate": 9.839743506981782e-05,
	"loss": 0.1382,
	"step": 900
	},
	{
	"epoch": 0.4172461752433936,
	"eval_loss": 0.17300324635270986,
	"eval_runtime": 59.1648,
	"eval_samples_per_second": 702.884,
	"eval_steps_per_second": 0.355,
	"step": 900
	},
	{
	"epoch": 0.44042651831247104,
	"grad_norm": 0.0649554654955864,
	"learning_rate": 9.819210792799712e-05,
	"loss": 0.1369,
	"step": 950
	},
	{
	"epoch": 0.44042651831247104,
	"eval_loss": 0.17298936761230632,
	"eval_runtime": 59.4593,
	"eval_samples_per_second": 699.402,
	"eval_steps_per_second": 0.353,
	"step": 950
	},
	{
	"epoch": 0.46360686138154844,
	"grad_norm": 0.07767663151025772,
	"learning_rate": 9.797464868072488e-05,
	"loss": 0.1373,
	"step": 1000
	},
	{
	"epoch": 0.46360686138154844,
	"eval_loss": 0.1722117168758624,
	"eval_runtime": 59.4433,
	"eval_samples_per_second": 699.592,
	"eval_steps_per_second": 0.353,
	"step": 1000
	},
	{
	"epoch": 0.48678720445062584,
	"grad_norm": 0.09637939929962158,
	"learning_rate": 9.77451120722037e-05,
	"loss": 0.1357,
	"step": 1050
	},
	{
	"epoch": 0.48678720445062584,
	"eval_loss": 0.17295359261954948,
	"eval_runtime": 59.0076,
	"eval_samples_per_second": 704.757,
	"eval_steps_per_second": 0.356,
	"step": 1050
	},
	{
	"epoch": 0.5099675475197033,
	"grad_norm": 0.0731373056769371,
	"learning_rate": 9.750355588704727e-05,
	"loss": 0.135,
	"step": 1100
	},
	{
	"epoch": 0.5099675475197033,
	"eval_loss": 0.1715334055521701,
	"eval_runtime": 59.0167,
	"eval_samples_per_second": 704.648,
	"eval_steps_per_second": 0.356,
	"step": 1100
	},
	{
	"epoch": 0.5331478905887808,
	"grad_norm": 0.1365990936756134,
	"learning_rate": 9.725004093573342e-05,
	"loss": 0.1357,
	"step": 1150
	},
	{
	"epoch": 0.5331478905887808,
	"eval_loss": 0.17017831764477356,
	"eval_runtime": 59.0779,
	"eval_samples_per_second": 703.918,
	"eval_steps_per_second": 0.355,
	"step": 1150
	},
	{
	"epoch": 0.5563282336578581,
	"grad_norm": 0.07747852057218552,
	"learning_rate": 9.698463103929542e-05,
	"loss": 0.1366,
	"step": 1200
	},
	{
	"epoch": 0.5563282336578581,
	"eval_loss": 0.17079754339969364,
	"eval_runtime": 59.1474,
	"eval_samples_per_second": 703.091,
	"eval_steps_per_second": 0.355,
	"step": 1200
	},
	{
	"epoch": 0.5795085767269356,
	"grad_norm": 0.08369060605764389,
	"learning_rate": 9.670739301325534e-05,
	"loss": 0.1352,
	"step": 1250
	},
	{
	"epoch": 0.5795085767269356,
	"eval_loss": 0.17218272966053694,
	"eval_runtime": 59.4772,
	"eval_samples_per_second": 699.192,
	"eval_steps_per_second": 0.353,
	"step": 1250
	},
	{
	"epoch": 0.602688919796013,
	"grad_norm": 0.15560708940029144,
	"learning_rate": 9.641839665080363e-05,
	"loss": 0.1366,
	"step": 1300
	},
	{
	"epoch": 0.602688919796013,
	"eval_loss": 0.1698094484306934,
	"eval_runtime": 59.4226,
	"eval_samples_per_second": 699.835,
	"eval_steps_per_second": 0.353,
	"step": 1300
	},
	{
	"epoch": 0.6258692628650904,
	"grad_norm": 0.1404338777065277,
	"learning_rate": 9.611771470522908e-05,
	"loss": 0.1353,
	"step": 1350
	},
	{
	"epoch": 0.6258692628650904,
	"eval_loss": 0.17023876656477224,
	"eval_runtime": 59.3422,
	"eval_samples_per_second": 700.783,
	"eval_steps_per_second": 0.354,
	"step": 1350
	},
	{
	"epoch": 0.6490496059341678,
	"grad_norm": 0.07887144386768341,
	"learning_rate": 9.580542287160348e-05,
	"loss": 0.1363,
	"step": 1400
	},
	{
	"epoch": 0.6490496059341678,
	"eval_loss": 0.1706377184753332,
	"eval_runtime": 59.2598,
	"eval_samples_per_second": 701.758,
	"eval_steps_per_second": 0.354,
	"step": 1400
	},
	{
	"epoch": 0.6722299490032453,
	"grad_norm": 0.09286168217658997,
	"learning_rate": 9.548159976772592e-05,
	"loss": 0.1362,
	"step": 1450
	},
	{
	"epoch": 0.6722299490032453,
	"eval_loss": 0.16891294843072946,
	"eval_runtime": 59.4024,
	"eval_samples_per_second": 700.073,
	"eval_steps_per_second": 0.354,
	"step": 1450
	},
	{
	"epoch": 0.6954102920723226,
	"grad_norm": 0.08167006820440292,
	"learning_rate": 9.514632691433107e-05,
	"loss": 0.1345,
	"step": 1500
	},
	{
	"epoch": 0.6954102920723226,
	"eval_loss": 0.16790113662592512,
	"eval_runtime": 60.0378,
	"eval_samples_per_second": 692.664,
	"eval_steps_per_second": 0.35,
	"step": 1500
	},
	{
	"epoch": 0.7185906351414001,
	"grad_norm": 0.09860191494226456,
	"learning_rate": 9.479968871456679e-05,
	"loss": 0.1355,
	"step": 1550
	},
	{
	"epoch": 0.7185906351414001,
	"eval_loss": 0.16903206921067584,
	"eval_runtime": 59.5789,
	"eval_samples_per_second": 697.999,
	"eval_steps_per_second": 0.352,
	"step": 1550
	},
	{
	"epoch": 0.7417709782104775,
	"grad_norm": 0.06466613709926605,
	"learning_rate": 9.444177243274618e-05,
	"loss": 0.135,
	"step": 1600
	},
	{
	"epoch": 0.7417709782104775,
	"eval_loss": 0.1680566343999807,
	"eval_runtime": 59.5911,
	"eval_samples_per_second": 697.856,
	"eval_steps_per_second": 0.352,
	"step": 1600
	},
	{
	"epoch": 0.7649513212795549,
	"grad_norm": 0.07864313572645187,
	"learning_rate": 9.407266817237911e-05,
	"loss": 0.1348,
	"step": 1650
	},
	{
	"epoch": 0.7649513212795549,
	"eval_loss": 0.16721375296765553,
	"eval_runtime": 59.4289,
	"eval_samples_per_second": 699.76,
	"eval_steps_per_second": 0.353,
	"step": 1650
	},
	{
	"epoch": 0.7881316643486324,
	"grad_norm": 0.09288563579320908,
	"learning_rate": 9.369246885348926e-05,
	"loss": 0.1343,
	"step": 1700
	},
	{
	"epoch": 0.7881316643486324,
	"eval_loss": 0.16728526898731283,
	"eval_runtime": 59.4209,
	"eval_samples_per_second": 699.855,
	"eval_steps_per_second": 0.353,
	"step": 1700
	},
	{
	"epoch": 0.8113120074177098,
	"grad_norm": 0.1111670434474945,
	"learning_rate": 9.330127018922194e-05,
	"loss": 0.1342,
	"step": 1750
	},
	{
	"epoch": 0.8113120074177098,
	"eval_loss": 0.1692570258991495,
	"eval_runtime": 59.3557,
	"eval_samples_per_second": 700.624,
	"eval_steps_per_second": 0.354,
	"step": 1750
	},
	{
	"epoch": 0.8344923504867872,
	"grad_norm": 0.06098225340247154,
	"learning_rate": 9.289917066174886e-05,
	"loss": 0.1334,
	"step": 1800
	},
	{
	"epoch": 0.8344923504867872,
	"eval_loss": 0.16652011733605857,
	"eval_runtime": 59.527,
	"eval_samples_per_second": 698.607,
	"eval_steps_per_second": 0.353,
	"step": 1800
	},
	{
	"epoch": 0.8576726935558646,
	"grad_norm": 0.11042412370443344,
	"learning_rate": 9.248627149747573e-05,
	"loss": 0.136,
	"step": 1850
	},
	{
	"epoch": 0.8576726935558646,
	"eval_loss": 0.16714222769914375,
	"eval_runtime": 59.3645,
	"eval_samples_per_second": 700.519,
	"eval_steps_per_second": 0.354,
	"step": 1850
	},
	{
	"epoch": 0.8808530366249421,
	"grad_norm": 0.09495564550161362,
	"learning_rate": 9.206267664155907e-05,
	"loss": 0.1349,
	"step": 1900
	},
	{
	"epoch": 0.8808530366249421,
	"eval_loss": 0.1690081783682819,
	"eval_runtime": 59.2609,
	"eval_samples_per_second": 701.744,
	"eval_steps_per_second": 0.354,
	"step": 1900
	},
	{
	"epoch": 0.9040333796940194,
	"grad_norm": 0.08535555005073547,
	"learning_rate": 9.162849273173857e-05,
	"loss": 0.1345,
	"step": 1950
	},
	{
	"epoch": 0.9040333796940194,
	"eval_loss": 0.16719838296653933,
	"eval_runtime": 59.4328,
	"eval_samples_per_second": 699.714,
	"eval_steps_per_second": 0.353,
	"step": 1950
	},
	{
	"epoch": 0.9272137227630969,
	"grad_norm": 0.08415450155735016,
	"learning_rate": 9.118382907149165e-05,
	"loss": 0.1332,
	"step": 2000
	},
	{
	"epoch": 0.9272137227630969,
	"eval_loss": 0.16692495198886095,
	"eval_runtime": 59.4174,
	"eval_samples_per_second": 699.895,
	"eval_steps_per_second": 0.353,
	"step": 2000
	},
	{
	"epoch": 0.9503940658321743,
	"grad_norm": 0.07792109996080399,
	"learning_rate": 9.072879760251679e-05,
	"loss": 0.1349,
	"step": 2050
	},
	{
	"epoch": 0.9503940658321743,
	"eval_loss": 0.16853327133732582,
	"eval_runtime": 59.3211,
	"eval_samples_per_second": 701.032,
	"eval_steps_per_second": 0.354,
	"step": 2050
	},
	{
	"epoch": 0.9735744089012517,
	"grad_norm": 0.09134557843208313,
	"learning_rate": 9.026351287655294e-05,
	"loss": 0.1355,
	"step": 2100
	},
	{
	"epoch": 0.9735744089012517,
	"eval_loss": 0.16782760284485718,
	"eval_runtime": 59.1119,
	"eval_samples_per_second": 703.513,
	"eval_steps_per_second": 0.355,
	"step": 2100
	},
	{
	"epoch": 0.9967547519703291,
	"grad_norm": 0.11134419590234756,
	"learning_rate": 8.978809202654162e-05,
	"loss": 0.134,
	"step": 2150
	},
	{
	"epoch": 0.9967547519703291,
	"eval_loss": 0.1670381695935501,
	"eval_runtime": 59.4602,
	"eval_samples_per_second": 699.393,
	"eval_steps_per_second": 0.353,
	"step": 2150
	},
	{
	"epoch": 1.0199350950394066,
	"grad_norm": 0.08943980187177658,
	"learning_rate": 8.930265473713938e-05,
	"loss": 0.1345,
	"step": 2200
	},
	{
	"epoch": 1.0199350950394066,
	"eval_loss": 0.16720885753257103,
	"eval_runtime": 59.8457,
	"eval_samples_per_second": 694.887,
	"eval_steps_per_second": 0.351,
	"step": 2200
	},
	{
	"epoch": 1.043115438108484,
	"grad_norm": 0.05172237753868103,
	"learning_rate": 8.880732321458784e-05,
	"loss": 0.1345,
	"step": 2250
	},
	{
	"epoch": 1.043115438108484,
	"eval_loss": 0.16808202774068384,
	"eval_runtime": 59.7591,
	"eval_samples_per_second": 695.894,
	"eval_steps_per_second": 0.351,
	"step": 2250
	},
	{
	"epoch": 1.0662957811775615,
	"grad_norm": 0.08457198739051819,
	"learning_rate": 8.83022221559489e-05,
	"loss": 0.1339,
	"step": 2300
	},
	{
	"epoch": 1.0662957811775615,
	"eval_loss": 0.16620651689588106,
	"eval_runtime": 59.8615,
	"eval_samples_per_second": 694.704,
	"eval_steps_per_second": 0.351,
	"step": 2300
	},
	{
	"epoch": 1.0894761242466389,
	"grad_norm": 0.08191724866628647,
	"learning_rate": 8.778747871771292e-05,
	"loss": 0.1333,
	"step": 2350
	},
	{
	"epoch": 1.0894761242466389,
	"eval_loss": 0.16742435976845876,
	"eval_runtime": 59.8699,
	"eval_samples_per_second": 694.606,
	"eval_steps_per_second": 0.351,
	"step": 2350
	},
	{
	"epoch": 1.1126564673157162,
	"grad_norm": 0.08220981061458588,
	"learning_rate": 8.726322248378775e-05,
	"loss": 0.1336,
	"step": 2400
	},
	{
	"epoch": 1.1126564673157162,
	"eval_loss": 0.16507172522149283,
	"eval_runtime": 59.8591,
	"eval_samples_per_second": 694.731,
	"eval_steps_per_second": 0.351,
	"step": 2400
	},
	{
	"epoch": 1.1358368103847938,
	"grad_norm": 0.11390708386898041,
	"learning_rate": 8.672958543287666e-05,
	"loss": 0.1335,
	"step": 2450
	},
	{
	"epoch": 1.1358368103847938,
	"eval_loss": 0.16567397155304947,
	"eval_runtime": 59.7629,
	"eval_samples_per_second": 695.85,
	"eval_steps_per_second": 0.351,
	"step": 2450
	},
	{
	"epoch": 1.1590171534538711,
	"grad_norm": 0.06390725821256638,
	"learning_rate": 8.618670190525352e-05,
	"loss": 0.1335,
	"step": 2500
	},
	{
	"epoch": 1.1590171534538711,
	"eval_loss": 0.1671167116531541,
	"eval_runtime": 59.5093,
	"eval_samples_per_second": 698.815,
	"eval_steps_per_second": 0.353,
	"step": 2500
	},
	{
	"epoch": 1.1821974965229485,
	"grad_norm": 0.06458276510238647,
	"learning_rate": 8.563470856894316e-05,
	"loss": 0.1322,
	"step": 2550
	},
	{
	"epoch": 1.1821974965229485,
	"eval_loss": 0.16552241982155386,
	"eval_runtime": 59.3646,
	"eval_samples_per_second": 700.519,
	"eval_steps_per_second": 0.354,
	"step": 2550
	},
	{
	"epoch": 1.205377839592026,
	"grad_norm": 0.07258091121912003,
	"learning_rate": 8.507374438531607e-05,
	"loss": 0.1333,
	"step": 2600
	},
	{
	"epoch": 1.205377839592026,
	"eval_loss": 0.16643385319936513,
	"eval_runtime": 59.7463,
	"eval_samples_per_second": 696.043,
	"eval_steps_per_second": 0.351,
	"step": 2600
	},
	{
	"epoch": 1.2285581826611034,
	"grad_norm": 0.08584043383598328,
	"learning_rate": 8.450395057410561e-05,
	"loss": 0.1325,
	"step": 2650
	},
	{
	"epoch": 1.2285581826611034,
	"eval_loss": 0.16595956749906993,
	"eval_runtime": 59.7537,
	"eval_samples_per_second": 695.957,
	"eval_steps_per_second": 0.351,
	"step": 2650
	},
	{
	"epoch": 1.2517385257301807,
	"grad_norm": 0.054344214498996735,
	"learning_rate": 8.392547057785661e-05,
	"loss": 0.1334,
	"step": 2700
	},
	{
	"epoch": 1.2517385257301807,
	"eval_loss": 0.165368604673745,
	"eval_runtime": 59.4339,
	"eval_samples_per_second": 699.701,
	"eval_steps_per_second": 0.353,
	"step": 2700
	},
	{
	"epoch": 1.2749188687992583,
	"grad_norm": 0.07332266122102737,
	"learning_rate": 8.333845002581458e-05,
	"loss": 0.1326,
	"step": 2750
	},
	{
	"epoch": 1.2749188687992583,
	"eval_loss": 0.16569167596925843,
	"eval_runtime": 59.5544,
	"eval_samples_per_second": 698.286,
	"eval_steps_per_second": 0.353,
	"step": 2750
	},
	{
	"epoch": 1.2980992118683357,
	"grad_norm": 0.07198917865753174,
	"learning_rate": 8.274303669726426e-05,
	"loss": 0.1323,
	"step": 2800
	},
	{
	"epoch": 1.2980992118683357,
	"eval_loss": 0.16580398198626048,
	"eval_runtime": 59.8451,
	"eval_samples_per_second": 694.894,
	"eval_steps_per_second": 0.351,
	"step": 2800
	},
	{
	"epoch": 1.321279554937413,
	"grad_norm": 0.09278077632188797,
	"learning_rate": 8.213938048432697e-05,
	"loss": 0.1324,
	"step": 2850
	},
	{
	"epoch": 1.321279554937413,
	"eval_loss": 0.16619885882978533,
	"eval_runtime": 59.6857,
	"eval_samples_per_second": 696.749,
	"eval_steps_per_second": 0.352,
	"step": 2850
	},
	{
	"epoch": 1.3444598980064906,
	"grad_norm": 0.04779389128088951,
	"learning_rate": 8.152763335422613e-05,
	"loss": 0.1327,
	"step": 2900
	},
	{
	"epoch": 1.3444598980064906,
	"eval_loss": 0.16639967239163891,
	"eval_runtime": 59.5347,
	"eval_samples_per_second": 698.517,
	"eval_steps_per_second": 0.353,
	"step": 2900
	},
	{
	"epoch": 1.367640241075568,
	"grad_norm": 0.0650218203663826,
	"learning_rate": 8.090794931103026e-05,
	"loss": 0.1324,
	"step": 2950
	},
	{
	"epoch": 1.367640241075568,
	"eval_loss": 0.16698249569806287,
	"eval_runtime": 59.4938,
	"eval_samples_per_second": 698.997,
	"eval_steps_per_second": 0.353,
	"step": 2950
	},
	{
	"epoch": 1.3908205841446453,
	"grad_norm": 0.07800327241420746,
	"learning_rate": 8.028048435688333e-05,
	"loss": 0.1325,
	"step": 3000
	},
	{
	"epoch": 1.3908205841446453,
	"eval_loss": 0.16588903849861533,
	"eval_runtime": 59.7308,
	"eval_samples_per_second": 696.223,
	"eval_steps_per_second": 0.352,
	"step": 3000
	},
	{
	"epoch": 1.4140009272137228,
	"grad_norm": 0.09477279335260391,
	"learning_rate": 7.964539645273204e-05,
	"loss": 0.1318,
	"step": 3050
	},
	{
	"epoch": 1.4140009272137228,
	"eval_loss": 0.16391722600570544,
	"eval_runtime": 59.2552,
	"eval_samples_per_second": 701.812,
	"eval_steps_per_second": 0.354,
	"step": 3050
	},
	{
	"epoch": 1.4371812702828002,
	"grad_norm": 0.061748892068862915,
	"learning_rate": 7.900284547855991e-05,
	"loss": 0.1328,
	"step": 3100
	},
	{
	"epoch": 1.4371812702828002,
	"eval_loss": 0.1664695654356475,
	"eval_runtime": 59.7882,
	"eval_samples_per_second": 695.556,
	"eval_steps_per_second": 0.351,
	"step": 3100
	},
	{
	"epoch": 1.4603616133518775,
	"grad_norm": 0.07277340441942215,
	"learning_rate": 7.835299319313853e-05,
	"loss": 0.1332,
	"step": 3150
	},
	{
	"epoch": 1.4603616133518775,
	"eval_loss": 0.16764915423728274,
	"eval_runtime": 59.7168,
	"eval_samples_per_second": 696.387,
	"eval_steps_per_second": 0.352,
	"step": 3150
	},
	{
	"epoch": 1.483541956420955,
	"grad_norm": 0.06525903195142746,
	"learning_rate": 7.769600319330552e-05,
	"loss": 0.1326,
	"step": 3200
	},
	{
	"epoch": 1.483541956420955,
	"eval_loss": 0.16491104357870506,
	"eval_runtime": 59.6126,
	"eval_samples_per_second": 697.604,
	"eval_steps_per_second": 0.352,
	"step": 3200
	},
	{
	"epoch": 1.5067222994900324,
	"grad_norm": 0.06889070570468903,
	"learning_rate": 7.703204087277988e-05,
	"loss": 0.1327,
	"step": 3250
	},
	{
	"epoch": 1.5067222994900324,
	"eval_loss": 0.16643899540149082,
	"eval_runtime": 60.0,
	"eval_samples_per_second": 693.1,
	"eval_steps_per_second": 0.35,
	"step": 3250
	},
	{
	"epoch": 1.5299026425591098,
	"grad_norm": 0.09515661001205444,
	"learning_rate": 7.636127338052512e-05,
	"loss": 0.1332,
	"step": 3300
	},
	{
	"epoch": 1.5299026425591098,
	"eval_loss": 0.16578109982118125,
	"eval_runtime": 60.2083,
	"eval_samples_per_second": 690.703,
	"eval_steps_per_second": 0.349,
	"step": 3300
	},
	{
	"epoch": 1.5530829856281874,
	"grad_norm": 0.06826016306877136,
	"learning_rate": 7.568386957867033e-05,
	"loss": 0.1321,
	"step": 3350
	},
	{
	"epoch": 1.5530829856281874,
	"eval_loss": 0.16615711001414799,
	"eval_runtime": 59.8961,
	"eval_samples_per_second": 694.303,
	"eval_steps_per_second": 0.351,
	"step": 3350
	},
	{
	"epoch": 1.5762633286972647,
	"grad_norm": 0.06259354203939438,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.1324,
	"step": 3400
	},
	{
	"epoch": 1.5762633286972647,
	"eval_loss": 0.16420639359901218,
	"eval_runtime": 59.8484,
	"eval_samples_per_second": 694.856,
	"eval_steps_per_second": 0.351,
	"step": 3400
	},
	{
	"epoch": 1.599443671766342,
	"grad_norm": 0.08373662084341049,
	"learning_rate": 7.430983680502344e-05,
	"loss": 0.1317,
	"step": 3450
	},
	{
	"epoch": 1.599443671766342,
	"eval_loss": 0.16580187809904914,
	"eval_runtime": 59.5295,
	"eval_samples_per_second": 698.578,
	"eval_steps_per_second": 0.353,
	"step": 3450
	},
	{
	"epoch": 1.6226240148354196,
	"grad_norm": 0.052068453282117844,
	"learning_rate": 7.361355373863414e-05,
	"loss": 0.1326,
	"step": 3500
	},
	{
	"epoch": 1.6226240148354196,
	"eval_loss": 0.16511726778477553,
	"eval_runtime": 59.3774,
	"eval_samples_per_second": 700.368,
	"eval_steps_per_second": 0.354,
	"step": 3500
	},
	{
	"epoch": 1.645804357904497,
	"grad_norm": 0.1084132120013237,
	"learning_rate": 7.291132608637052e-05,
	"loss": 0.1328,
	"step": 3550
	},
	{
	"epoch": 1.645804357904497,
	"eval_loss": 0.16512942482848092,
	"eval_runtime": 59.7073,
	"eval_samples_per_second": 696.497,
	"eval_steps_per_second": 0.352,
	"step": 3550
	},
	{
	"epoch": 1.6689847009735743,
	"grad_norm": 0.09590224921703339,
	"learning_rate": 7.220333063028872e-05,
	"loss": 0.1327,
	"step": 3600
	},
	{
	"epoch": 1.6689847009735743,
	"eval_loss": 0.1653536906511234,
	"eval_runtime": 59.8607,
	"eval_samples_per_second": 694.713,
	"eval_steps_per_second": 0.351,
	"step": 3600
	},
	{
	"epoch": 1.692165044042652,
	"grad_norm": 0.09215644001960754,
	"learning_rate": 7.148974560445859e-05,
	"loss": 0.1314,
	"step": 3650
	},
	{
	"epoch": 1.692165044042652,
	"eval_loss": 0.16392036224708054,
	"eval_runtime": 59.6823,
	"eval_samples_per_second": 696.79,
	"eval_steps_per_second": 0.352,
	"step": 3650
	},
	{
	"epoch": 1.7153453871117292,
	"grad_norm": 0.0847523957490921,
	"learning_rate": 7.077075065009433e-05,
	"loss": 0.1319,
	"step": 3700
	},
	{
	"epoch": 1.7153453871117292,
	"eval_loss": 0.1658360792512092,
	"eval_runtime": 59.6368,
	"eval_samples_per_second": 697.322,
	"eval_steps_per_second": 0.352,
	"step": 3700
	},
	{
	"epoch": 1.7385257301808066,
	"grad_norm": 0.06882014125585556,
	"learning_rate": 7.004652677033068e-05,
	"loss": 0.1308,
	"step": 3750
	},
	{
	"epoch": 1.7385257301808066,
	"eval_loss": 0.1656867715236748,
	"eval_runtime": 59.8626,
	"eval_samples_per_second": 694.691,
	"eval_steps_per_second": 0.351,
	"step": 3750
	},
	{
	"epoch": 1.7617060732498842,
	"grad_norm": 0.056948818266391754,
	"learning_rate": 6.931725628465643e-05,
	"loss": 0.1322,
	"step": 3800
	},
	{
	"epoch": 1.7617060732498842,
	"eval_loss": 0.16491998551370737,
	"eval_runtime": 59.5124,
	"eval_samples_per_second": 698.779,
	"eval_steps_per_second": 0.353,
	"step": 3800
	},
	{
	"epoch": 1.7848864163189615,
	"grad_norm": 0.04779543727636337,
	"learning_rate": 6.858312278301637e-05,
	"loss": 0.1315,
	"step": 3850
	},
	{
	"epoch": 1.7848864163189615,
	"eval_loss": 0.1649495124686108,
	"eval_runtime": 59.9775,
	"eval_samples_per_second": 693.36,
	"eval_steps_per_second": 0.35,
	"step": 3850
	},
	{
	"epoch": 1.8080667593880388,
	"grad_norm": 0.05969324707984924,
	"learning_rate": 6.784431107959359e-05,
	"loss": 0.1316,
	"step": 3900
	},
	{
	"epoch": 1.8080667593880388,
	"eval_loss": 0.16391757633340012,
	"eval_runtime": 60.0346,
	"eval_samples_per_second": 692.7,
	"eval_steps_per_second": 0.35,
	"step": 3900
	},
	{
	"epoch": 1.8312471024571164,
	"grad_norm": 0.061390358954668045,
	"learning_rate": 6.710100716628344e-05,
	"loss": 0.1312,
	"step": 3950
	},
	{
	"epoch": 1.8312471024571164,
	"eval_loss": 0.1658972028775054,
	"eval_runtime": 59.9663,
	"eval_samples_per_second": 693.489,
	"eval_steps_per_second": 0.35,
	"step": 3950
	},
	{
	"epoch": 1.8544274455261938,
	"grad_norm": 0.07332038879394531,
	"learning_rate": 6.635339816587109e-05,
	"loss": 0.1323,
	"step": 4000
	},
	{
	"epoch": 1.8544274455261938,
	"eval_loss": 0.1647820455194368,
	"eval_runtime": 59.5785,
	"eval_samples_per_second": 698.004,
	"eval_steps_per_second": 0.352,
	"step": 4000
	},
	{
	"epoch": 1.877607788595271,
	"grad_norm": 0.07641714811325073,
	"learning_rate": 6.560167228492436e-05,
	"loss": 0.132,
	"step": 4050
	},
	{
	"epoch": 1.877607788595271,
	"eval_loss": 0.16406535325266738,
	"eval_runtime": 60.0931,
	"eval_samples_per_second": 692.026,
	"eval_steps_per_second": 0.349,
	"step": 4050
	},
	{
	"epoch": 1.9007881316643487,
	"grad_norm": 0.08891258388757706,
	"learning_rate": 6.484601876641375e-05,
	"loss": 0.1308,
	"step": 4100
	},
	{
	"epoch": 1.9007881316643487,
	"eval_loss": 0.164731109091856,
	"eval_runtime": 59.8012,
	"eval_samples_per_second": 695.405,
	"eval_steps_per_second": 0.351,
	"step": 4100
	},
	{
	"epoch": 1.923968474733426,
	"grad_norm": 0.0818193256855011,
	"learning_rate": 6.408662784207149e-05,
	"loss": 0.1323,
	"step": 4150
	},
	{
	"epoch": 1.923968474733426,
	"eval_loss": 0.16444408652573528,
	"eval_runtime": 59.6523,
	"eval_samples_per_second": 697.14,
	"eval_steps_per_second": 0.352,
	"step": 4150
	},
	{
	"epoch": 1.9471488178025034,
	"grad_norm": 0.05766776204109192,
	"learning_rate": 6.332369068450174e-05,
	"loss": 0.131,
	"step": 4200
	},
	{
	"epoch": 1.9471488178025034,
	"eval_loss": 0.1630568549542592,
	"eval_runtime": 59.9782,
	"eval_samples_per_second": 693.352,
	"eval_steps_per_second": 0.35,
	"step": 4200
	},
	{
	"epoch": 1.970329160871581,
	"grad_norm": 0.07093872129917145,
	"learning_rate": 6.255739935905396e-05,
	"loss": 0.1313,
	"step": 4250
	},
	{
	"epoch": 1.970329160871581,
	"eval_loss": 0.16320942743206068,
	"eval_runtime": 59.7408,
	"eval_samples_per_second": 696.107,
	"eval_steps_per_second": 0.352,
	"step": 4250
	},
	{
	"epoch": 1.9935095039406583,
	"grad_norm": 0.051636241376399994,
	"learning_rate": 6.178794677547137e-05,
	"loss": 0.1309,
	"step": 4300
	},
	{
	"epoch": 1.9935095039406583,
	"eval_loss": 0.16439976264264172,
	"eval_runtime": 59.7092,
	"eval_samples_per_second": 696.476,
	"eval_steps_per_second": 0.352,
	"step": 4300
	},
	{
	"epoch": 2.0166898470097356,
	"grad_norm": 0.05819587782025337,
	"learning_rate": 6.1015526639327035e-05,
	"loss": 0.1319,
	"step": 4350
	},
	{
	"epoch": 2.0166898470097356,
	"eval_loss": 0.16432355870633325,
	"eval_runtime": 59.2592,
	"eval_samples_per_second": 701.765,
	"eval_steps_per_second": 0.354,
	"step": 4350
	},
	{
	"epoch": 2.039870190078813,
	"grad_norm": 0.07939411699771881,
	"learning_rate": 6.024033340325954e-05,
	"loss": 0.1316,
	"step": 4400
	},
	{
	"epoch": 2.039870190078813,
	"eval_loss": 0.1641168338494948,
	"eval_runtime": 59.9534,
	"eval_samples_per_second": 693.639,
	"eval_steps_per_second": 0.35,
	"step": 4400
	},
	{
	"epoch": 2.0630505331478908,
	"grad_norm": 0.07020165026187897,
	"learning_rate": 5.946256221802051e-05,
	"loss": 0.1312,
	"step": 4450
	},
	{
	"epoch": 2.0630505331478908,
	"eval_loss": 0.1633037564118911,
	"eval_runtime": 60.3433,
	"eval_samples_per_second": 689.157,
	"eval_steps_per_second": 0.348,
	"step": 4450
	},
	{
	"epoch": 2.086230876216968,
	"grad_norm": 0.07000721246004105,
	"learning_rate": 5.868240888334653e-05,
	"loss": 0.1313,
	"step": 4500
	},
	{
	"epoch": 2.086230876216968,
	"eval_loss": 0.1646367282392535,
	"eval_runtime": 60.5726,
	"eval_samples_per_second": 686.548,
	"eval_steps_per_second": 0.347,
	"step": 4500
	},
	{
	"epoch": 2.1094112192860455,
	"grad_norm": 0.06988826394081116,
	"learning_rate": 5.79000697986675e-05,
	"loss": 0.1316,
	"step": 4550
	},
	{
	"epoch": 2.1094112192860455,
	"eval_loss": 0.16286425765036744,
	"eval_runtime": 60.2061,
	"eval_samples_per_second": 690.727,
	"eval_steps_per_second": 0.349,
	"step": 4550
	},
	{
	"epoch": 2.132591562355123,
	"grad_norm": 0.0749220922589302,
	"learning_rate": 5.7115741913664264e-05,
	"loss": 0.1306,
	"step": 4600
	},
	{
	"epoch": 2.132591562355123,
	"eval_loss": 0.1643572569196068,
	"eval_runtime": 59.9586,
	"eval_samples_per_second": 693.579,
	"eval_steps_per_second": 0.35,
	"step": 4600
	},
	{
	"epoch": 2.1557719054242,
	"grad_norm": 0.06533892452716827,
	"learning_rate": 5.6329622678687463e-05,
	"loss": 0.1313,
	"step": 4650
	},
	{
	"epoch": 2.1557719054242,
	"eval_loss": 0.1635978048832001,
	"eval_runtime": 59.6271,
	"eval_samples_per_second": 697.435,
	"eval_steps_per_second": 0.352,
	"step": 4650
	},
	{
	"epoch": 2.1789522484932777,
	"grad_norm": 0.07881616055965424,
	"learning_rate": 5.5541909995050554e-05,
	"loss": 0.131,
	"step": 4700
	},
	{
	"epoch": 2.1789522484932777,
	"eval_loss": 0.1634715372028324,
	"eval_runtime": 59.564,
	"eval_samples_per_second": 698.173,
	"eval_steps_per_second": 0.353,
	"step": 4700
	},
	{
	"epoch": 2.2021325915623553,
	"grad_norm": 0.05812694877386093,
	"learning_rate": 5.475280216520913e-05,
	"loss": 0.1311,
	"step": 4750
	},
	{
	"epoch": 2.2021325915623553,
	"eval_loss": 0.1636915707335646,
	"eval_runtime": 59.9343,
	"eval_samples_per_second": 693.86,
	"eval_steps_per_second": 0.35,
	"step": 4750
	},
	{
	"epoch": 2.2253129346314324,
	"grad_norm": 0.09842361509799957,
	"learning_rate": 5.396249784283942e-05,
	"loss": 0.1315,
	"step": 4800
	},
	{
	"epoch": 2.2253129346314324,
	"eval_loss": 0.16410182317726912,
	"eval_runtime": 60.4431,
	"eval_samples_per_second": 688.019,
	"eval_steps_per_second": 0.347,
	"step": 4800
	},
	{
	"epoch": 2.24849327770051,
	"grad_norm": 0.05664157494902611,
	"learning_rate": 5.317119598282823e-05,
	"loss": 0.1314,
	"step": 4850
	},
	{
	"epoch": 2.24849327770051,
	"eval_loss": 0.16405877684845893,
	"eval_runtime": 60.2757,
	"eval_samples_per_second": 689.93,
	"eval_steps_per_second": 0.348,
	"step": 4850
	},
	{
	"epoch": 2.2716736207695876,
	"grad_norm": 0.08323252946138382,
	"learning_rate": 5.2379095791187124e-05,
	"loss": 0.1306,
	"step": 4900
	},
	{
	"epoch": 2.2716736207695876,
	"eval_loss": 0.16356865120524391,
	"eval_runtime": 60.2036,
	"eval_samples_per_second": 690.756,
	"eval_steps_per_second": 0.349,
	"step": 4900
	},
	{
	"epoch": 2.2948539638386647,
	"grad_norm": 0.07163384556770325,
	"learning_rate": 5.158639667490339e-05,
	"loss": 0.1314,
	"step": 4950
	},
	{
	"epoch": 2.2948539638386647,
	"eval_loss": 0.16350787082313517,
	"eval_runtime": 59.6657,
	"eval_samples_per_second": 696.983,
	"eval_steps_per_second": 0.352,
	"step": 4950
	},
	{
	"epoch": 2.3180343069077423,
	"grad_norm": 0.07729226350784302,
	"learning_rate": 5.0793298191740404e-05,
	"loss": 0.1321,
	"step": 5000
	},
	{
	"epoch": 2.3180343069077423,
	"eval_loss": 0.16284041257465698,
	"eval_runtime": 60.3671,
	"eval_samples_per_second": 688.886,
	"eval_steps_per_second": 0.348,
	"step": 5000
	},
	{
	"epoch": 2.34121464997682,
	"grad_norm": 0.07920071482658386,
	"learning_rate": 5e-05,
	"loss": 0.13,
	"step": 5050
	},
	{
	"epoch": 2.34121464997682,
	"eval_loss": 0.16350252303966548,
	"eval_runtime": 60.0663,
	"eval_samples_per_second": 692.335,
	"eval_steps_per_second": 0.35,
	"step": 5050
	},
	{
	"epoch": 2.364394993045897,
	"grad_norm": 0.05213838815689087,
	"learning_rate": 4.92067018082596e-05,
	"loss": 0.1315,
	"step": 5100
	},
	{
	"epoch": 2.364394993045897,
	"eval_loss": 0.1640868928554377,
	"eval_runtime": 60.1323,
	"eval_samples_per_second": 691.575,
	"eval_steps_per_second": 0.349,
	"step": 5100
	},
	{
	"epoch": 2.3875753361149745,
	"grad_norm": 0.06551820039749146,
	"learning_rate": 4.841360332509663e-05,
	"loss": 0.1311,
	"step": 5150
	},
	{
	"epoch": 2.3875753361149745,
	"eval_loss": 0.16375304166425866,
	"eval_runtime": 60.0889,
	"eval_samples_per_second": 692.074,
	"eval_steps_per_second": 0.349,
	"step": 5150
	},
	{
	"epoch": 2.410755679184052,
	"grad_norm": 0.06602519750595093,
	"learning_rate": 4.762090420881289e-05,
	"loss": 0.1304,
	"step": 5200
	},
	{
	"epoch": 2.410755679184052,
	"eval_loss": 0.1646718036775546,
	"eval_runtime": 60.1839,
	"eval_samples_per_second": 690.982,
	"eval_steps_per_second": 0.349,
	"step": 5200
	},
	{
	"epoch": 2.433936022253129,
	"grad_norm": 0.050050172954797745,
	"learning_rate": 4.6828804017171776e-05,
	"loss": 0.131,
	"step": 5250
	},
	{
	"epoch": 2.433936022253129,
	"eval_loss": 0.16238808458996815,
	"eval_runtime": 60.2346,
	"eval_samples_per_second": 690.401,
	"eval_steps_per_second": 0.349,
	"step": 5250
	},
	{
	"epoch": 2.457116365322207,
	"grad_norm": 0.06192226707935333,
	"learning_rate": 4.603750215716057e-05,
	"loss": 0.131,
	"step": 5300
	},
	{
	"epoch": 2.457116365322207,
	"eval_loss": 0.1633245686996306,
	"eval_runtime": 59.5691,
	"eval_samples_per_second": 698.114,
	"eval_steps_per_second": 0.353,
	"step": 5300
	},
	{
	"epoch": 2.4802967083912844,
	"grad_norm": 0.07729701697826385,
	"learning_rate": 4.5247197834790876e-05,
	"loss": 0.1308,
	"step": 5350
	},
	{
	"epoch": 2.4802967083912844,
	"eval_loss": 0.16388068444979556,
	"eval_runtime": 60.3853,
	"eval_samples_per_second": 688.677,
	"eval_steps_per_second": 0.348,
	"step": 5350
	},
	{
	"epoch": 2.5034770514603615,
	"grad_norm": 0.07346878945827484,
	"learning_rate": 4.445809000494946e-05,
	"loss": 0.1314,
	"step": 5400
	},
	{
	"epoch": 2.5034770514603615,
	"eval_loss": 0.16427215786452162,
	"eval_runtime": 60.0462,
	"eval_samples_per_second": 692.567,
	"eval_steps_per_second": 0.35,
	"step": 5400
	},
	{
	"epoch": 2.526657394529439,
	"grad_norm": 0.08765513449907303,
	"learning_rate": 4.3670377321312535e-05,
	"loss": 0.1307,
	"step": 5450
	},
	{
	"epoch": 2.526657394529439,
	"eval_loss": 0.16308954695612046,
	"eval_runtime": 59.7344,
	"eval_samples_per_second": 696.181,
	"eval_steps_per_second": 0.352,
	"step": 5450
	},
	{
	"epoch": 2.5498377375985166,
	"grad_norm": 0.04856225475668907,
	"learning_rate": 4.288425808633575e-05,
	"loss": 0.1314,
	"step": 5500
	},
	{
	"epoch": 2.5498377375985166,
	"eval_loss": 0.1634677289958684,
	"eval_runtime": 60.5651,
	"eval_samples_per_second": 686.633,
	"eval_steps_per_second": 0.347,
	"step": 5500
	},
	{
	"epoch": 2.5730180806675937,
	"grad_norm": 0.07033301144838333,
	"learning_rate": 4.20999302013325e-05,
	"loss": 0.1303,
	"step": 5550
	},
	{
	"epoch": 2.5730180806675937,
	"eval_loss": 0.16350203952668135,
	"eval_runtime": 59.7363,
	"eval_samples_per_second": 696.16,
	"eval_steps_per_second": 0.352,
	"step": 5550
	},
	{
	"epoch": 2.5961984237366713,
	"grad_norm": 0.07352133840322495,
	"learning_rate": 4.131759111665349e-05,
	"loss": 0.1304,
	"step": 5600
	},
	{
	"epoch": 2.5961984237366713,
	"eval_loss": 0.16306162076252775,
	"eval_runtime": 60.0517,
	"eval_samples_per_second": 692.503,
	"eval_steps_per_second": 0.35,
	"step": 5600
	},
	{
	"epoch": 2.619378766805749,
	"grad_norm": 0.05432264879345894,
	"learning_rate": 4.0537437781979506e-05,
	"loss": 0.1298,
	"step": 5650
	},
	{
	"epoch": 2.619378766805749,
	"eval_loss": 0.16234816348528708,
	"eval_runtime": 60.3645,
	"eval_samples_per_second": 688.915,
	"eval_steps_per_second": 0.348,
	"step": 5650
	},
	{
	"epoch": 2.642559109874826,
	"grad_norm": 0.04657018184661865,
	"learning_rate": 3.9759666596740476e-05,
	"loss": 0.1305,
	"step": 5700
	},
	{
	"epoch": 2.642559109874826,
	"eval_loss": 0.16270628350418626,
	"eval_runtime": 60.0809,
	"eval_samples_per_second": 692.167,
	"eval_steps_per_second": 0.35,
	"step": 5700
	},
	{
	"epoch": 2.6657394529439036,
	"grad_norm": 0.04448065161705017,
	"learning_rate": 3.898447336067297e-05,
	"loss": 0.1308,
	"step": 5750
	},
	{
	"epoch": 2.6657394529439036,
	"eval_loss": 0.162430409584318,
	"eval_runtime": 59.8634,
	"eval_samples_per_second": 694.682,
	"eval_steps_per_second": 0.351,
	"step": 5750
	},
	{
	"epoch": 2.688919796012981,
	"grad_norm": 0.047300901263952255,
	"learning_rate": 3.821205322452863e-05,
	"loss": 0.1306,
	"step": 5800
	},
	{
	"epoch": 2.688919796012981,
	"eval_loss": 0.163914834923588,
	"eval_runtime": 59.9699,
	"eval_samples_per_second": 693.447,
	"eval_steps_per_second": 0.35,
	"step": 5800
	},
	{
	"epoch": 2.7121001390820583,
	"grad_norm": 0.09371935576200485,
	"learning_rate": 3.744260064094604e-05,
	"loss": 0.1303,
	"step": 5850
	},
	{
	"epoch": 2.7121001390820583,
	"eval_loss": 0.16325797910827158,
	"eval_runtime": 60.1596,
	"eval_samples_per_second": 691.261,
	"eval_steps_per_second": 0.349,
	"step": 5850
	},
	{
	"epoch": 2.735280482151136,
	"grad_norm": 0.0451604500412941,
	"learning_rate": 3.6676309315498256e-05,
	"loss": 0.131,
	"step": 5900
	},
	{
	"epoch": 2.735280482151136,
	"eval_loss": 0.16252548129222377,
	"eval_runtime": 60.0104,
	"eval_samples_per_second": 692.98,
	"eval_steps_per_second": 0.35,
	"step": 5900
	},
	{
	"epoch": 2.7584608252202134,
	"grad_norm": 0.058029964566230774,
	"learning_rate": 3.591337215792852e-05,
	"loss": 0.1305,
	"step": 5950
	},
	{
	"epoch": 2.7584608252202134,
	"eval_loss": 0.16366348885138793,
	"eval_runtime": 60.372,
	"eval_samples_per_second": 688.83,
	"eval_steps_per_second": 0.348,
	"step": 5950
	},
	{
	"epoch": 2.7816411682892905,
	"grad_norm": 0.09429273754358292,
	"learning_rate": 3.515398123358627e-05,
	"loss": 0.1307,
	"step": 6000
	},
	{
	"epoch": 2.7816411682892905,
	"eval_loss": 0.1623218584160889,
	"eval_runtime": 59.5435,
	"eval_samples_per_second": 698.413,
	"eval_steps_per_second": 0.353,
	"step": 6000
	},
	{
	"epoch": 2.804821511358368,
	"grad_norm": 0.05752315744757652,
	"learning_rate": 3.439832771507565e-05,
	"loss": 0.1296,
	"step": 6050
	},
	{
	"epoch": 2.804821511358368,
	"eval_loss": 0.16326439732289802,
	"eval_runtime": 59.8306,
	"eval_samples_per_second": 695.063,
	"eval_steps_per_second": 0.351,
	"step": 6050
	},
	{
	"epoch": 2.8280018544274457,
	"grad_norm": 0.07225628942251205,
	"learning_rate": 3.364660183412892e-05,
	"loss": 0.1312,
	"step": 6100
	},
	{
	"epoch": 2.8280018544274457,
	"eval_loss": 0.16322279137718054,
	"eval_runtime": 59.8418,
	"eval_samples_per_second": 694.932,
	"eval_steps_per_second": 0.351,
	"step": 6100
	},
	{
	"epoch": 2.851182197496523,
	"grad_norm": 0.06712605059146881,
	"learning_rate": 3.289899283371657e-05,
	"loss": 0.1305,
	"step": 6150
	},
	{
	"epoch": 2.851182197496523,
	"eval_loss": 0.16403909400299824,
	"eval_runtime": 59.4766,
	"eval_samples_per_second": 699.199,
	"eval_steps_per_second": 0.353,
	"step": 6150
	},
	{
	"epoch": 2.8743625405656004,
	"grad_norm": 0.0743350014090538,
	"learning_rate": 3.215568892040641e-05,
	"loss": 0.1303,
	"step": 6200
	},
	{
	"epoch": 2.8743625405656004,
	"eval_loss": 0.16315215653435175,
	"eval_runtime": 60.0127,
	"eval_samples_per_second": 692.953,
	"eval_steps_per_second": 0.35,
	"step": 6200
	},
	{
	"epoch": 2.897542883634678,
	"grad_norm": 0.07467668503522873,
	"learning_rate": 3.141687721698363e-05,
	"loss": 0.1302,
	"step": 6250
	},
	{
	"epoch": 2.897542883634678,
	"eval_loss": 0.16213396084813272,
	"eval_runtime": 59.8922,
	"eval_samples_per_second": 694.348,
	"eval_steps_per_second": 0.351,
	"step": 6250
	},
	{
	"epoch": 2.920723226703755,
	"grad_norm": 0.050527870655059814,
	"learning_rate": 3.0682743715343564e-05,
	"loss": 0.1298,
	"step": 6300
	},
	{
	"epoch": 2.920723226703755,
	"eval_loss": 0.16243251733829123,
	"eval_runtime": 60.3601,
	"eval_samples_per_second": 688.965,
	"eval_steps_per_second": 0.348,
	"step": 6300
	},
	{
	"epoch": 2.9439035697728326,
	"grad_norm": 0.05331522971391678,
	"learning_rate": 2.9953473229669328e-05,
	"loss": 0.1313,
	"step": 6350
	},
	{
	"epoch": 2.9439035697728326,
	"eval_loss": 0.16321332234047015,
	"eval_runtime": 60.2034,
	"eval_samples_per_second": 690.759,
	"eval_steps_per_second": 0.349,
	"step": 6350
	},
	{
	"epoch": 2.96708391284191,
	"grad_norm": 0.0566866509616375,
	"learning_rate": 2.9229249349905684e-05,
	"loss": 0.1304,
	"step": 6400
	},
	{
	"epoch": 2.96708391284191,
	"eval_loss": 0.1623781732971581,
	"eval_runtime": 60.2575,
	"eval_samples_per_second": 690.138,
	"eval_steps_per_second": 0.349,
	"step": 6400
	},
	{
	"epoch": 2.9902642559109873,
	"grad_norm": 0.0674847662448883,
	"learning_rate": 2.851025439554142e-05,
	"loss": 0.13,
	"step": 6450
	},
	{
	"epoch": 2.9902642559109873,
	"eval_loss": 0.163704374422533,
	"eval_runtime": 60.1942,
	"eval_samples_per_second": 690.864,
	"eval_steps_per_second": 0.349,
	"step": 6450
	},
	{
	"epoch": 3.013444598980065,
	"grad_norm": 0.05663591995835304,
	"learning_rate": 2.7796669369711294e-05,
	"loss": 0.1313,
	"step": 6500
	},
	{
	"epoch": 3.013444598980065,
	"eval_loss": 0.16296213660440473,
	"eval_runtime": 60.9459,
	"eval_samples_per_second": 682.343,
	"eval_steps_per_second": 0.345,
	"step": 6500
	},
	{
	"epoch": 3.0366249420491425,
	"grad_norm": 0.06456530839204788,
	"learning_rate": 2.708867391362948e-05,
	"loss": 0.131,
	"step": 6550
	},
	{
	"epoch": 3.0366249420491425,
	"eval_loss": 0.16119627636966075,
	"eval_runtime": 60.6451,
	"eval_samples_per_second": 685.727,
	"eval_steps_per_second": 0.346,
	"step": 6550
	},
	{
	"epoch": 3.0598052851182196,
	"grad_norm": 0.05969541519880295,
	"learning_rate": 2.638644626136587e-05,
	"loss": 0.1311,
	"step": 6600
	},
	{
	"epoch": 3.0598052851182196,
	"eval_loss": 0.16205494320222197,
	"eval_runtime": 60.4532,
	"eval_samples_per_second": 687.904,
	"eval_steps_per_second": 0.347,
	"step": 6600
	},
	{
	"epoch": 3.082985628187297,
	"grad_norm": 0.06604834645986557,
	"learning_rate": 2.5690163194976575e-05,
	"loss": 0.1301,
	"step": 6650
	},
	{
	"epoch": 3.082985628187297,
	"eval_loss": 0.16191228875556468,
	"eval_runtime": 60.3489,
	"eval_samples_per_second": 689.093,
	"eval_steps_per_second": 0.348,
	"step": 6650
	},
	{
	"epoch": 3.1061659712563747,
	"grad_norm": 0.06501331180334091,
	"learning_rate": 2.500000000000001e-05,
	"loss": 0.1298,
	"step": 6700
	},
	{
	"epoch": 3.1061659712563747,
	"eval_loss": 0.16219026561577268,
	"eval_runtime": 60.2703,
	"eval_samples_per_second": 689.992,
	"eval_steps_per_second": 0.348,
	"step": 6700
	},
	{
	"epoch": 3.129346314325452,
	"grad_norm": 0.056004952639341354,
	"learning_rate": 2.4316130421329697e-05,
	"loss": 0.1302,
	"step": 6750
	},
	{
	"epoch": 3.129346314325452,
	"eval_loss": 0.16085075220051892,
	"eval_runtime": 60.336,
	"eval_samples_per_second": 689.24,
	"eval_steps_per_second": 0.348,
	"step": 6750
	},
	{
	"epoch": 3.1525266573945294,
	"grad_norm": 0.06331496685743332,
	"learning_rate": 2.363872661947488e-05,
	"loss": 0.1311,
	"step": 6800
	},
	{
	"epoch": 3.1525266573945294,
	"eval_loss": 0.16229801712553438,
	"eval_runtime": 59.8727,
	"eval_samples_per_second": 694.573,
	"eval_steps_per_second": 0.351,
	"step": 6800
	},
	{
	"epoch": 3.175707000463607,
	"grad_norm": 0.05851437896490097,
	"learning_rate": 2.296795912722014e-05,
	"loss": 0.1304,
	"step": 6850
	},
	{
	"epoch": 3.175707000463607,
	"eval_loss": 0.1624837018550472,
	"eval_runtime": 60.0768,
	"eval_samples_per_second": 692.214,
	"eval_steps_per_second": 0.35,
	"step": 6850
	},
	{
	"epoch": 3.198887343532684,
	"grad_norm": 0.06251411885023117,
	"learning_rate": 2.2303996806694488e-05,
	"loss": 0.1306,
	"step": 6900
	},
	{
	"epoch": 3.198887343532684,
	"eval_loss": 0.16152431005864756,
	"eval_runtime": 60.0137,
	"eval_samples_per_second": 692.942,
	"eval_steps_per_second": 0.35,
	"step": 6900
	},
	{
	"epoch": 3.2220676866017617,
	"grad_norm": 0.055478889495134354,
	"learning_rate": 2.164700680686147e-05,
	"loss": 0.1302,
	"step": 6950
	},
	{
	"epoch": 3.2220676866017617,
	"eval_loss": 0.16217289975188992,
	"eval_runtime": 59.7201,
	"eval_samples_per_second": 696.349,
	"eval_steps_per_second": 0.352,
	"step": 6950
	},
	{
	"epoch": 3.2452480296708393,
	"grad_norm": 0.04695391282439232,
	"learning_rate": 2.09971545214401e-05,
	"loss": 0.1307,
	"step": 7000
	},
	{
	"epoch": 3.2452480296708393,
	"eval_loss": 0.16233282789861117,
	"eval_runtime": 60.2382,
	"eval_samples_per_second": 690.359,
	"eval_steps_per_second": 0.349,
	"step": 7000
	},
	{
	"epoch": 3.2684283727399164,
	"grad_norm": 0.05719252675771713,
	"learning_rate": 2.0354603547267985e-05,
	"loss": 0.1302,
	"step": 7050
	},
	{
	"epoch": 3.2684283727399164,
	"eval_loss": 0.16257561894818798,
	"eval_runtime": 59.9661,
	"eval_samples_per_second": 693.491,
	"eval_steps_per_second": 0.35,
	"step": 7050
	},
	{
	"epoch": 3.291608715808994,
	"grad_norm": 0.05995924398303032,
	"learning_rate": 1.9719515643116674e-05,
	"loss": 0.1296,
	"step": 7100
	},
	{
	"epoch": 3.291608715808994,
	"eval_loss": 0.1621910867534911,
	"eval_runtime": 59.9872,
	"eval_samples_per_second": 693.248,
	"eval_steps_per_second": 0.35,
	"step": 7100
	},
	{
	"epoch": 3.3147890588780715,
	"grad_norm": 0.06421925872564316,
	"learning_rate": 1.9092050688969738e-05,
	"loss": 0.1321,
	"step": 7150
	},
	{
	"epoch": 3.3147890588780715,
	"eval_loss": 0.16221412998892937,
	"eval_runtime": 59.9186,
	"eval_samples_per_second": 694.042,
	"eval_steps_per_second": 0.35,
	"step": 7150
	},
	{
	"epoch": 3.3379694019471486,
	"grad_norm": 0.04900297895073891,
	"learning_rate": 1.847236664577389e-05,
	"loss": 0.1307,
	"step": 7200
	},
	{
	"epoch": 3.3379694019471486,
	"eval_loss": 0.16276321033314364,
	"eval_runtime": 59.8713,
	"eval_samples_per_second": 694.59,
	"eval_steps_per_second": 0.351,
	"step": 7200
	},
	{
	"epoch": 3.361149745016226,
	"grad_norm": 0.06865038722753525,
	"learning_rate": 1.7860619515673033e-05,
	"loss": 0.1301,
	"step": 7250
	},
	{
	"epoch": 3.361149745016226,
	"eval_loss": 0.16246198975876286,
	"eval_runtime": 60.1366,
	"eval_samples_per_second": 691.525,
	"eval_steps_per_second": 0.349,
	"step": 7250
	},
	{
	"epoch": 3.384330088085304,
	"grad_norm": 0.060604266822338104,
	"learning_rate": 1.725696330273575e-05,
	"loss": 0.1307,
	"step": 7300
	},
	{
	"epoch": 3.384330088085304,
	"eval_loss": 0.16321014850841353,
	"eval_runtime": 60.2328,
	"eval_samples_per_second": 690.421,
	"eval_steps_per_second": 0.349,
	"step": 7300
	},
	{
	"epoch": 3.407510431154381,
	"grad_norm": 0.061620261520147324,
	"learning_rate": 1.6661549974185424e-05,
	"loss": 0.1305,
	"step": 7350
	},
	{
	"epoch": 3.407510431154381,
	"eval_loss": 0.1627398211288196,
	"eval_runtime": 60.2249,
	"eval_samples_per_second": 690.512,
	"eval_steps_per_second": 0.349,
	"step": 7350
	},
	{
	"epoch": 3.4306907742234585,
	"grad_norm": 0.046630218625068665,
	"learning_rate": 1.60745294221434e-05,
	"loss": 0.1303,
	"step": 7400
	},
	{
	"epoch": 3.4306907742234585,
	"eval_loss": 0.16263843892878527,
	"eval_runtime": 59.9369,
	"eval_samples_per_second": 693.829,
	"eval_steps_per_second": 0.35,
	"step": 7400
	},
	{
	"epoch": 3.453871117292536,
	"grad_norm": 0.06071937829256058,
	"learning_rate": 1.549604942589441e-05,
	"loss": 0.13,
	"step": 7450
	},
	{
	"epoch": 3.453871117292536,
	"eval_loss": 0.1624999877883929,
	"eval_runtime": 59.843,
	"eval_samples_per_second": 694.919,
	"eval_steps_per_second": 0.351,
	"step": 7450
	},
	{
	"epoch": 3.477051460361613,
	"grad_norm": 0.0633426085114479,
	"learning_rate": 1.4926255614683932e-05,
	"loss": 0.1288,
	"step": 7500
	},
	{
	"epoch": 3.477051460361613,
	"eval_loss": 0.1632884555568049,
	"eval_runtime": 59.8153,
	"eval_samples_per_second": 695.24,
	"eval_steps_per_second": 0.351,
	"step": 7500
	},
	{
	"epoch": 3.5002318034306907,
	"grad_norm": 0.06753742694854736,
	"learning_rate": 1.4365291431056871e-05,
	"loss": 0.1301,
	"step": 7550
	},
	{
	"epoch": 3.5002318034306907,
	"eval_loss": 0.16175284084180716,
	"eval_runtime": 59.9226,
	"eval_samples_per_second": 693.995,
	"eval_steps_per_second": 0.35,
	"step": 7550
	},
	{
	"epoch": 3.5234121464997683,
	"grad_norm": 0.05140328034758568,
	"learning_rate": 1.3813298094746491e-05,
	"loss": 0.1304,
	"step": 7600
	},
	{
	"epoch": 3.5234121464997683,
	"eval_loss": 0.16199897513596326,
	"eval_runtime": 59.9917,
	"eval_samples_per_second": 693.196,
	"eval_steps_per_second": 0.35,
	"step": 7600
	},
	{
	"epoch": 3.5465924895688454,
	"grad_norm": 0.054956089705228806,
	"learning_rate": 1.327041456712334e-05,
	"loss": 0.1303,
	"step": 7650
	},
	{
	"epoch": 3.5465924895688454,
	"eval_loss": 0.16214041701821919,
	"eval_runtime": 59.9306,
	"eval_samples_per_second": 693.903,
	"eval_steps_per_second": 0.35,
	"step": 7650
	},
	{
	"epoch": 3.569772832637923,
	"grad_norm": 0.059684716165065765,
	"learning_rate": 1.2736777516212266e-05,
	"loss": 0.1308,
	"step": 7700
	},
	{
	"epoch": 3.569772832637923,
	"eval_loss": 0.16299972612079205,
	"eval_runtime": 59.9509,
	"eval_samples_per_second": 693.668,
	"eval_steps_per_second": 0.35,
	"step": 7700
	},
	{
	"epoch": 3.5929531757070006,
	"grad_norm": 0.059858404099941254,
	"learning_rate": 1.2212521282287092e-05,
	"loss": 0.1297,
	"step": 7750
	},
	{
	"epoch": 3.5929531757070006,
	"eval_loss": 0.1621026389214657,
	"eval_runtime": 60.4063,
	"eval_samples_per_second": 688.438,
	"eval_steps_per_second": 0.348,
	"step": 7750
	},
	{
	"epoch": 3.6161335187760777,
	"grad_norm": 0.07229738682508469,
	"learning_rate": 1.1697777844051105e-05,
	"loss": 0.13,
	"step": 7800
	},
	{
	"epoch": 3.6161335187760777,
	"eval_loss": 0.16179662531772324,
	"eval_runtime": 60.0141,
	"eval_samples_per_second": 692.937,
	"eval_steps_per_second": 0.35,
	"step": 7800
	},
	{
	"epoch": 3.6393138618451553,
	"grad_norm": 0.058062318712472916,
	"learning_rate": 1.1192676785412154e-05,
	"loss": 0.1305,
	"step": 7850
	},
	{
	"epoch": 3.6393138618451553,
	"eval_loss": 0.16283961568372932,
	"eval_runtime": 59.7657,
	"eval_samples_per_second": 695.817,
	"eval_steps_per_second": 0.351,
	"step": 7850
	},
	{
	"epoch": 3.662494204914233,
	"grad_norm": 0.053812187165021896,
	"learning_rate": 1.0697345262860636e-05,
	"loss": 0.1314,
	"step": 7900
	},
	{
	"epoch": 3.662494204914233,
	"eval_loss": 0.16244345922930356,
	"eval_runtime": 60.3156,
	"eval_samples_per_second": 689.474,
	"eval_steps_per_second": 0.348,
	"step": 7900
	},
	{
	"epoch": 3.68567454798331,
	"grad_norm": 0.05528152361512184,
	"learning_rate": 1.021190797345839e-05,
	"loss": 0.1299,
	"step": 7950
	},
	{
	"epoch": 3.68567454798331,
	"eval_loss": 0.1616077000723995,
	"eval_runtime": 60.1023,
	"eval_samples_per_second": 691.92,
	"eval_steps_per_second": 0.349,
	"step": 7950
	},
	{
	"epoch": 3.7088548910523875,
	"grad_norm": 0.04686369001865387,
	"learning_rate": 9.73648712344707e-06,
	"loss": 0.1294,
	"step": 8000
	},
	{
	"epoch": 3.7088548910523875,
	"eval_loss": 0.16104961568942824,
	"eval_runtime": 60.1871,
	"eval_samples_per_second": 690.946,
	"eval_steps_per_second": 0.349,
	"step": 8000
	},
	{
	"epoch": 3.732035234121465,
	"grad_norm": 0.04791761189699173,
	"learning_rate": 9.271202397483215e-06,
	"loss": 0.1293,
	"step": 8050
	},
	{
	"epoch": 3.732035234121465,
	"eval_loss": 0.16180993744676672,
	"eval_runtime": 60.3514,
	"eval_samples_per_second": 689.064,
	"eval_steps_per_second": 0.348,
	"step": 8050
	},
	{
	"epoch": 3.755215577190542,
	"grad_norm": 0.0580659918487072,
	"learning_rate": 8.816170928508365e-06,
	"loss": 0.1303,
	"step": 8100
	},
	{
	"epoch": 3.755215577190542,
	"eval_loss": 0.16161086084498935,
	"eval_runtime": 60.0527,
	"eval_samples_per_second": 692.491,
	"eval_steps_per_second": 0.35,
	"step": 8100
	},
	{
	"epoch": 3.77839592025962,
	"grad_norm": 0.0652560144662857,
	"learning_rate": 8.371507268261437e-06,
	"loss": 0.1318,
	"step": 8150
	},
	{
	"epoch": 3.77839592025962,
	"eval_loss": 0.16206722540467366,
	"eval_runtime": 60.2482,
	"eval_samples_per_second": 690.244,
	"eval_steps_per_second": 0.349,
	"step": 8150
	},
	{
	"epoch": 3.8015762633286974,
	"grad_norm": 0.07411529868841171,
	"learning_rate": 7.937323358440935e-06,
	"loss": 0.1295,
	"step": 8200
	},
	{
	"epoch": 3.8015762633286974,
	"eval_loss": 0.1613134364148254,
	"eval_runtime": 60.1488,
	"eval_samples_per_second": 691.385,
	"eval_steps_per_second": 0.349,
	"step": 8200
	},
	{
	"epoch": 3.8247566063977745,
	"grad_norm": 0.05504234880208969,
	"learning_rate": 7.513728502524286e-06,
	"loss": 0.1309,
	"step": 8250
	},
	{
	"epoch": 3.8247566063977745,
	"eval_loss": 0.16200784640385216,
	"eval_runtime": 60.4444,
	"eval_samples_per_second": 688.004,
	"eval_steps_per_second": 0.347,
	"step": 8250
	},
	{
	"epoch": 3.847936949466852,
	"grad_norm": 0.053017448633909225,
	"learning_rate": 7.100829338251147e-06,
	"loss": 0.1288,
	"step": 8300
	},
	{
	"epoch": 3.847936949466852,
	"eval_loss": 0.1614959925734419,
	"eval_runtime": 60.1621,
	"eval_samples_per_second": 691.232,
	"eval_steps_per_second": 0.349,
	"step": 8300
	},
	{
	"epoch": 3.8711172925359296,
	"grad_norm": 0.055434294044971466,
	"learning_rate": 6.698729810778065e-06,
	"loss": 0.1296,
	"step": 8350
	},
	{
	"epoch": 3.8711172925359296,
	"eval_loss": 0.16227277423563163,
	"eval_runtime": 60.4168,
	"eval_samples_per_second": 688.318,
	"eval_steps_per_second": 0.348,
	"step": 8350
	},
	{
	"epoch": 3.8942976356050067,
	"grad_norm": 0.06720498204231262,
	"learning_rate": 6.3075311465107535e-06,
	"loss": 0.1302,
	"step": 8400
	},
	{
	"epoch": 3.8942976356050067,
	"eval_loss": 0.16212167182684745,
	"eval_runtime": 60.4209,
	"eval_samples_per_second": 688.271,
	"eval_steps_per_second": 0.348,
	"step": 8400
	},
	{
	"epoch": 3.9174779786740843,
	"grad_norm": 0.061678655445575714,
	"learning_rate": 5.927331827620903e-06,
	"loss": 0.1303,
	"step": 8450
	},
	{
	"epoch": 3.9174779786740843,
	"eval_loss": 0.16245438240537732,
	"eval_runtime": 60.3802,
	"eval_samples_per_second": 688.735,
	"eval_steps_per_second": 0.348,
	"step": 8450
	},
	{
	"epoch": 3.940658321743162,
	"grad_norm": 0.05170401930809021,
	"learning_rate": 5.558227567253832e-06,
	"loss": 0.1296,
	"step": 8500
	},
	{
	"epoch": 3.940658321743162,
	"eval_loss": 0.16238415050768779,
	"eval_runtime": 59.8171,
	"eval_samples_per_second": 695.22,
	"eval_steps_per_second": 0.351,
	"step": 8500
	},
	{
	"epoch": 3.963838664812239,
	"grad_norm": 0.047940943390131,
	"learning_rate": 5.200311285433213e-06,
	"loss": 0.1302,
	"step": 8550
	},
	{
	"epoch": 3.963838664812239,
	"eval_loss": 0.1614615212760627,
	"eval_runtime": 60.3377,
	"eval_samples_per_second": 689.221,
	"eval_steps_per_second": 0.348,
	"step": 8550
	},
	{
	"epoch": 3.9870190078813166,
	"grad_norm": 0.05732366070151329,
	"learning_rate": 4.853673085668947e-06,
	"loss": 0.1311,
	"step": 8600
	},
	{
	"epoch": 3.9870190078813166,
	"eval_loss": 0.16182338333614685,
	"eval_runtime": 59.83,
	"eval_samples_per_second": 695.07,
	"eval_steps_per_second": 0.351,
	"step": 8600
	},
	{
	"epoch": 4.010199350950394,
	"grad_norm": 0.04801890626549721,
	"learning_rate": 4.5184002322740785e-06,
	"loss": 0.13,
	"step": 8650
	},
	{
	"epoch": 4.010199350950394,
	"eval_loss": 0.16167779009605182,
	"eval_runtime": 60.1344,
	"eval_samples_per_second": 691.551,
	"eval_steps_per_second": 0.349,
	"step": 8650
	},
	{
	"epoch": 4.033379694019471,
	"grad_norm": 0.04426449164748192,
	"learning_rate": 4.19457712839652e-06,
	"loss": 0.1299,
	"step": 8700
	},
	{
	"epoch": 4.033379694019471,
	"eval_loss": 0.16225696461065126,
	"eval_runtime": 60.1286,
	"eval_samples_per_second": 691.618,
	"eval_steps_per_second": 0.349,
	"step": 8700
	},
	{
	"epoch": 4.056560037088549,
	"grad_norm": 0.04997009411454201,
	"learning_rate": 3.8822852947709375e-06,
	"loss": 0.1302,
	"step": 8750
	},
	{
	"epoch": 4.056560037088549,
	"eval_loss": 0.1626912588154907,
	"eval_runtime": 60.4545,
	"eval_samples_per_second": 687.889,
	"eval_steps_per_second": 0.347,
	"step": 8750
	},
	{
	"epoch": 4.079740380157626,
	"grad_norm": 0.05177464708685875,
	"learning_rate": 3.581603349196372e-06,
	"loss": 0.1302,
	"step": 8800
	},
	{
	"epoch": 4.079740380157626,
	"eval_loss": 0.16124445235835394,
	"eval_runtime": 60.5756,
	"eval_samples_per_second": 686.514,
	"eval_steps_per_second": 0.347,
	"step": 8800
	},
	{
	"epoch": 4.1029207232267035,
	"grad_norm": 0.050131019204854965,
	"learning_rate": 3.2926069867446675e-06,
	"loss": 0.1308,
	"step": 8850
	},
	{
	"epoch": 4.1029207232267035,
	"eval_loss": 0.16266127792106785,
	"eval_runtime": 60.3334,
	"eval_samples_per_second": 689.27,
	"eval_steps_per_second": 0.348,
	"step": 8850
	},
	{
	"epoch": 4.1261010662957815,
	"grad_norm": 0.05185890197753906,
	"learning_rate": 3.0153689607045845e-06,
	"loss": 0.1298,
	"step": 8900
	},
	{
	"epoch": 4.1261010662957815,
	"eval_loss": 0.16332698150424974,
	"eval_runtime": 59.9427,
	"eval_samples_per_second": 693.763,
	"eval_steps_per_second": 0.35,
	"step": 8900
	},
	{
	"epoch": 4.149281409364859,
	"grad_norm": 0.040892358869314194,
	"learning_rate": 2.7499590642665774e-06,
	"loss": 0.1297,
	"step": 8950
	},
	{
	"epoch": 4.149281409364859,
	"eval_loss": 0.16260406271159317,
	"eval_runtime": 60.3006,
	"eval_samples_per_second": 689.645,
	"eval_steps_per_second": 0.348,
	"step": 8950
	},
	{
	"epoch": 4.172461752433936,
	"grad_norm": 0.05322985723614693,
	"learning_rate": 2.496444112952734e-06,
	"loss": 0.1298,
	"step": 9000
	},
	{
	"epoch": 4.172461752433936,
	"eval_loss": 0.16165919748334914,
	"eval_runtime": 59.7702,
	"eval_samples_per_second": 695.765,
	"eval_steps_per_second": 0.351,
	"step": 9000
	},
	{
	"epoch": 4.195642095503014,
	"grad_norm": 0.04688135161995888,
	"learning_rate": 2.2548879277963064e-06,
	"loss": 0.1304,
	"step": 9050
	},
	{
	"epoch": 4.195642095503014,
	"eval_loss": 0.16230118168852276,
	"eval_runtime": 59.7759,
	"eval_samples_per_second": 695.699,
	"eval_steps_per_second": 0.351,
	"step": 9050
	},
	{
	"epoch": 4.218822438572091,
	"grad_norm": 0.056906215846538544,
	"learning_rate": 2.0253513192751373e-06,
	"loss": 0.1302,
	"step": 9100
	},
	{
	"epoch": 4.218822438572091,
	"eval_loss": 0.16160732294835795,
	"eval_runtime": 59.9195,
	"eval_samples_per_second": 694.031,
	"eval_steps_per_second": 0.35,
	"step": 9100
	},
	{
	"epoch": 4.242002781641168,
	"grad_norm": 0.05124938115477562,
	"learning_rate": 1.807892072002898e-06,
	"loss": 0.1298,
	"step": 9150
	},
	{
	"epoch": 4.242002781641168,
	"eval_loss": 0.16257827555791163,
	"eval_runtime": 59.809,
	"eval_samples_per_second": 695.314,
	"eval_steps_per_second": 0.351,
	"step": 9150
	},
	{
	"epoch": 4.265183124710246,
	"grad_norm": 0.05366729572415352,
	"learning_rate": 1.6025649301821876e-06,
	"loss": 0.1294,
	"step": 9200
	},
	{
	"epoch": 4.265183124710246,
	"eval_loss": 0.1625148541687181,
	"eval_runtime": 60.1293,
	"eval_samples_per_second": 691.61,
	"eval_steps_per_second": 0.349,
	"step": 9200
	},
	{
	"epoch": 4.288363467779323,
	"grad_norm": 0.04244421049952507,
	"learning_rate": 1.4094215838229176e-06,
	"loss": 0.1308,
	"step": 9250
	},
	{
	"epoch": 4.288363467779323,
	"eval_loss": 0.16209612657051437,
	"eval_runtime": 59.9231,
	"eval_samples_per_second": 693.989,
	"eval_steps_per_second": 0.35,
	"step": 9250
	},
	{
	"epoch": 4.3115438108484,
	"grad_norm": 0.048628535121679306,
	"learning_rate": 1.2285106557296477e-06,
	"loss": 0.1302,
	"step": 9300
	},
	{
	"epoch": 4.3115438108484,
	"eval_loss": 0.16243464161006987,
	"eval_runtime": 59.5999,
	"eval_samples_per_second": 697.753,
	"eval_steps_per_second": 0.352,
	"step": 9300
	},
	{
	"epoch": 4.334724153917478,
	"grad_norm": 0.0497569814324379,
	"learning_rate": 1.0598776892610685e-06,
	"loss": 0.1311,
	"step": 9350
	},
	{
	"epoch": 4.334724153917478,
	"eval_loss": 0.16128818092832087,
	"eval_runtime": 59.8848,
	"eval_samples_per_second": 694.433,
	"eval_steps_per_second": 0.351,
	"step": 9350
	},
	{
	"epoch": 4.3579044969865555,
	"grad_norm": 0.07471216470003128,
	"learning_rate": 9.035651368646648e-07,
	"loss": 0.1304,
	"step": 9400
	},
	{
	"epoch": 4.3579044969865555,
	"eval_loss": 0.16288733155633187,
	"eval_runtime": 59.8227,
	"eval_samples_per_second": 695.154,
	"eval_steps_per_second": 0.351,
	"step": 9400
	},
	{
	"epoch": 4.381084840055633,
	"grad_norm": 0.058552809059619904,
	"learning_rate": 7.596123493895991e-07,
	"loss": 0.13,
	"step": 9450
	},
	{
	"epoch": 4.381084840055633,
	"eval_loss": 0.1634707775926499,
	"eval_runtime": 59.9789,
	"eval_samples_per_second": 693.344,
	"eval_steps_per_second": 0.35,
	"step": 9450
	},
	{
	"epoch": 4.404265183124711,
	"grad_norm": 0.05357597768306732,
	"learning_rate": 6.280555661802856e-07,
	"loss": 0.1295,
	"step": 9500
	},
	{
	"epoch": 4.404265183124711,
	"eval_loss": 0.1615680252075211,
	"eval_runtime": 60.1682,
	"eval_samples_per_second": 691.163,
	"eval_steps_per_second": 0.349,
	"step": 9500
	},
	{
	"epoch": 4.427445526193788,
	"grad_norm": 0.05787508189678192,
	"learning_rate": 5.089279059533658e-07,
	"loss": 0.1305,
	"step": 9550
	},
	{
	"epoch": 4.427445526193788,
	"eval_loss": 0.16174036094333355,
	"eval_runtime": 60.1289,
	"eval_samples_per_second": 691.615,
	"eval_steps_per_second": 0.349,
	"step": 9550
	},
	{
	"epoch": 4.450625869262865,
	"grad_norm": 0.049546804279088974,
	"learning_rate": 4.02259358460233e-07,
	"loss": 0.13,
	"step": 9600
	},
	{
	"epoch": 4.450625869262865,
	"eval_loss": 0.16296962879417173,
	"eval_runtime": 60.1209,
	"eval_samples_per_second": 691.706,
	"eval_steps_per_second": 0.349,
	"step": 9600
	},
	{
	"epoch": 4.473806212331943,
	"grad_norm": 0.05137551948428154,
	"learning_rate": 3.080767769372939e-07,
	"loss": 0.1297,
	"step": 9650
	},
	{
	"epoch": 4.473806212331943,
	"eval_loss": 0.16134209315513928,
	"eval_runtime": 60.0886,
	"eval_samples_per_second": 692.078,
	"eval_steps_per_second": 0.349,
	"step": 9650
	},
	{
	"epoch": 4.49698655540102,
	"grad_norm": 0.05584505572915077,
	"learning_rate": 2.2640387134577058e-07,
	"loss": 0.13,
	"step": 9700
	},
	{
	"epoch": 4.49698655540102,
	"eval_loss": 0.1621784231504334,
	"eval_runtime": 59.7716,
	"eval_samples_per_second": 695.749,
	"eval_steps_per_second": 0.351,
	"step": 9700
	},
	{
	"epoch": 4.520166898470097,
	"grad_norm": 0.0450916662812233,
	"learning_rate": 1.5726120240288634e-07,
	"loss": 0.1302,
	"step": 9750
	},
	{
	"epoch": 4.520166898470097,
	"eval_loss": 0.16172961751477263,
	"eval_runtime": 59.9065,
	"eval_samples_per_second": 694.182,
	"eval_steps_per_second": 0.351,
	"step": 9750
	},
	{
	"epoch": 4.543347241539175,
	"grad_norm": 0.0475350059568882,
	"learning_rate": 1.0066617640578368e-07,
	"loss": 0.1305,
	"step": 9800
	},
	{
	"epoch": 4.543347241539175,
	"eval_loss": 0.16216248300305847,
	"eval_runtime": 60.3498,
	"eval_samples_per_second": 689.083,
	"eval_steps_per_second": 0.348,
	"step": 9800
	},
	{
	"epoch": 4.566527584608252,
	"grad_norm": 0.057694341987371445,
	"learning_rate": 5.663304084960186e-08,
	"loss": 0.1299,
	"step": 9850
	},
	{
	"epoch": 4.566527584608252,
	"eval_loss": 0.16307967354038033,
	"eval_runtime": 59.9352,
	"eval_samples_per_second": 693.849,
	"eval_steps_per_second": 0.35,
	"step": 9850
	},
	{
	"epoch": 4.589707927677329,
	"grad_norm": 0.06310451030731201,
	"learning_rate": 2.5172880840745873e-08,
	"loss": 0.1299,
	"step": 9900
	},
	{
	"epoch": 4.589707927677329,
	"eval_loss": 0.16178384342894997,
	"eval_runtime": 60.0389,
	"eval_samples_per_second": 692.651,
	"eval_steps_per_second": 0.35,
	"step": 9900
	},
	{
	"epoch": 4.612888270746407,
	"grad_norm": 0.041533030569553375,
	"learning_rate": 6.293616306246586e-09,
	"loss": 0.1307,
	"step": 9950
	},
	{
	"epoch": 4.612888270746407,
	"eval_loss": 0.1629453700829326,
	"eval_runtime": 59.9874,
	"eval_samples_per_second": 693.246,
	"eval_steps_per_second": 0.35,
	"step": 9950
	},
	{
	"epoch": 4.6360686138154845,
	"grad_norm": 0.051685914397239685,
	"learning_rate": 0.0,
	"loss": 0.1293,
	"step": 10000
	},
	{
	"epoch": 4.6360686138154845,
	"eval_loss": 0.161578423628233,
	"eval_runtime": 60.1396,
	"eval_samples_per_second": 691.491,
	"eval_steps_per_second": 0.349,
	"step": 10000
	},
	{
	"epoch": 4.6360686138154845,
	"step": 10000,
	"total_flos": 1.2082504232914125e+17,
	"train_loss": 0.134784215593338,
	"train_runtime": 38606.1249,
	"train_samples_per_second": 530.486,
	"train_steps_per_second": 0.259
	}
	],
	"logging_steps": 50,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 50,
	"total_flos": 1.2082504232914125e+17,
	"train_batch_size": 2048,
	"trial_name": null,
	"trial_params": null
	}