Upload genome_sequence BERT medium model (60k steps)

346c427 verified 14 days ago

235 kB

	{
	"best_metric": 6.378762722015381,
	"best_model_checkpoint": "learning_source_20260316/genome_sequence/bert-output/genome_sequence-medium/checkpoint-59000",
	"epoch": 133.07457721097865,
	"eval_steps": 100,
	"global_step": 60000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.22179096201829776,
	"grad_norm": 0.9846197366714478,
	"learning_rate": 3e-06,
	"loss": 8.0812,
	"step": 100
	},
	{
	"epoch": 0.22179096201829776,
	"eval_loss": 7.739930629730225,
	"eval_runtime": 175.2691,
	"eval_samples_per_second": 57.055,
	"eval_steps_per_second": 7.132,
	"step": 100
	},
	{
	"epoch": 0.4435819240365955,
	"grad_norm": 0.7575621604919434,
	"learning_rate": 6e-06,
	"loss": 7.5841,
	"step": 200
	},
	{
	"epoch": 0.4435819240365955,
	"eval_loss": 7.357375144958496,
	"eval_runtime": 174.8425,
	"eval_samples_per_second": 57.194,
	"eval_steps_per_second": 7.149,
	"step": 200
	},
	{
	"epoch": 0.6653728860548933,
	"grad_norm": 2.5145933628082275,
	"learning_rate": 5.989966555183947e-06,
	"loss": 7.2475,
	"step": 300
	},
	{
	"epoch": 0.6653728860548933,
	"eval_loss": 7.029321193695068,
	"eval_runtime": 174.7596,
	"eval_samples_per_second": 57.221,
	"eval_steps_per_second": 7.153,
	"step": 300
	},
	{
	"epoch": 0.887163848073191,
	"grad_norm": 2.1445820331573486,
	"learning_rate": 5.979933110367893e-06,
	"loss": 7.0137,
	"step": 400
	},
	{
	"epoch": 0.887163848073191,
	"eval_loss": 6.827342987060547,
	"eval_runtime": 174.7661,
	"eval_samples_per_second": 57.219,
	"eval_steps_per_second": 7.152,
	"step": 400
	},
	{
	"epoch": 1.1089548100914888,
	"grad_norm": 2.264369010925293,
	"learning_rate": 5.96989966555184e-06,
	"loss": 6.8546,
	"step": 500
	},
	{
	"epoch": 1.1089548100914888,
	"eval_loss": 6.712888240814209,
	"eval_runtime": 174.751,
	"eval_samples_per_second": 57.224,
	"eval_steps_per_second": 7.153,
	"step": 500
	},
	{
	"epoch": 1.3307457721097866,
	"grad_norm": 2.162890911102295,
	"learning_rate": 5.959866220735786e-06,
	"loss": 6.7576,
	"step": 600
	},
	{
	"epoch": 1.3307457721097866,
	"eval_loss": 6.646862506866455,
	"eval_runtime": 174.794,
	"eval_samples_per_second": 57.21,
	"eval_steps_per_second": 7.151,
	"step": 600
	},
	{
	"epoch": 1.5525367341280842,
	"grad_norm": 1.8144651651382446,
	"learning_rate": 5.949832775919732e-06,
	"loss": 6.6931,
	"step": 700
	},
	{
	"epoch": 1.5525367341280842,
	"eval_loss": 6.603611946105957,
	"eval_runtime": 174.6927,
	"eval_samples_per_second": 57.243,
	"eval_steps_per_second": 7.155,
	"step": 700
	},
	{
	"epoch": 1.774327696146382,
	"grad_norm": 1.877691626548767,
	"learning_rate": 5.939799331103679e-06,
	"loss": 6.6514,
	"step": 800
	},
	{
	"epoch": 1.774327696146382,
	"eval_loss": 6.573204517364502,
	"eval_runtime": 174.7097,
	"eval_samples_per_second": 57.238,
	"eval_steps_per_second": 7.155,
	"step": 800
	},
	{
	"epoch": 1.9961186581646797,
	"grad_norm": 0.6093182563781738,
	"learning_rate": 5.929765886287626e-06,
	"loss": 6.6173,
	"step": 900
	},
	{
	"epoch": 1.9961186581646797,
	"eval_loss": 6.551618576049805,
	"eval_runtime": 174.7562,
	"eval_samples_per_second": 57.223,
	"eval_steps_per_second": 7.153,
	"step": 900
	},
	{
	"epoch": 2.2179096201829775,
	"grad_norm": 0.6819909811019897,
	"learning_rate": 5.919732441471572e-06,
	"loss": 6.5884,
	"step": 1000
	},
	{
	"epoch": 2.2179096201829775,
	"eval_loss": 6.52918004989624,
	"eval_runtime": 174.672,
	"eval_samples_per_second": 57.25,
	"eval_steps_per_second": 7.156,
	"step": 1000
	},
	{
	"epoch": 2.4397005822012754,
	"grad_norm": 1.7704071998596191,
	"learning_rate": 5.9096989966555185e-06,
	"loss": 6.5703,
	"step": 1100
	},
	{
	"epoch": 2.4397005822012754,
	"eval_loss": 6.522487640380859,
	"eval_runtime": 173.2328,
	"eval_samples_per_second": 57.726,
	"eval_steps_per_second": 7.216,
	"step": 1100
	},
	{
	"epoch": 2.6614915442195732,
	"grad_norm": 0.34777677059173584,
	"learning_rate": 5.899665551839465e-06,
	"loss": 6.5571,
	"step": 1200
	},
	{
	"epoch": 2.6614915442195732,
	"eval_loss": 6.512077808380127,
	"eval_runtime": 174.7576,
	"eval_samples_per_second": 57.222,
	"eval_steps_per_second": 7.153,
	"step": 1200
	},
	{
	"epoch": 2.8832825062378706,
	"grad_norm": 0.40927115082740784,
	"learning_rate": 5.889632107023412e-06,
	"loss": 6.5403,
	"step": 1300
	},
	{
	"epoch": 2.8832825062378706,
	"eval_loss": 6.502514839172363,
	"eval_runtime": 174.8661,
	"eval_samples_per_second": 57.187,
	"eval_steps_per_second": 7.148,
	"step": 1300
	},
	{
	"epoch": 3.1050734682561685,
	"grad_norm": 1.628187894821167,
	"learning_rate": 5.879598662207358e-06,
	"loss": 6.5271,
	"step": 1400
	},
	{
	"epoch": 3.1050734682561685,
	"eval_loss": 6.495711803436279,
	"eval_runtime": 173.1482,
	"eval_samples_per_second": 57.754,
	"eval_steps_per_second": 7.219,
	"step": 1400
	},
	{
	"epoch": 3.3268644302744663,
	"grad_norm": 0.2986718416213989,
	"learning_rate": 5.869565217391305e-06,
	"loss": 6.5149,
	"step": 1500
	},
	{
	"epoch": 3.3268644302744663,
	"eval_loss": 6.48654317855835,
	"eval_runtime": 174.8407,
	"eval_samples_per_second": 57.195,
	"eval_steps_per_second": 7.149,
	"step": 1500
	},
	{
	"epoch": 3.548655392292764,
	"grad_norm": 0.2633047103881836,
	"learning_rate": 5.8595317725752514e-06,
	"loss": 6.5072,
	"step": 1600
	},
	{
	"epoch": 3.548655392292764,
	"eval_loss": 6.482588291168213,
	"eval_runtime": 172.4593,
	"eval_samples_per_second": 57.985,
	"eval_steps_per_second": 7.248,
	"step": 1600
	},
	{
	"epoch": 3.770446354311062,
	"grad_norm": 1.4255868196487427,
	"learning_rate": 5.849498327759197e-06,
	"loss": 6.5022,
	"step": 1700
	},
	{
	"epoch": 3.770446354311062,
	"eval_loss": 6.47553825378418,
	"eval_runtime": 174.7719,
	"eval_samples_per_second": 57.217,
	"eval_steps_per_second": 7.152,
	"step": 1700
	},
	{
	"epoch": 3.9922373163293594,
	"grad_norm": 0.9065702557563782,
	"learning_rate": 5.839464882943144e-06,
	"loss": 6.4959,
	"step": 1800
	},
	{
	"epoch": 3.9922373163293594,
	"eval_loss": 6.473917484283447,
	"eval_runtime": 174.8124,
	"eval_samples_per_second": 57.204,
	"eval_steps_per_second": 7.151,
	"step": 1800
	},
	{
	"epoch": 4.214028278347658,
	"grad_norm": 0.566608190536499,
	"learning_rate": 5.829431438127091e-06,
	"loss": 6.4886,
	"step": 1900
	},
	{
	"epoch": 4.214028278347658,
	"eval_loss": 6.469518184661865,
	"eval_runtime": 174.705,
	"eval_samples_per_second": 57.239,
	"eval_steps_per_second": 7.155,
	"step": 1900
	},
	{
	"epoch": 4.435819240365955,
	"grad_norm": 0.48451030254364014,
	"learning_rate": 5.819397993311037e-06,
	"loss": 6.4833,
	"step": 2000
	},
	{
	"epoch": 4.435819240365955,
	"eval_loss": 6.466635704040527,
	"eval_runtime": 172.7376,
	"eval_samples_per_second": 57.891,
	"eval_steps_per_second": 7.236,
	"step": 2000
	},
	{
	"epoch": 4.6576102023842525,
	"grad_norm": 0.9523207545280457,
	"learning_rate": 5.8093645484949836e-06,
	"loss": 6.4787,
	"step": 2100
	},
	{
	"epoch": 4.6576102023842525,
	"eval_loss": 6.461461544036865,
	"eval_runtime": 175.0633,
	"eval_samples_per_second": 57.122,
	"eval_steps_per_second": 7.14,
	"step": 2100
	},
	{
	"epoch": 4.879401164402551,
	"grad_norm": 0.5693651437759399,
	"learning_rate": 5.79933110367893e-06,
	"loss": 6.4728,
	"step": 2200
	},
	{
	"epoch": 4.879401164402551,
	"eval_loss": 6.459517478942871,
	"eval_runtime": 172.5038,
	"eval_samples_per_second": 57.97,
	"eval_steps_per_second": 7.246,
	"step": 2200
	},
	{
	"epoch": 5.101192126420848,
	"grad_norm": 0.5901357531547546,
	"learning_rate": 5.789297658862876e-06,
	"loss": 6.4696,
	"step": 2300
	},
	{
	"epoch": 5.101192126420848,
	"eval_loss": 6.457067012786865,
	"eval_runtime": 174.7951,
	"eval_samples_per_second": 57.21,
	"eval_steps_per_second": 7.151,
	"step": 2300
	},
	{
	"epoch": 5.3229830884391465,
	"grad_norm": 1.0042142868041992,
	"learning_rate": 5.779264214046823e-06,
	"loss": 6.4653,
	"step": 2400
	},
	{
	"epoch": 5.3229830884391465,
	"eval_loss": 6.453999042510986,
	"eval_runtime": 172.3564,
	"eval_samples_per_second": 58.019,
	"eval_steps_per_second": 7.252,
	"step": 2400
	},
	{
	"epoch": 5.544774050457444,
	"grad_norm": 0.7791227102279663,
	"learning_rate": 5.76923076923077e-06,
	"loss": 6.4633,
	"step": 2500
	},
	{
	"epoch": 5.544774050457444,
	"eval_loss": 6.451336860656738,
	"eval_runtime": 174.7261,
	"eval_samples_per_second": 57.232,
	"eval_steps_per_second": 7.154,
	"step": 2500
	},
	{
	"epoch": 5.766565012475741,
	"grad_norm": 0.8784928321838379,
	"learning_rate": 5.759197324414716e-06,
	"loss": 6.4583,
	"step": 2600
	},
	{
	"epoch": 5.766565012475741,
	"eval_loss": 6.448914051055908,
	"eval_runtime": 174.6875,
	"eval_samples_per_second": 57.245,
	"eval_steps_per_second": 7.156,
	"step": 2600
	},
	{
	"epoch": 5.98835597449404,
	"grad_norm": 0.5964264869689941,
	"learning_rate": 5.7491638795986624e-06,
	"loss": 6.4565,
	"step": 2700
	},
	{
	"epoch": 5.98835597449404,
	"eval_loss": 6.4472856521606445,
	"eval_runtime": 174.8096,
	"eval_samples_per_second": 57.205,
	"eval_steps_per_second": 7.151,
	"step": 2700
	},
	{
	"epoch": 6.210146936512337,
	"grad_norm": 0.9274541735649109,
	"learning_rate": 5.739130434782609e-06,
	"loss": 6.4532,
	"step": 2800
	},
	{
	"epoch": 6.210146936512337,
	"eval_loss": 6.4447126388549805,
	"eval_runtime": 174.8407,
	"eval_samples_per_second": 57.195,
	"eval_steps_per_second": 7.149,
	"step": 2800
	},
	{
	"epoch": 6.431937898530635,
	"grad_norm": 1.001717209815979,
	"learning_rate": 5.729096989966555e-06,
	"loss": 6.4502,
	"step": 2900
	},
	{
	"epoch": 6.431937898530635,
	"eval_loss": 6.442678928375244,
	"eval_runtime": 174.8426,
	"eval_samples_per_second": 57.194,
	"eval_steps_per_second": 7.149,
	"step": 2900
	},
	{
	"epoch": 6.653728860548933,
	"grad_norm": 1.0303460359573364,
	"learning_rate": 5.719063545150502e-06,
	"loss": 6.4461,
	"step": 3000
	},
	{
	"epoch": 6.653728860548933,
	"eval_loss": 6.441711902618408,
	"eval_runtime": 174.9081,
	"eval_samples_per_second": 57.173,
	"eval_steps_per_second": 7.147,
	"step": 3000
	},
	{
	"epoch": 6.87551982256723,
	"grad_norm": 0.8993558287620544,
	"learning_rate": 5.709030100334449e-06,
	"loss": 6.4441,
	"step": 3100
	},
	{
	"epoch": 6.87551982256723,
	"eval_loss": 6.4411845207214355,
	"eval_runtime": 174.9473,
	"eval_samples_per_second": 57.16,
	"eval_steps_per_second": 7.145,
	"step": 3100
	},
	{
	"epoch": 7.097310784585528,
	"grad_norm": 0.8197622299194336,
	"learning_rate": 5.698996655518395e-06,
	"loss": 6.4423,
	"step": 3200
	},
	{
	"epoch": 7.097310784585528,
	"eval_loss": 6.436513900756836,
	"eval_runtime": 174.8498,
	"eval_samples_per_second": 57.192,
	"eval_steps_per_second": 7.149,
	"step": 3200
	},
	{
	"epoch": 7.319101746603826,
	"grad_norm": 0.8674586415290833,
	"learning_rate": 5.688963210702341e-06,
	"loss": 6.4396,
	"step": 3300
	},
	{
	"epoch": 7.319101746603826,
	"eval_loss": 6.435162544250488,
	"eval_runtime": 174.7933,
	"eval_samples_per_second": 57.21,
	"eval_steps_per_second": 7.151,
	"step": 3300
	},
	{
	"epoch": 7.540892708622124,
	"grad_norm": 1.1237138509750366,
	"learning_rate": 5.678929765886288e-06,
	"loss": 6.436,
	"step": 3400
	},
	{
	"epoch": 7.540892708622124,
	"eval_loss": 6.435031414031982,
	"eval_runtime": 175.3834,
	"eval_samples_per_second": 57.018,
	"eval_steps_per_second": 7.127,
	"step": 3400
	},
	{
	"epoch": 7.762683670640421,
	"grad_norm": 0.8178996443748474,
	"learning_rate": 5.668896321070235e-06,
	"loss": 6.436,
	"step": 3500
	},
	{
	"epoch": 7.762683670640421,
	"eval_loss": 6.435057640075684,
	"eval_runtime": 174.7238,
	"eval_samples_per_second": 57.233,
	"eval_steps_per_second": 7.154,
	"step": 3500
	},
	{
	"epoch": 7.984474632658719,
	"grad_norm": 1.035356044769287,
	"learning_rate": 5.658862876254181e-06,
	"loss": 6.4349,
	"step": 3600
	},
	{
	"epoch": 7.984474632658719,
	"eval_loss": 6.434642791748047,
	"eval_runtime": 174.772,
	"eval_samples_per_second": 57.217,
	"eval_steps_per_second": 7.152,
	"step": 3600
	},
	{
	"epoch": 8.206265594677017,
	"grad_norm": 0.5910846590995789,
	"learning_rate": 5.6488294314381275e-06,
	"loss": 6.4321,
	"step": 3700
	},
	{
	"epoch": 8.206265594677017,
	"eval_loss": 6.431816577911377,
	"eval_runtime": 174.7565,
	"eval_samples_per_second": 57.222,
	"eval_steps_per_second": 7.153,
	"step": 3700
	},
	{
	"epoch": 8.428056556695315,
	"grad_norm": 1.0821483135223389,
	"learning_rate": 5.638795986622074e-06,
	"loss": 6.4311,
	"step": 3800
	},
	{
	"epoch": 8.428056556695315,
	"eval_loss": 6.432049751281738,
	"eval_runtime": 174.8038,
	"eval_samples_per_second": 57.207,
	"eval_steps_per_second": 7.151,
	"step": 3800
	},
	{
	"epoch": 8.649847518713612,
	"grad_norm": 0.3947916328907013,
	"learning_rate": 5.62876254180602e-06,
	"loss": 6.4274,
	"step": 3900
	},
	{
	"epoch": 8.649847518713612,
	"eval_loss": 6.434264183044434,
	"eval_runtime": 174.9692,
	"eval_samples_per_second": 57.153,
	"eval_steps_per_second": 7.144,
	"step": 3900
	},
	{
	"epoch": 8.87163848073191,
	"grad_norm": 0.9494003653526306,
	"learning_rate": 5.618729096989967e-06,
	"loss": 6.4274,
	"step": 4000
	},
	{
	"epoch": 8.87163848073191,
	"eval_loss": 6.430780410766602,
	"eval_runtime": 172.2523,
	"eval_samples_per_second": 58.054,
	"eval_steps_per_second": 7.257,
	"step": 4000
	},
	{
	"epoch": 9.093429442750208,
	"grad_norm": 1.1131881475448608,
	"learning_rate": 5.608695652173914e-06,
	"loss": 6.4257,
	"step": 4100
	},
	{
	"epoch": 9.093429442750208,
	"eval_loss": 6.429464817047119,
	"eval_runtime": 174.8834,
	"eval_samples_per_second": 57.181,
	"eval_steps_per_second": 7.148,
	"step": 4100
	},
	{
	"epoch": 9.315220404768505,
	"grad_norm": 1.5252963304519653,
	"learning_rate": 5.59866220735786e-06,
	"loss": 6.4234,
	"step": 4200
	},
	{
	"epoch": 9.315220404768505,
	"eval_loss": 6.428813934326172,
	"eval_runtime": 174.7709,
	"eval_samples_per_second": 57.218,
	"eval_steps_per_second": 7.152,
	"step": 4200
	},
	{
	"epoch": 9.537011366786803,
	"grad_norm": 0.7536811828613281,
	"learning_rate": 5.588628762541806e-06,
	"loss": 6.4234,
	"step": 4300
	},
	{
	"epoch": 9.537011366786803,
	"eval_loss": 6.428880214691162,
	"eval_runtime": 174.7826,
	"eval_samples_per_second": 57.214,
	"eval_steps_per_second": 7.152,
	"step": 4300
	},
	{
	"epoch": 9.758802328805102,
	"grad_norm": 0.6803523302078247,
	"learning_rate": 5.578595317725753e-06,
	"loss": 6.4212,
	"step": 4400
	},
	{
	"epoch": 9.758802328805102,
	"eval_loss": 6.426270484924316,
	"eval_runtime": 174.8236,
	"eval_samples_per_second": 57.201,
	"eval_steps_per_second": 7.15,
	"step": 4400
	},
	{
	"epoch": 9.9805932908234,
	"grad_norm": 0.8163429498672485,
	"learning_rate": 5.568561872909699e-06,
	"loss": 6.4165,
	"step": 4500
	},
	{
	"epoch": 9.9805932908234,
	"eval_loss": 6.428164005279541,
	"eval_runtime": 174.8809,
	"eval_samples_per_second": 57.182,
	"eval_steps_per_second": 7.148,
	"step": 4500
	},
	{
	"epoch": 10.202384252841696,
	"grad_norm": 0.630403459072113,
	"learning_rate": 5.558528428093646e-06,
	"loss": 6.4189,
	"step": 4600
	},
	{
	"epoch": 10.202384252841696,
	"eval_loss": 6.428719520568848,
	"eval_runtime": 174.7591,
	"eval_samples_per_second": 57.222,
	"eval_steps_per_second": 7.153,
	"step": 4600
	},
	{
	"epoch": 10.424175214859995,
	"grad_norm": 0.8704747557640076,
	"learning_rate": 5.548494983277593e-06,
	"loss": 6.4192,
	"step": 4700
	},
	{
	"epoch": 10.424175214859995,
	"eval_loss": 6.423656463623047,
	"eval_runtime": 174.707,
	"eval_samples_per_second": 57.239,
	"eval_steps_per_second": 7.155,
	"step": 4700
	},
	{
	"epoch": 10.645966176878293,
	"grad_norm": 1.2153334617614746,
	"learning_rate": 5.5384615384615385e-06,
	"loss": 6.4176,
	"step": 4800
	},
	{
	"epoch": 10.645966176878293,
	"eval_loss": 6.427283763885498,
	"eval_runtime": 174.8703,
	"eval_samples_per_second": 57.185,
	"eval_steps_per_second": 7.148,
	"step": 4800
	},
	{
	"epoch": 10.86775713889659,
	"grad_norm": 0.9878360629081726,
	"learning_rate": 5.528428093645485e-06,
	"loss": 6.4147,
	"step": 4900
	},
	{
	"epoch": 10.86775713889659,
	"eval_loss": 6.424483776092529,
	"eval_runtime": 174.7677,
	"eval_samples_per_second": 57.219,
	"eval_steps_per_second": 7.152,
	"step": 4900
	},
	{
	"epoch": 11.089548100914888,
	"grad_norm": 1.1536431312561035,
	"learning_rate": 5.518394648829432e-06,
	"loss": 6.4141,
	"step": 5000
	},
	{
	"epoch": 11.089548100914888,
	"eval_loss": 6.423103332519531,
	"eval_runtime": 174.7198,
	"eval_samples_per_second": 57.235,
	"eval_steps_per_second": 7.154,
	"step": 5000
	},
	{
	"epoch": 11.311339062933186,
	"grad_norm": 0.5233383774757385,
	"learning_rate": 5.508361204013378e-06,
	"loss": 6.4143,
	"step": 5100
	},
	{
	"epoch": 11.311339062933186,
	"eval_loss": 6.426151275634766,
	"eval_runtime": 174.8201,
	"eval_samples_per_second": 57.202,
	"eval_steps_per_second": 7.15,
	"step": 5100
	},
	{
	"epoch": 11.533130024951483,
	"grad_norm": 0.4546308219432831,
	"learning_rate": 5.498327759197324e-06,
	"loss": 6.4131,
	"step": 5200
	},
	{
	"epoch": 11.533130024951483,
	"eval_loss": 6.41951322555542,
	"eval_runtime": 174.8531,
	"eval_samples_per_second": 57.191,
	"eval_steps_per_second": 7.149,
	"step": 5200
	},
	{
	"epoch": 11.75492098696978,
	"grad_norm": 0.7687248587608337,
	"learning_rate": 5.488294314381271e-06,
	"loss": 6.4127,
	"step": 5300
	},
	{
	"epoch": 11.75492098696978,
	"eval_loss": 6.421510696411133,
	"eval_runtime": 174.8268,
	"eval_samples_per_second": 57.199,
	"eval_steps_per_second": 7.15,
	"step": 5300
	},
	{
	"epoch": 11.97671194898808,
	"grad_norm": 0.6706124544143677,
	"learning_rate": 5.478260869565217e-06,
	"loss": 6.4114,
	"step": 5400
	},
	{
	"epoch": 11.97671194898808,
	"eval_loss": 6.42447566986084,
	"eval_runtime": 174.8755,
	"eval_samples_per_second": 57.184,
	"eval_steps_per_second": 7.148,
	"step": 5400
	},
	{
	"epoch": 12.198502911006376,
	"grad_norm": 1.165449619293213,
	"learning_rate": 5.468227424749163e-06,
	"loss": 6.4112,
	"step": 5500
	},
	{
	"epoch": 12.198502911006376,
	"eval_loss": 6.423706531524658,
	"eval_runtime": 174.8245,
	"eval_samples_per_second": 57.2,
	"eval_steps_per_second": 7.15,
	"step": 5500
	},
	{
	"epoch": 12.420293873024674,
	"grad_norm": 0.614251434803009,
	"learning_rate": 5.45819397993311e-06,
	"loss": 6.4088,
	"step": 5600
	},
	{
	"epoch": 12.420293873024674,
	"eval_loss": 6.417710304260254,
	"eval_runtime": 174.7714,
	"eval_samples_per_second": 57.218,
	"eval_steps_per_second": 7.152,
	"step": 5600
	},
	{
	"epoch": 12.642084835042972,
	"grad_norm": 0.7338353991508484,
	"learning_rate": 5.448160535117057e-06,
	"loss": 6.4093,
	"step": 5700
	},
	{
	"epoch": 12.642084835042972,
	"eval_loss": 6.421204566955566,
	"eval_runtime": 174.7739,
	"eval_samples_per_second": 57.217,
	"eval_steps_per_second": 7.152,
	"step": 5700
	},
	{
	"epoch": 12.86387579706127,
	"grad_norm": 0.5238298773765564,
	"learning_rate": 5.438127090301003e-06,
	"loss": 6.4088,
	"step": 5800
	},
	{
	"epoch": 12.86387579706127,
	"eval_loss": 6.418464183807373,
	"eval_runtime": 174.8398,
	"eval_samples_per_second": 57.195,
	"eval_steps_per_second": 7.149,
	"step": 5800
	},
	{
	"epoch": 13.085666759079567,
	"grad_norm": 0.8438045382499695,
	"learning_rate": 5.4280936454849495e-06,
	"loss": 6.4059,
	"step": 5900
	},
	{
	"epoch": 13.085666759079567,
	"eval_loss": 6.41862678527832,
	"eval_runtime": 174.7377,
	"eval_samples_per_second": 57.229,
	"eval_steps_per_second": 7.154,
	"step": 5900
	},
	{
	"epoch": 13.307457721097865,
	"grad_norm": 0.6270604133605957,
	"learning_rate": 5.418060200668896e-06,
	"loss": 6.4083,
	"step": 6000
	},
	{
	"epoch": 13.307457721097865,
	"eval_loss": 6.420100688934326,
	"eval_runtime": 174.8134,
	"eval_samples_per_second": 57.204,
	"eval_steps_per_second": 7.15,
	"step": 6000
	},
	{
	"epoch": 13.529248683116164,
	"grad_norm": 0.49625712633132935,
	"learning_rate": 5.408026755852843e-06,
	"loss": 6.4065,
	"step": 6100
	},
	{
	"epoch": 13.529248683116164,
	"eval_loss": 6.41825008392334,
	"eval_runtime": 174.9176,
	"eval_samples_per_second": 57.17,
	"eval_steps_per_second": 7.146,
	"step": 6100
	},
	{
	"epoch": 13.75103964513446,
	"grad_norm": 0.996813178062439,
	"learning_rate": 5.397993311036789e-06,
	"loss": 6.4055,
	"step": 6200
	},
	{
	"epoch": 13.75103964513446,
	"eval_loss": 6.419356346130371,
	"eval_runtime": 174.915,
	"eval_samples_per_second": 57.171,
	"eval_steps_per_second": 7.146,
	"step": 6200
	},
	{
	"epoch": 13.972830607152758,
	"grad_norm": 0.9816793203353882,
	"learning_rate": 5.387959866220736e-06,
	"loss": 6.4065,
	"step": 6300
	},
	{
	"epoch": 13.972830607152758,
	"eval_loss": 6.4173455238342285,
	"eval_runtime": 175.0068,
	"eval_samples_per_second": 57.141,
	"eval_steps_per_second": 7.143,
	"step": 6300
	},
	{
	"epoch": 14.194621569171057,
	"grad_norm": 1.072190761566162,
	"learning_rate": 5.3779264214046825e-06,
	"loss": 6.403,
	"step": 6400
	},
	{
	"epoch": 14.194621569171057,
	"eval_loss": 6.416932582855225,
	"eval_runtime": 174.8129,
	"eval_samples_per_second": 57.204,
	"eval_steps_per_second": 7.151,
	"step": 6400
	},
	{
	"epoch": 14.416412531189353,
	"grad_norm": 0.8124646544456482,
	"learning_rate": 5.367892976588628e-06,
	"loss": 6.4038,
	"step": 6500
	},
	{
	"epoch": 14.416412531189353,
	"eval_loss": 6.417375087738037,
	"eval_runtime": 174.7648,
	"eval_samples_per_second": 57.22,
	"eval_steps_per_second": 7.152,
	"step": 6500
	},
	{
	"epoch": 14.638203493207651,
	"grad_norm": 0.6260553002357483,
	"learning_rate": 5.357859531772575e-06,
	"loss": 6.4045,
	"step": 6600
	},
	{
	"epoch": 14.638203493207651,
	"eval_loss": 6.4163103103637695,
	"eval_runtime": 173.3723,
	"eval_samples_per_second": 57.679,
	"eval_steps_per_second": 7.21,
	"step": 6600
	},
	{
	"epoch": 14.85999445522595,
	"grad_norm": 0.6502517461776733,
	"learning_rate": 5.347826086956522e-06,
	"loss": 6.4039,
	"step": 6700
	},
	{
	"epoch": 14.85999445522595,
	"eval_loss": 6.421817779541016,
	"eval_runtime": 173.7415,
	"eval_samples_per_second": 57.557,
	"eval_steps_per_second": 7.195,
	"step": 6700
	},
	{
	"epoch": 15.081785417244248,
	"grad_norm": 0.7852392196655273,
	"learning_rate": 5.337792642140468e-06,
	"loss": 6.4021,
	"step": 6800
	},
	{
	"epoch": 15.081785417244248,
	"eval_loss": 6.414952278137207,
	"eval_runtime": 174.7855,
	"eval_samples_per_second": 57.213,
	"eval_steps_per_second": 7.152,
	"step": 6800
	},
	{
	"epoch": 15.303576379262545,
	"grad_norm": 0.5642409920692444,
	"learning_rate": 5.327759197324415e-06,
	"loss": 6.4018,
	"step": 6900
	},
	{
	"epoch": 15.303576379262545,
	"eval_loss": 6.417159557342529,
	"eval_runtime": 172.3834,
	"eval_samples_per_second": 58.01,
	"eval_steps_per_second": 7.251,
	"step": 6900
	},
	{
	"epoch": 15.525367341280843,
	"grad_norm": 0.5935277938842773,
	"learning_rate": 5.317725752508361e-06,
	"loss": 6.4015,
	"step": 7000
	},
	{
	"epoch": 15.525367341280843,
	"eval_loss": 6.419808864593506,
	"eval_runtime": 174.8129,
	"eval_samples_per_second": 57.204,
	"eval_steps_per_second": 7.151,
	"step": 7000
	},
	{
	"epoch": 15.747158303299141,
	"grad_norm": 0.8796281218528748,
	"learning_rate": 5.307692307692307e-06,
	"loss": 6.402,
	"step": 7100
	},
	{
	"epoch": 15.747158303299141,
	"eval_loss": 6.413030624389648,
	"eval_runtime": 174.991,
	"eval_samples_per_second": 57.146,
	"eval_steps_per_second": 7.143,
	"step": 7100
	},
	{
	"epoch": 15.968949265317438,
	"grad_norm": 0.686579167842865,
	"learning_rate": 5.297658862876254e-06,
	"loss": 6.4003,
	"step": 7200
	},
	{
	"epoch": 15.968949265317438,
	"eval_loss": 6.412362575531006,
	"eval_runtime": 174.9653,
	"eval_samples_per_second": 57.154,
	"eval_steps_per_second": 7.144,
	"step": 7200
	},
	{
	"epoch": 16.190740227335738,
	"grad_norm": 0.8254374265670776,
	"learning_rate": 5.287625418060201e-06,
	"loss": 6.4003,
	"step": 7300
	},
	{
	"epoch": 16.190740227335738,
	"eval_loss": 6.415155410766602,
	"eval_runtime": 174.7441,
	"eval_samples_per_second": 57.227,
	"eval_steps_per_second": 7.153,
	"step": 7300
	},
	{
	"epoch": 16.412531189354034,
	"grad_norm": 1.0479621887207031,
	"learning_rate": 5.277591973244147e-06,
	"loss": 6.3999,
	"step": 7400
	},
	{
	"epoch": 16.412531189354034,
	"eval_loss": 6.4169602394104,
	"eval_runtime": 174.7973,
	"eval_samples_per_second": 57.209,
	"eval_steps_per_second": 7.151,
	"step": 7400
	},
	{
	"epoch": 16.63432215137233,
	"grad_norm": 0.8358107805252075,
	"learning_rate": 5.2675585284280935e-06,
	"loss": 6.3989,
	"step": 7500
	},
	{
	"epoch": 16.63432215137233,
	"eval_loss": 6.417453765869141,
	"eval_runtime": 174.497,
	"eval_samples_per_second": 57.308,
	"eval_steps_per_second": 7.163,
	"step": 7500
	},
	{
	"epoch": 16.85611311339063,
	"grad_norm": 0.6018221378326416,
	"learning_rate": 5.25752508361204e-06,
	"loss": 6.3991,
	"step": 7600
	},
	{
	"epoch": 16.85611311339063,
	"eval_loss": 6.4126434326171875,
	"eval_runtime": 172.7161,
	"eval_samples_per_second": 57.898,
	"eval_steps_per_second": 7.237,
	"step": 7600
	},
	{
	"epoch": 17.077904075408927,
	"grad_norm": 1.0999138355255127,
	"learning_rate": 5.247491638795986e-06,
	"loss": 6.3981,
	"step": 7700
	},
	{
	"epoch": 17.077904075408927,
	"eval_loss": 6.413776397705078,
	"eval_runtime": 174.7746,
	"eval_samples_per_second": 57.217,
	"eval_steps_per_second": 7.152,
	"step": 7700
	},
	{
	"epoch": 17.299695037427224,
	"grad_norm": 0.5430467128753662,
	"learning_rate": 5.237458193979933e-06,
	"loss": 6.3993,
	"step": 7800
	},
	{
	"epoch": 17.299695037427224,
	"eval_loss": 6.414647102355957,
	"eval_runtime": 174.8381,
	"eval_samples_per_second": 57.196,
	"eval_steps_per_second": 7.149,
	"step": 7800
	},
	{
	"epoch": 17.521485999445524,
	"grad_norm": 0.588058352470398,
	"learning_rate": 5.22742474916388e-06,
	"loss": 6.3976,
	"step": 7900
	},
	{
	"epoch": 17.521485999445524,
	"eval_loss": 6.413895130157471,
	"eval_runtime": 174.9633,
	"eval_samples_per_second": 57.155,
	"eval_steps_per_second": 7.144,
	"step": 7900
	},
	{
	"epoch": 17.74327696146382,
	"grad_norm": 0.365583598613739,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 6.3966,
	"step": 8000
	},
	{
	"epoch": 17.74327696146382,
	"eval_loss": 6.409445285797119,
	"eval_runtime": 174.9468,
	"eval_samples_per_second": 57.16,
	"eval_steps_per_second": 7.145,
	"step": 8000
	},
	{
	"epoch": 17.965067923482117,
	"grad_norm": 0.6981125473976135,
	"learning_rate": 5.207357859531772e-06,
	"loss": 6.3974,
	"step": 8100
	},
	{
	"epoch": 17.965067923482117,
	"eval_loss": 6.413646221160889,
	"eval_runtime": 174.9417,
	"eval_samples_per_second": 57.162,
	"eval_steps_per_second": 7.145,
	"step": 8100
	},
	{
	"epoch": 18.186858885500417,
	"grad_norm": 0.6041765213012695,
	"learning_rate": 5.197324414715719e-06,
	"loss": 6.3985,
	"step": 8200
	},
	{
	"epoch": 18.186858885500417,
	"eval_loss": 6.411979675292969,
	"eval_runtime": 174.8191,
	"eval_samples_per_second": 57.202,
	"eval_steps_per_second": 7.15,
	"step": 8200
	},
	{
	"epoch": 18.408649847518713,
	"grad_norm": 0.7936201095581055,
	"learning_rate": 5.187290969899666e-06,
	"loss": 6.3964,
	"step": 8300
	},
	{
	"epoch": 18.408649847518713,
	"eval_loss": 6.40911865234375,
	"eval_runtime": 174.818,
	"eval_samples_per_second": 57.202,
	"eval_steps_per_second": 7.15,
	"step": 8300
	},
	{
	"epoch": 18.63044080953701,
	"grad_norm": 0.6278252005577087,
	"learning_rate": 5.177257525083612e-06,
	"loss": 6.3957,
	"step": 8400
	},
	{
	"epoch": 18.63044080953701,
	"eval_loss": 6.413068771362305,
	"eval_runtime": 172.3693,
	"eval_samples_per_second": 58.015,
	"eval_steps_per_second": 7.252,
	"step": 8400
	},
	{
	"epoch": 18.85223177155531,
	"grad_norm": 0.6582921743392944,
	"learning_rate": 5.167224080267559e-06,
	"loss": 6.3956,
	"step": 8500
	},
	{
	"epoch": 18.85223177155531,
	"eval_loss": 6.410306453704834,
	"eval_runtime": 174.8171,
	"eval_samples_per_second": 57.203,
	"eval_steps_per_second": 7.15,
	"step": 8500
	},
	{
	"epoch": 19.074022733573607,
	"grad_norm": 0.8874194622039795,
	"learning_rate": 5.157190635451505e-06,
	"loss": 6.3975,
	"step": 8600
	},
	{
	"epoch": 19.074022733573607,
	"eval_loss": 6.409109592437744,
	"eval_runtime": 172.2351,
	"eval_samples_per_second": 58.06,
	"eval_steps_per_second": 7.258,
	"step": 8600
	},
	{
	"epoch": 19.295813695591903,
	"grad_norm": 0.589608907699585,
	"learning_rate": 5.147157190635451e-06,
	"loss": 6.3957,
	"step": 8700
	},
	{
	"epoch": 19.295813695591903,
	"eval_loss": 6.413524150848389,
	"eval_runtime": 174.767,
	"eval_samples_per_second": 57.219,
	"eval_steps_per_second": 7.152,
	"step": 8700
	},
	{
	"epoch": 19.517604657610203,
	"grad_norm": 0.7026548385620117,
	"learning_rate": 5.137123745819398e-06,
	"loss": 6.3942,
	"step": 8800
	},
	{
	"epoch": 19.517604657610203,
	"eval_loss": 6.41259241104126,
	"eval_runtime": 174.7786,
	"eval_samples_per_second": 57.215,
	"eval_steps_per_second": 7.152,
	"step": 8800
	},
	{
	"epoch": 19.7393956196285,
	"grad_norm": 0.7508072257041931,
	"learning_rate": 5.127090301003345e-06,
	"loss": 6.3936,
	"step": 8900
	},
	{
	"epoch": 19.7393956196285,
	"eval_loss": 6.410432815551758,
	"eval_runtime": 174.7865,
	"eval_samples_per_second": 57.213,
	"eval_steps_per_second": 7.152,
	"step": 8900
	},
	{
	"epoch": 19.9611865816468,
	"grad_norm": 0.36028188467025757,
	"learning_rate": 5.117056856187291e-06,
	"loss": 6.3943,
	"step": 9000
	},
	{
	"epoch": 19.9611865816468,
	"eval_loss": 6.409936904907227,
	"eval_runtime": 174.852,
	"eval_samples_per_second": 57.191,
	"eval_steps_per_second": 7.149,
	"step": 9000
	},
	{
	"epoch": 20.182977543665096,
	"grad_norm": 0.8198152184486389,
	"learning_rate": 5.1070234113712375e-06,
	"loss": 6.3939,
	"step": 9100
	},
	{
	"epoch": 20.182977543665096,
	"eval_loss": 6.412051677703857,
	"eval_runtime": 174.8255,
	"eval_samples_per_second": 57.2,
	"eval_steps_per_second": 7.15,
	"step": 9100
	},
	{
	"epoch": 20.404768505683393,
	"grad_norm": 0.6599276065826416,
	"learning_rate": 5.096989966555184e-06,
	"loss": 6.3939,
	"step": 9200
	},
	{
	"epoch": 20.404768505683393,
	"eval_loss": 6.411386489868164,
	"eval_runtime": 174.8596,
	"eval_samples_per_second": 57.189,
	"eval_steps_per_second": 7.149,
	"step": 9200
	},
	{
	"epoch": 20.626559467701693,
	"grad_norm": 0.736455500125885,
	"learning_rate": 5.08695652173913e-06,
	"loss": 6.3931,
	"step": 9300
	},
	{
	"epoch": 20.626559467701693,
	"eval_loss": 6.40945291519165,
	"eval_runtime": 174.8463,
	"eval_samples_per_second": 57.193,
	"eval_steps_per_second": 7.149,
	"step": 9300
	},
	{
	"epoch": 20.84835042971999,
	"grad_norm": 0.7547162175178528,
	"learning_rate": 5.076923076923077e-06,
	"loss": 6.393,
	"step": 9400
	},
	{
	"epoch": 20.84835042971999,
	"eval_loss": 6.409768581390381,
	"eval_runtime": 175.1356,
	"eval_samples_per_second": 57.099,
	"eval_steps_per_second": 7.137,
	"step": 9400
	},
	{
	"epoch": 21.070141391738286,
	"grad_norm": 0.4197324216365814,
	"learning_rate": 5.066889632107024e-06,
	"loss": 6.3943,
	"step": 9500
	},
	{
	"epoch": 21.070141391738286,
	"eval_loss": 6.4077606201171875,
	"eval_runtime": 174.8821,
	"eval_samples_per_second": 57.181,
	"eval_steps_per_second": 7.148,
	"step": 9500
	},
	{
	"epoch": 21.291932353756586,
	"grad_norm": 0.6552382111549377,
	"learning_rate": 5.05685618729097e-06,
	"loss": 6.3927,
	"step": 9600
	},
	{
	"epoch": 21.291932353756586,
	"eval_loss": 6.40675163269043,
	"eval_runtime": 174.964,
	"eval_samples_per_second": 57.155,
	"eval_steps_per_second": 7.144,
	"step": 9600
	},
	{
	"epoch": 21.513723315774882,
	"grad_norm": 0.507618248462677,
	"learning_rate": 5.046822742474916e-06,
	"loss": 6.3948,
	"step": 9700
	},
	{
	"epoch": 21.513723315774882,
	"eval_loss": 6.4094719886779785,
	"eval_runtime": 174.8996,
	"eval_samples_per_second": 57.176,
	"eval_steps_per_second": 7.147,
	"step": 9700
	},
	{
	"epoch": 21.73551427779318,
	"grad_norm": 1.0394549369812012,
	"learning_rate": 5.036789297658863e-06,
	"loss": 6.3933,
	"step": 9800
	},
	{
	"epoch": 21.73551427779318,
	"eval_loss": 6.411880016326904,
	"eval_runtime": 174.8373,
	"eval_samples_per_second": 57.196,
	"eval_steps_per_second": 7.15,
	"step": 9800
	},
	{
	"epoch": 21.95730523981148,
	"grad_norm": 0.852592945098877,
	"learning_rate": 5.02675585284281e-06,
	"loss": 6.3932,
	"step": 9900
	},
	{
	"epoch": 21.95730523981148,
	"eval_loss": 6.405695915222168,
	"eval_runtime": 174.9233,
	"eval_samples_per_second": 57.168,
	"eval_steps_per_second": 7.146,
	"step": 9900
	},
	{
	"epoch": 22.179096201829775,
	"grad_norm": 0.6302698254585266,
	"learning_rate": 5.016722408026756e-06,
	"loss": 6.3914,
	"step": 10000
	},
	{
	"epoch": 22.179096201829775,
	"eval_loss": 6.404843807220459,
	"eval_runtime": 174.881,
	"eval_samples_per_second": 57.182,
	"eval_steps_per_second": 7.148,
	"step": 10000
	},
	{
	"epoch": 22.400887163848072,
	"grad_norm": 0.5545974969863892,
	"learning_rate": 5.0066889632107026e-06,
	"loss": 6.3913,
	"step": 10100
	},
	{
	"epoch": 22.400887163848072,
	"eval_loss": 6.4088826179504395,
	"eval_runtime": 174.9362,
	"eval_samples_per_second": 57.164,
	"eval_steps_per_second": 7.145,
	"step": 10100
	},
	{
	"epoch": 22.622678125866372,
	"grad_norm": 0.6303640007972717,
	"learning_rate": 4.996655518394649e-06,
	"loss": 6.3916,
	"step": 10200
	},
	{
	"epoch": 22.622678125866372,
	"eval_loss": 6.406084060668945,
	"eval_runtime": 174.8669,
	"eval_samples_per_second": 57.186,
	"eval_steps_per_second": 7.148,
	"step": 10200
	},
	{
	"epoch": 22.84446908788467,
	"grad_norm": 0.6866323947906494,
	"learning_rate": 4.986622073578595e-06,
	"loss": 6.3922,
	"step": 10300
	},
	{
	"epoch": 22.84446908788467,
	"eval_loss": 6.406491279602051,
	"eval_runtime": 172.5199,
	"eval_samples_per_second": 57.964,
	"eval_steps_per_second": 7.246,
	"step": 10300
	},
	{
	"epoch": 23.066260049902965,
	"grad_norm": 0.5681377649307251,
	"learning_rate": 4.976588628762542e-06,
	"loss": 6.3919,
	"step": 10400
	},
	{
	"epoch": 23.066260049902965,
	"eval_loss": 6.407881259918213,
	"eval_runtime": 174.7996,
	"eval_samples_per_second": 57.208,
	"eval_steps_per_second": 7.151,
	"step": 10400
	},
	{
	"epoch": 23.288051011921265,
	"grad_norm": 0.5302285552024841,
	"learning_rate": 4.966555183946489e-06,
	"loss": 6.3928,
	"step": 10500
	},
	{
	"epoch": 23.288051011921265,
	"eval_loss": 6.4045891761779785,
	"eval_runtime": 175.2024,
	"eval_samples_per_second": 57.077,
	"eval_steps_per_second": 7.135,
	"step": 10500
	},
	{
	"epoch": 23.50984197393956,
	"grad_norm": 0.5630497336387634,
	"learning_rate": 4.956521739130435e-06,
	"loss": 6.3903,
	"step": 10600
	},
	{
	"epoch": 23.50984197393956,
	"eval_loss": 6.406449317932129,
	"eval_runtime": 172.7598,
	"eval_samples_per_second": 57.884,
	"eval_steps_per_second": 7.235,
	"step": 10600
	},
	{
	"epoch": 23.731632935957858,
	"grad_norm": 0.5340705513954163,
	"learning_rate": 4.9464882943143815e-06,
	"loss": 6.3896,
	"step": 10700
	},
	{
	"epoch": 23.731632935957858,
	"eval_loss": 6.408339023590088,
	"eval_runtime": 175.3018,
	"eval_samples_per_second": 57.044,
	"eval_steps_per_second": 7.131,
	"step": 10700
	},
	{
	"epoch": 23.95342389797616,
	"grad_norm": 0.7192414402961731,
	"learning_rate": 4.936454849498328e-06,
	"loss": 6.3904,
	"step": 10800
	},
	{
	"epoch": 23.95342389797616,
	"eval_loss": 6.408904075622559,
	"eval_runtime": 175.321,
	"eval_samples_per_second": 57.038,
	"eval_steps_per_second": 7.13,
	"step": 10800
	},
	{
	"epoch": 24.175214859994455,
	"grad_norm": 0.7297828197479248,
	"learning_rate": 4.926421404682274e-06,
	"loss": 6.3906,
	"step": 10900
	},
	{
	"epoch": 24.175214859994455,
	"eval_loss": 6.406455993652344,
	"eval_runtime": 175.3497,
	"eval_samples_per_second": 57.029,
	"eval_steps_per_second": 7.129,
	"step": 10900
	},
	{
	"epoch": 24.39700582201275,
	"grad_norm": 0.8612614870071411,
	"learning_rate": 4.916387959866221e-06,
	"loss": 6.389,
	"step": 11000
	},
	{
	"epoch": 24.39700582201275,
	"eval_loss": 6.4049272537231445,
	"eval_runtime": 174.9884,
	"eval_samples_per_second": 57.147,
	"eval_steps_per_second": 7.143,
	"step": 11000
	},
	{
	"epoch": 24.61879678403105,
	"grad_norm": 0.39626169204711914,
	"learning_rate": 4.906354515050168e-06,
	"loss": 6.3904,
	"step": 11100
	},
	{
	"epoch": 24.61879678403105,
	"eval_loss": 6.399599075317383,
	"eval_runtime": 175.2182,
	"eval_samples_per_second": 57.072,
	"eval_steps_per_second": 7.134,
	"step": 11100
	},
	{
	"epoch": 24.840587746049348,
	"grad_norm": 0.47381725907325745,
	"learning_rate": 4.8963210702341136e-06,
	"loss": 6.3896,
	"step": 11200
	},
	{
	"epoch": 24.840587746049348,
	"eval_loss": 6.405921459197998,
	"eval_runtime": 174.9189,
	"eval_samples_per_second": 57.169,
	"eval_steps_per_second": 7.146,
	"step": 11200
	},
	{
	"epoch": 25.062378708067648,
	"grad_norm": 0.567333996295929,
	"learning_rate": 4.88628762541806e-06,
	"loss": 6.3886,
	"step": 11300
	},
	{
	"epoch": 25.062378708067648,
	"eval_loss": 6.409249782562256,
	"eval_runtime": 174.8058,
	"eval_samples_per_second": 57.206,
	"eval_steps_per_second": 7.151,
	"step": 11300
	},
	{
	"epoch": 25.284169670085944,
	"grad_norm": 0.47083523869514465,
	"learning_rate": 4.876254180602007e-06,
	"loss": 6.3892,
	"step": 11400
	},
	{
	"epoch": 25.284169670085944,
	"eval_loss": 6.406309604644775,
	"eval_runtime": 174.8008,
	"eval_samples_per_second": 57.208,
	"eval_steps_per_second": 7.151,
	"step": 11400
	},
	{
	"epoch": 25.50596063210424,
	"grad_norm": 0.4636823832988739,
	"learning_rate": 4.866220735785953e-06,
	"loss": 6.3905,
	"step": 11500
	},
	{
	"epoch": 25.50596063210424,
	"eval_loss": 6.4087066650390625,
	"eval_runtime": 174.7802,
	"eval_samples_per_second": 57.215,
	"eval_steps_per_second": 7.152,
	"step": 11500
	},
	{
	"epoch": 25.72775159412254,
	"grad_norm": 0.8328993916511536,
	"learning_rate": 4.8561872909699e-06,
	"loss": 6.3888,
	"step": 11600
	},
	{
	"epoch": 25.72775159412254,
	"eval_loss": 6.405496120452881,
	"eval_runtime": 172.4449,
	"eval_samples_per_second": 57.99,
	"eval_steps_per_second": 7.249,
	"step": 11600
	},
	{
	"epoch": 25.949542556140837,
	"grad_norm": 0.5866479873657227,
	"learning_rate": 4.8461538461538465e-06,
	"loss": 6.3895,
	"step": 11700
	},
	{
	"epoch": 25.949542556140837,
	"eval_loss": 6.4065117835998535,
	"eval_runtime": 172.4094,
	"eval_samples_per_second": 58.001,
	"eval_steps_per_second": 7.25,
	"step": 11700
	},
	{
	"epoch": 26.171333518159134,
	"grad_norm": 0.7557168006896973,
	"learning_rate": 4.8361204013377925e-06,
	"loss": 6.3901,
	"step": 11800
	},
	{
	"epoch": 26.171333518159134,
	"eval_loss": 6.404352188110352,
	"eval_runtime": 174.7894,
	"eval_samples_per_second": 57.212,
	"eval_steps_per_second": 7.151,
	"step": 11800
	},
	{
	"epoch": 26.393124480177434,
	"grad_norm": 0.5010234117507935,
	"learning_rate": 4.826086956521739e-06,
	"loss": 6.3881,
	"step": 11900
	},
	{
	"epoch": 26.393124480177434,
	"eval_loss": 6.406057834625244,
	"eval_runtime": 174.8928,
	"eval_samples_per_second": 57.178,
	"eval_steps_per_second": 7.147,
	"step": 11900
	},
	{
	"epoch": 26.61491544219573,
	"grad_norm": 0.5228267312049866,
	"learning_rate": 4.816053511705686e-06,
	"loss": 6.3893,
	"step": 12000
	},
	{
	"epoch": 26.61491544219573,
	"eval_loss": 6.403919219970703,
	"eval_runtime": 173.0368,
	"eval_samples_per_second": 57.791,
	"eval_steps_per_second": 7.224,
	"step": 12000
	},
	{
	"epoch": 26.836706404214027,
	"grad_norm": 0.41645535826683044,
	"learning_rate": 4.806020066889633e-06,
	"loss": 6.3893,
	"step": 12100
	},
	{
	"epoch": 26.836706404214027,
	"eval_loss": 6.403182029724121,
	"eval_runtime": 173.7518,
	"eval_samples_per_second": 57.553,
	"eval_steps_per_second": 7.194,
	"step": 12100
	},
	{
	"epoch": 27.058497366232327,
	"grad_norm": 0.6280103325843811,
	"learning_rate": 4.795986622073579e-06,
	"loss": 6.388,
	"step": 12200
	},
	{
	"epoch": 27.058497366232327,
	"eval_loss": 6.406325817108154,
	"eval_runtime": 172.5376,
	"eval_samples_per_second": 57.958,
	"eval_steps_per_second": 7.245,
	"step": 12200
	},
	{
	"epoch": 27.280288328250624,
	"grad_norm": 0.4701608419418335,
	"learning_rate": 4.785953177257525e-06,
	"loss": 6.3891,
	"step": 12300
	},
	{
	"epoch": 27.280288328250624,
	"eval_loss": 6.403144836425781,
	"eval_runtime": 174.7938,
	"eval_samples_per_second": 57.21,
	"eval_steps_per_second": 7.151,
	"step": 12300
	},
	{
	"epoch": 27.50207929026892,
	"grad_norm": 0.49227380752563477,
	"learning_rate": 4.775919732441472e-06,
	"loss": 6.3893,
	"step": 12400
	},
	{
	"epoch": 27.50207929026892,
	"eval_loss": 6.404545783996582,
	"eval_runtime": 172.6406,
	"eval_samples_per_second": 57.924,
	"eval_steps_per_second": 7.24,
	"step": 12400
	},
	{
	"epoch": 27.72387025228722,
	"grad_norm": 0.5558980703353882,
	"learning_rate": 4.765886287625418e-06,
	"loss": 6.3883,
	"step": 12500
	},
	{
	"epoch": 27.72387025228722,
	"eval_loss": 6.402305603027344,
	"eval_runtime": 174.8403,
	"eval_samples_per_second": 57.195,
	"eval_steps_per_second": 7.149,
	"step": 12500
	},
	{
	"epoch": 27.945661214305517,
	"grad_norm": 0.7037143707275391,
	"learning_rate": 4.755852842809365e-06,
	"loss": 6.3885,
	"step": 12600
	},
	{
	"epoch": 27.945661214305517,
	"eval_loss": 6.403327465057373,
	"eval_runtime": 172.6409,
	"eval_samples_per_second": 57.924,
	"eval_steps_per_second": 7.24,
	"step": 12600
	},
	{
	"epoch": 28.167452176323813,
	"grad_norm": 0.8158712983131409,
	"learning_rate": 4.745819397993312e-06,
	"loss": 6.3858,
	"step": 12700
	},
	{
	"epoch": 28.167452176323813,
	"eval_loss": 6.40453577041626,
	"eval_runtime": 174.7251,
	"eval_samples_per_second": 57.233,
	"eval_steps_per_second": 7.154,
	"step": 12700
	},
	{
	"epoch": 28.389243138342113,
	"grad_norm": 0.49727940559387207,
	"learning_rate": 4.7357859531772575e-06,
	"loss": 6.3882,
	"step": 12800
	},
	{
	"epoch": 28.389243138342113,
	"eval_loss": 6.404928684234619,
	"eval_runtime": 174.7858,
	"eval_samples_per_second": 57.213,
	"eval_steps_per_second": 7.152,
	"step": 12800
	},
	{
	"epoch": 28.61103410036041,
	"grad_norm": 0.5173976421356201,
	"learning_rate": 4.725752508361204e-06,
	"loss": 6.3866,
	"step": 12900
	},
	{
	"epoch": 28.61103410036041,
	"eval_loss": 6.40172815322876,
	"eval_runtime": 174.5561,
	"eval_samples_per_second": 57.288,
	"eval_steps_per_second": 7.161,
	"step": 12900
	},
	{
	"epoch": 28.832825062378706,
	"grad_norm": 0.5842565298080444,
	"learning_rate": 4.715719063545151e-06,
	"loss": 6.3891,
	"step": 13000
	},
	{
	"epoch": 28.832825062378706,
	"eval_loss": 6.401641845703125,
	"eval_runtime": 172.3935,
	"eval_samples_per_second": 58.007,
	"eval_steps_per_second": 7.251,
	"step": 13000
	},
	{
	"epoch": 29.054616024397006,
	"grad_norm": 0.6438339948654175,
	"learning_rate": 4.705685618729097e-06,
	"loss": 6.3869,
	"step": 13100
	},
	{
	"epoch": 29.054616024397006,
	"eval_loss": 6.403342247009277,
	"eval_runtime": 174.8489,
	"eval_samples_per_second": 57.192,
	"eval_steps_per_second": 7.149,
	"step": 13100
	},
	{
	"epoch": 29.276406986415303,
	"grad_norm": 0.5338951349258423,
	"learning_rate": 4.695652173913044e-06,
	"loss": 6.3882,
	"step": 13200
	},
	{
	"epoch": 29.276406986415303,
	"eval_loss": 6.400930404663086,
	"eval_runtime": 172.4302,
	"eval_samples_per_second": 57.994,
	"eval_steps_per_second": 7.249,
	"step": 13200
	},
	{
	"epoch": 29.498197948433603,
	"grad_norm": 0.5359793305397034,
	"learning_rate": 4.6856187290969905e-06,
	"loss": 6.3878,
	"step": 13300
	},
	{
	"epoch": 29.498197948433603,
	"eval_loss": 6.406982898712158,
	"eval_runtime": 174.802,
	"eval_samples_per_second": 57.208,
	"eval_steps_per_second": 7.151,
	"step": 13300
	},
	{
	"epoch": 29.7199889104519,
	"grad_norm": 0.715033233165741,
	"learning_rate": 4.675585284280936e-06,
	"loss": 6.3859,
	"step": 13400
	},
	{
	"epoch": 29.7199889104519,
	"eval_loss": 6.40342903137207,
	"eval_runtime": 174.8452,
	"eval_samples_per_second": 57.193,
	"eval_steps_per_second": 7.149,
	"step": 13400
	},
	{
	"epoch": 29.941779872470196,
	"grad_norm": 0.934853732585907,
	"learning_rate": 4.665551839464883e-06,
	"loss": 6.3875,
	"step": 13500
	},
	{
	"epoch": 29.941779872470196,
	"eval_loss": 6.401629447937012,
	"eval_runtime": 174.7924,
	"eval_samples_per_second": 57.211,
	"eval_steps_per_second": 7.151,
	"step": 13500
	},
	{
	"epoch": 30.163570834488496,
	"grad_norm": 0.479612797498703,
	"learning_rate": 4.65551839464883e-06,
	"loss": 6.3866,
	"step": 13600
	},
	{
	"epoch": 30.163570834488496,
	"eval_loss": 6.399043560028076,
	"eval_runtime": 176.925,
	"eval_samples_per_second": 56.521,
	"eval_steps_per_second": 7.065,
	"step": 13600
	},
	{
	"epoch": 30.385361796506793,
	"grad_norm": 0.5256738662719727,
	"learning_rate": 4.645484949832776e-06,
	"loss": 6.3878,
	"step": 13700
	},
	{
	"epoch": 30.385361796506793,
	"eval_loss": 6.400505065917969,
	"eval_runtime": 175.3482,
	"eval_samples_per_second": 57.029,
	"eval_steps_per_second": 7.129,
	"step": 13700
	},
	{
	"epoch": 30.60715275852509,
	"grad_norm": 0.5690653920173645,
	"learning_rate": 4.635451505016723e-06,
	"loss": 6.3848,
	"step": 13800
	},
	{
	"epoch": 30.60715275852509,
	"eval_loss": 6.403696060180664,
	"eval_runtime": 172.8083,
	"eval_samples_per_second": 57.868,
	"eval_steps_per_second": 7.233,
	"step": 13800
	},
	{
	"epoch": 30.82894372054339,
	"grad_norm": 0.4565252363681793,
	"learning_rate": 4.625418060200669e-06,
	"loss": 6.3849,
	"step": 13900
	},
	{
	"epoch": 30.82894372054339,
	"eval_loss": 6.403767108917236,
	"eval_runtime": 175.7515,
	"eval_samples_per_second": 56.899,
	"eval_steps_per_second": 7.112,
	"step": 13900
	},
	{
	"epoch": 31.050734682561686,
	"grad_norm": 0.4801616966724396,
	"learning_rate": 4.615384615384616e-06,
	"loss": 6.3869,
	"step": 14000
	},
	{
	"epoch": 31.050734682561686,
	"eval_loss": 6.400508403778076,
	"eval_runtime": 174.4685,
	"eval_samples_per_second": 57.317,
	"eval_steps_per_second": 7.165,
	"step": 14000
	},
	{
	"epoch": 31.272525644579982,
	"grad_norm": 0.5834231972694397,
	"learning_rate": 4.605351170568562e-06,
	"loss": 6.3853,
	"step": 14100
	},
	{
	"epoch": 31.272525644579982,
	"eval_loss": 6.400169849395752,
	"eval_runtime": 175.4977,
	"eval_samples_per_second": 56.981,
	"eval_steps_per_second": 7.123,
	"step": 14100
	},
	{
	"epoch": 31.494316606598282,
	"grad_norm": 0.6701497435569763,
	"learning_rate": 4.595317725752509e-06,
	"loss": 6.3865,
	"step": 14200
	},
	{
	"epoch": 31.494316606598282,
	"eval_loss": 6.397976875305176,
	"eval_runtime": 175.4612,
	"eval_samples_per_second": 56.993,
	"eval_steps_per_second": 7.124,
	"step": 14200
	},
	{
	"epoch": 31.71610756861658,
	"grad_norm": 0.4794948697090149,
	"learning_rate": 4.585284280936456e-06,
	"loss": 6.3852,
	"step": 14300
	},
	{
	"epoch": 31.71610756861658,
	"eval_loss": 6.403610706329346,
	"eval_runtime": 176.2646,
	"eval_samples_per_second": 56.733,
	"eval_steps_per_second": 7.092,
	"step": 14300
	},
	{
	"epoch": 31.937898530634875,
	"grad_norm": 0.6028741002082825,
	"learning_rate": 4.5752508361204015e-06,
	"loss": 6.3851,
	"step": 14400
	},
	{
	"epoch": 31.937898530634875,
	"eval_loss": 6.400261878967285,
	"eval_runtime": 174.9022,
	"eval_samples_per_second": 57.175,
	"eval_steps_per_second": 7.147,
	"step": 14400
	},
	{
	"epoch": 32.15968949265317,
	"grad_norm": 0.7439810037612915,
	"learning_rate": 4.565217391304348e-06,
	"loss": 6.3839,
	"step": 14500
	},
	{
	"epoch": 32.15968949265317,
	"eval_loss": 6.397915363311768,
	"eval_runtime": 172.885,
	"eval_samples_per_second": 57.842,
	"eval_steps_per_second": 7.23,
	"step": 14500
	},
	{
	"epoch": 32.381480454671475,
	"grad_norm": 0.4727949798107147,
	"learning_rate": 4.555183946488295e-06,
	"loss": 6.3855,
	"step": 14600
	},
	{
	"epoch": 32.381480454671475,
	"eval_loss": 6.39973258972168,
	"eval_runtime": 175.4295,
	"eval_samples_per_second": 57.003,
	"eval_steps_per_second": 7.125,
	"step": 14600
	},
	{
	"epoch": 32.60327141668977,
	"grad_norm": 0.5084313154220581,
	"learning_rate": 4.545150501672241e-06,
	"loss": 6.3833,
	"step": 14700
	},
	{
	"epoch": 32.60327141668977,
	"eval_loss": 6.39823055267334,
	"eval_runtime": 173.3819,
	"eval_samples_per_second": 57.676,
	"eval_steps_per_second": 7.21,
	"step": 14700
	},
	{
	"epoch": 32.82506237870807,
	"grad_norm": 0.36422112584114075,
	"learning_rate": 4.535117056856188e-06,
	"loss": 6.3854,
	"step": 14800
	},
	{
	"epoch": 32.82506237870807,
	"eval_loss": 6.402724266052246,
	"eval_runtime": 174.9732,
	"eval_samples_per_second": 57.152,
	"eval_steps_per_second": 7.144,
	"step": 14800
	},
	{
	"epoch": 33.046853340726365,
	"grad_norm": 0.5722773671150208,
	"learning_rate": 4.5250836120401345e-06,
	"loss": 6.3859,
	"step": 14900
	},
	{
	"epoch": 33.046853340726365,
	"eval_loss": 6.396421909332275,
	"eval_runtime": 175.3976,
	"eval_samples_per_second": 57.013,
	"eval_steps_per_second": 7.127,
	"step": 14900
	},
	{
	"epoch": 33.26864430274466,
	"grad_norm": 0.859866201877594,
	"learning_rate": 4.51505016722408e-06,
	"loss": 6.3851,
	"step": 15000
	},
	{
	"epoch": 33.26864430274466,
	"eval_loss": 6.396206855773926,
	"eval_runtime": 174.5321,
	"eval_samples_per_second": 57.296,
	"eval_steps_per_second": 7.162,
	"step": 15000
	},
	{
	"epoch": 33.49043526476296,
	"grad_norm": 0.8327785134315491,
	"learning_rate": 4.505016722408027e-06,
	"loss": 6.3848,
	"step": 15100
	},
	{
	"epoch": 33.49043526476296,
	"eval_loss": 6.403675556182861,
	"eval_runtime": 172.9138,
	"eval_samples_per_second": 57.832,
	"eval_steps_per_second": 7.229,
	"step": 15100
	},
	{
	"epoch": 33.71222622678126,
	"grad_norm": 0.4790419042110443,
	"learning_rate": 4.494983277591973e-06,
	"loss": 6.3843,
	"step": 15200
	},
	{
	"epoch": 33.71222622678126,
	"eval_loss": 6.397605895996094,
	"eval_runtime": 175.348,
	"eval_samples_per_second": 57.029,
	"eval_steps_per_second": 7.129,
	"step": 15200
	},
	{
	"epoch": 33.93401718879956,
	"grad_norm": 0.8004974722862244,
	"learning_rate": 4.48494983277592e-06,
	"loss": 6.3852,
	"step": 15300
	},
	{
	"epoch": 33.93401718879956,
	"eval_loss": 6.396829605102539,
	"eval_runtime": 172.9108,
	"eval_samples_per_second": 57.833,
	"eval_steps_per_second": 7.229,
	"step": 15300
	},
	{
	"epoch": 34.155808150817855,
	"grad_norm": 0.40926745533943176,
	"learning_rate": 4.474916387959866e-06,
	"loss": 6.3835,
	"step": 15400
	},
	{
	"epoch": 34.155808150817855,
	"eval_loss": 6.400079727172852,
	"eval_runtime": 175.4491,
	"eval_samples_per_second": 56.997,
	"eval_steps_per_second": 7.125,
	"step": 15400
	},
	{
	"epoch": 34.37759911283615,
	"grad_norm": 0.3634837567806244,
	"learning_rate": 4.4648829431438125e-06,
	"loss": 6.3836,
	"step": 15500
	},
	{
	"epoch": 34.37759911283615,
	"eval_loss": 6.399561882019043,
	"eval_runtime": 173.2399,
	"eval_samples_per_second": 57.723,
	"eval_steps_per_second": 7.215,
	"step": 15500
	},
	{
	"epoch": 34.59939007485445,
	"grad_norm": 0.4545910954475403,
	"learning_rate": 4.454849498327759e-06,
	"loss": 6.3836,
	"step": 15600
	},
	{
	"epoch": 34.59939007485445,
	"eval_loss": 6.3967742919921875,
	"eval_runtime": 175.8575,
	"eval_samples_per_second": 56.864,
	"eval_steps_per_second": 7.108,
	"step": 15600
	},
	{
	"epoch": 34.821181036872744,
	"grad_norm": 0.5282755494117737,
	"learning_rate": 4.444816053511705e-06,
	"loss": 6.3851,
	"step": 15700
	},
	{
	"epoch": 34.821181036872744,
	"eval_loss": 6.399077892303467,
	"eval_runtime": 175.7729,
	"eval_samples_per_second": 56.892,
	"eval_steps_per_second": 7.111,
	"step": 15700
	},
	{
	"epoch": 35.04297199889105,
	"grad_norm": 0.5991719961166382,
	"learning_rate": 4.434782608695652e-06,
	"loss": 6.3846,
	"step": 15800
	},
	{
	"epoch": 35.04297199889105,
	"eval_loss": 6.4012532234191895,
	"eval_runtime": 175.8802,
	"eval_samples_per_second": 56.857,
	"eval_steps_per_second": 7.107,
	"step": 15800
	},
	{
	"epoch": 35.264762960909344,
	"grad_norm": 0.5155884623527527,
	"learning_rate": 4.424749163879599e-06,
	"loss": 6.3836,
	"step": 15900
	},
	{
	"epoch": 35.264762960909344,
	"eval_loss": 6.396469593048096,
	"eval_runtime": 175.4084,
	"eval_samples_per_second": 57.01,
	"eval_steps_per_second": 7.126,
	"step": 15900
	},
	{
	"epoch": 35.48655392292764,
	"grad_norm": 0.5687472224235535,
	"learning_rate": 4.414715719063545e-06,
	"loss": 6.3851,
	"step": 16000
	},
	{
	"epoch": 35.48655392292764,
	"eval_loss": 6.39898681640625,
	"eval_runtime": 172.8397,
	"eval_samples_per_second": 57.857,
	"eval_steps_per_second": 7.232,
	"step": 16000
	},
	{
	"epoch": 35.70834488494594,
	"grad_norm": 0.43625304102897644,
	"learning_rate": 4.404682274247491e-06,
	"loss": 6.3839,
	"step": 16100
	},
	{
	"epoch": 35.70834488494594,
	"eval_loss": 6.397797584533691,
	"eval_runtime": 175.3929,
	"eval_samples_per_second": 57.015,
	"eval_steps_per_second": 7.127,
	"step": 16100
	},
	{
	"epoch": 35.930135846964234,
	"grad_norm": 0.45570382475852966,
	"learning_rate": 4.394648829431438e-06,
	"loss": 6.383,
	"step": 16200
	},
	{
	"epoch": 35.930135846964234,
	"eval_loss": 6.396146774291992,
	"eval_runtime": 172.944,
	"eval_samples_per_second": 57.822,
	"eval_steps_per_second": 7.228,
	"step": 16200
	},
	{
	"epoch": 36.15192680898254,
	"grad_norm": 0.5023874044418335,
	"learning_rate": 4.384615384615384e-06,
	"loss": 6.3832,
	"step": 16300
	},
	{
	"epoch": 36.15192680898254,
	"eval_loss": 6.394959449768066,
	"eval_runtime": 175.3162,
	"eval_samples_per_second": 57.04,
	"eval_steps_per_second": 7.13,
	"step": 16300
	},
	{
	"epoch": 36.373717771000834,
	"grad_norm": 0.6336263418197632,
	"learning_rate": 4.374581939799331e-06,
	"loss": 6.384,
	"step": 16400
	},
	{
	"epoch": 36.373717771000834,
	"eval_loss": 6.396052360534668,
	"eval_runtime": 172.9338,
	"eval_samples_per_second": 57.826,
	"eval_steps_per_second": 7.228,
	"step": 16400
	},
	{
	"epoch": 36.59550873301913,
	"grad_norm": 0.49517419934272766,
	"learning_rate": 4.364548494983278e-06,
	"loss": 6.3837,
	"step": 16500
	},
	{
	"epoch": 36.59550873301913,
	"eval_loss": 6.394345760345459,
	"eval_runtime": 175.3695,
	"eval_samples_per_second": 57.022,
	"eval_steps_per_second": 7.128,
	"step": 16500
	},
	{
	"epoch": 36.81729969503743,
	"grad_norm": 0.6354840993881226,
	"learning_rate": 4.354515050167224e-06,
	"loss": 6.3819,
	"step": 16600
	},
	{
	"epoch": 36.81729969503743,
	"eval_loss": 6.399397850036621,
	"eval_runtime": 172.967,
	"eval_samples_per_second": 57.814,
	"eval_steps_per_second": 7.227,
	"step": 16600
	},
	{
	"epoch": 37.03909065705572,
	"grad_norm": 0.6154801845550537,
	"learning_rate": 4.34448160535117e-06,
	"loss": 6.3846,
	"step": 16700
	},
	{
	"epoch": 37.03909065705572,
	"eval_loss": 6.398616313934326,
	"eval_runtime": 175.382,
	"eval_samples_per_second": 57.018,
	"eval_steps_per_second": 7.127,
	"step": 16700
	},
	{
	"epoch": 37.26088161907402,
	"grad_norm": 0.5332671999931335,
	"learning_rate": 4.334448160535117e-06,
	"loss": 6.3833,
	"step": 16800
	},
	{
	"epoch": 37.26088161907402,
	"eval_loss": 6.400417327880859,
	"eval_runtime": 172.8252,
	"eval_samples_per_second": 57.862,
	"eval_steps_per_second": 7.233,
	"step": 16800
	},
	{
	"epoch": 37.482672581092324,
	"grad_norm": 0.4707394242286682,
	"learning_rate": 4.324414715719064e-06,
	"loss": 6.382,
	"step": 16900
	},
	{
	"epoch": 37.482672581092324,
	"eval_loss": 6.399077415466309,
	"eval_runtime": 175.3262,
	"eval_samples_per_second": 57.037,
	"eval_steps_per_second": 7.13,
	"step": 16900
	},
	{
	"epoch": 37.70446354311062,
	"grad_norm": 0.5503630042076111,
	"learning_rate": 4.31438127090301e-06,
	"loss": 6.3825,
	"step": 17000
	},
	{
	"epoch": 37.70446354311062,
	"eval_loss": 6.3964338302612305,
	"eval_runtime": 175.3567,
	"eval_samples_per_second": 57.027,
	"eval_steps_per_second": 7.128,
	"step": 17000
	},
	{
	"epoch": 37.92625450512892,
	"grad_norm": 0.4225850999355316,
	"learning_rate": 4.3043478260869565e-06,
	"loss": 6.3808,
	"step": 17100
	},
	{
	"epoch": 37.92625450512892,
	"eval_loss": 6.399682998657227,
	"eval_runtime": 175.5337,
	"eval_samples_per_second": 56.969,
	"eval_steps_per_second": 7.121,
	"step": 17100
	},
	{
	"epoch": 38.14804546714721,
	"grad_norm": 0.26002365350723267,
	"learning_rate": 4.294314381270903e-06,
	"loss": 6.3825,
	"step": 17200
	},
	{
	"epoch": 38.14804546714721,
	"eval_loss": 6.394641399383545,
	"eval_runtime": 175.4187,
	"eval_samples_per_second": 57.006,
	"eval_steps_per_second": 7.126,
	"step": 17200
	},
	{
	"epoch": 38.36983642916551,
	"grad_norm": 0.5679543614387512,
	"learning_rate": 4.284280936454849e-06,
	"loss": 6.381,
	"step": 17300
	},
	{
	"epoch": 38.36983642916551,
	"eval_loss": 6.39400053024292,
	"eval_runtime": 175.3915,
	"eval_samples_per_second": 57.015,
	"eval_steps_per_second": 7.127,
	"step": 17300
	},
	{
	"epoch": 38.591627391183806,
	"grad_norm": 0.6668972373008728,
	"learning_rate": 4.274247491638796e-06,
	"loss": 6.3833,
	"step": 17400
	},
	{
	"epoch": 38.591627391183806,
	"eval_loss": 6.395496845245361,
	"eval_runtime": 175.3632,
	"eval_samples_per_second": 57.025,
	"eval_steps_per_second": 7.128,
	"step": 17400
	},
	{
	"epoch": 38.81341835320211,
	"grad_norm": 0.7112624049186707,
	"learning_rate": 4.264214046822743e-06,
	"loss": 6.3819,
	"step": 17500
	},
	{
	"epoch": 38.81341835320211,
	"eval_loss": 6.394676685333252,
	"eval_runtime": 174.8435,
	"eval_samples_per_second": 57.194,
	"eval_steps_per_second": 7.149,
	"step": 17500
	},
	{
	"epoch": 39.035209315220406,
	"grad_norm": 0.550544261932373,
	"learning_rate": 4.254180602006689e-06,
	"loss": 6.3826,
	"step": 17600
	},
	{
	"epoch": 39.035209315220406,
	"eval_loss": 6.396825313568115,
	"eval_runtime": 175.8952,
	"eval_samples_per_second": 56.852,
	"eval_steps_per_second": 7.107,
	"step": 17600
	},
	{
	"epoch": 39.2570002772387,
	"grad_norm": 0.43430355191230774,
	"learning_rate": 4.244147157190635e-06,
	"loss": 6.3829,
	"step": 17700
	},
	{
	"epoch": 39.2570002772387,
	"eval_loss": 6.396999835968018,
	"eval_runtime": 173.2928,
	"eval_samples_per_second": 57.706,
	"eval_steps_per_second": 7.213,
	"step": 17700
	},
	{
	"epoch": 39.478791239257,
	"grad_norm": 0.4726496636867523,
	"learning_rate": 4.234113712374582e-06,
	"loss": 6.3832,
	"step": 17800
	},
	{
	"epoch": 39.478791239257,
	"eval_loss": 6.394546031951904,
	"eval_runtime": 175.1792,
	"eval_samples_per_second": 57.084,
	"eval_steps_per_second": 7.136,
	"step": 17800
	},
	{
	"epoch": 39.700582201275296,
	"grad_norm": 0.6477558612823486,
	"learning_rate": 4.224080267558528e-06,
	"loss": 6.383,
	"step": 17900
	},
	{
	"epoch": 39.700582201275296,
	"eval_loss": 6.39369010925293,
	"eval_runtime": 175.8821,
	"eval_samples_per_second": 56.856,
	"eval_steps_per_second": 7.107,
	"step": 17900
	},
	{
	"epoch": 39.92237316329359,
	"grad_norm": 0.3382057845592499,
	"learning_rate": 4.214046822742475e-06,
	"loss": 6.3794,
	"step": 18000
	},
	{
	"epoch": 39.92237316329359,
	"eval_loss": 6.394671440124512,
	"eval_runtime": 175.9089,
	"eval_samples_per_second": 56.848,
	"eval_steps_per_second": 7.106,
	"step": 18000
	},
	{
	"epoch": 40.144164125311896,
	"grad_norm": 0.32499295473098755,
	"learning_rate": 4.2040133779264216e-06,
	"loss": 6.3836,
	"step": 18100
	},
	{
	"epoch": 40.144164125311896,
	"eval_loss": 6.393697738647461,
	"eval_runtime": 173.0953,
	"eval_samples_per_second": 57.772,
	"eval_steps_per_second": 7.221,
	"step": 18100
	},
	{
	"epoch": 40.36595508733019,
	"grad_norm": 0.4412948489189148,
	"learning_rate": 4.1939799331103675e-06,
	"loss": 6.382,
	"step": 18200
	},
	{
	"epoch": 40.36595508733019,
	"eval_loss": 6.395814895629883,
	"eval_runtime": 175.6272,
	"eval_samples_per_second": 56.939,
	"eval_steps_per_second": 7.117,
	"step": 18200
	},
	{
	"epoch": 40.58774604934849,
	"grad_norm": 0.46561938524246216,
	"learning_rate": 4.183946488294314e-06,
	"loss": 6.3809,
	"step": 18300
	},
	{
	"epoch": 40.58774604934849,
	"eval_loss": 6.395906448364258,
	"eval_runtime": 173.1113,
	"eval_samples_per_second": 57.766,
	"eval_steps_per_second": 7.221,
	"step": 18300
	},
	{
	"epoch": 40.809537011366785,
	"grad_norm": 0.3944660425186157,
	"learning_rate": 4.173913043478261e-06,
	"loss": 6.3816,
	"step": 18400
	},
	{
	"epoch": 40.809537011366785,
	"eval_loss": 6.395975589752197,
	"eval_runtime": 175.6877,
	"eval_samples_per_second": 56.919,
	"eval_steps_per_second": 7.115,
	"step": 18400
	},
	{
	"epoch": 41.03132797338508,
	"grad_norm": 0.6692656874656677,
	"learning_rate": 4.163879598662208e-06,
	"loss": 6.3812,
	"step": 18500
	},
	{
	"epoch": 41.03132797338508,
	"eval_loss": 6.39307975769043,
	"eval_runtime": 173.2571,
	"eval_samples_per_second": 57.718,
	"eval_steps_per_second": 7.215,
	"step": 18500
	},
	{
	"epoch": 41.253118935403386,
	"grad_norm": 0.5447328090667725,
	"learning_rate": 4.153846153846154e-06,
	"loss": 6.382,
	"step": 18600
	},
	{
	"epoch": 41.253118935403386,
	"eval_loss": 6.392385005950928,
	"eval_runtime": 175.7445,
	"eval_samples_per_second": 56.901,
	"eval_steps_per_second": 7.113,
	"step": 18600
	},
	{
	"epoch": 41.47490989742168,
	"grad_norm": 0.4197390079498291,
	"learning_rate": 4.1438127090301005e-06,
	"loss": 6.3809,
	"step": 18700
	},
	{
	"epoch": 41.47490989742168,
	"eval_loss": 6.395226001739502,
	"eval_runtime": 173.3622,
	"eval_samples_per_second": 57.683,
	"eval_steps_per_second": 7.21,
	"step": 18700
	},
	{
	"epoch": 41.69670085943998,
	"grad_norm": 0.37331509590148926,
	"learning_rate": 4.133779264214047e-06,
	"loss": 6.3821,
	"step": 18800
	},
	{
	"epoch": 41.69670085943998,
	"eval_loss": 6.397747039794922,
	"eval_runtime": 175.5873,
	"eval_samples_per_second": 56.952,
	"eval_steps_per_second": 7.119,
	"step": 18800
	},
	{
	"epoch": 41.918491821458275,
	"grad_norm": 0.439635306596756,
	"learning_rate": 4.123745819397993e-06,
	"loss": 6.3802,
	"step": 18900
	},
	{
	"epoch": 41.918491821458275,
	"eval_loss": 6.393184185028076,
	"eval_runtime": 175.6266,
	"eval_samples_per_second": 56.939,
	"eval_steps_per_second": 7.117,
	"step": 18900
	},
	{
	"epoch": 42.14028278347657,
	"grad_norm": 0.4135972857475281,
	"learning_rate": 4.11371237458194e-06,
	"loss": 6.381,
	"step": 19000
	},
	{
	"epoch": 42.14028278347657,
	"eval_loss": 6.396628379821777,
	"eval_runtime": 175.68,
	"eval_samples_per_second": 56.922,
	"eval_steps_per_second": 7.115,
	"step": 19000
	},
	{
	"epoch": 42.36207374549487,
	"grad_norm": 0.3350447118282318,
	"learning_rate": 4.103678929765887e-06,
	"loss": 6.382,
	"step": 19100
	},
	{
	"epoch": 42.36207374549487,
	"eval_loss": 6.3959784507751465,
	"eval_runtime": 173.1015,
	"eval_samples_per_second": 57.77,
	"eval_steps_per_second": 7.221,
	"step": 19100
	},
	{
	"epoch": 42.58386470751317,
	"grad_norm": 0.40015509724617004,
	"learning_rate": 4.0936454849498326e-06,
	"loss": 6.3793,
	"step": 19200
	},
	{
	"epoch": 42.58386470751317,
	"eval_loss": 6.392791271209717,
	"eval_runtime": 175.6231,
	"eval_samples_per_second": 56.94,
	"eval_steps_per_second": 7.118,
	"step": 19200
	},
	{
	"epoch": 42.80565566953147,
	"grad_norm": 0.42993155121803284,
	"learning_rate": 4.083612040133779e-06,
	"loss": 6.3817,
	"step": 19300
	},
	{
	"epoch": 42.80565566953147,
	"eval_loss": 6.393764495849609,
	"eval_runtime": 175.7583,
	"eval_samples_per_second": 56.896,
	"eval_steps_per_second": 7.112,
	"step": 19300
	},
	{
	"epoch": 43.027446631549765,
	"grad_norm": 0.506564199924469,
	"learning_rate": 4.073578595317726e-06,
	"loss": 6.3805,
	"step": 19400
	},
	{
	"epoch": 43.027446631549765,
	"eval_loss": 6.395299434661865,
	"eval_runtime": 172.8685,
	"eval_samples_per_second": 57.847,
	"eval_steps_per_second": 7.231,
	"step": 19400
	},
	{
	"epoch": 43.24923759356806,
	"grad_norm": 0.34368619322776794,
	"learning_rate": 4.063545150501672e-06,
	"loss": 6.3791,
	"step": 19500
	},
	{
	"epoch": 43.24923759356806,
	"eval_loss": 6.390516757965088,
	"eval_runtime": 175.4183,
	"eval_samples_per_second": 57.007,
	"eval_steps_per_second": 7.126,
	"step": 19500
	},
	{
	"epoch": 43.47102855558636,
	"grad_norm": 0.5442679524421692,
	"learning_rate": 4.053511705685619e-06,
	"loss": 6.3805,
	"step": 19600
	},
	{
	"epoch": 43.47102855558636,
	"eval_loss": 6.390527248382568,
	"eval_runtime": 172.8815,
	"eval_samples_per_second": 57.843,
	"eval_steps_per_second": 7.23,
	"step": 19600
	},
	{
	"epoch": 43.692819517604654,
	"grad_norm": 0.6060280799865723,
	"learning_rate": 4.0434782608695655e-06,
	"loss": 6.3792,
	"step": 19700
	},
	{
	"epoch": 43.692819517604654,
	"eval_loss": 6.393373489379883,
	"eval_runtime": 175.3372,
	"eval_samples_per_second": 57.033,
	"eval_steps_per_second": 7.129,
	"step": 19700
	},
	{
	"epoch": 43.91461047962296,
	"grad_norm": 0.5891469120979309,
	"learning_rate": 4.0334448160535115e-06,
	"loss": 6.382,
	"step": 19800
	},
	{
	"epoch": 43.91461047962296,
	"eval_loss": 6.395658493041992,
	"eval_runtime": 173.3068,
	"eval_samples_per_second": 57.701,
	"eval_steps_per_second": 7.213,
	"step": 19800
	},
	{
	"epoch": 44.136401441641254,
	"grad_norm": 0.3623868525028229,
	"learning_rate": 4.023411371237458e-06,
	"loss": 6.3794,
	"step": 19900
	},
	{
	"epoch": 44.136401441641254,
	"eval_loss": 6.394290447235107,
	"eval_runtime": 175.7778,
	"eval_samples_per_second": 56.89,
	"eval_steps_per_second": 7.111,
	"step": 19900
	},
	{
	"epoch": 44.35819240365955,
	"grad_norm": 0.6197667121887207,
	"learning_rate": 4.013377926421405e-06,
	"loss": 6.3798,
	"step": 20000
	},
	{
	"epoch": 44.35819240365955,
	"eval_loss": 6.393582820892334,
	"eval_runtime": 175.4817,
	"eval_samples_per_second": 56.986,
	"eval_steps_per_second": 7.123,
	"step": 20000
	},
	{
	"epoch": 44.57998336567785,
	"grad_norm": 0.5198450684547424,
	"learning_rate": 4.003344481605351e-06,
	"loss": 6.3792,
	"step": 20100
	},
	{
	"epoch": 44.57998336567785,
	"eval_loss": 6.3943023681640625,
	"eval_runtime": 175.4115,
	"eval_samples_per_second": 57.009,
	"eval_steps_per_second": 7.126,
	"step": 20100
	},
	{
	"epoch": 44.801774327696144,
	"grad_norm": 0.4044889211654663,
	"learning_rate": 3.993311036789298e-06,
	"loss": 6.3798,
	"step": 20200
	},
	{
	"epoch": 44.801774327696144,
	"eval_loss": 6.396990776062012,
	"eval_runtime": 172.8449,
	"eval_samples_per_second": 57.855,
	"eval_steps_per_second": 7.232,
	"step": 20200
	},
	{
	"epoch": 45.02356528971445,
	"grad_norm": 0.4656885862350464,
	"learning_rate": 3.9832775919732444e-06,
	"loss": 6.3807,
	"step": 20300
	},
	{
	"epoch": 45.02356528971445,
	"eval_loss": 6.395167350769043,
	"eval_runtime": 175.2548,
	"eval_samples_per_second": 57.06,
	"eval_steps_per_second": 7.132,
	"step": 20300
	},
	{
	"epoch": 45.245356251732744,
	"grad_norm": 0.5882771611213684,
	"learning_rate": 3.97324414715719e-06,
	"loss": 6.3802,
	"step": 20400
	},
	{
	"epoch": 45.245356251732744,
	"eval_loss": 6.392847537994385,
	"eval_runtime": 175.4165,
	"eval_samples_per_second": 57.007,
	"eval_steps_per_second": 7.126,
	"step": 20400
	},
	{
	"epoch": 45.46714721375104,
	"grad_norm": 0.31189513206481934,
	"learning_rate": 3.963210702341137e-06,
	"loss": 6.3799,
	"step": 20500
	},
	{
	"epoch": 45.46714721375104,
	"eval_loss": 6.391454696655273,
	"eval_runtime": 175.3822,
	"eval_samples_per_second": 57.018,
	"eval_steps_per_second": 7.127,
	"step": 20500
	},
	{
	"epoch": 45.68893817576934,
	"grad_norm": 0.7188530564308167,
	"learning_rate": 3.953177257525084e-06,
	"loss": 6.3775,
	"step": 20600
	},
	{
	"epoch": 45.68893817576934,
	"eval_loss": 6.391802787780762,
	"eval_runtime": 175.4136,
	"eval_samples_per_second": 57.008,
	"eval_steps_per_second": 7.126,
	"step": 20600
	},
	{
	"epoch": 45.910729137787634,
	"grad_norm": 0.4235071837902069,
	"learning_rate": 3.943143812709031e-06,
	"loss": 6.3791,
	"step": 20700
	},
	{
	"epoch": 45.910729137787634,
	"eval_loss": 6.3952836990356445,
	"eval_runtime": 175.3753,
	"eval_samples_per_second": 57.021,
	"eval_steps_per_second": 7.128,
	"step": 20700
	},
	{
	"epoch": 46.13252009980593,
	"grad_norm": 0.4977140724658966,
	"learning_rate": 3.9331103678929765e-06,
	"loss": 6.3807,
	"step": 20800
	},
	{
	"epoch": 46.13252009980593,
	"eval_loss": 6.397064208984375,
	"eval_runtime": 175.8439,
	"eval_samples_per_second": 56.869,
	"eval_steps_per_second": 7.109,
	"step": 20800
	},
	{
	"epoch": 46.354311061824234,
	"grad_norm": 0.5896762609481812,
	"learning_rate": 3.923076923076923e-06,
	"loss": 6.3801,
	"step": 20900
	},
	{
	"epoch": 46.354311061824234,
	"eval_loss": 6.394172191619873,
	"eval_runtime": 173.449,
	"eval_samples_per_second": 57.654,
	"eval_steps_per_second": 7.207,
	"step": 20900
	},
	{
	"epoch": 46.57610202384253,
	"grad_norm": 0.47281450033187866,
	"learning_rate": 3.91304347826087e-06,
	"loss": 6.3787,
	"step": 21000
	},
	{
	"epoch": 46.57610202384253,
	"eval_loss": 6.3905463218688965,
	"eval_runtime": 175.9964,
	"eval_samples_per_second": 56.819,
	"eval_steps_per_second": 7.102,
	"step": 21000
	},
	{
	"epoch": 46.79789298586083,
	"grad_norm": 0.42211413383483887,
	"learning_rate": 3.903010033444816e-06,
	"loss": 6.3798,
	"step": 21100
	},
	{
	"epoch": 46.79789298586083,
	"eval_loss": 6.39119291305542,
	"eval_runtime": 175.8005,
	"eval_samples_per_second": 56.883,
	"eval_steps_per_second": 7.11,
	"step": 21100
	},
	{
	"epoch": 47.01968394787912,
	"grad_norm": 0.7232652306556702,
	"learning_rate": 3.892976588628763e-06,
	"loss": 6.3795,
	"step": 21200
	},
	{
	"epoch": 47.01968394787912,
	"eval_loss": 6.39454984664917,
	"eval_runtime": 174.7314,
	"eval_samples_per_second": 57.231,
	"eval_steps_per_second": 7.154,
	"step": 21200
	},
	{
	"epoch": 47.24147490989742,
	"grad_norm": 0.4875265657901764,
	"learning_rate": 3.8829431438127095e-06,
	"loss": 6.3798,
	"step": 21300
	},
	{
	"epoch": 47.24147490989742,
	"eval_loss": 6.391242027282715,
	"eval_runtime": 173.1294,
	"eval_samples_per_second": 57.76,
	"eval_steps_per_second": 7.22,
	"step": 21300
	},
	{
	"epoch": 47.463265871915716,
	"grad_norm": 0.689365804195404,
	"learning_rate": 3.8729096989966554e-06,
	"loss": 6.3797,
	"step": 21400
	},
	{
	"epoch": 47.463265871915716,
	"eval_loss": 6.392244338989258,
	"eval_runtime": 175.7048,
	"eval_samples_per_second": 56.914,
	"eval_steps_per_second": 7.114,
	"step": 21400
	},
	{
	"epoch": 47.68505683393402,
	"grad_norm": 0.34326601028442383,
	"learning_rate": 3.862876254180602e-06,
	"loss": 6.3799,
	"step": 21500
	},
	{
	"epoch": 47.68505683393402,
	"eval_loss": 6.390882968902588,
	"eval_runtime": 173.1981,
	"eval_samples_per_second": 57.737,
	"eval_steps_per_second": 7.217,
	"step": 21500
	},
	{
	"epoch": 47.90684779595232,
	"grad_norm": 0.5094731450080872,
	"learning_rate": 3.852842809364549e-06,
	"loss": 6.3789,
	"step": 21600
	},
	{
	"epoch": 47.90684779595232,
	"eval_loss": 6.391824245452881,
	"eval_runtime": 175.6758,
	"eval_samples_per_second": 56.923,
	"eval_steps_per_second": 7.115,
	"step": 21600
	},
	{
	"epoch": 48.12863875797061,
	"grad_norm": 0.5096613764762878,
	"learning_rate": 3.842809364548495e-06,
	"loss": 6.3788,
	"step": 21700
	},
	{
	"epoch": 48.12863875797061,
	"eval_loss": 6.3908467292785645,
	"eval_runtime": 175.722,
	"eval_samples_per_second": 56.908,
	"eval_steps_per_second": 7.114,
	"step": 21700
	},
	{
	"epoch": 48.35042971998891,
	"grad_norm": 0.49328041076660156,
	"learning_rate": 3.832775919732442e-06,
	"loss": 6.3801,
	"step": 21800
	},
	{
	"epoch": 48.35042971998891,
	"eval_loss": 6.392337322235107,
	"eval_runtime": 175.7017,
	"eval_samples_per_second": 56.915,
	"eval_steps_per_second": 7.114,
	"step": 21800
	},
	{
	"epoch": 48.572220682007206,
	"grad_norm": 0.331511914730072,
	"learning_rate": 3.822742474916388e-06,
	"loss": 6.3787,
	"step": 21900
	},
	{
	"epoch": 48.572220682007206,
	"eval_loss": 6.392426013946533,
	"eval_runtime": 175.6914,
	"eval_samples_per_second": 56.918,
	"eval_steps_per_second": 7.115,
	"step": 21900
	},
	{
	"epoch": 48.7940116440255,
	"grad_norm": 0.5596035718917847,
	"learning_rate": 3.8127090301003347e-06,
	"loss": 6.3783,
	"step": 22000
	},
	{
	"epoch": 48.7940116440255,
	"eval_loss": 6.396266460418701,
	"eval_runtime": 175.7217,
	"eval_samples_per_second": 56.908,
	"eval_steps_per_second": 7.114,
	"step": 22000
	},
	{
	"epoch": 49.015802606043806,
	"grad_norm": 0.42308327555656433,
	"learning_rate": 3.802675585284281e-06,
	"loss": 6.3788,
	"step": 22100
	},
	{
	"epoch": 49.015802606043806,
	"eval_loss": 6.392462730407715,
	"eval_runtime": 175.6395,
	"eval_samples_per_second": 56.935,
	"eval_steps_per_second": 7.117,
	"step": 22100
	},
	{
	"epoch": 49.2375935680621,
	"grad_norm": 0.47657862305641174,
	"learning_rate": 3.792642140468228e-06,
	"loss": 6.3768,
	"step": 22200
	},
	{
	"epoch": 49.2375935680621,
	"eval_loss": 6.392263412475586,
	"eval_runtime": 175.6228,
	"eval_samples_per_second": 56.94,
	"eval_steps_per_second": 7.118,
	"step": 22200
	},
	{
	"epoch": 49.4593845300804,
	"grad_norm": 0.4417143166065216,
	"learning_rate": 3.782608695652174e-06,
	"loss": 6.3785,
	"step": 22300
	},
	{
	"epoch": 49.4593845300804,
	"eval_loss": 6.39237642288208,
	"eval_runtime": 175.5904,
	"eval_samples_per_second": 56.951,
	"eval_steps_per_second": 7.119,
	"step": 22300
	},
	{
	"epoch": 49.681175492098696,
	"grad_norm": 0.3279063105583191,
	"learning_rate": 3.7725752508361205e-06,
	"loss": 6.3791,
	"step": 22400
	},
	{
	"epoch": 49.681175492098696,
	"eval_loss": 6.3924407958984375,
	"eval_runtime": 175.6501,
	"eval_samples_per_second": 56.931,
	"eval_steps_per_second": 7.116,
	"step": 22400
	},
	{
	"epoch": 49.90296645411699,
	"grad_norm": 0.6854652166366577,
	"learning_rate": 3.7625418060200673e-06,
	"loss": 6.3785,
	"step": 22500
	},
	{
	"epoch": 49.90296645411699,
	"eval_loss": 6.390333652496338,
	"eval_runtime": 175.1173,
	"eval_samples_per_second": 57.105,
	"eval_steps_per_second": 7.138,
	"step": 22500
	},
	{
	"epoch": 50.124757416135296,
	"grad_norm": 0.3522402048110962,
	"learning_rate": 3.7525083612040136e-06,
	"loss": 6.3776,
	"step": 22600
	},
	{
	"epoch": 50.124757416135296,
	"eval_loss": 6.395279884338379,
	"eval_runtime": 172.8769,
	"eval_samples_per_second": 57.845,
	"eval_steps_per_second": 7.231,
	"step": 22600
	},
	{
	"epoch": 50.34654837815359,
	"grad_norm": 0.4847201704978943,
	"learning_rate": 3.74247491638796e-06,
	"loss": 6.3798,
	"step": 22700
	},
	{
	"epoch": 50.34654837815359,
	"eval_loss": 6.385508060455322,
	"eval_runtime": 175.3898,
	"eval_samples_per_second": 57.016,
	"eval_steps_per_second": 7.127,
	"step": 22700
	},
	{
	"epoch": 50.56833934017189,
	"grad_norm": 0.6891096234321594,
	"learning_rate": 3.7324414715719067e-06,
	"loss": 6.379,
	"step": 22800
	},
	{
	"epoch": 50.56833934017189,
	"eval_loss": 6.389738082885742,
	"eval_runtime": 172.9656,
	"eval_samples_per_second": 57.815,
	"eval_steps_per_second": 7.227,
	"step": 22800
	},
	{
	"epoch": 50.790130302190185,
	"grad_norm": 0.5377815365791321,
	"learning_rate": 3.722408026755853e-06,
	"loss": 6.3781,
	"step": 22900
	},
	{
	"epoch": 50.790130302190185,
	"eval_loss": 6.393865585327148,
	"eval_runtime": 175.4211,
	"eval_samples_per_second": 57.006,
	"eval_steps_per_second": 7.126,
	"step": 22900
	},
	{
	"epoch": 51.01192126420848,
	"grad_norm": 0.33496779203414917,
	"learning_rate": 3.7123745819398e-06,
	"loss": 6.3774,
	"step": 23000
	},
	{
	"epoch": 51.01192126420848,
	"eval_loss": 6.388363838195801,
	"eval_runtime": 172.9308,
	"eval_samples_per_second": 57.827,
	"eval_steps_per_second": 7.228,
	"step": 23000
	},
	{
	"epoch": 51.23371222622678,
	"grad_norm": 0.374717116355896,
	"learning_rate": 3.702341137123746e-06,
	"loss": 6.3782,
	"step": 23100
	},
	{
	"epoch": 51.23371222622678,
	"eval_loss": 6.3933634757995605,
	"eval_runtime": 175.8194,
	"eval_samples_per_second": 56.877,
	"eval_steps_per_second": 7.11,
	"step": 23100
	},
	{
	"epoch": 51.45550318824508,
	"grad_norm": 0.5700441002845764,
	"learning_rate": 3.6923076923076925e-06,
	"loss": 6.3779,
	"step": 23200
	},
	{
	"epoch": 51.45550318824508,
	"eval_loss": 6.391829490661621,
	"eval_runtime": 173.0462,
	"eval_samples_per_second": 57.788,
	"eval_steps_per_second": 7.224,
	"step": 23200
	},
	{
	"epoch": 51.67729415026338,
	"grad_norm": 0.5987123250961304,
	"learning_rate": 3.6822742474916393e-06,
	"loss": 6.3775,
	"step": 23300
	},
	{
	"epoch": 51.67729415026338,
	"eval_loss": 6.391645908355713,
	"eval_runtime": 175.546,
	"eval_samples_per_second": 56.965,
	"eval_steps_per_second": 7.121,
	"step": 23300
	},
	{
	"epoch": 51.899085112281675,
	"grad_norm": 0.6282506585121155,
	"learning_rate": 3.6722408026755856e-06,
	"loss": 6.3785,
	"step": 23400
	},
	{
	"epoch": 51.899085112281675,
	"eval_loss": 6.394507884979248,
	"eval_runtime": 175.5236,
	"eval_samples_per_second": 56.972,
	"eval_steps_per_second": 7.122,
	"step": 23400
	},
	{
	"epoch": 52.12087607429997,
	"grad_norm": 0.4422946572303772,
	"learning_rate": 3.662207357859532e-06,
	"loss": 6.378,
	"step": 23500
	},
	{
	"epoch": 52.12087607429997,
	"eval_loss": 6.389113903045654,
	"eval_runtime": 172.8391,
	"eval_samples_per_second": 57.857,
	"eval_steps_per_second": 7.232,
	"step": 23500
	},
	{
	"epoch": 52.34266703631827,
	"grad_norm": 0.43772438168525696,
	"learning_rate": 3.6521739130434787e-06,
	"loss": 6.3769,
	"step": 23600
	},
	{
	"epoch": 52.34266703631827,
	"eval_loss": 6.389682292938232,
	"eval_runtime": 174.37,
	"eval_samples_per_second": 57.349,
	"eval_steps_per_second": 7.169,
	"step": 23600
	},
	{
	"epoch": 52.564457998336565,
	"grad_norm": 0.4291711449623108,
	"learning_rate": 3.642140468227425e-06,
	"loss": 6.3787,
	"step": 23700
	},
	{
	"epoch": 52.564457998336565,
	"eval_loss": 6.387042999267578,
	"eval_runtime": 175.3622,
	"eval_samples_per_second": 57.025,
	"eval_steps_per_second": 7.128,
	"step": 23700
	},
	{
	"epoch": 52.78624896035487,
	"grad_norm": 0.3986354172229767,
	"learning_rate": 3.6321070234113714e-06,
	"loss": 6.378,
	"step": 23800
	},
	{
	"epoch": 52.78624896035487,
	"eval_loss": 6.394027233123779,
	"eval_runtime": 175.4238,
	"eval_samples_per_second": 57.005,
	"eval_steps_per_second": 7.126,
	"step": 23800
	},
	{
	"epoch": 53.008039922373165,
	"grad_norm": 0.4198819398880005,
	"learning_rate": 3.622073578595318e-06,
	"loss": 6.378,
	"step": 23900
	},
	{
	"epoch": 53.008039922373165,
	"eval_loss": 6.391998291015625,
	"eval_runtime": 175.3995,
	"eval_samples_per_second": 57.013,
	"eval_steps_per_second": 7.127,
	"step": 23900
	},
	{
	"epoch": 53.22983088439146,
	"grad_norm": 0.42992842197418213,
	"learning_rate": 3.6120401337792645e-06,
	"loss": 6.378,
	"step": 24000
	},
	{
	"epoch": 53.22983088439146,
	"eval_loss": 6.391213893890381,
	"eval_runtime": 175.5148,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 24000
	},
	{
	"epoch": 53.45162184640976,
	"grad_norm": 0.3845984637737274,
	"learning_rate": 3.6020066889632112e-06,
	"loss": 6.3794,
	"step": 24100
	},
	{
	"epoch": 53.45162184640976,
	"eval_loss": 6.395719528198242,
	"eval_runtime": 175.2358,
	"eval_samples_per_second": 57.066,
	"eval_steps_per_second": 7.133,
	"step": 24100
	},
	{
	"epoch": 53.673412808428054,
	"grad_norm": 0.4092540144920349,
	"learning_rate": 3.5919732441471576e-06,
	"loss": 6.3764,
	"step": 24200
	},
	{
	"epoch": 53.673412808428054,
	"eval_loss": 6.392786502838135,
	"eval_runtime": 173.4491,
	"eval_samples_per_second": 57.654,
	"eval_steps_per_second": 7.207,
	"step": 24200
	},
	{
	"epoch": 53.89520377044636,
	"grad_norm": 0.4434932470321655,
	"learning_rate": 3.581939799331104e-06,
	"loss": 6.3784,
	"step": 24300
	},
	{
	"epoch": 53.89520377044636,
	"eval_loss": 6.392944812774658,
	"eval_runtime": 173.4556,
	"eval_samples_per_second": 57.652,
	"eval_steps_per_second": 7.206,
	"step": 24300
	},
	{
	"epoch": 54.116994732464654,
	"grad_norm": 0.3644530177116394,
	"learning_rate": 3.5719063545150507e-06,
	"loss": 6.3777,
	"step": 24400
	},
	{
	"epoch": 54.116994732464654,
	"eval_loss": 6.389293193817139,
	"eval_runtime": 175.8393,
	"eval_samples_per_second": 56.87,
	"eval_steps_per_second": 7.109,
	"step": 24400
	},
	{
	"epoch": 54.33878569448295,
	"grad_norm": 0.42048630118370056,
	"learning_rate": 3.561872909698997e-06,
	"loss": 6.3779,
	"step": 24500
	},
	{
	"epoch": 54.33878569448295,
	"eval_loss": 6.392094612121582,
	"eval_runtime": 173.3329,
	"eval_samples_per_second": 57.692,
	"eval_steps_per_second": 7.212,
	"step": 24500
	},
	{
	"epoch": 54.56057665650125,
	"grad_norm": 0.5288220047950745,
	"learning_rate": 3.5518394648829434e-06,
	"loss": 6.3768,
	"step": 24600
	},
	{
	"epoch": 54.56057665650125,
	"eval_loss": 6.389921188354492,
	"eval_runtime": 175.5087,
	"eval_samples_per_second": 56.977,
	"eval_steps_per_second": 7.122,
	"step": 24600
	},
	{
	"epoch": 54.782367618519544,
	"grad_norm": 0.5413895845413208,
	"learning_rate": 3.54180602006689e-06,
	"loss": 6.3788,
	"step": 24700
	},
	{
	"epoch": 54.782367618519544,
	"eval_loss": 6.389023303985596,
	"eval_runtime": 172.9846,
	"eval_samples_per_second": 57.809,
	"eval_steps_per_second": 7.226,
	"step": 24700
	},
	{
	"epoch": 55.00415858053784,
	"grad_norm": 0.35512205958366394,
	"learning_rate": 3.5317725752508365e-06,
	"loss": 6.3777,
	"step": 24800
	},
	{
	"epoch": 55.00415858053784,
	"eval_loss": 6.390623569488525,
	"eval_runtime": 175.3777,
	"eval_samples_per_second": 57.02,
	"eval_steps_per_second": 7.127,
	"step": 24800
	},
	{
	"epoch": 55.225949542556144,
	"grad_norm": 0.46963444352149963,
	"learning_rate": 3.521739130434783e-06,
	"loss": 6.3759,
	"step": 24900
	},
	{
	"epoch": 55.225949542556144,
	"eval_loss": 6.392442226409912,
	"eval_runtime": 173.0136,
	"eval_samples_per_second": 57.799,
	"eval_steps_per_second": 7.225,
	"step": 24900
	},
	{
	"epoch": 55.44774050457444,
	"grad_norm": 0.4473781883716583,
	"learning_rate": 3.5117056856187296e-06,
	"loss": 6.3766,
	"step": 25000
	},
	{
	"epoch": 55.44774050457444,
	"eval_loss": 6.392148971557617,
	"eval_runtime": 175.4775,
	"eval_samples_per_second": 56.987,
	"eval_steps_per_second": 7.123,
	"step": 25000
	},
	{
	"epoch": 55.66953146659274,
	"grad_norm": 0.4387643337249756,
	"learning_rate": 3.501672240802676e-06,
	"loss": 6.3768,
	"step": 25100
	},
	{
	"epoch": 55.66953146659274,
	"eval_loss": 6.391911506652832,
	"eval_runtime": 175.6257,
	"eval_samples_per_second": 56.939,
	"eval_steps_per_second": 7.117,
	"step": 25100
	},
	{
	"epoch": 55.89132242861103,
	"grad_norm": 0.5157041549682617,
	"learning_rate": 3.491638795986622e-06,
	"loss": 6.3784,
	"step": 25200
	},
	{
	"epoch": 55.89132242861103,
	"eval_loss": 6.384146690368652,
	"eval_runtime": 175.6148,
	"eval_samples_per_second": 56.943,
	"eval_steps_per_second": 7.118,
	"step": 25200
	},
	{
	"epoch": 56.11311339062933,
	"grad_norm": 0.36674726009368896,
	"learning_rate": 3.481605351170568e-06,
	"loss": 6.3757,
	"step": 25300
	},
	{
	"epoch": 56.11311339062933,
	"eval_loss": 6.3921380043029785,
	"eval_runtime": 175.3664,
	"eval_samples_per_second": 57.023,
	"eval_steps_per_second": 7.128,
	"step": 25300
	},
	{
	"epoch": 56.33490435264763,
	"grad_norm": 0.44830092787742615,
	"learning_rate": 3.471571906354515e-06,
	"loss": 6.3785,
	"step": 25400
	},
	{
	"epoch": 56.33490435264763,
	"eval_loss": 6.387638092041016,
	"eval_runtime": 175.4426,
	"eval_samples_per_second": 56.999,
	"eval_steps_per_second": 7.125,
	"step": 25400
	},
	{
	"epoch": 56.55669531466593,
	"grad_norm": 0.4037076532840729,
	"learning_rate": 3.4615384615384613e-06,
	"loss": 6.3753,
	"step": 25500
	},
	{
	"epoch": 56.55669531466593,
	"eval_loss": 6.390742778778076,
	"eval_runtime": 175.869,
	"eval_samples_per_second": 56.861,
	"eval_steps_per_second": 7.108,
	"step": 25500
	},
	{
	"epoch": 56.77848627668423,
	"grad_norm": 0.5410855412483215,
	"learning_rate": 3.4515050167224076e-06,
	"loss": 6.3773,
	"step": 25600
	},
	{
	"epoch": 56.77848627668423,
	"eval_loss": 6.388538837432861,
	"eval_runtime": 175.5689,
	"eval_samples_per_second": 56.958,
	"eval_steps_per_second": 7.12,
	"step": 25600
	},
	{
	"epoch": 57.00027723870252,
	"grad_norm": 0.6200158596038818,
	"learning_rate": 3.4414715719063544e-06,
	"loss": 6.3762,
	"step": 25700
	},
	{
	"epoch": 57.00027723870252,
	"eval_loss": 6.392038345336914,
	"eval_runtime": 172.8867,
	"eval_samples_per_second": 57.841,
	"eval_steps_per_second": 7.23,
	"step": 25700
	},
	{
	"epoch": 57.22206820072082,
	"grad_norm": 0.33977118134498596,
	"learning_rate": 3.4314381270903007e-06,
	"loss": 6.3782,
	"step": 25800
	},
	{
	"epoch": 57.22206820072082,
	"eval_loss": 6.390758037567139,
	"eval_runtime": 172.9474,
	"eval_samples_per_second": 57.821,
	"eval_steps_per_second": 7.228,
	"step": 25800
	},
	{
	"epoch": 57.443859162739116,
	"grad_norm": 0.396681010723114,
	"learning_rate": 3.4214046822742475e-06,
	"loss": 6.3766,
	"step": 25900
	},
	{
	"epoch": 57.443859162739116,
	"eval_loss": 6.391767501831055,
	"eval_runtime": 175.4265,
	"eval_samples_per_second": 57.004,
	"eval_steps_per_second": 7.125,
	"step": 25900
	},
	{
	"epoch": 57.66565012475741,
	"grad_norm": 0.3652241826057434,
	"learning_rate": 3.411371237458194e-06,
	"loss": 6.3766,
	"step": 26000
	},
	{
	"epoch": 57.66565012475741,
	"eval_loss": 6.388927936553955,
	"eval_runtime": 173.1869,
	"eval_samples_per_second": 57.741,
	"eval_steps_per_second": 7.218,
	"step": 26000
	},
	{
	"epoch": 57.887441086775716,
	"grad_norm": 0.40237948298454285,
	"learning_rate": 3.40133779264214e-06,
	"loss": 6.3786,
	"step": 26100
	},
	{
	"epoch": 57.887441086775716,
	"eval_loss": 6.385989665985107,
	"eval_runtime": 175.7809,
	"eval_samples_per_second": 56.889,
	"eval_steps_per_second": 7.111,
	"step": 26100
	},
	{
	"epoch": 58.10923204879401,
	"grad_norm": 0.47134748101234436,
	"learning_rate": 3.391304347826087e-06,
	"loss": 6.3766,
	"step": 26200
	},
	{
	"epoch": 58.10923204879401,
	"eval_loss": 6.388063907623291,
	"eval_runtime": 172.8868,
	"eval_samples_per_second": 57.841,
	"eval_steps_per_second": 7.23,
	"step": 26200
	},
	{
	"epoch": 58.33102301081231,
	"grad_norm": 0.35729169845581055,
	"learning_rate": 3.3812709030100333e-06,
	"loss": 6.376,
	"step": 26300
	},
	{
	"epoch": 58.33102301081231,
	"eval_loss": 6.38781213760376,
	"eval_runtime": 175.295,
	"eval_samples_per_second": 57.047,
	"eval_steps_per_second": 7.131,
	"step": 26300
	},
	{
	"epoch": 58.552813972830606,
	"grad_norm": 0.38715028762817383,
	"learning_rate": 3.3712374581939796e-06,
	"loss": 6.3765,
	"step": 26400
	},
	{
	"epoch": 58.552813972830606,
	"eval_loss": 6.389337539672852,
	"eval_runtime": 172.8668,
	"eval_samples_per_second": 57.848,
	"eval_steps_per_second": 7.231,
	"step": 26400
	},
	{
	"epoch": 58.7746049348489,
	"grad_norm": 0.46873271465301514,
	"learning_rate": 3.3612040133779264e-06,
	"loss": 6.3768,
	"step": 26500
	},
	{
	"epoch": 58.7746049348489,
	"eval_loss": 6.392114162445068,
	"eval_runtime": 175.4104,
	"eval_samples_per_second": 57.009,
	"eval_steps_per_second": 7.126,
	"step": 26500
	},
	{
	"epoch": 58.996395896867206,
	"grad_norm": 0.3447762131690979,
	"learning_rate": 3.3511705685618727e-06,
	"loss": 6.3759,
	"step": 26600
	},
	{
	"epoch": 58.996395896867206,
	"eval_loss": 6.387296676635742,
	"eval_runtime": 175.3375,
	"eval_samples_per_second": 57.033,
	"eval_steps_per_second": 7.129,
	"step": 26600
	},
	{
	"epoch": 59.2181868588855,
	"grad_norm": 0.3914731442928314,
	"learning_rate": 3.3411371237458195e-06,
	"loss": 6.3771,
	"step": 26700
	},
	{
	"epoch": 59.2181868588855,
	"eval_loss": 6.387917995452881,
	"eval_runtime": 175.4868,
	"eval_samples_per_second": 56.984,
	"eval_steps_per_second": 7.123,
	"step": 26700
	},
	{
	"epoch": 59.4399778209038,
	"grad_norm": 0.5208538174629211,
	"learning_rate": 3.331103678929766e-06,
	"loss": 6.3765,
	"step": 26800
	},
	{
	"epoch": 59.4399778209038,
	"eval_loss": 6.389184474945068,
	"eval_runtime": 174.2169,
	"eval_samples_per_second": 57.4,
	"eval_steps_per_second": 7.175,
	"step": 26800
	},
	{
	"epoch": 59.661768782922096,
	"grad_norm": 0.3724886178970337,
	"learning_rate": 3.321070234113712e-06,
	"loss": 6.3757,
	"step": 26900
	},
	{
	"epoch": 59.661768782922096,
	"eval_loss": 6.392241954803467,
	"eval_runtime": 175.4491,
	"eval_samples_per_second": 56.997,
	"eval_steps_per_second": 7.125,
	"step": 26900
	},
	{
	"epoch": 59.88355974494039,
	"grad_norm": 0.33004748821258545,
	"learning_rate": 3.311036789297659e-06,
	"loss": 6.3759,
	"step": 27000
	},
	{
	"epoch": 59.88355974494039,
	"eval_loss": 6.389077186584473,
	"eval_runtime": 172.9579,
	"eval_samples_per_second": 57.818,
	"eval_steps_per_second": 7.227,
	"step": 27000
	},
	{
	"epoch": 60.10535070695869,
	"grad_norm": 0.3995635211467743,
	"learning_rate": 3.3010033444816052e-06,
	"loss": 6.3774,
	"step": 27100
	},
	{
	"epoch": 60.10535070695869,
	"eval_loss": 6.389009952545166,
	"eval_runtime": 175.8118,
	"eval_samples_per_second": 56.879,
	"eval_steps_per_second": 7.11,
	"step": 27100
	},
	{
	"epoch": 60.32714166897699,
	"grad_norm": 0.49882611632347107,
	"learning_rate": 3.2909698996655516e-06,
	"loss": 6.3762,
	"step": 27200
	},
	{
	"epoch": 60.32714166897699,
	"eval_loss": 6.3899922370910645,
	"eval_runtime": 175.7786,
	"eval_samples_per_second": 56.89,
	"eval_steps_per_second": 7.111,
	"step": 27200
	},
	{
	"epoch": 60.54893263099529,
	"grad_norm": 0.46321776509284973,
	"learning_rate": 3.2809364548494983e-06,
	"loss": 6.3758,
	"step": 27300
	},
	{
	"epoch": 60.54893263099529,
	"eval_loss": 6.389715671539307,
	"eval_runtime": 175.8928,
	"eval_samples_per_second": 56.853,
	"eval_steps_per_second": 7.107,
	"step": 27300
	},
	{
	"epoch": 60.770723593013585,
	"grad_norm": 0.4512879252433777,
	"learning_rate": 3.2709030100334447e-06,
	"loss": 6.3764,
	"step": 27400
	},
	{
	"epoch": 60.770723593013585,
	"eval_loss": 6.388641357421875,
	"eval_runtime": 175.8755,
	"eval_samples_per_second": 56.858,
	"eval_steps_per_second": 7.107,
	"step": 27400
	},
	{
	"epoch": 60.99251455503188,
	"grad_norm": 0.5370669364929199,
	"learning_rate": 3.260869565217391e-06,
	"loss": 6.3764,
	"step": 27500
	},
	{
	"epoch": 60.99251455503188,
	"eval_loss": 6.391347885131836,
	"eval_runtime": 173.6027,
	"eval_samples_per_second": 57.603,
	"eval_steps_per_second": 7.2,
	"step": 27500
	},
	{
	"epoch": 61.21430551705018,
	"grad_norm": 0.4362497627735138,
	"learning_rate": 3.2508361204013378e-06,
	"loss": 6.3747,
	"step": 27600
	},
	{
	"epoch": 61.21430551705018,
	"eval_loss": 6.390707969665527,
	"eval_runtime": 175.8739,
	"eval_samples_per_second": 56.859,
	"eval_steps_per_second": 7.107,
	"step": 27600
	},
	{
	"epoch": 61.436096479068475,
	"grad_norm": 0.36759933829307556,
	"learning_rate": 3.240802675585284e-06,
	"loss": 6.3768,
	"step": 27700
	},
	{
	"epoch": 61.436096479068475,
	"eval_loss": 6.390637397766113,
	"eval_runtime": 173.3683,
	"eval_samples_per_second": 57.681,
	"eval_steps_per_second": 7.21,
	"step": 27700
	},
	{
	"epoch": 61.65788744108678,
	"grad_norm": 0.4922894537448883,
	"learning_rate": 3.230769230769231e-06,
	"loss": 6.3758,
	"step": 27800
	},
	{
	"epoch": 61.65788744108678,
	"eval_loss": 6.386129379272461,
	"eval_runtime": 175.8295,
	"eval_samples_per_second": 56.873,
	"eval_steps_per_second": 7.109,
	"step": 27800
	},
	{
	"epoch": 61.879678403105075,
	"grad_norm": 0.5007067918777466,
	"learning_rate": 3.2207357859531772e-06,
	"loss": 6.3755,
	"step": 27900
	},
	{
	"epoch": 61.879678403105075,
	"eval_loss": 6.389693737030029,
	"eval_runtime": 173.4229,
	"eval_samples_per_second": 57.663,
	"eval_steps_per_second": 7.208,
	"step": 27900
	},
	{
	"epoch": 62.10146936512337,
	"grad_norm": 0.5208317041397095,
	"learning_rate": 3.2107023411371236e-06,
	"loss": 6.3766,
	"step": 28000
	},
	{
	"epoch": 62.10146936512337,
	"eval_loss": 6.387614727020264,
	"eval_runtime": 175.7473,
	"eval_samples_per_second": 56.9,
	"eval_steps_per_second": 7.112,
	"step": 28000
	},
	{
	"epoch": 62.32326032714167,
	"grad_norm": 0.5632686614990234,
	"learning_rate": 3.2006688963210703e-06,
	"loss": 6.3759,
	"step": 28100
	},
	{
	"epoch": 62.32326032714167,
	"eval_loss": 6.392298221588135,
	"eval_runtime": 173.3859,
	"eval_samples_per_second": 57.675,
	"eval_steps_per_second": 7.209,
	"step": 28100
	},
	{
	"epoch": 62.545051289159964,
	"grad_norm": 0.44811296463012695,
	"learning_rate": 3.1906354515050167e-06,
	"loss": 6.376,
	"step": 28200
	},
	{
	"epoch": 62.545051289159964,
	"eval_loss": 6.388302326202393,
	"eval_runtime": 175.8812,
	"eval_samples_per_second": 56.857,
	"eval_steps_per_second": 7.107,
	"step": 28200
	},
	{
	"epoch": 62.76684225117826,
	"grad_norm": 0.434894323348999,
	"learning_rate": 3.180602006688963e-06,
	"loss": 6.3754,
	"step": 28300
	},
	{
	"epoch": 62.76684225117826,
	"eval_loss": 6.388329982757568,
	"eval_runtime": 173.1819,
	"eval_samples_per_second": 57.743,
	"eval_steps_per_second": 7.218,
	"step": 28300
	},
	{
	"epoch": 62.988633213196564,
	"grad_norm": 0.4996633231639862,
	"learning_rate": 3.1705685618729098e-06,
	"loss": 6.3753,
	"step": 28400
	},
	{
	"epoch": 62.988633213196564,
	"eval_loss": 6.386618614196777,
	"eval_runtime": 175.5366,
	"eval_samples_per_second": 56.968,
	"eval_steps_per_second": 7.121,
	"step": 28400
	},
	{
	"epoch": 63.21042417521486,
	"grad_norm": 0.4766680598258972,
	"learning_rate": 3.160535117056856e-06,
	"loss": 6.3757,
	"step": 28500
	},
	{
	"epoch": 63.21042417521486,
	"eval_loss": 6.388480186462402,
	"eval_runtime": 175.3311,
	"eval_samples_per_second": 57.035,
	"eval_steps_per_second": 7.129,
	"step": 28500
	},
	{
	"epoch": 63.43221513723316,
	"grad_norm": 0.28831642866134644,
	"learning_rate": 3.1505016722408024e-06,
	"loss": 6.3764,
	"step": 28600
	},
	{
	"epoch": 63.43221513723316,
	"eval_loss": 6.3880767822265625,
	"eval_runtime": 175.3784,
	"eval_samples_per_second": 57.02,
	"eval_steps_per_second": 7.127,
	"step": 28600
	},
	{
	"epoch": 63.654006099251454,
	"grad_norm": 0.2838084399700165,
	"learning_rate": 3.140468227424749e-06,
	"loss": 6.3755,
	"step": 28700
	},
	{
	"epoch": 63.654006099251454,
	"eval_loss": 6.386078357696533,
	"eval_runtime": 172.9388,
	"eval_samples_per_second": 57.824,
	"eval_steps_per_second": 7.228,
	"step": 28700
	},
	{
	"epoch": 63.87579706126975,
	"grad_norm": 0.47868525981903076,
	"learning_rate": 3.1304347826086955e-06,
	"loss": 6.377,
	"step": 28800
	},
	{
	"epoch": 63.87579706126975,
	"eval_loss": 6.387932777404785,
	"eval_runtime": 175.4569,
	"eval_samples_per_second": 56.994,
	"eval_steps_per_second": 7.124,
	"step": 28800
	},
	{
	"epoch": 64.09758802328805,
	"grad_norm": 0.5446937680244446,
	"learning_rate": 3.1204013377926423e-06,
	"loss": 6.3753,
	"step": 28900
	},
	{
	"epoch": 64.09758802328805,
	"eval_loss": 6.388584136962891,
	"eval_runtime": 172.8884,
	"eval_samples_per_second": 57.841,
	"eval_steps_per_second": 7.23,
	"step": 28900
	},
	{
	"epoch": 64.31937898530634,
	"grad_norm": 0.41702982783317566,
	"learning_rate": 3.1103678929765886e-06,
	"loss": 6.3761,
	"step": 29000
	},
	{
	"epoch": 64.31937898530634,
	"eval_loss": 6.3896894454956055,
	"eval_runtime": 172.9657,
	"eval_samples_per_second": 57.815,
	"eval_steps_per_second": 7.227,
	"step": 29000
	},
	{
	"epoch": 64.54116994732465,
	"grad_norm": 0.39311668276786804,
	"learning_rate": 3.100334448160535e-06,
	"loss": 6.3753,
	"step": 29100
	},
	{
	"epoch": 64.54116994732465,
	"eval_loss": 6.3889970779418945,
	"eval_runtime": 175.6814,
	"eval_samples_per_second": 56.921,
	"eval_steps_per_second": 7.115,
	"step": 29100
	},
	{
	"epoch": 64.76296090934295,
	"grad_norm": 0.31582164764404297,
	"learning_rate": 3.0903010033444818e-06,
	"loss": 6.3763,
	"step": 29200
	},
	{
	"epoch": 64.76296090934295,
	"eval_loss": 6.388535976409912,
	"eval_runtime": 173.1769,
	"eval_samples_per_second": 57.744,
	"eval_steps_per_second": 7.218,
	"step": 29200
	},
	{
	"epoch": 64.98475187136124,
	"grad_norm": 0.4400019347667694,
	"learning_rate": 3.080267558528428e-06,
	"loss": 6.3752,
	"step": 29300
	},
	{
	"epoch": 64.98475187136124,
	"eval_loss": 6.38809061050415,
	"eval_runtime": 175.7068,
	"eval_samples_per_second": 56.913,
	"eval_steps_per_second": 7.114,
	"step": 29300
	},
	{
	"epoch": 65.20654283337954,
	"grad_norm": 0.3871637284755707,
	"learning_rate": 3.0702341137123744e-06,
	"loss": 6.3761,
	"step": 29400
	},
	{
	"epoch": 65.20654283337954,
	"eval_loss": 6.3887200355529785,
	"eval_runtime": 175.6633,
	"eval_samples_per_second": 56.927,
	"eval_steps_per_second": 7.116,
	"step": 29400
	},
	{
	"epoch": 65.42833379539783,
	"grad_norm": 0.3527097702026367,
	"learning_rate": 3.060200668896321e-06,
	"loss": 6.375,
	"step": 29500
	},
	{
	"epoch": 65.42833379539783,
	"eval_loss": 6.385637283325195,
	"eval_runtime": 175.6827,
	"eval_samples_per_second": 56.921,
	"eval_steps_per_second": 7.115,
	"step": 29500
	},
	{
	"epoch": 65.65012475741614,
	"grad_norm": 0.3956551253795624,
	"learning_rate": 3.0501672240802675e-06,
	"loss": 6.3763,
	"step": 29600
	},
	{
	"epoch": 65.65012475741614,
	"eval_loss": 6.388696670532227,
	"eval_runtime": 175.6777,
	"eval_samples_per_second": 56.922,
	"eval_steps_per_second": 7.115,
	"step": 29600
	},
	{
	"epoch": 65.87191571943443,
	"grad_norm": 0.317006379365921,
	"learning_rate": 3.0401337792642143e-06,
	"loss": 6.3747,
	"step": 29700
	},
	{
	"epoch": 65.87191571943443,
	"eval_loss": 6.386444568634033,
	"eval_runtime": 175.0294,
	"eval_samples_per_second": 57.133,
	"eval_steps_per_second": 7.142,
	"step": 29700
	},
	{
	"epoch": 66.09370668145273,
	"grad_norm": 0.29853495955467224,
	"learning_rate": 3.0301003344481606e-06,
	"loss": 6.3742,
	"step": 29800
	},
	{
	"epoch": 66.09370668145273,
	"eval_loss": 6.38703727722168,
	"eval_runtime": 173.1862,
	"eval_samples_per_second": 57.741,
	"eval_steps_per_second": 7.218,
	"step": 29800
	},
	{
	"epoch": 66.31549764347103,
	"grad_norm": 0.3481820225715637,
	"learning_rate": 3.020066889632107e-06,
	"loss": 6.3756,
	"step": 29900
	},
	{
	"epoch": 66.31549764347103,
	"eval_loss": 6.385500907897949,
	"eval_runtime": 175.6985,
	"eval_samples_per_second": 56.916,
	"eval_steps_per_second": 7.114,
	"step": 29900
	},
	{
	"epoch": 66.53728860548932,
	"grad_norm": 0.3467808961868286,
	"learning_rate": 3.0100334448160537e-06,
	"loss": 6.3755,
	"step": 30000
	},
	{
	"epoch": 66.53728860548932,
	"eval_loss": 6.389315605163574,
	"eval_runtime": 173.203,
	"eval_samples_per_second": 57.736,
	"eval_steps_per_second": 7.217,
	"step": 30000
	},
	{
	"epoch": 66.75907956750763,
	"grad_norm": 0.3288291096687317,
	"learning_rate": 3e-06,
	"loss": 6.3762,
	"step": 30100
	},
	{
	"epoch": 66.75907956750763,
	"eval_loss": 6.389954090118408,
	"eval_runtime": 175.5948,
	"eval_samples_per_second": 56.949,
	"eval_steps_per_second": 7.119,
	"step": 30100
	},
	{
	"epoch": 66.98087052952592,
	"grad_norm": 0.3450663387775421,
	"learning_rate": 2.9899665551839464e-06,
	"loss": 6.3749,
	"step": 30200
	},
	{
	"epoch": 66.98087052952592,
	"eval_loss": 6.388577938079834,
	"eval_runtime": 173.1084,
	"eval_samples_per_second": 57.767,
	"eval_steps_per_second": 7.221,
	"step": 30200
	},
	{
	"epoch": 67.20266149154422,
	"grad_norm": 0.4391154646873474,
	"learning_rate": 2.979933110367893e-06,
	"loss": 6.3757,
	"step": 30300
	},
	{
	"epoch": 67.20266149154422,
	"eval_loss": 6.3895344734191895,
	"eval_runtime": 175.4784,
	"eval_samples_per_second": 56.987,
	"eval_steps_per_second": 7.123,
	"step": 30300
	},
	{
	"epoch": 67.42445245356252,
	"grad_norm": 0.4594007730484009,
	"learning_rate": 2.9698996655518395e-06,
	"loss": 6.3742,
	"step": 30400
	},
	{
	"epoch": 67.42445245356252,
	"eval_loss": 6.387800216674805,
	"eval_runtime": 175.4386,
	"eval_samples_per_second": 57.0,
	"eval_steps_per_second": 7.125,
	"step": 30400
	},
	{
	"epoch": 67.64624341558081,
	"grad_norm": 0.2892398238182068,
	"learning_rate": 2.959866220735786e-06,
	"loss": 6.3758,
	"step": 30500
	},
	{
	"epoch": 67.64624341558081,
	"eval_loss": 6.3860883712768555,
	"eval_runtime": 175.4706,
	"eval_samples_per_second": 56.99,
	"eval_steps_per_second": 7.124,
	"step": 30500
	},
	{
	"epoch": 67.86803437759912,
	"grad_norm": 0.5031465888023376,
	"learning_rate": 2.9498327759197326e-06,
	"loss": 6.3738,
	"step": 30600
	},
	{
	"epoch": 67.86803437759912,
	"eval_loss": 6.38906192779541,
	"eval_runtime": 175.4554,
	"eval_samples_per_second": 56.995,
	"eval_steps_per_second": 7.124,
	"step": 30600
	},
	{
	"epoch": 68.0898253396174,
	"grad_norm": 0.2999316453933716,
	"learning_rate": 2.939799331103679e-06,
	"loss": 6.3732,
	"step": 30700
	},
	{
	"epoch": 68.0898253396174,
	"eval_loss": 6.387207984924316,
	"eval_runtime": 172.9284,
	"eval_samples_per_second": 57.827,
	"eval_steps_per_second": 7.228,
	"step": 30700
	},
	{
	"epoch": 68.31161630163571,
	"grad_norm": 0.3920566737651825,
	"learning_rate": 2.9297658862876257e-06,
	"loss": 6.3746,
	"step": 30800
	},
	{
	"epoch": 68.31161630163571,
	"eval_loss": 6.388418197631836,
	"eval_runtime": 175.4686,
	"eval_samples_per_second": 56.99,
	"eval_steps_per_second": 7.124,
	"step": 30800
	},
	{
	"epoch": 68.53340726365401,
	"grad_norm": 0.3810490369796753,
	"learning_rate": 2.919732441471572e-06,
	"loss": 6.3736,
	"step": 30900
	},
	{
	"epoch": 68.53340726365401,
	"eval_loss": 6.382778167724609,
	"eval_runtime": 172.9448,
	"eval_samples_per_second": 57.822,
	"eval_steps_per_second": 7.228,
	"step": 30900
	},
	{
	"epoch": 68.7551982256723,
	"grad_norm": 0.282163143157959,
	"learning_rate": 2.9096989966555184e-06,
	"loss": 6.3764,
	"step": 31000
	},
	{
	"epoch": 68.7551982256723,
	"eval_loss": 6.3898420333862305,
	"eval_runtime": 175.8822,
	"eval_samples_per_second": 56.856,
	"eval_steps_per_second": 7.107,
	"step": 31000
	},
	{
	"epoch": 68.9769891876906,
	"grad_norm": 0.5345416069030762,
	"learning_rate": 2.899665551839465e-06,
	"loss": 6.3744,
	"step": 31100
	},
	{
	"epoch": 68.9769891876906,
	"eval_loss": 6.389834880828857,
	"eval_runtime": 173.048,
	"eval_samples_per_second": 57.787,
	"eval_steps_per_second": 7.223,
	"step": 31100
	},
	{
	"epoch": 69.1987801497089,
	"grad_norm": 0.2955686151981354,
	"learning_rate": 2.8896321070234115e-06,
	"loss": 6.3752,
	"step": 31200
	},
	{
	"epoch": 69.1987801497089,
	"eval_loss": 6.385989189147949,
	"eval_runtime": 175.4356,
	"eval_samples_per_second": 57.001,
	"eval_steps_per_second": 7.125,
	"step": 31200
	},
	{
	"epoch": 69.4205711117272,
	"grad_norm": 0.2998807430267334,
	"learning_rate": 2.879598662207358e-06,
	"loss": 6.3744,
	"step": 31300
	},
	{
	"epoch": 69.4205711117272,
	"eval_loss": 6.3874688148498535,
	"eval_runtime": 175.8432,
	"eval_samples_per_second": 56.869,
	"eval_steps_per_second": 7.109,
	"step": 31300
	},
	{
	"epoch": 69.64236207374549,
	"grad_norm": 0.5946409702301025,
	"learning_rate": 2.8695652173913046e-06,
	"loss": 6.3742,
	"step": 31400
	},
	{
	"epoch": 69.64236207374549,
	"eval_loss": 6.386292934417725,
	"eval_runtime": 175.7657,
	"eval_samples_per_second": 56.894,
	"eval_steps_per_second": 7.112,
	"step": 31400
	},
	{
	"epoch": 69.86415303576379,
	"grad_norm": 0.4089396595954895,
	"learning_rate": 2.859531772575251e-06,
	"loss": 6.3741,
	"step": 31500
	},
	{
	"epoch": 69.86415303576379,
	"eval_loss": 6.386563301086426,
	"eval_runtime": 175.832,
	"eval_samples_per_second": 56.872,
	"eval_steps_per_second": 7.109,
	"step": 31500
	},
	{
	"epoch": 70.0859439977821,
	"grad_norm": 0.4220736622810364,
	"learning_rate": 2.8494983277591977e-06,
	"loss": 6.3761,
	"step": 31600
	},
	{
	"epoch": 70.0859439977821,
	"eval_loss": 6.386425495147705,
	"eval_runtime": 175.4574,
	"eval_samples_per_second": 56.994,
	"eval_steps_per_second": 7.124,
	"step": 31600
	},
	{
	"epoch": 70.30773495980038,
	"grad_norm": 0.5009733438491821,
	"learning_rate": 2.839464882943144e-06,
	"loss": 6.3746,
	"step": 31700
	},
	{
	"epoch": 70.30773495980038,
	"eval_loss": 6.386416435241699,
	"eval_runtime": 175.5124,
	"eval_samples_per_second": 56.976,
	"eval_steps_per_second": 7.122,
	"step": 31700
	},
	{
	"epoch": 70.52952592181869,
	"grad_norm": 0.41243863105773926,
	"learning_rate": 2.8294314381270904e-06,
	"loss": 6.3738,
	"step": 31800
	},
	{
	"epoch": 70.52952592181869,
	"eval_loss": 6.388505935668945,
	"eval_runtime": 175.5511,
	"eval_samples_per_second": 56.963,
	"eval_steps_per_second": 7.12,
	"step": 31800
	},
	{
	"epoch": 70.75131688383698,
	"grad_norm": 0.3510850667953491,
	"learning_rate": 2.819397993311037e-06,
	"loss": 6.3754,
	"step": 31900
	},
	{
	"epoch": 70.75131688383698,
	"eval_loss": 6.388024806976318,
	"eval_runtime": 175.6891,
	"eval_samples_per_second": 56.919,
	"eval_steps_per_second": 7.115,
	"step": 31900
	},
	{
	"epoch": 70.97310784585528,
	"grad_norm": 0.2912569046020508,
	"learning_rate": 2.8093645484949835e-06,
	"loss": 6.374,
	"step": 32000
	},
	{
	"epoch": 70.97310784585528,
	"eval_loss": 6.385600566864014,
	"eval_runtime": 175.9407,
	"eval_samples_per_second": 56.837,
	"eval_steps_per_second": 7.105,
	"step": 32000
	},
	{
	"epoch": 71.19489880787359,
	"grad_norm": 0.3566642105579376,
	"learning_rate": 2.79933110367893e-06,
	"loss": 6.3728,
	"step": 32100
	},
	{
	"epoch": 71.19489880787359,
	"eval_loss": 6.384610652923584,
	"eval_runtime": 175.7319,
	"eval_samples_per_second": 56.905,
	"eval_steps_per_second": 7.113,
	"step": 32100
	},
	{
	"epoch": 71.41668976989187,
	"grad_norm": 0.36077818274497986,
	"learning_rate": 2.7892976588628766e-06,
	"loss": 6.3742,
	"step": 32200
	},
	{
	"epoch": 71.41668976989187,
	"eval_loss": 6.389194488525391,
	"eval_runtime": 173.108,
	"eval_samples_per_second": 57.767,
	"eval_steps_per_second": 7.221,
	"step": 32200
	},
	{
	"epoch": 71.63848073191018,
	"grad_norm": 0.4366162121295929,
	"learning_rate": 2.779264214046823e-06,
	"loss": 6.373,
	"step": 32300
	},
	{
	"epoch": 71.63848073191018,
	"eval_loss": 6.388595104217529,
	"eval_runtime": 175.5624,
	"eval_samples_per_second": 56.96,
	"eval_steps_per_second": 7.12,
	"step": 32300
	},
	{
	"epoch": 71.86027169392847,
	"grad_norm": 0.3485216498374939,
	"learning_rate": 2.7692307692307693e-06,
	"loss": 6.3744,
	"step": 32400
	},
	{
	"epoch": 71.86027169392847,
	"eval_loss": 6.38759708404541,
	"eval_runtime": 173.3825,
	"eval_samples_per_second": 57.676,
	"eval_steps_per_second": 7.209,
	"step": 32400
	},
	{
	"epoch": 72.08206265594677,
	"grad_norm": 0.41392314434051514,
	"learning_rate": 2.759197324414716e-06,
	"loss": 6.3733,
	"step": 32500
	},
	{
	"epoch": 72.08206265594677,
	"eval_loss": 6.388287544250488,
	"eval_runtime": 175.8186,
	"eval_samples_per_second": 56.877,
	"eval_steps_per_second": 7.11,
	"step": 32500
	},
	{
	"epoch": 72.30385361796507,
	"grad_norm": 0.38669446110725403,
	"learning_rate": 2.749163879598662e-06,
	"loss": 6.3736,
	"step": 32600
	},
	{
	"epoch": 72.30385361796507,
	"eval_loss": 6.387938499450684,
	"eval_runtime": 167.9516,
	"eval_samples_per_second": 59.541,
	"eval_steps_per_second": 7.443,
	"step": 32600
	},
	{
	"epoch": 72.52564457998336,
	"grad_norm": 0.42049235105514526,
	"learning_rate": 2.7391304347826087e-06,
	"loss": 6.3744,
	"step": 32700
	},
	{
	"epoch": 72.52564457998336,
	"eval_loss": 6.387884140014648,
	"eval_runtime": 175.7946,
	"eval_samples_per_second": 56.885,
	"eval_steps_per_second": 7.111,
	"step": 32700
	},
	{
	"epoch": 72.74743554200167,
	"grad_norm": 0.45259612798690796,
	"learning_rate": 2.729096989966555e-06,
	"loss": 6.3733,
	"step": 32800
	},
	{
	"epoch": 72.74743554200167,
	"eval_loss": 6.383664608001709,
	"eval_runtime": 175.4633,
	"eval_samples_per_second": 56.992,
	"eval_steps_per_second": 7.124,
	"step": 32800
	},
	{
	"epoch": 72.96922650401996,
	"grad_norm": 0.35638928413391113,
	"learning_rate": 2.7190635451505014e-06,
	"loss": 6.3752,
	"step": 32900
	},
	{
	"epoch": 72.96922650401996,
	"eval_loss": 6.385019302368164,
	"eval_runtime": 175.4207,
	"eval_samples_per_second": 57.006,
	"eval_steps_per_second": 7.126,
	"step": 32900
	},
	{
	"epoch": 73.19101746603826,
	"grad_norm": 0.4410247206687927,
	"learning_rate": 2.709030100334448e-06,
	"loss": 6.3739,
	"step": 33000
	},
	{
	"epoch": 73.19101746603826,
	"eval_loss": 6.385441303253174,
	"eval_runtime": 175.4138,
	"eval_samples_per_second": 57.008,
	"eval_steps_per_second": 7.126,
	"step": 33000
	},
	{
	"epoch": 73.41280842805655,
	"grad_norm": 0.2410985231399536,
	"learning_rate": 2.6989966555183945e-06,
	"loss": 6.3728,
	"step": 33100
	},
	{
	"epoch": 73.41280842805655,
	"eval_loss": 6.38595724105835,
	"eval_runtime": 175.8764,
	"eval_samples_per_second": 56.858,
	"eval_steps_per_second": 7.107,
	"step": 33100
	},
	{
	"epoch": 73.63459939007485,
	"grad_norm": 0.43327927589416504,
	"learning_rate": 2.6889632107023413e-06,
	"loss": 6.3742,
	"step": 33200
	},
	{
	"epoch": 73.63459939007485,
	"eval_loss": 6.387829780578613,
	"eval_runtime": 175.8542,
	"eval_samples_per_second": 56.865,
	"eval_steps_per_second": 7.108,
	"step": 33200
	},
	{
	"epoch": 73.85639035209316,
	"grad_norm": 0.2946775555610657,
	"learning_rate": 2.6789297658862876e-06,
	"loss": 6.3751,
	"step": 33300
	},
	{
	"epoch": 73.85639035209316,
	"eval_loss": 6.385344505310059,
	"eval_runtime": 173.3421,
	"eval_samples_per_second": 57.689,
	"eval_steps_per_second": 7.211,
	"step": 33300
	},
	{
	"epoch": 74.07818131411145,
	"grad_norm": 0.33265405893325806,
	"learning_rate": 2.668896321070234e-06,
	"loss": 6.3737,
	"step": 33400
	},
	{
	"epoch": 74.07818131411145,
	"eval_loss": 6.38824987411499,
	"eval_runtime": 173.3017,
	"eval_samples_per_second": 57.703,
	"eval_steps_per_second": 7.213,
	"step": 33400
	},
	{
	"epoch": 74.29997227612975,
	"grad_norm": 0.40044334530830383,
	"learning_rate": 2.6588628762541807e-06,
	"loss": 6.3752,
	"step": 33500
	},
	{
	"epoch": 74.29997227612975,
	"eval_loss": 6.385106086730957,
	"eval_runtime": 175.777,
	"eval_samples_per_second": 56.89,
	"eval_steps_per_second": 7.111,
	"step": 33500
	},
	{
	"epoch": 74.52176323814804,
	"grad_norm": 0.3776157796382904,
	"learning_rate": 2.648829431438127e-06,
	"loss": 6.3739,
	"step": 33600
	},
	{
	"epoch": 74.52176323814804,
	"eval_loss": 6.387485980987549,
	"eval_runtime": 174.2601,
	"eval_samples_per_second": 57.385,
	"eval_steps_per_second": 7.173,
	"step": 33600
	},
	{
	"epoch": 74.74355420016634,
	"grad_norm": 0.33734750747680664,
	"learning_rate": 2.6387959866220734e-06,
	"loss": 6.3739,
	"step": 33700
	},
	{
	"epoch": 74.74355420016634,
	"eval_loss": 6.383073806762695,
	"eval_runtime": 175.8418,
	"eval_samples_per_second": 56.869,
	"eval_steps_per_second": 7.109,
	"step": 33700
	},
	{
	"epoch": 74.96534516218465,
	"grad_norm": 0.2771698534488678,
	"learning_rate": 2.62876254180602e-06,
	"loss": 6.3729,
	"step": 33800
	},
	{
	"epoch": 74.96534516218465,
	"eval_loss": 6.388527870178223,
	"eval_runtime": 174.0412,
	"eval_samples_per_second": 57.458,
	"eval_steps_per_second": 7.182,
	"step": 33800
	},
	{
	"epoch": 75.18713612420294,
	"grad_norm": 0.3911442458629608,
	"learning_rate": 2.6187290969899665e-06,
	"loss": 6.374,
	"step": 33900
	},
	{
	"epoch": 75.18713612420294,
	"eval_loss": 6.386963367462158,
	"eval_runtime": 172.9704,
	"eval_samples_per_second": 57.813,
	"eval_steps_per_second": 7.227,
	"step": 33900
	},
	{
	"epoch": 75.40892708622124,
	"grad_norm": 0.3304766118526459,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 6.3746,
	"step": 34000
	},
	{
	"epoch": 75.40892708622124,
	"eval_loss": 6.386199951171875,
	"eval_runtime": 175.3788,
	"eval_samples_per_second": 57.019,
	"eval_steps_per_second": 7.127,
	"step": 34000
	},
	{
	"epoch": 75.63071804823953,
	"grad_norm": 0.4422440230846405,
	"learning_rate": 2.5986622073578596e-06,
	"loss": 6.3737,
	"step": 34100
	},
	{
	"epoch": 75.63071804823953,
	"eval_loss": 6.384350776672363,
	"eval_runtime": 173.0054,
	"eval_samples_per_second": 57.802,
	"eval_steps_per_second": 7.225,
	"step": 34100
	},
	{
	"epoch": 75.85250901025783,
	"grad_norm": 0.28921636939048767,
	"learning_rate": 2.588628762541806e-06,
	"loss": 6.3739,
	"step": 34200
	},
	{
	"epoch": 75.85250901025783,
	"eval_loss": 6.387299537658691,
	"eval_runtime": 175.5823,
	"eval_samples_per_second": 56.953,
	"eval_steps_per_second": 7.119,
	"step": 34200
	},
	{
	"epoch": 76.07429997227614,
	"grad_norm": 0.3911747336387634,
	"learning_rate": 2.5785953177257527e-06,
	"loss": 6.3734,
	"step": 34300
	},
	{
	"epoch": 76.07429997227614,
	"eval_loss": 6.389584541320801,
	"eval_runtime": 172.7277,
	"eval_samples_per_second": 57.895,
	"eval_steps_per_second": 7.237,
	"step": 34300
	},
	{
	"epoch": 76.29609093429443,
	"grad_norm": 0.3622056245803833,
	"learning_rate": 2.568561872909699e-06,
	"loss": 6.3739,
	"step": 34400
	},
	{
	"epoch": 76.29609093429443,
	"eval_loss": 6.386180400848389,
	"eval_runtime": 175.4099,
	"eval_samples_per_second": 57.009,
	"eval_steps_per_second": 7.126,
	"step": 34400
	},
	{
	"epoch": 76.51788189631273,
	"grad_norm": 0.24905167520046234,
	"learning_rate": 2.5585284280936454e-06,
	"loss": 6.3746,
	"step": 34500
	},
	{
	"epoch": 76.51788189631273,
	"eval_loss": 6.383036136627197,
	"eval_runtime": 172.8585,
	"eval_samples_per_second": 57.851,
	"eval_steps_per_second": 7.231,
	"step": 34500
	},
	{
	"epoch": 76.73967285833102,
	"grad_norm": 0.3207278549671173,
	"learning_rate": 2.548494983277592e-06,
	"loss": 6.3749,
	"step": 34600
	},
	{
	"epoch": 76.73967285833102,
	"eval_loss": 6.3871564865112305,
	"eval_runtime": 175.7463,
	"eval_samples_per_second": 56.9,
	"eval_steps_per_second": 7.113,
	"step": 34600
	},
	{
	"epoch": 76.96146382034932,
	"grad_norm": 0.3537052273750305,
	"learning_rate": 2.5384615384615385e-06,
	"loss": 6.3719,
	"step": 34700
	},
	{
	"epoch": 76.96146382034932,
	"eval_loss": 6.384720325469971,
	"eval_runtime": 172.9583,
	"eval_samples_per_second": 57.817,
	"eval_steps_per_second": 7.227,
	"step": 34700
	},
	{
	"epoch": 77.18325478236761,
	"grad_norm": 0.4220789074897766,
	"learning_rate": 2.528428093645485e-06,
	"loss": 6.3736,
	"step": 34800
	},
	{
	"epoch": 77.18325478236761,
	"eval_loss": 6.384481906890869,
	"eval_runtime": 175.4683,
	"eval_samples_per_second": 56.99,
	"eval_steps_per_second": 7.124,
	"step": 34800
	},
	{
	"epoch": 77.40504574438592,
	"grad_norm": 0.3726615011692047,
	"learning_rate": 2.5183946488294316e-06,
	"loss": 6.3726,
	"step": 34900
	},
	{
	"epoch": 77.40504574438592,
	"eval_loss": 6.383063793182373,
	"eval_runtime": 175.4526,
	"eval_samples_per_second": 56.995,
	"eval_steps_per_second": 7.124,
	"step": 34900
	},
	{
	"epoch": 77.62683670640422,
	"grad_norm": 0.3583526909351349,
	"learning_rate": 2.508361204013378e-06,
	"loss": 6.3742,
	"step": 35000
	},
	{
	"epoch": 77.62683670640422,
	"eval_loss": 6.383593559265137,
	"eval_runtime": 175.5123,
	"eval_samples_per_second": 56.976,
	"eval_steps_per_second": 7.122,
	"step": 35000
	},
	{
	"epoch": 77.84862766842251,
	"grad_norm": 0.31663283705711365,
	"learning_rate": 2.4983277591973247e-06,
	"loss": 6.3746,
	"step": 35100
	},
	{
	"epoch": 77.84862766842251,
	"eval_loss": 6.385804653167725,
	"eval_runtime": 175.8899,
	"eval_samples_per_second": 56.854,
	"eval_steps_per_second": 7.107,
	"step": 35100
	},
	{
	"epoch": 78.07041863044081,
	"grad_norm": 0.3281422555446625,
	"learning_rate": 2.488294314381271e-06,
	"loss": 6.374,
	"step": 35200
	},
	{
	"epoch": 78.07041863044081,
	"eval_loss": 6.382884979248047,
	"eval_runtime": 176.0174,
	"eval_samples_per_second": 56.813,
	"eval_steps_per_second": 7.102,
	"step": 35200
	},
	{
	"epoch": 78.2922095924591,
	"grad_norm": 0.35885676741600037,
	"learning_rate": 2.4782608695652173e-06,
	"loss": 6.3737,
	"step": 35300
	},
	{
	"epoch": 78.2922095924591,
	"eval_loss": 6.38320255279541,
	"eval_runtime": 175.5121,
	"eval_samples_per_second": 56.976,
	"eval_steps_per_second": 7.122,
	"step": 35300
	},
	{
	"epoch": 78.5140005544774,
	"grad_norm": 0.40301480889320374,
	"learning_rate": 2.468227424749164e-06,
	"loss": 6.3742,
	"step": 35400
	},
	{
	"epoch": 78.5140005544774,
	"eval_loss": 6.386338233947754,
	"eval_runtime": 175.6402,
	"eval_samples_per_second": 56.935,
	"eval_steps_per_second": 7.117,
	"step": 35400
	},
	{
	"epoch": 78.73579151649571,
	"grad_norm": 0.3202325701713562,
	"learning_rate": 2.4581939799331104e-06,
	"loss": 6.3736,
	"step": 35500
	},
	{
	"epoch": 78.73579151649571,
	"eval_loss": 6.385340690612793,
	"eval_runtime": 173.2176,
	"eval_samples_per_second": 57.731,
	"eval_steps_per_second": 7.216,
	"step": 35500
	},
	{
	"epoch": 78.957582478514,
	"grad_norm": 0.370046466588974,
	"learning_rate": 2.4481605351170568e-06,
	"loss": 6.3733,
	"step": 35600
	},
	{
	"epoch": 78.957582478514,
	"eval_loss": 6.3839592933654785,
	"eval_runtime": 173.1936,
	"eval_samples_per_second": 57.739,
	"eval_steps_per_second": 7.217,
	"step": 35600
	},
	{
	"epoch": 79.1793734405323,
	"grad_norm": 0.3682570457458496,
	"learning_rate": 2.4381270903010035e-06,
	"loss": 6.373,
	"step": 35700
	},
	{
	"epoch": 79.1793734405323,
	"eval_loss": 6.384267807006836,
	"eval_runtime": 175.7512,
	"eval_samples_per_second": 56.899,
	"eval_steps_per_second": 7.112,
	"step": 35700
	},
	{
	"epoch": 79.40116440255059,
	"grad_norm": 0.42555299401283264,
	"learning_rate": 2.42809364548495e-06,
	"loss": 6.3724,
	"step": 35800
	},
	{
	"epoch": 79.40116440255059,
	"eval_loss": 6.386261940002441,
	"eval_runtime": 173.3473,
	"eval_samples_per_second": 57.688,
	"eval_steps_per_second": 7.211,
	"step": 35800
	},
	{
	"epoch": 79.6229553645689,
	"grad_norm": 0.4109131693840027,
	"learning_rate": 2.4180602006688962e-06,
	"loss": 6.3738,
	"step": 35900
	},
	{
	"epoch": 79.6229553645689,
	"eval_loss": 6.385996341705322,
	"eval_runtime": 175.868,
	"eval_samples_per_second": 56.861,
	"eval_steps_per_second": 7.108,
	"step": 35900
	},
	{
	"epoch": 79.84474632658718,
	"grad_norm": 0.4770185351371765,
	"learning_rate": 2.408026755852843e-06,
	"loss": 6.373,
	"step": 36000
	},
	{
	"epoch": 79.84474632658718,
	"eval_loss": 6.385003566741943,
	"eval_runtime": 175.9258,
	"eval_samples_per_second": 56.842,
	"eval_steps_per_second": 7.105,
	"step": 36000
	},
	{
	"epoch": 80.06653728860549,
	"grad_norm": 0.31983354687690735,
	"learning_rate": 2.3979933110367893e-06,
	"loss": 6.3721,
	"step": 36100
	},
	{
	"epoch": 80.06653728860549,
	"eval_loss": 6.384030818939209,
	"eval_runtime": 175.9559,
	"eval_samples_per_second": 56.832,
	"eval_steps_per_second": 7.104,
	"step": 36100
	},
	{
	"epoch": 80.28832825062379,
	"grad_norm": 0.42961299419403076,
	"learning_rate": 2.387959866220736e-06,
	"loss": 6.3712,
	"step": 36200
	},
	{
	"epoch": 80.28832825062379,
	"eval_loss": 6.385640621185303,
	"eval_runtime": 173.4173,
	"eval_samples_per_second": 57.664,
	"eval_steps_per_second": 7.208,
	"step": 36200
	},
	{
	"epoch": 80.51011921264208,
	"grad_norm": 0.31057417392730713,
	"learning_rate": 2.3779264214046824e-06,
	"loss": 6.3731,
	"step": 36300
	},
	{
	"epoch": 80.51011921264208,
	"eval_loss": 6.384836196899414,
	"eval_runtime": 175.866,
	"eval_samples_per_second": 56.861,
	"eval_steps_per_second": 7.108,
	"step": 36300
	},
	{
	"epoch": 80.73191017466038,
	"grad_norm": 0.2894494831562042,
	"learning_rate": 2.3678929765886288e-06,
	"loss": 6.3741,
	"step": 36400
	},
	{
	"epoch": 80.73191017466038,
	"eval_loss": 6.385368824005127,
	"eval_runtime": 175.9096,
	"eval_samples_per_second": 56.847,
	"eval_steps_per_second": 7.106,
	"step": 36400
	},
	{
	"epoch": 80.95370113667867,
	"grad_norm": 0.4780093729496002,
	"learning_rate": 2.3578595317725755e-06,
	"loss": 6.3749,
	"step": 36500
	},
	{
	"epoch": 80.95370113667867,
	"eval_loss": 6.384347438812256,
	"eval_runtime": 175.8521,
	"eval_samples_per_second": 56.866,
	"eval_steps_per_second": 7.108,
	"step": 36500
	},
	{
	"epoch": 81.17549209869698,
	"grad_norm": 0.31205832958221436,
	"learning_rate": 2.347826086956522e-06,
	"loss": 6.3743,
	"step": 36600
	},
	{
	"epoch": 81.17549209869698,
	"eval_loss": 6.385135173797607,
	"eval_runtime": 175.8923,
	"eval_samples_per_second": 56.853,
	"eval_steps_per_second": 7.107,
	"step": 36600
	},
	{
	"epoch": 81.39728306071528,
	"grad_norm": 0.3318498134613037,
	"learning_rate": 2.337792642140468e-06,
	"loss": 6.3735,
	"step": 36700
	},
	{
	"epoch": 81.39728306071528,
	"eval_loss": 6.3830389976501465,
	"eval_runtime": 174.576,
	"eval_samples_per_second": 57.282,
	"eval_steps_per_second": 7.16,
	"step": 36700
	},
	{
	"epoch": 81.61907402273357,
	"grad_norm": 0.35717305541038513,
	"learning_rate": 2.327759197324415e-06,
	"loss": 6.3726,
	"step": 36800
	},
	{
	"epoch": 81.61907402273357,
	"eval_loss": 6.384567737579346,
	"eval_runtime": 173.0226,
	"eval_samples_per_second": 57.796,
	"eval_steps_per_second": 7.224,
	"step": 36800
	},
	{
	"epoch": 81.84086498475187,
	"grad_norm": 0.36196058988571167,
	"learning_rate": 2.3177257525083613e-06,
	"loss": 6.3734,
	"step": 36900
	},
	{
	"epoch": 81.84086498475187,
	"eval_loss": 6.385857582092285,
	"eval_runtime": 175.4192,
	"eval_samples_per_second": 57.006,
	"eval_steps_per_second": 7.126,
	"step": 36900
	},
	{
	"epoch": 82.06265594677016,
	"grad_norm": 0.34454473853111267,
	"learning_rate": 2.307692307692308e-06,
	"loss": 6.3732,
	"step": 37000
	},
	{
	"epoch": 82.06265594677016,
	"eval_loss": 6.384513854980469,
	"eval_runtime": 175.4568,
	"eval_samples_per_second": 56.994,
	"eval_steps_per_second": 7.124,
	"step": 37000
	},
	{
	"epoch": 82.28444690878847,
	"grad_norm": 0.3330673575401306,
	"learning_rate": 2.2976588628762544e-06,
	"loss": 6.3717,
	"step": 37100
	},
	{
	"epoch": 82.28444690878847,
	"eval_loss": 6.383497714996338,
	"eval_runtime": 173.2512,
	"eval_samples_per_second": 57.72,
	"eval_steps_per_second": 7.215,
	"step": 37100
	},
	{
	"epoch": 82.50623787080677,
	"grad_norm": 0.40681159496307373,
	"learning_rate": 2.2876254180602008e-06,
	"loss": 6.3728,
	"step": 37200
	},
	{
	"epoch": 82.50623787080677,
	"eval_loss": 6.38515567779541,
	"eval_runtime": 175.8178,
	"eval_samples_per_second": 56.877,
	"eval_steps_per_second": 7.11,
	"step": 37200
	},
	{
	"epoch": 82.72802883282506,
	"grad_norm": 0.3258204162120819,
	"learning_rate": 2.2775919732441475e-06,
	"loss": 6.3743,
	"step": 37300
	},
	{
	"epoch": 82.72802883282506,
	"eval_loss": 6.38502311706543,
	"eval_runtime": 173.1187,
	"eval_samples_per_second": 57.764,
	"eval_steps_per_second": 7.22,
	"step": 37300
	},
	{
	"epoch": 82.94981979484336,
	"grad_norm": 0.37041613459587097,
	"learning_rate": 2.267558528428094e-06,
	"loss": 6.3728,
	"step": 37400
	},
	{
	"epoch": 82.94981979484336,
	"eval_loss": 6.3821611404418945,
	"eval_runtime": 175.5559,
	"eval_samples_per_second": 56.962,
	"eval_steps_per_second": 7.12,
	"step": 37400
	},
	{
	"epoch": 83.17161075686165,
	"grad_norm": 0.33911818265914917,
	"learning_rate": 2.25752508361204e-06,
	"loss": 6.3738,
	"step": 37500
	},
	{
	"epoch": 83.17161075686165,
	"eval_loss": 6.386144638061523,
	"eval_runtime": 173.2969,
	"eval_samples_per_second": 57.704,
	"eval_steps_per_second": 7.213,
	"step": 37500
	},
	{
	"epoch": 83.39340171887996,
	"grad_norm": 0.48508045077323914,
	"learning_rate": 2.2474916387959865e-06,
	"loss": 6.3728,
	"step": 37600
	},
	{
	"epoch": 83.39340171887996,
	"eval_loss": 6.383870601654053,
	"eval_runtime": 175.8417,
	"eval_samples_per_second": 56.869,
	"eval_steps_per_second": 7.109,
	"step": 37600
	},
	{
	"epoch": 83.61519268089825,
	"grad_norm": 0.3488113284111023,
	"learning_rate": 2.237458193979933e-06,
	"loss": 6.3726,
	"step": 37700
	},
	{
	"epoch": 83.61519268089825,
	"eval_loss": 6.385016441345215,
	"eval_runtime": 175.8197,
	"eval_samples_per_second": 56.876,
	"eval_steps_per_second": 7.11,
	"step": 37700
	},
	{
	"epoch": 83.83698364291655,
	"grad_norm": 0.3524182438850403,
	"learning_rate": 2.2274247491638796e-06,
	"loss": 6.3725,
	"step": 37800
	},
	{
	"epoch": 83.83698364291655,
	"eval_loss": 6.384798526763916,
	"eval_runtime": 175.4988,
	"eval_samples_per_second": 56.98,
	"eval_steps_per_second": 7.123,
	"step": 37800
	},
	{
	"epoch": 84.05877460493485,
	"grad_norm": 0.28423815965652466,
	"learning_rate": 2.217391304347826e-06,
	"loss": 6.374,
	"step": 37900
	},
	{
	"epoch": 84.05877460493485,
	"eval_loss": 6.387665748596191,
	"eval_runtime": 172.948,
	"eval_samples_per_second": 57.821,
	"eval_steps_per_second": 7.228,
	"step": 37900
	},
	{
	"epoch": 84.28056556695314,
	"grad_norm": 0.32828596234321594,
	"learning_rate": 2.2073578595317723e-06,
	"loss": 6.3724,
	"step": 38000
	},
	{
	"epoch": 84.28056556695314,
	"eval_loss": 6.383293628692627,
	"eval_runtime": 175.4508,
	"eval_samples_per_second": 56.996,
	"eval_steps_per_second": 7.125,
	"step": 38000
	},
	{
	"epoch": 84.50235652897145,
	"grad_norm": 0.33721184730529785,
	"learning_rate": 2.197324414715719e-06,
	"loss": 6.373,
	"step": 38100
	},
	{
	"epoch": 84.50235652897145,
	"eval_loss": 6.385343551635742,
	"eval_runtime": 175.531,
	"eval_samples_per_second": 56.97,
	"eval_steps_per_second": 7.121,
	"step": 38100
	},
	{
	"epoch": 84.72414749098974,
	"grad_norm": 0.2766687273979187,
	"learning_rate": 2.1872909698996654e-06,
	"loss": 6.3728,
	"step": 38200
	},
	{
	"epoch": 84.72414749098974,
	"eval_loss": 6.38714599609375,
	"eval_runtime": 175.5001,
	"eval_samples_per_second": 56.98,
	"eval_steps_per_second": 7.123,
	"step": 38200
	},
	{
	"epoch": 84.94593845300804,
	"grad_norm": 0.26238977909088135,
	"learning_rate": 2.177257525083612e-06,
	"loss": 6.3733,
	"step": 38300
	},
	{
	"epoch": 84.94593845300804,
	"eval_loss": 6.385676383972168,
	"eval_runtime": 175.6778,
	"eval_samples_per_second": 56.922,
	"eval_steps_per_second": 7.115,
	"step": 38300
	},
	{
	"epoch": 85.16772941502634,
	"grad_norm": 0.2862393260002136,
	"learning_rate": 2.1672240802675585e-06,
	"loss": 6.3729,
	"step": 38400
	},
	{
	"epoch": 85.16772941502634,
	"eval_loss": 6.384363174438477,
	"eval_runtime": 175.3945,
	"eval_samples_per_second": 57.014,
	"eval_steps_per_second": 7.127,
	"step": 38400
	},
	{
	"epoch": 85.38952037704463,
	"grad_norm": 0.34560856223106384,
	"learning_rate": 2.157190635451505e-06,
	"loss": 6.3732,
	"step": 38500
	},
	{
	"epoch": 85.38952037704463,
	"eval_loss": 6.383378982543945,
	"eval_runtime": 172.9454,
	"eval_samples_per_second": 57.822,
	"eval_steps_per_second": 7.228,
	"step": 38500
	},
	{
	"epoch": 85.61131133906294,
	"grad_norm": 0.31079375743865967,
	"learning_rate": 2.1471571906354516e-06,
	"loss": 6.373,
	"step": 38600
	},
	{
	"epoch": 85.61131133906294,
	"eval_loss": 6.383601665496826,
	"eval_runtime": 175.4201,
	"eval_samples_per_second": 57.006,
	"eval_steps_per_second": 7.126,
	"step": 38600
	},
	{
	"epoch": 85.83310230108123,
	"grad_norm": 0.3083253800868988,
	"learning_rate": 2.137123745819398e-06,
	"loss": 6.3731,
	"step": 38700
	},
	{
	"epoch": 85.83310230108123,
	"eval_loss": 6.383668899536133,
	"eval_runtime": 175.9754,
	"eval_samples_per_second": 56.826,
	"eval_steps_per_second": 7.103,
	"step": 38700
	},
	{
	"epoch": 86.05489326309953,
	"grad_norm": 0.344168096780777,
	"learning_rate": 2.1270903010033443e-06,
	"loss": 6.3731,
	"step": 38800
	},
	{
	"epoch": 86.05489326309953,
	"eval_loss": 6.382165431976318,
	"eval_runtime": 173.0611,
	"eval_samples_per_second": 57.783,
	"eval_steps_per_second": 7.223,
	"step": 38800
	},
	{
	"epoch": 86.27668422511783,
	"grad_norm": 0.42378509044647217,
	"learning_rate": 2.117056856187291e-06,
	"loss": 6.3735,
	"step": 38900
	},
	{
	"epoch": 86.27668422511783,
	"eval_loss": 6.386937618255615,
	"eval_runtime": 175.7527,
	"eval_samples_per_second": 56.898,
	"eval_steps_per_second": 7.112,
	"step": 38900
	},
	{
	"epoch": 86.49847518713612,
	"grad_norm": 0.4086206555366516,
	"learning_rate": 2.1070234113712374e-06,
	"loss": 6.372,
	"step": 39000
	},
	{
	"epoch": 86.49847518713612,
	"eval_loss": 6.385149955749512,
	"eval_runtime": 172.9793,
	"eval_samples_per_second": 57.81,
	"eval_steps_per_second": 7.226,
	"step": 39000
	},
	{
	"epoch": 86.72026614915443,
	"grad_norm": 0.3867028057575226,
	"learning_rate": 2.0969899665551837e-06,
	"loss": 6.371,
	"step": 39100
	},
	{
	"epoch": 86.72026614915443,
	"eval_loss": 6.385136604309082,
	"eval_runtime": 175.5185,
	"eval_samples_per_second": 56.974,
	"eval_steps_per_second": 7.122,
	"step": 39100
	},
	{
	"epoch": 86.94205711117272,
	"grad_norm": 0.34638744592666626,
	"learning_rate": 2.0869565217391305e-06,
	"loss": 6.3723,
	"step": 39200
	},
	{
	"epoch": 86.94205711117272,
	"eval_loss": 6.382205486297607,
	"eval_runtime": 172.979,
	"eval_samples_per_second": 57.81,
	"eval_steps_per_second": 7.226,
	"step": 39200
	},
	{
	"epoch": 87.16384807319102,
	"grad_norm": 0.45395034551620483,
	"learning_rate": 2.076923076923077e-06,
	"loss": 6.374,
	"step": 39300
	},
	{
	"epoch": 87.16384807319102,
	"eval_loss": 6.383747100830078,
	"eval_runtime": 175.4954,
	"eval_samples_per_second": 56.982,
	"eval_steps_per_second": 7.123,
	"step": 39300
	},
	{
	"epoch": 87.38563903520931,
	"grad_norm": 0.2925475537776947,
	"learning_rate": 2.0668896321070236e-06,
	"loss": 6.3746,
	"step": 39400
	},
	{
	"epoch": 87.38563903520931,
	"eval_loss": 6.3860931396484375,
	"eval_runtime": 172.9827,
	"eval_samples_per_second": 57.809,
	"eval_steps_per_second": 7.226,
	"step": 39400
	},
	{
	"epoch": 87.60742999722761,
	"grad_norm": 0.25185534358024597,
	"learning_rate": 2.05685618729097e-06,
	"loss": 6.3721,
	"step": 39500
	},
	{
	"epoch": 87.60742999722761,
	"eval_loss": 6.383828163146973,
	"eval_runtime": 175.4682,
	"eval_samples_per_second": 56.99,
	"eval_steps_per_second": 7.124,
	"step": 39500
	},
	{
	"epoch": 87.82922095924592,
	"grad_norm": 0.35766276717185974,
	"learning_rate": 2.0468227424749163e-06,
	"loss": 6.3713,
	"step": 39600
	},
	{
	"epoch": 87.82922095924592,
	"eval_loss": 6.383662700653076,
	"eval_runtime": 173.3378,
	"eval_samples_per_second": 57.691,
	"eval_steps_per_second": 7.211,
	"step": 39600
	},
	{
	"epoch": 88.0510119212642,
	"grad_norm": 0.31199392676353455,
	"learning_rate": 2.036789297658863e-06,
	"loss": 6.3717,
	"step": 39700
	},
	{
	"epoch": 88.0510119212642,
	"eval_loss": 6.383730411529541,
	"eval_runtime": 175.0814,
	"eval_samples_per_second": 57.116,
	"eval_steps_per_second": 7.14,
	"step": 39700
	},
	{
	"epoch": 88.27280288328251,
	"grad_norm": 0.3334641754627228,
	"learning_rate": 2.0267558528428094e-06,
	"loss": 6.372,
	"step": 39800
	},
	{
	"epoch": 88.27280288328251,
	"eval_loss": 6.381414890289307,
	"eval_runtime": 172.9715,
	"eval_samples_per_second": 57.813,
	"eval_steps_per_second": 7.227,
	"step": 39800
	},
	{
	"epoch": 88.4945938453008,
	"grad_norm": 0.5019832849502563,
	"learning_rate": 2.0167224080267557e-06,
	"loss": 6.3721,
	"step": 39900
	},
	{
	"epoch": 88.4945938453008,
	"eval_loss": 6.383211612701416,
	"eval_runtime": 175.5157,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 39900
	},
	{
	"epoch": 88.7163848073191,
	"grad_norm": 0.4383368194103241,
	"learning_rate": 2.0066889632107025e-06,
	"loss": 6.3731,
	"step": 40000
	},
	{
	"epoch": 88.7163848073191,
	"eval_loss": 6.385327339172363,
	"eval_runtime": 175.457,
	"eval_samples_per_second": 56.994,
	"eval_steps_per_second": 7.124,
	"step": 40000
	},
	{
	"epoch": 88.9381757693374,
	"grad_norm": 0.27147725224494934,
	"learning_rate": 1.996655518394649e-06,
	"loss": 6.3741,
	"step": 40100
	},
	{
	"epoch": 88.9381757693374,
	"eval_loss": 6.383349418640137,
	"eval_runtime": 173.4084,
	"eval_samples_per_second": 57.667,
	"eval_steps_per_second": 7.208,
	"step": 40100
	},
	{
	"epoch": 89.1599667313557,
	"grad_norm": 0.2689467966556549,
	"learning_rate": 1.986622073578595e-06,
	"loss": 6.3719,
	"step": 40200
	},
	{
	"epoch": 89.1599667313557,
	"eval_loss": 6.38576078414917,
	"eval_runtime": 173.3868,
	"eval_samples_per_second": 57.675,
	"eval_steps_per_second": 7.209,
	"step": 40200
	},
	{
	"epoch": 89.381757693374,
	"grad_norm": 0.3858400881290436,
	"learning_rate": 1.976588628762542e-06,
	"loss": 6.3722,
	"step": 40300
	},
	{
	"epoch": 89.381757693374,
	"eval_loss": 6.38473653793335,
	"eval_runtime": 174.5973,
	"eval_samples_per_second": 57.275,
	"eval_steps_per_second": 7.159,
	"step": 40300
	},
	{
	"epoch": 89.60354865539229,
	"grad_norm": 0.372864693403244,
	"learning_rate": 1.9665551839464883e-06,
	"loss": 6.3727,
	"step": 40400
	},
	{
	"epoch": 89.60354865539229,
	"eval_loss": 6.384860992431641,
	"eval_runtime": 175.5793,
	"eval_samples_per_second": 56.954,
	"eval_steps_per_second": 7.119,
	"step": 40400
	},
	{
	"epoch": 89.82533961741059,
	"grad_norm": 0.31050923466682434,
	"learning_rate": 1.956521739130435e-06,
	"loss": 6.3721,
	"step": 40500
	},
	{
	"epoch": 89.82533961741059,
	"eval_loss": 6.3831257820129395,
	"eval_runtime": 173.5084,
	"eval_samples_per_second": 57.634,
	"eval_steps_per_second": 7.204,
	"step": 40500
	},
	{
	"epoch": 90.0471305794289,
	"grad_norm": 0.31580400466918945,
	"learning_rate": 1.9464882943143814e-06,
	"loss": 6.3716,
	"step": 40600
	},
	{
	"epoch": 90.0471305794289,
	"eval_loss": 6.382096767425537,
	"eval_runtime": 175.7748,
	"eval_samples_per_second": 56.891,
	"eval_steps_per_second": 7.111,
	"step": 40600
	},
	{
	"epoch": 90.26892154144718,
	"grad_norm": 0.30445969104766846,
	"learning_rate": 1.9364548494983277e-06,
	"loss": 6.3738,
	"step": 40700
	},
	{
	"epoch": 90.26892154144718,
	"eval_loss": 6.383363246917725,
	"eval_runtime": 175.8814,
	"eval_samples_per_second": 56.856,
	"eval_steps_per_second": 7.107,
	"step": 40700
	},
	{
	"epoch": 90.49071250346549,
	"grad_norm": 0.3509177565574646,
	"learning_rate": 1.9264214046822745e-06,
	"loss": 6.3711,
	"step": 40800
	},
	{
	"epoch": 90.49071250346549,
	"eval_loss": 6.3791728019714355,
	"eval_runtime": 175.2022,
	"eval_samples_per_second": 57.077,
	"eval_steps_per_second": 7.135,
	"step": 40800
	},
	{
	"epoch": 90.71250346548378,
	"grad_norm": 0.2431792914867401,
	"learning_rate": 1.916387959866221e-06,
	"loss": 6.3717,
	"step": 40900
	},
	{
	"epoch": 90.71250346548378,
	"eval_loss": 6.383620262145996,
	"eval_runtime": 173.3604,
	"eval_samples_per_second": 57.683,
	"eval_steps_per_second": 7.21,
	"step": 40900
	},
	{
	"epoch": 90.93429442750208,
	"grad_norm": 0.3652373254299164,
	"learning_rate": 1.9063545150501674e-06,
	"loss": 6.3702,
	"step": 41000
	},
	{
	"epoch": 90.93429442750208,
	"eval_loss": 6.384062767028809,
	"eval_runtime": 175.9398,
	"eval_samples_per_second": 56.838,
	"eval_steps_per_second": 7.105,
	"step": 41000
	},
	{
	"epoch": 91.15608538952037,
	"grad_norm": 0.3120420575141907,
	"learning_rate": 1.896321070234114e-06,
	"loss": 6.3734,
	"step": 41100
	},
	{
	"epoch": 91.15608538952037,
	"eval_loss": 6.383402347564697,
	"eval_runtime": 173.0565,
	"eval_samples_per_second": 57.785,
	"eval_steps_per_second": 7.223,
	"step": 41100
	},
	{
	"epoch": 91.37787635153867,
	"grad_norm": 0.36098653078079224,
	"learning_rate": 1.8862876254180603e-06,
	"loss": 6.3731,
	"step": 41200
	},
	{
	"epoch": 91.37787635153867,
	"eval_loss": 6.384464263916016,
	"eval_runtime": 175.6772,
	"eval_samples_per_second": 56.923,
	"eval_steps_per_second": 7.115,
	"step": 41200
	},
	{
	"epoch": 91.59966731355698,
	"grad_norm": 0.2494172751903534,
	"learning_rate": 1.8762541806020068e-06,
	"loss": 6.3727,
	"step": 41300
	},
	{
	"epoch": 91.59966731355698,
	"eval_loss": 6.384238243103027,
	"eval_runtime": 175.6493,
	"eval_samples_per_second": 56.932,
	"eval_steps_per_second": 7.116,
	"step": 41300
	},
	{
	"epoch": 91.82145827557527,
	"grad_norm": 0.2649492025375366,
	"learning_rate": 1.8662207357859534e-06,
	"loss": 6.3715,
	"step": 41400
	},
	{
	"epoch": 91.82145827557527,
	"eval_loss": 6.386543273925781,
	"eval_runtime": 173.0007,
	"eval_samples_per_second": 57.803,
	"eval_steps_per_second": 7.225,
	"step": 41400
	},
	{
	"epoch": 92.04324923759357,
	"grad_norm": 0.31116828322410583,
	"learning_rate": 1.8561872909699e-06,
	"loss": 6.3714,
	"step": 41500
	},
	{
	"epoch": 92.04324923759357,
	"eval_loss": 6.384570121765137,
	"eval_runtime": 172.9737,
	"eval_samples_per_second": 57.812,
	"eval_steps_per_second": 7.227,
	"step": 41500
	},
	{
	"epoch": 92.26504019961186,
	"grad_norm": 0.39690667390823364,
	"learning_rate": 1.8461538461538462e-06,
	"loss": 6.3722,
	"step": 41600
	},
	{
	"epoch": 92.26504019961186,
	"eval_loss": 6.384208679199219,
	"eval_runtime": 175.5344,
	"eval_samples_per_second": 56.969,
	"eval_steps_per_second": 7.121,
	"step": 41600
	},
	{
	"epoch": 92.48683116163016,
	"grad_norm": 0.31385165452957153,
	"learning_rate": 1.8361204013377928e-06,
	"loss": 6.3727,
	"step": 41700
	},
	{
	"epoch": 92.48683116163016,
	"eval_loss": 6.382976055145264,
	"eval_runtime": 175.571,
	"eval_samples_per_second": 56.957,
	"eval_steps_per_second": 7.12,
	"step": 41700
	},
	{
	"epoch": 92.70862212364847,
	"grad_norm": 0.2589961886405945,
	"learning_rate": 1.8260869565217394e-06,
	"loss": 6.373,
	"step": 41800
	},
	{
	"epoch": 92.70862212364847,
	"eval_loss": 6.384578704833984,
	"eval_runtime": 172.8987,
	"eval_samples_per_second": 57.837,
	"eval_steps_per_second": 7.23,
	"step": 41800
	},
	{
	"epoch": 92.93041308566676,
	"grad_norm": 0.3754993677139282,
	"learning_rate": 1.8160535117056857e-06,
	"loss": 6.3716,
	"step": 41900
	},
	{
	"epoch": 92.93041308566676,
	"eval_loss": 6.387712478637695,
	"eval_runtime": 173.081,
	"eval_samples_per_second": 57.776,
	"eval_steps_per_second": 7.222,
	"step": 41900
	},
	{
	"epoch": 93.15220404768506,
	"grad_norm": 0.34123027324676514,
	"learning_rate": 1.8060200668896322e-06,
	"loss": 6.3719,
	"step": 42000
	},
	{
	"epoch": 93.15220404768506,
	"eval_loss": 6.387158393859863,
	"eval_runtime": 173.0202,
	"eval_samples_per_second": 57.797,
	"eval_steps_per_second": 7.225,
	"step": 42000
	},
	{
	"epoch": 93.37399500970335,
	"grad_norm": 0.28870150446891785,
	"learning_rate": 1.7959866220735788e-06,
	"loss": 6.3717,
	"step": 42100
	},
	{
	"epoch": 93.37399500970335,
	"eval_loss": 6.384382247924805,
	"eval_runtime": 175.9359,
	"eval_samples_per_second": 56.839,
	"eval_steps_per_second": 7.105,
	"step": 42100
	},
	{
	"epoch": 93.59578597172165,
	"grad_norm": 0.33736997842788696,
	"learning_rate": 1.7859531772575253e-06,
	"loss": 6.3731,
	"step": 42200
	},
	{
	"epoch": 93.59578597172165,
	"eval_loss": 6.384626865386963,
	"eval_runtime": 172.9425,
	"eval_samples_per_second": 57.823,
	"eval_steps_per_second": 7.228,
	"step": 42200
	},
	{
	"epoch": 93.81757693373996,
	"grad_norm": 0.30697163939476013,
	"learning_rate": 1.7759197324414717e-06,
	"loss": 6.3731,
	"step": 42300
	},
	{
	"epoch": 93.81757693373996,
	"eval_loss": 6.384149074554443,
	"eval_runtime": 175.533,
	"eval_samples_per_second": 56.969,
	"eval_steps_per_second": 7.121,
	"step": 42300
	},
	{
	"epoch": 94.03936789575825,
	"grad_norm": 0.31292060017585754,
	"learning_rate": 1.7658862876254182e-06,
	"loss": 6.372,
	"step": 42400
	},
	{
	"epoch": 94.03936789575825,
	"eval_loss": 6.38083553314209,
	"eval_runtime": 173.0184,
	"eval_samples_per_second": 57.797,
	"eval_steps_per_second": 7.225,
	"step": 42400
	},
	{
	"epoch": 94.26115885777655,
	"grad_norm": 0.3728470504283905,
	"learning_rate": 1.7558528428093648e-06,
	"loss": 6.3713,
	"step": 42500
	},
	{
	"epoch": 94.26115885777655,
	"eval_loss": 6.381670951843262,
	"eval_runtime": 175.3914,
	"eval_samples_per_second": 57.015,
	"eval_steps_per_second": 7.127,
	"step": 42500
	},
	{
	"epoch": 94.48294981979484,
	"grad_norm": 0.44780856370925903,
	"learning_rate": 1.745819397993311e-06,
	"loss": 6.3718,
	"step": 42600
	},
	{
	"epoch": 94.48294981979484,
	"eval_loss": 6.385097503662109,
	"eval_runtime": 175.3778,
	"eval_samples_per_second": 57.02,
	"eval_steps_per_second": 7.127,
	"step": 42600
	},
	{
	"epoch": 94.70474078181314,
	"grad_norm": 0.29420205950737,
	"learning_rate": 1.7357859531772575e-06,
	"loss": 6.3709,
	"step": 42700
	},
	{
	"epoch": 94.70474078181314,
	"eval_loss": 6.382612705230713,
	"eval_runtime": 173.3858,
	"eval_samples_per_second": 57.675,
	"eval_steps_per_second": 7.209,
	"step": 42700
	},
	{
	"epoch": 94.92653174383143,
	"grad_norm": 0.43360549211502075,
	"learning_rate": 1.7257525083612038e-06,
	"loss": 6.3708,
	"step": 42800
	},
	{
	"epoch": 94.92653174383143,
	"eval_loss": 6.382971286773682,
	"eval_runtime": 172.9207,
	"eval_samples_per_second": 57.83,
	"eval_steps_per_second": 7.229,
	"step": 42800
	},
	{
	"epoch": 95.14832270584974,
	"grad_norm": 0.29865312576293945,
	"learning_rate": 1.7157190635451504e-06,
	"loss": 6.372,
	"step": 42900
	},
	{
	"epoch": 95.14832270584974,
	"eval_loss": 6.3829755783081055,
	"eval_runtime": 175.5167,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 42900
	},
	{
	"epoch": 95.37011366786804,
	"grad_norm": 0.32399508357048035,
	"learning_rate": 1.705685618729097e-06,
	"loss": 6.3712,
	"step": 43000
	},
	{
	"epoch": 95.37011366786804,
	"eval_loss": 6.381554126739502,
	"eval_runtime": 172.9843,
	"eval_samples_per_second": 57.809,
	"eval_steps_per_second": 7.226,
	"step": 43000
	},
	{
	"epoch": 95.59190462988633,
	"grad_norm": 0.2875135540962219,
	"learning_rate": 1.6956521739130435e-06,
	"loss": 6.3709,
	"step": 43100
	},
	{
	"epoch": 95.59190462988633,
	"eval_loss": 6.381914138793945,
	"eval_runtime": 175.5546,
	"eval_samples_per_second": 56.962,
	"eval_steps_per_second": 7.12,
	"step": 43100
	},
	{
	"epoch": 95.81369559190463,
	"grad_norm": 0.4401540756225586,
	"learning_rate": 1.6856187290969898e-06,
	"loss": 6.3723,
	"step": 43200
	},
	{
	"epoch": 95.81369559190463,
	"eval_loss": 6.383592128753662,
	"eval_runtime": 175.584,
	"eval_samples_per_second": 56.953,
	"eval_steps_per_second": 7.119,
	"step": 43200
	},
	{
	"epoch": 96.03548655392292,
	"grad_norm": 0.2576783001422882,
	"learning_rate": 1.6755852842809363e-06,
	"loss": 6.3722,
	"step": 43300
	},
	{
	"epoch": 96.03548655392292,
	"eval_loss": 6.383729457855225,
	"eval_runtime": 175.4696,
	"eval_samples_per_second": 56.99,
	"eval_steps_per_second": 7.124,
	"step": 43300
	},
	{
	"epoch": 96.25727751594123,
	"grad_norm": 0.3146987855434418,
	"learning_rate": 1.665551839464883e-06,
	"loss": 6.3716,
	"step": 43400
	},
	{
	"epoch": 96.25727751594123,
	"eval_loss": 6.380384922027588,
	"eval_runtime": 175.0534,
	"eval_samples_per_second": 57.125,
	"eval_steps_per_second": 7.141,
	"step": 43400
	},
	{
	"epoch": 96.47906847795953,
	"grad_norm": 0.3195679485797882,
	"learning_rate": 1.6555183946488294e-06,
	"loss": 6.3714,
	"step": 43500
	},
	{
	"epoch": 96.47906847795953,
	"eval_loss": 6.382904529571533,
	"eval_runtime": 175.5685,
	"eval_samples_per_second": 56.958,
	"eval_steps_per_second": 7.12,
	"step": 43500
	},
	{
	"epoch": 96.70085943997782,
	"grad_norm": 0.2415214329957962,
	"learning_rate": 1.6454849498327758e-06,
	"loss": 6.3711,
	"step": 43600
	},
	{
	"epoch": 96.70085943997782,
	"eval_loss": 6.380964279174805,
	"eval_runtime": 173.0267,
	"eval_samples_per_second": 57.795,
	"eval_steps_per_second": 7.224,
	"step": 43600
	},
	{
	"epoch": 96.92265040199612,
	"grad_norm": 0.40489473938941956,
	"learning_rate": 1.6354515050167223e-06,
	"loss": 6.3726,
	"step": 43700
	},
	{
	"epoch": 96.92265040199612,
	"eval_loss": 6.381808757781982,
	"eval_runtime": 173.1061,
	"eval_samples_per_second": 57.768,
	"eval_steps_per_second": 7.221,
	"step": 43700
	},
	{
	"epoch": 97.14444136401441,
	"grad_norm": 0.30804529786109924,
	"learning_rate": 1.6254180602006689e-06,
	"loss": 6.372,
	"step": 43800
	},
	{
	"epoch": 97.14444136401441,
	"eval_loss": 6.384749889373779,
	"eval_runtime": 175.6167,
	"eval_samples_per_second": 56.942,
	"eval_steps_per_second": 7.118,
	"step": 43800
	},
	{
	"epoch": 97.36623232603272,
	"grad_norm": 0.31247368454933167,
	"learning_rate": 1.6153846153846154e-06,
	"loss": 6.3738,
	"step": 43900
	},
	{
	"epoch": 97.36623232603272,
	"eval_loss": 6.383345127105713,
	"eval_runtime": 172.9449,
	"eval_samples_per_second": 57.822,
	"eval_steps_per_second": 7.228,
	"step": 43900
	},
	{
	"epoch": 97.588023288051,
	"grad_norm": 0.3146020174026489,
	"learning_rate": 1.6053511705685618e-06,
	"loss": 6.3736,
	"step": 44000
	},
	{
	"epoch": 97.588023288051,
	"eval_loss": 6.38405179977417,
	"eval_runtime": 175.4959,
	"eval_samples_per_second": 56.981,
	"eval_steps_per_second": 7.123,
	"step": 44000
	},
	{
	"epoch": 97.80981425006931,
	"grad_norm": 0.30886611342430115,
	"learning_rate": 1.5953177257525083e-06,
	"loss": 6.3706,
	"step": 44100
	},
	{
	"epoch": 97.80981425006931,
	"eval_loss": 6.381131172180176,
	"eval_runtime": 172.9957,
	"eval_samples_per_second": 57.805,
	"eval_steps_per_second": 7.226,
	"step": 44100
	},
	{
	"epoch": 98.03160521208761,
	"grad_norm": 0.3250170648097992,
	"learning_rate": 1.5852842809364549e-06,
	"loss": 6.3711,
	"step": 44200
	},
	{
	"epoch": 98.03160521208761,
	"eval_loss": 6.382991313934326,
	"eval_runtime": 175.9006,
	"eval_samples_per_second": 56.85,
	"eval_steps_per_second": 7.106,
	"step": 44200
	},
	{
	"epoch": 98.2533961741059,
	"grad_norm": 0.2637650966644287,
	"learning_rate": 1.5752508361204012e-06,
	"loss": 6.3721,
	"step": 44300
	},
	{
	"epoch": 98.2533961741059,
	"eval_loss": 6.385432243347168,
	"eval_runtime": 175.8265,
	"eval_samples_per_second": 56.874,
	"eval_steps_per_second": 7.109,
	"step": 44300
	},
	{
	"epoch": 98.4751871361242,
	"grad_norm": 0.3357675075531006,
	"learning_rate": 1.5652173913043478e-06,
	"loss": 6.371,
	"step": 44400
	},
	{
	"epoch": 98.4751871361242,
	"eval_loss": 6.385194301605225,
	"eval_runtime": 175.8373,
	"eval_samples_per_second": 56.871,
	"eval_steps_per_second": 7.109,
	"step": 44400
	},
	{
	"epoch": 98.6969780981425,
	"grad_norm": 0.3793193995952606,
	"learning_rate": 1.5551839464882943e-06,
	"loss": 6.3717,
	"step": 44500
	},
	{
	"epoch": 98.6969780981425,
	"eval_loss": 6.382778167724609,
	"eval_runtime": 173.4199,
	"eval_samples_per_second": 57.664,
	"eval_steps_per_second": 7.208,
	"step": 44500
	},
	{
	"epoch": 98.9187690601608,
	"grad_norm": 0.3075515329837799,
	"learning_rate": 1.5451505016722409e-06,
	"loss": 6.3705,
	"step": 44600
	},
	{
	"epoch": 98.9187690601608,
	"eval_loss": 6.384821891784668,
	"eval_runtime": 175.4722,
	"eval_samples_per_second": 56.989,
	"eval_steps_per_second": 7.124,
	"step": 44600
	},
	{
	"epoch": 99.1405600221791,
	"grad_norm": 0.27654966711997986,
	"learning_rate": 1.5351170568561872e-06,
	"loss": 6.3725,
	"step": 44700
	},
	{
	"epoch": 99.1405600221791,
	"eval_loss": 6.378158092498779,
	"eval_runtime": 173.0439,
	"eval_samples_per_second": 57.789,
	"eval_steps_per_second": 7.224,
	"step": 44700
	},
	{
	"epoch": 99.36235098419739,
	"grad_norm": 0.25358349084854126,
	"learning_rate": 1.5250836120401338e-06,
	"loss": 6.3718,
	"step": 44800
	},
	{
	"epoch": 99.36235098419739,
	"eval_loss": 6.381252288818359,
	"eval_runtime": 175.5178,
	"eval_samples_per_second": 56.974,
	"eval_steps_per_second": 7.122,
	"step": 44800
	},
	{
	"epoch": 99.5841419462157,
	"grad_norm": 0.27983585000038147,
	"learning_rate": 1.5150501672240803e-06,
	"loss": 6.3709,
	"step": 44900
	},
	{
	"epoch": 99.5841419462157,
	"eval_loss": 6.383197784423828,
	"eval_runtime": 175.4823,
	"eval_samples_per_second": 56.986,
	"eval_steps_per_second": 7.123,
	"step": 44900
	},
	{
	"epoch": 99.80593290823398,
	"grad_norm": 0.35121074318885803,
	"learning_rate": 1.5050167224080269e-06,
	"loss": 6.3726,
	"step": 45000
	},
	{
	"epoch": 99.80593290823398,
	"eval_loss": 6.385370254516602,
	"eval_runtime": 175.4757,
	"eval_samples_per_second": 56.988,
	"eval_steps_per_second": 7.123,
	"step": 45000
	},
	{
	"epoch": 100.02772387025229,
	"grad_norm": 0.22111310064792633,
	"learning_rate": 1.4949832775919732e-06,
	"loss": 6.3716,
	"step": 45100
	},
	{
	"epoch": 100.02772387025229,
	"eval_loss": 6.38284158706665,
	"eval_runtime": 175.8886,
	"eval_samples_per_second": 56.854,
	"eval_steps_per_second": 7.107,
	"step": 45100
	},
	{
	"epoch": 100.24951483227059,
	"grad_norm": 0.22795332968235016,
	"learning_rate": 1.4849498327759198e-06,
	"loss": 6.3721,
	"step": 45200
	},
	{
	"epoch": 100.24951483227059,
	"eval_loss": 6.378814697265625,
	"eval_runtime": 173.36,
	"eval_samples_per_second": 57.683,
	"eval_steps_per_second": 7.21,
	"step": 45200
	},
	{
	"epoch": 100.47130579428888,
	"grad_norm": 0.3906308710575104,
	"learning_rate": 1.4749163879598663e-06,
	"loss": 6.3711,
	"step": 45300
	},
	{
	"epoch": 100.47130579428888,
	"eval_loss": 6.380859375,
	"eval_runtime": 175.65,
	"eval_samples_per_second": 56.931,
	"eval_steps_per_second": 7.116,
	"step": 45300
	},
	{
	"epoch": 100.69309675630718,
	"grad_norm": 0.35361433029174805,
	"learning_rate": 1.4648829431438129e-06,
	"loss": 6.3689,
	"step": 45400
	},
	{
	"epoch": 100.69309675630718,
	"eval_loss": 6.386940956115723,
	"eval_runtime": 173.0816,
	"eval_samples_per_second": 57.776,
	"eval_steps_per_second": 7.222,
	"step": 45400
	},
	{
	"epoch": 100.91488771832547,
	"grad_norm": 0.3520587682723999,
	"learning_rate": 1.4548494983277592e-06,
	"loss": 6.371,
	"step": 45500
	},
	{
	"epoch": 100.91488771832547,
	"eval_loss": 6.384310245513916,
	"eval_runtime": 175.5343,
	"eval_samples_per_second": 56.969,
	"eval_steps_per_second": 7.121,
	"step": 45500
	},
	{
	"epoch": 101.13667868034378,
	"grad_norm": 0.37038084864616394,
	"learning_rate": 1.4448160535117058e-06,
	"loss": 6.3712,
	"step": 45600
	},
	{
	"epoch": 101.13667868034378,
	"eval_loss": 6.381255626678467,
	"eval_runtime": 172.9314,
	"eval_samples_per_second": 57.826,
	"eval_steps_per_second": 7.228,
	"step": 45600
	},
	{
	"epoch": 101.35846964236207,
	"grad_norm": 0.2583162188529968,
	"learning_rate": 1.4347826086956523e-06,
	"loss": 6.3693,
	"step": 45700
	},
	{
	"epoch": 101.35846964236207,
	"eval_loss": 6.385676383972168,
	"eval_runtime": 175.4492,
	"eval_samples_per_second": 56.997,
	"eval_steps_per_second": 7.125,
	"step": 45700
	},
	{
	"epoch": 101.58026060438037,
	"grad_norm": 0.37049952149391174,
	"learning_rate": 1.4247491638795989e-06,
	"loss": 6.3715,
	"step": 45800
	},
	{
	"epoch": 101.58026060438037,
	"eval_loss": 6.383345603942871,
	"eval_runtime": 172.9908,
	"eval_samples_per_second": 57.807,
	"eval_steps_per_second": 7.226,
	"step": 45800
	},
	{
	"epoch": 101.80205156639867,
	"grad_norm": 0.3586992919445038,
	"learning_rate": 1.4147157190635452e-06,
	"loss": 6.3709,
	"step": 45900
	},
	{
	"epoch": 101.80205156639867,
	"eval_loss": 6.383970260620117,
	"eval_runtime": 175.5127,
	"eval_samples_per_second": 56.976,
	"eval_steps_per_second": 7.122,
	"step": 45900
	},
	{
	"epoch": 102.02384252841696,
	"grad_norm": 0.274954229593277,
	"learning_rate": 1.4046822742474917e-06,
	"loss": 6.3721,
	"step": 46000
	},
	{
	"epoch": 102.02384252841696,
	"eval_loss": 6.379533767700195,
	"eval_runtime": 175.5086,
	"eval_samples_per_second": 56.977,
	"eval_steps_per_second": 7.122,
	"step": 46000
	},
	{
	"epoch": 102.24563349043527,
	"grad_norm": 0.2859888970851898,
	"learning_rate": 1.3946488294314383e-06,
	"loss": 6.3704,
	"step": 46100
	},
	{
	"epoch": 102.24563349043527,
	"eval_loss": 6.3819146156311035,
	"eval_runtime": 175.6284,
	"eval_samples_per_second": 56.938,
	"eval_steps_per_second": 7.117,
	"step": 46100
	},
	{
	"epoch": 102.46742445245356,
	"grad_norm": 0.27162763476371765,
	"learning_rate": 1.3846153846153846e-06,
	"loss": 6.3718,
	"step": 46200
	},
	{
	"epoch": 102.46742445245356,
	"eval_loss": 6.383949279785156,
	"eval_runtime": 173.0341,
	"eval_samples_per_second": 57.792,
	"eval_steps_per_second": 7.224,
	"step": 46200
	},
	{
	"epoch": 102.68921541447186,
	"grad_norm": 0.24669644236564636,
	"learning_rate": 1.374581939799331e-06,
	"loss": 6.3706,
	"step": 46300
	},
	{
	"epoch": 102.68921541447186,
	"eval_loss": 6.384088516235352,
	"eval_runtime": 175.8327,
	"eval_samples_per_second": 56.872,
	"eval_steps_per_second": 7.109,
	"step": 46300
	},
	{
	"epoch": 102.91100637649016,
	"grad_norm": 0.32821038365364075,
	"learning_rate": 1.3645484949832775e-06,
	"loss": 6.3716,
	"step": 46400
	},
	{
	"epoch": 102.91100637649016,
	"eval_loss": 6.383686065673828,
	"eval_runtime": 173.1011,
	"eval_samples_per_second": 57.77,
	"eval_steps_per_second": 7.221,
	"step": 46400
	},
	{
	"epoch": 103.13279733850845,
	"grad_norm": 0.23931552469730377,
	"learning_rate": 1.354515050167224e-06,
	"loss": 6.3706,
	"step": 46500
	},
	{
	"epoch": 103.13279733850845,
	"eval_loss": 6.379798412322998,
	"eval_runtime": 175.5988,
	"eval_samples_per_second": 56.948,
	"eval_steps_per_second": 7.118,
	"step": 46500
	},
	{
	"epoch": 103.35458830052676,
	"grad_norm": 0.2975938022136688,
	"learning_rate": 1.3444816053511706e-06,
	"loss": 6.3713,
	"step": 46600
	},
	{
	"epoch": 103.35458830052676,
	"eval_loss": 6.3860554695129395,
	"eval_runtime": 175.5887,
	"eval_samples_per_second": 56.951,
	"eval_steps_per_second": 7.119,
	"step": 46600
	},
	{
	"epoch": 103.57637926254505,
	"grad_norm": 0.2592810392379761,
	"learning_rate": 1.334448160535117e-06,
	"loss": 6.3717,
	"step": 46700
	},
	{
	"epoch": 103.57637926254505,
	"eval_loss": 6.3828301429748535,
	"eval_runtime": 175.6957,
	"eval_samples_per_second": 56.917,
	"eval_steps_per_second": 7.115,
	"step": 46700
	},
	{
	"epoch": 103.79817022456335,
	"grad_norm": 0.2834523320198059,
	"learning_rate": 1.3244147157190635e-06,
	"loss": 6.3713,
	"step": 46800
	},
	{
	"epoch": 103.79817022456335,
	"eval_loss": 6.386697769165039,
	"eval_runtime": 172.9159,
	"eval_samples_per_second": 57.832,
	"eval_steps_per_second": 7.229,
	"step": 46800
	},
	{
	"epoch": 104.01996118658165,
	"grad_norm": 0.2672658860683441,
	"learning_rate": 1.31438127090301e-06,
	"loss": 6.3721,
	"step": 46900
	},
	{
	"epoch": 104.01996118658165,
	"eval_loss": 6.381076812744141,
	"eval_runtime": 173.0101,
	"eval_samples_per_second": 57.8,
	"eval_steps_per_second": 7.225,
	"step": 46900
	},
	{
	"epoch": 104.24175214859994,
	"grad_norm": 0.29608866572380066,
	"learning_rate": 1.3043478260869566e-06,
	"loss": 6.3722,
	"step": 47000
	},
	{
	"epoch": 104.24175214859994,
	"eval_loss": 6.383474826812744,
	"eval_runtime": 175.9295,
	"eval_samples_per_second": 56.841,
	"eval_steps_per_second": 7.105,
	"step": 47000
	},
	{
	"epoch": 104.46354311061825,
	"grad_norm": 0.31595227122306824,
	"learning_rate": 1.294314381270903e-06,
	"loss": 6.3715,
	"step": 47100
	},
	{
	"epoch": 104.46354311061825,
	"eval_loss": 6.382750988006592,
	"eval_runtime": 173.1316,
	"eval_samples_per_second": 57.76,
	"eval_steps_per_second": 7.22,
	"step": 47100
	},
	{
	"epoch": 104.68533407263654,
	"grad_norm": 0.2782845199108124,
	"learning_rate": 1.2842809364548495e-06,
	"loss": 6.3715,
	"step": 47200
	},
	{
	"epoch": 104.68533407263654,
	"eval_loss": 6.381110191345215,
	"eval_runtime": 175.6479,
	"eval_samples_per_second": 56.932,
	"eval_steps_per_second": 7.117,
	"step": 47200
	},
	{
	"epoch": 104.90712503465484,
	"grad_norm": 0.32985934615135193,
	"learning_rate": 1.274247491638796e-06,
	"loss": 6.3707,
	"step": 47300
	},
	{
	"epoch": 104.90712503465484,
	"eval_loss": 6.380244731903076,
	"eval_runtime": 173.0618,
	"eval_samples_per_second": 57.783,
	"eval_steps_per_second": 7.223,
	"step": 47300
	},
	{
	"epoch": 105.12891599667313,
	"grad_norm": 0.27673158049583435,
	"learning_rate": 1.2642140468227424e-06,
	"loss": 6.371,
	"step": 47400
	},
	{
	"epoch": 105.12891599667313,
	"eval_loss": 6.382138252258301,
	"eval_runtime": 175.4509,
	"eval_samples_per_second": 56.996,
	"eval_steps_per_second": 7.125,
	"step": 47400
	},
	{
	"epoch": 105.35070695869143,
	"grad_norm": 0.2984777092933655,
	"learning_rate": 1.254180602006689e-06,
	"loss": 6.3719,
	"step": 47500
	},
	{
	"epoch": 105.35070695869143,
	"eval_loss": 6.382594585418701,
	"eval_runtime": 173.0122,
	"eval_samples_per_second": 57.799,
	"eval_steps_per_second": 7.225,
	"step": 47500
	},
	{
	"epoch": 105.57249792070974,
	"grad_norm": 0.29209384322166443,
	"learning_rate": 1.2441471571906355e-06,
	"loss": 6.3715,
	"step": 47600
	},
	{
	"epoch": 105.57249792070974,
	"eval_loss": 6.38098669052124,
	"eval_runtime": 175.7524,
	"eval_samples_per_second": 56.898,
	"eval_steps_per_second": 7.112,
	"step": 47600
	},
	{
	"epoch": 105.79428888272803,
	"grad_norm": 0.35189709067344666,
	"learning_rate": 1.234113712374582e-06,
	"loss": 6.3701,
	"step": 47700
	},
	{
	"epoch": 105.79428888272803,
	"eval_loss": 6.384945392608643,
	"eval_runtime": 175.5438,
	"eval_samples_per_second": 56.966,
	"eval_steps_per_second": 7.121,
	"step": 47700
	},
	{
	"epoch": 106.01607984474633,
	"grad_norm": 0.37181735038757324,
	"learning_rate": 1.2240802675585284e-06,
	"loss": 6.3703,
	"step": 47800
	},
	{
	"epoch": 106.01607984474633,
	"eval_loss": 6.378709316253662,
	"eval_runtime": 175.523,
	"eval_samples_per_second": 56.973,
	"eval_steps_per_second": 7.122,
	"step": 47800
	},
	{
	"epoch": 106.23787080676462,
	"grad_norm": 0.2793137729167938,
	"learning_rate": 1.214046822742475e-06,
	"loss": 6.3706,
	"step": 47900
	},
	{
	"epoch": 106.23787080676462,
	"eval_loss": 6.380676746368408,
	"eval_runtime": 173.0355,
	"eval_samples_per_second": 57.792,
	"eval_steps_per_second": 7.224,
	"step": 47900
	},
	{
	"epoch": 106.45966176878292,
	"grad_norm": 0.2996074855327606,
	"learning_rate": 1.2040133779264215e-06,
	"loss": 6.3714,
	"step": 48000
	},
	{
	"epoch": 106.45966176878292,
	"eval_loss": 6.382739067077637,
	"eval_runtime": 175.5807,
	"eval_samples_per_second": 56.954,
	"eval_steps_per_second": 7.119,
	"step": 48000
	},
	{
	"epoch": 106.68145273080123,
	"grad_norm": 0.32835853099823,
	"learning_rate": 1.193979933110368e-06,
	"loss": 6.3717,
	"step": 48100
	},
	{
	"epoch": 106.68145273080123,
	"eval_loss": 6.382002353668213,
	"eval_runtime": 173.3264,
	"eval_samples_per_second": 57.695,
	"eval_steps_per_second": 7.212,
	"step": 48100
	},
	{
	"epoch": 106.90324369281952,
	"grad_norm": 0.31071096658706665,
	"learning_rate": 1.1839464882943144e-06,
	"loss": 6.3715,
	"step": 48200
	},
	{
	"epoch": 106.90324369281952,
	"eval_loss": 6.385354042053223,
	"eval_runtime": 175.863,
	"eval_samples_per_second": 56.862,
	"eval_steps_per_second": 7.108,
	"step": 48200
	},
	{
	"epoch": 107.12503465483782,
	"grad_norm": 0.32424595952033997,
	"learning_rate": 1.173913043478261e-06,
	"loss": 6.3713,
	"step": 48300
	},
	{
	"epoch": 107.12503465483782,
	"eval_loss": 6.381778240203857,
	"eval_runtime": 176.0254,
	"eval_samples_per_second": 56.81,
	"eval_steps_per_second": 7.101,
	"step": 48300
	},
	{
	"epoch": 107.34682561685611,
	"grad_norm": 0.25034162402153015,
	"learning_rate": 1.1638795986622075e-06,
	"loss": 6.3714,
	"step": 48400
	},
	{
	"epoch": 107.34682561685611,
	"eval_loss": 6.383028507232666,
	"eval_runtime": 175.899,
	"eval_samples_per_second": 56.851,
	"eval_steps_per_second": 7.106,
	"step": 48400
	},
	{
	"epoch": 107.56861657887441,
	"grad_norm": 0.2586011290550232,
	"learning_rate": 1.153846153846154e-06,
	"loss": 6.3722,
	"step": 48500
	},
	{
	"epoch": 107.56861657887441,
	"eval_loss": 6.382985591888428,
	"eval_runtime": 175.861,
	"eval_samples_per_second": 56.863,
	"eval_steps_per_second": 7.108,
	"step": 48500
	},
	{
	"epoch": 107.79040754089272,
	"grad_norm": 0.28121402859687805,
	"learning_rate": 1.1438127090301004e-06,
	"loss": 6.3715,
	"step": 48600
	},
	{
	"epoch": 107.79040754089272,
	"eval_loss": 6.381731986999512,
	"eval_runtime": 173.3663,
	"eval_samples_per_second": 57.681,
	"eval_steps_per_second": 7.21,
	"step": 48600
	},
	{
	"epoch": 108.012198502911,
	"grad_norm": 0.27013683319091797,
	"learning_rate": 1.133779264214047e-06,
	"loss": 6.3689,
	"step": 48700
	},
	{
	"epoch": 108.012198502911,
	"eval_loss": 6.381706237792969,
	"eval_runtime": 175.9392,
	"eval_samples_per_second": 56.838,
	"eval_steps_per_second": 7.105,
	"step": 48700
	},
	{
	"epoch": 108.23398946492931,
	"grad_norm": 0.345570832490921,
	"learning_rate": 1.1237458193979933e-06,
	"loss": 6.3706,
	"step": 48800
	},
	{
	"epoch": 108.23398946492931,
	"eval_loss": 6.384325981140137,
	"eval_runtime": 173.2557,
	"eval_samples_per_second": 57.718,
	"eval_steps_per_second": 7.215,
	"step": 48800
	},
	{
	"epoch": 108.4557804269476,
	"grad_norm": 0.26037341356277466,
	"learning_rate": 1.1137123745819398e-06,
	"loss": 6.3728,
	"step": 48900
	},
	{
	"epoch": 108.4557804269476,
	"eval_loss": 6.383279323577881,
	"eval_runtime": 175.662,
	"eval_samples_per_second": 56.927,
	"eval_steps_per_second": 7.116,
	"step": 48900
	},
	{
	"epoch": 108.6775713889659,
	"grad_norm": 0.25174733996391296,
	"learning_rate": 1.1036789297658862e-06,
	"loss": 6.3711,
	"step": 49000
	},
	{
	"epoch": 108.6775713889659,
	"eval_loss": 6.384110927581787,
	"eval_runtime": 173.04,
	"eval_samples_per_second": 57.79,
	"eval_steps_per_second": 7.224,
	"step": 49000
	},
	{
	"epoch": 108.89936235098419,
	"grad_norm": 0.22819426655769348,
	"learning_rate": 1.0936454849498327e-06,
	"loss": 6.3725,
	"step": 49100
	},
	{
	"epoch": 108.89936235098419,
	"eval_loss": 6.383809566497803,
	"eval_runtime": 175.8514,
	"eval_samples_per_second": 56.866,
	"eval_steps_per_second": 7.108,
	"step": 49100
	},
	{
	"epoch": 109.1211533130025,
	"grad_norm": 0.3142814636230469,
	"learning_rate": 1.0836120401337793e-06,
	"loss": 6.3707,
	"step": 49200
	},
	{
	"epoch": 109.1211533130025,
	"eval_loss": 6.38060998916626,
	"eval_runtime": 172.941,
	"eval_samples_per_second": 57.823,
	"eval_steps_per_second": 7.228,
	"step": 49200
	},
	{
	"epoch": 109.3429442750208,
	"grad_norm": 0.30092594027519226,
	"learning_rate": 1.0735785953177258e-06,
	"loss": 6.3699,
	"step": 49300
	},
	{
	"epoch": 109.3429442750208,
	"eval_loss": 6.385983943939209,
	"eval_runtime": 175.5269,
	"eval_samples_per_second": 56.971,
	"eval_steps_per_second": 7.121,
	"step": 49300
	},
	{
	"epoch": 109.56473523703909,
	"grad_norm": 0.31821510195732117,
	"learning_rate": 1.0635451505016722e-06,
	"loss": 6.3694,
	"step": 49400
	},
	{
	"epoch": 109.56473523703909,
	"eval_loss": 6.383793830871582,
	"eval_runtime": 175.5382,
	"eval_samples_per_second": 56.968,
	"eval_steps_per_second": 7.121,
	"step": 49400
	},
	{
	"epoch": 109.78652619905739,
	"grad_norm": 0.3837875425815582,
	"learning_rate": 1.0535117056856187e-06,
	"loss": 6.3701,
	"step": 49500
	},
	{
	"epoch": 109.78652619905739,
	"eval_loss": 6.380537509918213,
	"eval_runtime": 175.935,
	"eval_samples_per_second": 56.839,
	"eval_steps_per_second": 7.105,
	"step": 49500
	},
	{
	"epoch": 110.00831716107568,
	"grad_norm": 0.23530994355678558,
	"learning_rate": 1.0434782608695653e-06,
	"loss": 6.3705,
	"step": 49600
	},
	{
	"epoch": 110.00831716107568,
	"eval_loss": 6.386258602142334,
	"eval_runtime": 175.9707,
	"eval_samples_per_second": 56.828,
	"eval_steps_per_second": 7.103,
	"step": 49600
	},
	{
	"epoch": 110.23010812309398,
	"grad_norm": 0.26103320717811584,
	"learning_rate": 1.0334448160535118e-06,
	"loss": 6.3707,
	"step": 49700
	},
	{
	"epoch": 110.23010812309398,
	"eval_loss": 6.383273124694824,
	"eval_runtime": 173.4608,
	"eval_samples_per_second": 57.65,
	"eval_steps_per_second": 7.206,
	"step": 49700
	},
	{
	"epoch": 110.45189908511229,
	"grad_norm": 0.2887881398200989,
	"learning_rate": 1.0234113712374581e-06,
	"loss": 6.3721,
	"step": 49800
	},
	{
	"epoch": 110.45189908511229,
	"eval_loss": 6.384125709533691,
	"eval_runtime": 172.9625,
	"eval_samples_per_second": 57.816,
	"eval_steps_per_second": 7.227,
	"step": 49800
	},
	{
	"epoch": 110.67369004713058,
	"grad_norm": 0.31840309500694275,
	"learning_rate": 1.0133779264214047e-06,
	"loss": 6.3717,
	"step": 49900
	},
	{
	"epoch": 110.67369004713058,
	"eval_loss": 6.381842136383057,
	"eval_runtime": 175.4749,
	"eval_samples_per_second": 56.988,
	"eval_steps_per_second": 7.124,
	"step": 49900
	},
	{
	"epoch": 110.89548100914888,
	"grad_norm": 0.21653781831264496,
	"learning_rate": 1.0033444816053512e-06,
	"loss": 6.3707,
	"step": 50000
	},
	{
	"epoch": 110.89548100914888,
	"eval_loss": 6.381892204284668,
	"eval_runtime": 175.5709,
	"eval_samples_per_second": 56.957,
	"eval_steps_per_second": 7.12,
	"step": 50000
	},
	{
	"epoch": 111.11727197116717,
	"grad_norm": 0.3267481327056885,
	"learning_rate": 9.933110367892976e-07,
	"loss": 6.3708,
	"step": 50100
	},
	{
	"epoch": 111.11727197116717,
	"eval_loss": 6.3821611404418945,
	"eval_runtime": 172.9472,
	"eval_samples_per_second": 57.821,
	"eval_steps_per_second": 7.228,
	"step": 50100
	},
	{
	"epoch": 111.33906293318547,
	"grad_norm": 0.27063196897506714,
	"learning_rate": 9.832775919732441e-07,
	"loss": 6.3717,
	"step": 50200
	},
	{
	"epoch": 111.33906293318547,
	"eval_loss": 6.380985736846924,
	"eval_runtime": 175.4969,
	"eval_samples_per_second": 56.981,
	"eval_steps_per_second": 7.123,
	"step": 50200
	},
	{
	"epoch": 111.56085389520376,
	"grad_norm": 0.3249282240867615,
	"learning_rate": 9.732441471571907e-07,
	"loss": 6.3712,
	"step": 50300
	},
	{
	"epoch": 111.56085389520376,
	"eval_loss": 6.380914688110352,
	"eval_runtime": 172.9605,
	"eval_samples_per_second": 57.817,
	"eval_steps_per_second": 7.227,
	"step": 50300
	},
	{
	"epoch": 111.78264485722207,
	"grad_norm": 0.23895922303199768,
	"learning_rate": 9.632107023411372e-07,
	"loss": 6.3703,
	"step": 50400
	},
	{
	"epoch": 111.78264485722207,
	"eval_loss": 6.382885932922363,
	"eval_runtime": 175.5673,
	"eval_samples_per_second": 56.958,
	"eval_steps_per_second": 7.12,
	"step": 50400
	},
	{
	"epoch": 112.00443581924037,
	"grad_norm": 0.35966283082962036,
	"learning_rate": 9.531772575250837e-07,
	"loss": 6.37,
	"step": 50500
	},
	{
	"epoch": 112.00443581924037,
	"eval_loss": 6.383852481842041,
	"eval_runtime": 173.4529,
	"eval_samples_per_second": 57.653,
	"eval_steps_per_second": 7.207,
	"step": 50500
	},
	{
	"epoch": 112.22622678125866,
	"grad_norm": 0.3259362578392029,
	"learning_rate": 9.431438127090301e-07,
	"loss": 6.371,
	"step": 50600
	},
	{
	"epoch": 112.22622678125866,
	"eval_loss": 6.385578155517578,
	"eval_runtime": 175.6993,
	"eval_samples_per_second": 56.915,
	"eval_steps_per_second": 7.114,
	"step": 50600
	},
	{
	"epoch": 112.44801774327696,
	"grad_norm": 0.26321855187416077,
	"learning_rate": 9.331103678929767e-07,
	"loss": 6.3701,
	"step": 50700
	},
	{
	"epoch": 112.44801774327696,
	"eval_loss": 6.380197048187256,
	"eval_runtime": 175.6967,
	"eval_samples_per_second": 56.916,
	"eval_steps_per_second": 7.115,
	"step": 50700
	},
	{
	"epoch": 112.66980870529525,
	"grad_norm": 0.25881582498550415,
	"learning_rate": 9.230769230769231e-07,
	"loss": 6.3701,
	"step": 50800
	},
	{
	"epoch": 112.66980870529525,
	"eval_loss": 6.379401683807373,
	"eval_runtime": 175.5648,
	"eval_samples_per_second": 56.959,
	"eval_steps_per_second": 7.12,
	"step": 50800
	},
	{
	"epoch": 112.89159966731356,
	"grad_norm": 0.23602035641670227,
	"learning_rate": 9.130434782608697e-07,
	"loss": 6.3697,
	"step": 50900
	},
	{
	"epoch": 112.89159966731356,
	"eval_loss": 6.380613803863525,
	"eval_runtime": 172.9114,
	"eval_samples_per_second": 57.833,
	"eval_steps_per_second": 7.229,
	"step": 50900
	},
	{
	"epoch": 113.11339062933186,
	"grad_norm": 0.3607383072376251,
	"learning_rate": 9.030100334448161e-07,
	"loss": 6.3717,
	"step": 51000
	},
	{
	"epoch": 113.11339062933186,
	"eval_loss": 6.3821024894714355,
	"eval_runtime": 175.5159,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 51000
	},
	{
	"epoch": 113.33518159135015,
	"grad_norm": 0.313915878534317,
	"learning_rate": 8.929765886287627e-07,
	"loss": 6.3703,
	"step": 51100
	},
	{
	"epoch": 113.33518159135015,
	"eval_loss": 6.381007194519043,
	"eval_runtime": 175.5953,
	"eval_samples_per_second": 56.949,
	"eval_steps_per_second": 7.119,
	"step": 51100
	},
	{
	"epoch": 113.55697255336845,
	"grad_norm": 0.26152804493904114,
	"learning_rate": 8.829431438127091e-07,
	"loss": 6.3712,
	"step": 51200
	},
	{
	"epoch": 113.55697255336845,
	"eval_loss": 6.381545543670654,
	"eval_runtime": 175.5198,
	"eval_samples_per_second": 56.974,
	"eval_steps_per_second": 7.122,
	"step": 51200
	},
	{
	"epoch": 113.77876351538674,
	"grad_norm": 0.31778955459594727,
	"learning_rate": 8.729096989966555e-07,
	"loss": 6.3718,
	"step": 51300
	},
	{
	"epoch": 113.77876351538674,
	"eval_loss": 6.384615421295166,
	"eval_runtime": 175.9251,
	"eval_samples_per_second": 56.842,
	"eval_steps_per_second": 7.105,
	"step": 51300
	},
	{
	"epoch": 114.00055447740505,
	"grad_norm": 0.2694382965564728,
	"learning_rate": 8.628762541806019e-07,
	"loss": 6.371,
	"step": 51400
	},
	{
	"epoch": 114.00055447740505,
	"eval_loss": 6.383395671844482,
	"eval_runtime": 175.9708,
	"eval_samples_per_second": 56.828,
	"eval_steps_per_second": 7.103,
	"step": 51400
	},
	{
	"epoch": 114.22234543942335,
	"grad_norm": 0.29690447449684143,
	"learning_rate": 8.528428093645485e-07,
	"loss": 6.37,
	"step": 51500
	},
	{
	"epoch": 114.22234543942335,
	"eval_loss": 6.382811546325684,
	"eval_runtime": 173.537,
	"eval_samples_per_second": 57.625,
	"eval_steps_per_second": 7.203,
	"step": 51500
	},
	{
	"epoch": 114.44413640144164,
	"grad_norm": 0.39484673738479614,
	"learning_rate": 8.428093645484949e-07,
	"loss": 6.3711,
	"step": 51600
	},
	{
	"epoch": 114.44413640144164,
	"eval_loss": 6.382282257080078,
	"eval_runtime": 175.9709,
	"eval_samples_per_second": 56.828,
	"eval_steps_per_second": 7.103,
	"step": 51600
	},
	{
	"epoch": 114.66592736345994,
	"grad_norm": 0.2630254626274109,
	"learning_rate": 8.327759197324414e-07,
	"loss": 6.3707,
	"step": 51700
	},
	{
	"epoch": 114.66592736345994,
	"eval_loss": 6.382809162139893,
	"eval_runtime": 176.0003,
	"eval_samples_per_second": 56.818,
	"eval_steps_per_second": 7.102,
	"step": 51700
	},
	{
	"epoch": 114.88771832547823,
	"grad_norm": 0.3054973781108856,
	"learning_rate": 8.227424749163879e-07,
	"loss": 6.3708,
	"step": 51800
	},
	{
	"epoch": 114.88771832547823,
	"eval_loss": 6.3818230628967285,
	"eval_runtime": 173.4807,
	"eval_samples_per_second": 57.643,
	"eval_steps_per_second": 7.205,
	"step": 51800
	},
	{
	"epoch": 115.10950928749654,
	"grad_norm": 0.24989312887191772,
	"learning_rate": 8.127090301003344e-07,
	"loss": 6.3697,
	"step": 51900
	},
	{
	"epoch": 115.10950928749654,
	"eval_loss": 6.3821187019348145,
	"eval_runtime": 175.9917,
	"eval_samples_per_second": 56.821,
	"eval_steps_per_second": 7.103,
	"step": 51900
	},
	{
	"epoch": 115.33130024951483,
	"grad_norm": 0.3176492750644684,
	"learning_rate": 8.026755852842809e-07,
	"loss": 6.3716,
	"step": 52000
	},
	{
	"epoch": 115.33130024951483,
	"eval_loss": 6.3822808265686035,
	"eval_runtime": 173.4423,
	"eval_samples_per_second": 57.656,
	"eval_steps_per_second": 7.207,
	"step": 52000
	},
	{
	"epoch": 115.55309121153313,
	"grad_norm": 0.2542394995689392,
	"learning_rate": 7.926421404682274e-07,
	"loss": 6.3712,
	"step": 52100
	},
	{
	"epoch": 115.55309121153313,
	"eval_loss": 6.380392074584961,
	"eval_runtime": 175.9555,
	"eval_samples_per_second": 56.833,
	"eval_steps_per_second": 7.104,
	"step": 52100
	},
	{
	"epoch": 115.77488217355143,
	"grad_norm": 0.2998870313167572,
	"learning_rate": 7.826086956521739e-07,
	"loss": 6.3699,
	"step": 52200
	},
	{
	"epoch": 115.77488217355143,
	"eval_loss": 6.381204605102539,
	"eval_runtime": 173.1037,
	"eval_samples_per_second": 57.769,
	"eval_steps_per_second": 7.221,
	"step": 52200
	},
	{
	"epoch": 115.99667313556972,
	"grad_norm": 0.2524458169937134,
	"learning_rate": 7.725752508361204e-07,
	"loss": 6.3704,
	"step": 52300
	},
	{
	"epoch": 115.99667313556972,
	"eval_loss": 6.383292198181152,
	"eval_runtime": 175.5333,
	"eval_samples_per_second": 56.969,
	"eval_steps_per_second": 7.121,
	"step": 52300
	},
	{
	"epoch": 116.21846409758803,
	"grad_norm": 0.2731904983520508,
	"learning_rate": 7.625418060200669e-07,
	"loss": 6.3715,
	"step": 52400
	},
	{
	"epoch": 116.21846409758803,
	"eval_loss": 6.380125999450684,
	"eval_runtime": 173.003,
	"eval_samples_per_second": 57.802,
	"eval_steps_per_second": 7.225,
	"step": 52400
	},
	{
	"epoch": 116.44025505960632,
	"grad_norm": 0.3370875120162964,
	"learning_rate": 7.525083612040134e-07,
	"loss": 6.3702,
	"step": 52500
	},
	{
	"epoch": 116.44025505960632,
	"eval_loss": 6.383055686950684,
	"eval_runtime": 175.6351,
	"eval_samples_per_second": 56.936,
	"eval_steps_per_second": 7.117,
	"step": 52500
	},
	{
	"epoch": 116.66204602162462,
	"grad_norm": 0.2853044867515564,
	"learning_rate": 7.424749163879599e-07,
	"loss": 6.3706,
	"step": 52600
	},
	{
	"epoch": 116.66204602162462,
	"eval_loss": 6.381393909454346,
	"eval_runtime": 175.6586,
	"eval_samples_per_second": 56.929,
	"eval_steps_per_second": 7.116,
	"step": 52600
	},
	{
	"epoch": 116.88383698364292,
	"grad_norm": 0.3378102481365204,
	"learning_rate": 7.324414715719064e-07,
	"loss": 6.3701,
	"step": 52700
	},
	{
	"epoch": 116.88383698364292,
	"eval_loss": 6.380878448486328,
	"eval_runtime": 175.5156,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 52700
	},
	{
	"epoch": 117.10562794566121,
	"grad_norm": 0.27575579285621643,
	"learning_rate": 7.224080267558529e-07,
	"loss": 6.3698,
	"step": 52800
	},
	{
	"epoch": 117.10562794566121,
	"eval_loss": 6.381886959075928,
	"eval_runtime": 175.558,
	"eval_samples_per_second": 56.961,
	"eval_steps_per_second": 7.12,
	"step": 52800
	},
	{
	"epoch": 117.32741890767952,
	"grad_norm": 0.22469982504844666,
	"learning_rate": 7.123745819397994e-07,
	"loss": 6.3689,
	"step": 52900
	},
	{
	"epoch": 117.32741890767952,
	"eval_loss": 6.378075122833252,
	"eval_runtime": 176.0795,
	"eval_samples_per_second": 56.793,
	"eval_steps_per_second": 7.099,
	"step": 52900
	},
	{
	"epoch": 117.5492098696978,
	"grad_norm": 0.26414427161216736,
	"learning_rate": 7.023411371237459e-07,
	"loss": 6.3715,
	"step": 53000
	},
	{
	"epoch": 117.5492098696978,
	"eval_loss": 6.38188362121582,
	"eval_runtime": 176.003,
	"eval_samples_per_second": 56.817,
	"eval_steps_per_second": 7.102,
	"step": 53000
	},
	{
	"epoch": 117.77100083171611,
	"grad_norm": 0.2348640114068985,
	"learning_rate": 6.923076923076923e-07,
	"loss": 6.3699,
	"step": 53100
	},
	{
	"epoch": 117.77100083171611,
	"eval_loss": 6.382396697998047,
	"eval_runtime": 175.8429,
	"eval_samples_per_second": 56.869,
	"eval_steps_per_second": 7.109,
	"step": 53100
	},
	{
	"epoch": 117.99279179373441,
	"grad_norm": 0.36397331953048706,
	"learning_rate": 6.822742474916388e-07,
	"loss": 6.3703,
	"step": 53200
	},
	{
	"epoch": 117.99279179373441,
	"eval_loss": 6.384123802185059,
	"eval_runtime": 174.4907,
	"eval_samples_per_second": 57.31,
	"eval_steps_per_second": 7.164,
	"step": 53200
	},
	{
	"epoch": 118.2145827557527,
	"grad_norm": 0.25135567784309387,
	"learning_rate": 6.722408026755853e-07,
	"loss": 6.3701,
	"step": 53300
	},
	{
	"epoch": 118.2145827557527,
	"eval_loss": 6.3801045417785645,
	"eval_runtime": 173.0674,
	"eval_samples_per_second": 57.781,
	"eval_steps_per_second": 7.223,
	"step": 53300
	},
	{
	"epoch": 118.436373717771,
	"grad_norm": 0.30894702672958374,
	"learning_rate": 6.622073578595318e-07,
	"loss": 6.3702,
	"step": 53400
	},
	{
	"epoch": 118.436373717771,
	"eval_loss": 6.379894733428955,
	"eval_runtime": 175.516,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 53400
	},
	{
	"epoch": 118.6581646797893,
	"grad_norm": 0.26461485028266907,
	"learning_rate": 6.521739130434783e-07,
	"loss": 6.3713,
	"step": 53500
	},
	{
	"epoch": 118.6581646797893,
	"eval_loss": 6.3835272789001465,
	"eval_runtime": 173.4513,
	"eval_samples_per_second": 57.653,
	"eval_steps_per_second": 7.207,
	"step": 53500
	},
	{
	"epoch": 118.8799556418076,
	"grad_norm": 0.24245497584342957,
	"learning_rate": 6.421404682274248e-07,
	"loss": 6.3705,
	"step": 53600
	},
	{
	"epoch": 118.8799556418076,
	"eval_loss": 6.381874084472656,
	"eval_runtime": 176.0158,
	"eval_samples_per_second": 56.813,
	"eval_steps_per_second": 7.102,
	"step": 53600
	},
	{
	"epoch": 119.10174660382589,
	"grad_norm": 0.23844820261001587,
	"learning_rate": 6.321070234113712e-07,
	"loss": 6.3698,
	"step": 53700
	},
	{
	"epoch": 119.10174660382589,
	"eval_loss": 6.381486415863037,
	"eval_runtime": 173.4108,
	"eval_samples_per_second": 57.667,
	"eval_steps_per_second": 7.208,
	"step": 53700
	},
	{
	"epoch": 119.32353756584419,
	"grad_norm": 0.2418413609266281,
	"learning_rate": 6.220735785953178e-07,
	"loss": 6.3712,
	"step": 53800
	},
	{
	"epoch": 119.32353756584419,
	"eval_loss": 6.382267951965332,
	"eval_runtime": 175.9952,
	"eval_samples_per_second": 56.82,
	"eval_steps_per_second": 7.102,
	"step": 53800
	},
	{
	"epoch": 119.5453285278625,
	"grad_norm": 0.22692246735095978,
	"learning_rate": 6.120401337792642e-07,
	"loss": 6.371,
	"step": 53900
	},
	{
	"epoch": 119.5453285278625,
	"eval_loss": 6.383540630340576,
	"eval_runtime": 173.1726,
	"eval_samples_per_second": 57.746,
	"eval_steps_per_second": 7.218,
	"step": 53900
	},
	{
	"epoch": 119.76711948988078,
	"grad_norm": 0.29117047786712646,
	"learning_rate": 6.020066889632107e-07,
	"loss": 6.3713,
	"step": 54000
	},
	{
	"epoch": 119.76711948988078,
	"eval_loss": 6.382152557373047,
	"eval_runtime": 175.7557,
	"eval_samples_per_second": 56.897,
	"eval_steps_per_second": 7.112,
	"step": 54000
	},
	{
	"epoch": 119.98891045189909,
	"grad_norm": 0.21682819724082947,
	"learning_rate": 5.919732441471572e-07,
	"loss": 6.3702,
	"step": 54100
	},
	{
	"epoch": 119.98891045189909,
	"eval_loss": 6.380878925323486,
	"eval_runtime": 173.0921,
	"eval_samples_per_second": 57.773,
	"eval_steps_per_second": 7.222,
	"step": 54100
	},
	{
	"epoch": 120.21070141391738,
	"grad_norm": 0.31245148181915283,
	"learning_rate": 5.819397993311037e-07,
	"loss": 6.3694,
	"step": 54200
	},
	{
	"epoch": 120.21070141391738,
	"eval_loss": 6.383978843688965,
	"eval_runtime": 175.5232,
	"eval_samples_per_second": 56.973,
	"eval_steps_per_second": 7.122,
	"step": 54200
	},
	{
	"epoch": 120.43249237593568,
	"grad_norm": 0.22876819968223572,
	"learning_rate": 5.719063545150502e-07,
	"loss": 6.3706,
	"step": 54300
	},
	{
	"epoch": 120.43249237593568,
	"eval_loss": 6.382028102874756,
	"eval_runtime": 173.1291,
	"eval_samples_per_second": 57.76,
	"eval_steps_per_second": 7.22,
	"step": 54300
	},
	{
	"epoch": 120.65428333795398,
	"grad_norm": 0.25953638553619385,
	"learning_rate": 5.618729096989966e-07,
	"loss": 6.3707,
	"step": 54400
	},
	{
	"epoch": 120.65428333795398,
	"eval_loss": 6.381461143493652,
	"eval_runtime": 175.57,
	"eval_samples_per_second": 56.957,
	"eval_steps_per_second": 7.12,
	"step": 54400
	},
	{
	"epoch": 120.87607429997227,
	"grad_norm": 0.1654128134250641,
	"learning_rate": 5.518394648829431e-07,
	"loss": 6.3707,
	"step": 54500
	},
	{
	"epoch": 120.87607429997227,
	"eval_loss": 6.3789753913879395,
	"eval_runtime": 175.5387,
	"eval_samples_per_second": 56.967,
	"eval_steps_per_second": 7.121,
	"step": 54500
	},
	{
	"epoch": 121.09786526199058,
	"grad_norm": 0.29274898767471313,
	"learning_rate": 5.418060200668896e-07,
	"loss": 6.3703,
	"step": 54600
	},
	{
	"epoch": 121.09786526199058,
	"eval_loss": 6.380027770996094,
	"eval_runtime": 175.4995,
	"eval_samples_per_second": 56.98,
	"eval_steps_per_second": 7.123,
	"step": 54600
	},
	{
	"epoch": 121.31965622400887,
	"grad_norm": 0.2235456258058548,
	"learning_rate": 5.317725752508361e-07,
	"loss": 6.373,
	"step": 54700
	},
	{
	"epoch": 121.31965622400887,
	"eval_loss": 6.380786418914795,
	"eval_runtime": 175.5186,
	"eval_samples_per_second": 56.974,
	"eval_steps_per_second": 7.122,
	"step": 54700
	},
	{
	"epoch": 121.54144718602717,
	"grad_norm": 0.30965185165405273,
	"learning_rate": 5.217391304347826e-07,
	"loss": 6.3714,
	"step": 54800
	},
	{
	"epoch": 121.54144718602717,
	"eval_loss": 6.382297039031982,
	"eval_runtime": 175.5968,
	"eval_samples_per_second": 56.949,
	"eval_steps_per_second": 7.119,
	"step": 54800
	},
	{
	"epoch": 121.76323814804547,
	"grad_norm": 0.28793787956237793,
	"learning_rate": 5.117056856187291e-07,
	"loss": 6.3707,
	"step": 54900
	},
	{
	"epoch": 121.76323814804547,
	"eval_loss": 6.377398490905762,
	"eval_runtime": 173.0039,
	"eval_samples_per_second": 57.802,
	"eval_steps_per_second": 7.225,
	"step": 54900
	},
	{
	"epoch": 121.98502911006376,
	"grad_norm": 0.3277120590209961,
	"learning_rate": 5.016722408026756e-07,
	"loss": 6.3688,
	"step": 55000
	},
	{
	"epoch": 121.98502911006376,
	"eval_loss": 6.383605480194092,
	"eval_runtime": 173.0503,
	"eval_samples_per_second": 57.787,
	"eval_steps_per_second": 7.223,
	"step": 55000
	},
	{
	"epoch": 122.20682007208207,
	"grad_norm": 0.2291731834411621,
	"learning_rate": 4.916387959866221e-07,
	"loss": 6.3702,
	"step": 55100
	},
	{
	"epoch": 122.20682007208207,
	"eval_loss": 6.385202407836914,
	"eval_runtime": 175.7369,
	"eval_samples_per_second": 56.903,
	"eval_steps_per_second": 7.113,
	"step": 55100
	},
	{
	"epoch": 122.42861103410036,
	"grad_norm": 0.23682117462158203,
	"learning_rate": 4.816053511705686e-07,
	"loss": 6.3711,
	"step": 55200
	},
	{
	"epoch": 122.42861103410036,
	"eval_loss": 6.386002063751221,
	"eval_runtime": 173.0919,
	"eval_samples_per_second": 57.773,
	"eval_steps_per_second": 7.222,
	"step": 55200
	},
	{
	"epoch": 122.65040199611866,
	"grad_norm": 0.21502740681171417,
	"learning_rate": 4.7157190635451506e-07,
	"loss": 6.37,
	"step": 55300
	},
	{
	"epoch": 122.65040199611866,
	"eval_loss": 6.38268518447876,
	"eval_runtime": 175.5194,
	"eval_samples_per_second": 56.974,
	"eval_steps_per_second": 7.122,
	"step": 55300
	},
	{
	"epoch": 122.87219295813695,
	"grad_norm": 0.2415875792503357,
	"learning_rate": 4.6153846153846156e-07,
	"loss": 6.37,
	"step": 55400
	},
	{
	"epoch": 122.87219295813695,
	"eval_loss": 6.379030704498291,
	"eval_runtime": 173.0644,
	"eval_samples_per_second": 57.782,
	"eval_steps_per_second": 7.223,
	"step": 55400
	},
	{
	"epoch": 123.09398392015525,
	"grad_norm": 0.278998464345932,
	"learning_rate": 4.5150501672240806e-07,
	"loss": 6.3709,
	"step": 55500
	},
	{
	"epoch": 123.09398392015525,
	"eval_loss": 6.381860256195068,
	"eval_runtime": 175.5462,
	"eval_samples_per_second": 56.965,
	"eval_steps_per_second": 7.121,
	"step": 55500
	},
	{
	"epoch": 123.31577488217356,
	"grad_norm": 0.27015259861946106,
	"learning_rate": 4.4147157190635456e-07,
	"loss": 6.37,
	"step": 55600
	},
	{
	"epoch": 123.31577488217356,
	"eval_loss": 6.380960464477539,
	"eval_runtime": 175.9714,
	"eval_samples_per_second": 56.827,
	"eval_steps_per_second": 7.103,
	"step": 55600
	},
	{
	"epoch": 123.53756584419185,
	"grad_norm": 0.23815931379795074,
	"learning_rate": 4.3143812709030095e-07,
	"loss": 6.37,
	"step": 55700
	},
	{
	"epoch": 123.53756584419185,
	"eval_loss": 6.384081840515137,
	"eval_runtime": 173.1242,
	"eval_samples_per_second": 57.762,
	"eval_steps_per_second": 7.22,
	"step": 55700
	},
	{
	"epoch": 123.75935680621015,
	"grad_norm": 0.24355483055114746,
	"learning_rate": 4.2140468227424745e-07,
	"loss": 6.3694,
	"step": 55800
	},
	{
	"epoch": 123.75935680621015,
	"eval_loss": 6.378664016723633,
	"eval_runtime": 173.0043,
	"eval_samples_per_second": 57.802,
	"eval_steps_per_second": 7.225,
	"step": 55800
	},
	{
	"epoch": 123.98114776822844,
	"grad_norm": 0.21320495009422302,
	"learning_rate": 4.1137123745819395e-07,
	"loss": 6.3693,
	"step": 55900
	},
	{
	"epoch": 123.98114776822844,
	"eval_loss": 6.382479190826416,
	"eval_runtime": 175.5916,
	"eval_samples_per_second": 56.95,
	"eval_steps_per_second": 7.119,
	"step": 55900
	},
	{
	"epoch": 124.20293873024674,
	"grad_norm": 0.2245740443468094,
	"learning_rate": 4.0133779264214045e-07,
	"loss": 6.3702,
	"step": 56000
	},
	{
	"epoch": 124.20293873024674,
	"eval_loss": 6.385231971740723,
	"eval_runtime": 175.6666,
	"eval_samples_per_second": 56.926,
	"eval_steps_per_second": 7.116,
	"step": 56000
	},
	{
	"epoch": 124.42472969226505,
	"grad_norm": 0.282416969537735,
	"learning_rate": 3.9130434782608694e-07,
	"loss": 6.3709,
	"step": 56100
	},
	{
	"epoch": 124.42472969226505,
	"eval_loss": 6.380115032196045,
	"eval_runtime": 175.7632,
	"eval_samples_per_second": 56.895,
	"eval_steps_per_second": 7.112,
	"step": 56100
	},
	{
	"epoch": 124.64652065428334,
	"grad_norm": 0.19661109149456024,
	"learning_rate": 3.8127090301003344e-07,
	"loss": 6.3712,
	"step": 56200
	},
	{
	"epoch": 124.64652065428334,
	"eval_loss": 6.3793158531188965,
	"eval_runtime": 175.59,
	"eval_samples_per_second": 56.951,
	"eval_steps_per_second": 7.119,
	"step": 56200
	},
	{
	"epoch": 124.86831161630164,
	"grad_norm": 0.18216532468795776,
	"learning_rate": 3.7123745819397994e-07,
	"loss": 6.3703,
	"step": 56300
	},
	{
	"epoch": 124.86831161630164,
	"eval_loss": 6.381213188171387,
	"eval_runtime": 175.6076,
	"eval_samples_per_second": 56.945,
	"eval_steps_per_second": 7.118,
	"step": 56300
	},
	{
	"epoch": 125.09010257831993,
	"grad_norm": 0.3018471598625183,
	"learning_rate": 3.6120401337792644e-07,
	"loss": 6.3706,
	"step": 56400
	},
	{
	"epoch": 125.09010257831993,
	"eval_loss": 6.3784942626953125,
	"eval_runtime": 175.6917,
	"eval_samples_per_second": 56.918,
	"eval_steps_per_second": 7.115,
	"step": 56400
	},
	{
	"epoch": 125.31189354033823,
	"grad_norm": 0.21381452679634094,
	"learning_rate": 3.5117056856187294e-07,
	"loss": 6.3722,
	"step": 56500
	},
	{
	"epoch": 125.31189354033823,
	"eval_loss": 6.381383419036865,
	"eval_runtime": 173.1305,
	"eval_samples_per_second": 57.76,
	"eval_steps_per_second": 7.22,
	"step": 56500
	},
	{
	"epoch": 125.53368450235654,
	"grad_norm": 0.23340944945812225,
	"learning_rate": 3.411371237458194e-07,
	"loss": 6.3698,
	"step": 56600
	},
	{
	"epoch": 125.53368450235654,
	"eval_loss": 6.380908012390137,
	"eval_runtime": 175.6729,
	"eval_samples_per_second": 56.924,
	"eval_steps_per_second": 7.115,
	"step": 56600
	},
	{
	"epoch": 125.75547546437483,
	"grad_norm": 0.22507449984550476,
	"learning_rate": 3.311036789297659e-07,
	"loss": 6.3711,
	"step": 56700
	},
	{
	"epoch": 125.75547546437483,
	"eval_loss": 6.37741756439209,
	"eval_runtime": 172.9897,
	"eval_samples_per_second": 57.807,
	"eval_steps_per_second": 7.226,
	"step": 56700
	},
	{
	"epoch": 125.97726642639313,
	"grad_norm": 0.21832765638828278,
	"learning_rate": 3.210702341137124e-07,
	"loss": 6.3716,
	"step": 56800
	},
	{
	"epoch": 125.97726642639313,
	"eval_loss": 6.381014823913574,
	"eval_runtime": 175.5155,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 56800
	},
	{
	"epoch": 126.19905738841142,
	"grad_norm": 0.27440136671066284,
	"learning_rate": 3.110367892976589e-07,
	"loss": 6.3728,
	"step": 56900
	},
	{
	"epoch": 126.19905738841142,
	"eval_loss": 6.3819074630737305,
	"eval_runtime": 172.9421,
	"eval_samples_per_second": 57.823,
	"eval_steps_per_second": 7.228,
	"step": 56900
	},
	{
	"epoch": 126.42084835042972,
	"grad_norm": 0.24798136949539185,
	"learning_rate": 3.010033444816054e-07,
	"loss": 6.3702,
	"step": 57000
	},
	{
	"epoch": 126.42084835042972,
	"eval_loss": 6.379570484161377,
	"eval_runtime": 176.0012,
	"eval_samples_per_second": 56.818,
	"eval_steps_per_second": 7.102,
	"step": 57000
	},
	{
	"epoch": 126.64263931244801,
	"grad_norm": 0.196645587682724,
	"learning_rate": 2.9096989966555187e-07,
	"loss": 6.3702,
	"step": 57100
	},
	{
	"epoch": 126.64263931244801,
	"eval_loss": 6.3817267417907715,
	"eval_runtime": 173.0992,
	"eval_samples_per_second": 57.77,
	"eval_steps_per_second": 7.221,
	"step": 57100
	},
	{
	"epoch": 126.86443027446632,
	"grad_norm": 0.21966499090194702,
	"learning_rate": 2.809364548494983e-07,
	"loss": 6.3689,
	"step": 57200
	},
	{
	"epoch": 126.86443027446632,
	"eval_loss": 6.383100986480713,
	"eval_runtime": 175.7334,
	"eval_samples_per_second": 56.904,
	"eval_steps_per_second": 7.113,
	"step": 57200
	},
	{
	"epoch": 127.08622123648462,
	"grad_norm": 0.19457194209098816,
	"learning_rate": 2.709030100334448e-07,
	"loss": 6.371,
	"step": 57300
	},
	{
	"epoch": 127.08622123648462,
	"eval_loss": 6.381374835968018,
	"eval_runtime": 175.566,
	"eval_samples_per_second": 56.959,
	"eval_steps_per_second": 7.12,
	"step": 57300
	},
	{
	"epoch": 127.30801219850291,
	"grad_norm": 0.22573208808898926,
	"learning_rate": 2.608695652173913e-07,
	"loss": 6.3725,
	"step": 57400
	},
	{
	"epoch": 127.30801219850291,
	"eval_loss": 6.380834579467773,
	"eval_runtime": 175.5891,
	"eval_samples_per_second": 56.951,
	"eval_steps_per_second": 7.119,
	"step": 57400
	},
	{
	"epoch": 127.52980316052121,
	"grad_norm": 0.2630537748336792,
	"learning_rate": 2.508361204013378e-07,
	"loss": 6.3689,
	"step": 57500
	},
	{
	"epoch": 127.52980316052121,
	"eval_loss": 6.380504131317139,
	"eval_runtime": 175.5167,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 57500
	},
	{
	"epoch": 127.7515941225395,
	"grad_norm": 0.2693498134613037,
	"learning_rate": 2.408026755852843e-07,
	"loss": 6.3711,
	"step": 57600
	},
	{
	"epoch": 127.7515941225395,
	"eval_loss": 6.379264831542969,
	"eval_runtime": 175.6659,
	"eval_samples_per_second": 56.926,
	"eval_steps_per_second": 7.116,
	"step": 57600
	},
	{
	"epoch": 127.9733850845578,
	"grad_norm": 0.21430125832557678,
	"learning_rate": 2.3076923076923078e-07,
	"loss": 6.3701,
	"step": 57700
	},
	{
	"epoch": 127.9733850845578,
	"eval_loss": 6.383444309234619,
	"eval_runtime": 175.8385,
	"eval_samples_per_second": 56.87,
	"eval_steps_per_second": 7.109,
	"step": 57700
	},
	{
	"epoch": 128.1951760465761,
	"grad_norm": 0.23632164299488068,
	"learning_rate": 2.2073578595317728e-07,
	"loss": 6.37,
	"step": 57800
	},
	{
	"epoch": 128.1951760465761,
	"eval_loss": 6.381924152374268,
	"eval_runtime": 175.9161,
	"eval_samples_per_second": 56.845,
	"eval_steps_per_second": 7.106,
	"step": 57800
	},
	{
	"epoch": 128.4169670085944,
	"grad_norm": 0.20027929544448853,
	"learning_rate": 2.1070234113712372e-07,
	"loss": 6.3689,
	"step": 57900
	},
	{
	"epoch": 128.4169670085944,
	"eval_loss": 6.380605697631836,
	"eval_runtime": 175.7408,
	"eval_samples_per_second": 56.902,
	"eval_steps_per_second": 7.113,
	"step": 57900
	},
	{
	"epoch": 128.6387579706127,
	"grad_norm": 0.24598795175552368,
	"learning_rate": 2.0066889632107022e-07,
	"loss": 6.3703,
	"step": 58000
	},
	{
	"epoch": 128.6387579706127,
	"eval_loss": 6.380997180938721,
	"eval_runtime": 175.8242,
	"eval_samples_per_second": 56.875,
	"eval_steps_per_second": 7.109,
	"step": 58000
	},
	{
	"epoch": 128.860548932631,
	"grad_norm": 0.22210384905338287,
	"learning_rate": 1.9063545150501672e-07,
	"loss": 6.3713,
	"step": 58100
	},
	{
	"epoch": 128.860548932631,
	"eval_loss": 6.379730701446533,
	"eval_runtime": 175.6297,
	"eval_samples_per_second": 56.938,
	"eval_steps_per_second": 7.117,
	"step": 58100
	},
	{
	"epoch": 129.0823398946493,
	"grad_norm": 0.21533408761024475,
	"learning_rate": 1.8060200668896322e-07,
	"loss": 6.369,
	"step": 58200
	},
	{
	"epoch": 129.0823398946493,
	"eval_loss": 6.379825592041016,
	"eval_runtime": 173.1155,
	"eval_samples_per_second": 57.765,
	"eval_steps_per_second": 7.221,
	"step": 58200
	},
	{
	"epoch": 129.3041308566676,
	"grad_norm": 0.24441500008106232,
	"learning_rate": 1.705685618729097e-07,
	"loss": 6.3712,
	"step": 58300
	},
	{
	"epoch": 129.3041308566676,
	"eval_loss": 6.380709171295166,
	"eval_runtime": 175.6262,
	"eval_samples_per_second": 56.939,
	"eval_steps_per_second": 7.117,
	"step": 58300
	},
	{
	"epoch": 129.5259218186859,
	"grad_norm": 0.174821138381958,
	"learning_rate": 1.605351170568562e-07,
	"loss": 6.3694,
	"step": 58400
	},
	{
	"epoch": 129.5259218186859,
	"eval_loss": 6.3804545402526855,
	"eval_runtime": 174.2415,
	"eval_samples_per_second": 57.392,
	"eval_steps_per_second": 7.174,
	"step": 58400
	},
	{
	"epoch": 129.74771278070418,
	"grad_norm": 0.24464456737041473,
	"learning_rate": 1.505016722408027e-07,
	"loss": 6.3713,
	"step": 58500
	},
	{
	"epoch": 129.74771278070418,
	"eval_loss": 6.379507541656494,
	"eval_runtime": 175.5413,
	"eval_samples_per_second": 56.967,
	"eval_steps_per_second": 7.121,
	"step": 58500
	},
	{
	"epoch": 129.96950374272248,
	"grad_norm": 0.1928214728832245,
	"learning_rate": 1.4046822742474916e-07,
	"loss": 6.37,
	"step": 58600
	},
	{
	"epoch": 129.96950374272248,
	"eval_loss": 6.384742736816406,
	"eval_runtime": 173.0335,
	"eval_samples_per_second": 57.792,
	"eval_steps_per_second": 7.224,
	"step": 58600
	},
	{
	"epoch": 130.19129470474078,
	"grad_norm": 0.2976389229297638,
	"learning_rate": 1.3043478260869566e-07,
	"loss": 6.3717,
	"step": 58700
	},
	{
	"epoch": 130.19129470474078,
	"eval_loss": 6.3786187171936035,
	"eval_runtime": 175.6076,
	"eval_samples_per_second": 56.945,
	"eval_steps_per_second": 7.118,
	"step": 58700
	},
	{
	"epoch": 130.4130856667591,
	"grad_norm": 0.25023147463798523,
	"learning_rate": 1.2040133779264215e-07,
	"loss": 6.3685,
	"step": 58800
	},
	{
	"epoch": 130.4130856667591,
	"eval_loss": 6.383387565612793,
	"eval_runtime": 175.5163,
	"eval_samples_per_second": 56.975,
	"eval_steps_per_second": 7.122,
	"step": 58800
	},
	{
	"epoch": 130.6348766287774,
	"grad_norm": 0.21737854182720184,
	"learning_rate": 1.1036789297658864e-07,
	"loss": 6.3712,
	"step": 58900
	},
	{
	"epoch": 130.6348766287774,
	"eval_loss": 6.379786491394043,
	"eval_runtime": 175.7874,
	"eval_samples_per_second": 56.887,
	"eval_steps_per_second": 7.111,
	"step": 58900
	},
	{
	"epoch": 130.85666759079567,
	"grad_norm": 0.18008896708488464,
	"learning_rate": 1.0033444816053511e-07,
	"loss": 6.3701,
	"step": 59000
	},
	{
	"epoch": 130.85666759079567,
	"eval_loss": 6.378762722015381,
	"eval_runtime": 175.3457,
	"eval_samples_per_second": 57.03,
	"eval_steps_per_second": 7.129,
	"step": 59000
	},
	{
	"epoch": 131.07845855281397,
	"grad_norm": 0.26529356837272644,
	"learning_rate": 9.030100334448161e-08,
	"loss": 6.3706,
	"step": 59100
	},
	{
	"epoch": 131.07845855281397,
	"eval_loss": 6.384096622467041,
	"eval_runtime": 173.4291,
	"eval_samples_per_second": 57.66,
	"eval_steps_per_second": 7.208,
	"step": 59100
	},
	{
	"epoch": 131.30024951483227,
	"grad_norm": 0.2854064106941223,
	"learning_rate": 8.02675585284281e-08,
	"loss": 6.3699,
	"step": 59200
	},
	{
	"epoch": 131.30024951483227,
	"eval_loss": 6.38028621673584,
	"eval_runtime": 175.6366,
	"eval_samples_per_second": 56.936,
	"eval_steps_per_second": 7.117,
	"step": 59200
	},
	{
	"epoch": 131.52204047685058,
	"grad_norm": 0.2294512242078781,
	"learning_rate": 7.023411371237458e-08,
	"loss": 6.3711,
	"step": 59300
	},
	{
	"epoch": 131.52204047685058,
	"eval_loss": 6.384092330932617,
	"eval_runtime": 175.5659,
	"eval_samples_per_second": 56.959,
	"eval_steps_per_second": 7.12,
	"step": 59300
	},
	{
	"epoch": 131.74383143886885,
	"grad_norm": 0.23442944884300232,
	"learning_rate": 6.020066889632108e-08,
	"loss": 6.3704,
	"step": 59400
	},
	{
	"epoch": 131.74383143886885,
	"eval_loss": 6.382981300354004,
	"eval_runtime": 175.5589,
	"eval_samples_per_second": 56.961,
	"eval_steps_per_second": 7.12,
	"step": 59400
	},
	{
	"epoch": 131.96562240088716,
	"grad_norm": 0.216475710272789,
	"learning_rate": 5.0167224080267556e-08,
	"loss": 6.3708,
	"step": 59500
	},
	{
	"epoch": 131.96562240088716,
	"eval_loss": 6.381463050842285,
	"eval_runtime": 175.6519,
	"eval_samples_per_second": 56.931,
	"eval_steps_per_second": 7.116,
	"step": 59500
	},
	{
	"epoch": 132.18741336290546,
	"grad_norm": 0.2338051199913025,
	"learning_rate": 4.013377926421405e-08,
	"loss": 6.3693,
	"step": 59600
	},
	{
	"epoch": 132.18741336290546,
	"eval_loss": 6.379833698272705,
	"eval_runtime": 175.5243,
	"eval_samples_per_second": 56.972,
	"eval_steps_per_second": 7.122,
	"step": 59600
	},
	{
	"epoch": 132.40920432492376,
	"grad_norm": 0.20408721268177032,
	"learning_rate": 3.010033444816054e-08,
	"loss": 6.3683,
	"step": 59700
	},
	{
	"epoch": 132.40920432492376,
	"eval_loss": 6.38368034362793,
	"eval_runtime": 175.3937,
	"eval_samples_per_second": 57.015,
	"eval_steps_per_second": 7.127,
	"step": 59700
	},
	{
	"epoch": 132.63099528694207,
	"grad_norm": 0.24998629093170166,
	"learning_rate": 2.0066889632107024e-08,
	"loss": 6.3697,
	"step": 59800
	},
	{
	"epoch": 132.63099528694207,
	"eval_loss": 6.381494522094727,
	"eval_runtime": 176.0167,
	"eval_samples_per_second": 56.813,
	"eval_steps_per_second": 7.102,
	"step": 59800
	},
	{
	"epoch": 132.85278624896034,
	"grad_norm": 0.2178734391927719,
	"learning_rate": 1.0033444816053512e-08,
	"loss": 6.371,
	"step": 59900
	},
	{
	"epoch": 132.85278624896034,
	"eval_loss": 6.382035732269287,
	"eval_runtime": 173.4585,
	"eval_samples_per_second": 57.651,
	"eval_steps_per_second": 7.206,
	"step": 59900
	},
	{
	"epoch": 133.07457721097865,
	"grad_norm": 0.24738912284374237,
	"learning_rate": 0.0,
	"loss": 6.3696,
	"step": 60000
	},
	{
	"epoch": 133.07457721097865,
	"eval_loss": 6.382532596588135,
	"eval_runtime": 175.9883,
	"eval_samples_per_second": 56.822,
	"eval_steps_per_second": 7.103,
	"step": 60000
	}
	],
	"logging_steps": 100,
	"max_steps": 60000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 134,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.157205700133659e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}