en-zhtw / trainer_state.json

Upload 13 files

54d741c verified 6 months ago

218 kB

	{
	"best_global_step": 499760,
	"best_metric": 1.0584163665771484,
	"best_model_checkpoint": "/media/user/Expansion1/opus-mt-en-zhtw-google-translate3/checkpoint-499760",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 499760,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005002401152553225,
	"grad_norm": 9.338144302368164,
	"learning_rate": 4.997503801824876e-05,
	"loss": 2.3751,
	"num_input_tokens_seen": 281752,
	"step": 500
	},
	{
	"epoch": 0.01000480230510645,
	"grad_norm": 10.810979843139648,
	"learning_rate": 4.9950026012485996e-05,
	"loss": 2.2026,
	"num_input_tokens_seen": 552352,
	"step": 1000
	},
	{
	"epoch": 0.015007203457659676,
	"grad_norm": 9.087040901184082,
	"learning_rate": 4.992501400672323e-05,
	"loss": 2.1448,
	"num_input_tokens_seen": 823176,
	"step": 1500
	},
	{
	"epoch": 0.0200096046102129,
	"grad_norm": 8.617157936096191,
	"learning_rate": 4.990000200096046e-05,
	"loss": 2.0951,
	"num_input_tokens_seen": 1102760,
	"step": 2000
	},
	{
	"epoch": 0.02501200576276613,
	"grad_norm": 7.297477722167969,
	"learning_rate": 4.9874989995197695e-05,
	"loss": 2.0308,
	"num_input_tokens_seen": 1378560,
	"step": 2500
	},
	{
	"epoch": 0.030014406915319352,
	"grad_norm": 8.311019897460938,
	"learning_rate": 4.984997798943493e-05,
	"loss": 2.0307,
	"num_input_tokens_seen": 1653488,
	"step": 3000
	},
	{
	"epoch": 0.03501680806787258,
	"grad_norm": 8.287640571594238,
	"learning_rate": 4.9824965983672164e-05,
	"loss": 1.9855,
	"num_input_tokens_seen": 1923368,
	"step": 3500
	},
	{
	"epoch": 0.0400192092204258,
	"grad_norm": 9.764960289001465,
	"learning_rate": 4.97999539779094e-05,
	"loss": 1.9682,
	"num_input_tokens_seen": 2199816,
	"step": 4000
	},
	{
	"epoch": 0.04502161037297903,
	"grad_norm": 7.692084312438965,
	"learning_rate": 4.9774941972146634e-05,
	"loss": 1.9222,
	"num_input_tokens_seen": 2467792,
	"step": 4500
	},
	{
	"epoch": 0.05002401152553226,
	"grad_norm": 7.139247417449951,
	"learning_rate": 4.974992996638387e-05,
	"loss": 1.9266,
	"num_input_tokens_seen": 2731792,
	"step": 5000
	},
	{
	"epoch": 0.05502641267808548,
	"grad_norm": 7.6170244216918945,
	"learning_rate": 4.97249179606211e-05,
	"loss": 1.9024,
	"num_input_tokens_seen": 3004120,
	"step": 5500
	},
	{
	"epoch": 0.060028813830638704,
	"grad_norm": 12.332016944885254,
	"learning_rate": 4.969990595485833e-05,
	"loss": 1.8823,
	"num_input_tokens_seen": 3284568,
	"step": 6000
	},
	{
	"epoch": 0.06503121498319193,
	"grad_norm": 7.665128231048584,
	"learning_rate": 4.967489394909557e-05,
	"loss": 1.8642,
	"num_input_tokens_seen": 3554600,
	"step": 6500
	},
	{
	"epoch": 0.07003361613574516,
	"grad_norm": 10.934691429138184,
	"learning_rate": 4.96498819433328e-05,
	"loss": 1.8556,
	"num_input_tokens_seen": 3824936,
	"step": 7000
	},
	{
	"epoch": 0.07503601728829838,
	"grad_norm": 7.880730152130127,
	"learning_rate": 4.962486993757004e-05,
	"loss": 1.8606,
	"num_input_tokens_seen": 4099080,
	"step": 7500
	},
	{
	"epoch": 0.0800384184408516,
	"grad_norm": 7.548530578613281,
	"learning_rate": 4.959985793180727e-05,
	"loss": 1.83,
	"num_input_tokens_seen": 4366808,
	"step": 8000
	},
	{
	"epoch": 0.08504081959340483,
	"grad_norm": 7.900990009307861,
	"learning_rate": 4.957484592604451e-05,
	"loss": 1.8031,
	"num_input_tokens_seen": 4638816,
	"step": 8500
	},
	{
	"epoch": 0.09004322074595807,
	"grad_norm": 8.125676155090332,
	"learning_rate": 4.9549833920281736e-05,
	"loss": 1.8455,
	"num_input_tokens_seen": 4915000,
	"step": 9000
	},
	{
	"epoch": 0.09504562189851129,
	"grad_norm": 7.727709770202637,
	"learning_rate": 4.952482191451897e-05,
	"loss": 1.8024,
	"num_input_tokens_seen": 5188672,
	"step": 9500
	},
	{
	"epoch": 0.10004802305106451,
	"grad_norm": 5.897092342376709,
	"learning_rate": 4.9499809908756206e-05,
	"loss": 1.7928,
	"num_input_tokens_seen": 5468592,
	"step": 10000
	},
	{
	"epoch": 0.10505042420361774,
	"grad_norm": 11.170528411865234,
	"learning_rate": 4.947479790299344e-05,
	"loss": 1.7868,
	"num_input_tokens_seen": 5733256,
	"step": 10500
	},
	{
	"epoch": 0.11005282535617096,
	"grad_norm": 8.682831764221191,
	"learning_rate": 4.944978589723067e-05,
	"loss": 1.7878,
	"num_input_tokens_seen": 6008088,
	"step": 11000
	},
	{
	"epoch": 0.11505522650872418,
	"grad_norm": 7.914422988891602,
	"learning_rate": 4.942477389146791e-05,
	"loss": 1.7355,
	"num_input_tokens_seen": 6274960,
	"step": 11500
	},
	{
	"epoch": 0.12005762766127741,
	"grad_norm": 8.685178756713867,
	"learning_rate": 4.9399761885705145e-05,
	"loss": 1.7744,
	"num_input_tokens_seen": 6554288,
	"step": 12000
	},
	{
	"epoch": 0.12506002881383063,
	"grad_norm": 7.942957401275635,
	"learning_rate": 4.9374749879942374e-05,
	"loss": 1.7293,
	"num_input_tokens_seen": 6832880,
	"step": 12500
	},
	{
	"epoch": 0.13006242996638387,
	"grad_norm": 6.650600910186768,
	"learning_rate": 4.934973787417961e-05,
	"loss": 1.7523,
	"num_input_tokens_seen": 7107168,
	"step": 13000
	},
	{
	"epoch": 0.13506483111893708,
	"grad_norm": 7.683079242706299,
	"learning_rate": 4.9324725868416844e-05,
	"loss": 1.7432,
	"num_input_tokens_seen": 7377472,
	"step": 13500
	},
	{
	"epoch": 0.14006723227149032,
	"grad_norm": 8.168213844299316,
	"learning_rate": 4.929971386265408e-05,
	"loss": 1.745,
	"num_input_tokens_seen": 7653272,
	"step": 14000
	},
	{
	"epoch": 0.14506963342404355,
	"grad_norm": 8.087789535522461,
	"learning_rate": 4.927470185689131e-05,
	"loss": 1.7179,
	"num_input_tokens_seen": 7926040,
	"step": 14500
	},
	{
	"epoch": 0.15007203457659676,
	"grad_norm": 8.388677597045898,
	"learning_rate": 4.924968985112854e-05,
	"loss": 1.7219,
	"num_input_tokens_seen": 8195288,
	"step": 15000
	},
	{
	"epoch": 0.15507443572915,
	"grad_norm": 8.354930877685547,
	"learning_rate": 4.922467784536578e-05,
	"loss": 1.7376,
	"num_input_tokens_seen": 8469792,
	"step": 15500
	},
	{
	"epoch": 0.1600768368817032,
	"grad_norm": 8.638579368591309,
	"learning_rate": 4.919966583960301e-05,
	"loss": 1.701,
	"num_input_tokens_seen": 8735800,
	"step": 16000
	},
	{
	"epoch": 0.16507923803425645,
	"grad_norm": 6.771655559539795,
	"learning_rate": 4.9174653833840247e-05,
	"loss": 1.719,
	"num_input_tokens_seen": 9005256,
	"step": 16500
	},
	{
	"epoch": 0.17008163918680966,
	"grad_norm": 12.017413139343262,
	"learning_rate": 4.914964182807748e-05,
	"loss": 1.7029,
	"num_input_tokens_seen": 9279816,
	"step": 17000
	},
	{
	"epoch": 0.1750840403393629,
	"grad_norm": 7.177635669708252,
	"learning_rate": 4.9124629822314716e-05,
	"loss": 1.6925,
	"num_input_tokens_seen": 9548800,
	"step": 17500
	},
	{
	"epoch": 0.18008644149191613,
	"grad_norm": 6.606298446655273,
	"learning_rate": 4.9099617816551945e-05,
	"loss": 1.6957,
	"num_input_tokens_seen": 9826416,
	"step": 18000
	},
	{
	"epoch": 0.18508884264446934,
	"grad_norm": 6.026829242706299,
	"learning_rate": 4.907460581078918e-05,
	"loss": 1.7022,
	"num_input_tokens_seen": 10095920,
	"step": 18500
	},
	{
	"epoch": 0.19009124379702258,
	"grad_norm": 8.743913650512695,
	"learning_rate": 4.9049593805026415e-05,
	"loss": 1.6904,
	"num_input_tokens_seen": 10371760,
	"step": 19000
	},
	{
	"epoch": 0.1950936449495758,
	"grad_norm": 9.37678050994873,
	"learning_rate": 4.902458179926365e-05,
	"loss": 1.6617,
	"num_input_tokens_seen": 10639680,
	"step": 19500
	},
	{
	"epoch": 0.20009604610212903,
	"grad_norm": 7.834632396697998,
	"learning_rate": 4.8999569793500885e-05,
	"loss": 1.6631,
	"num_input_tokens_seen": 10910752,
	"step": 20000
	},
	{
	"epoch": 0.20509844725468224,
	"grad_norm": 7.523416519165039,
	"learning_rate": 4.897455778773812e-05,
	"loss": 1.6526,
	"num_input_tokens_seen": 11174272,
	"step": 20500
	},
	{
	"epoch": 0.21010084840723547,
	"grad_norm": 7.593217372894287,
	"learning_rate": 4.894954578197535e-05,
	"loss": 1.6618,
	"num_input_tokens_seen": 11447056,
	"step": 21000
	},
	{
	"epoch": 0.2151032495597887,
	"grad_norm": 7.984575271606445,
	"learning_rate": 4.892453377621258e-05,
	"loss": 1.6668,
	"num_input_tokens_seen": 11715856,
	"step": 21500
	},
	{
	"epoch": 0.22010565071234192,
	"grad_norm": 7.122634410858154,
	"learning_rate": 4.889952177044982e-05,
	"loss": 1.6697,
	"num_input_tokens_seen": 11994600,
	"step": 22000
	},
	{
	"epoch": 0.22510805186489516,
	"grad_norm": 6.745737552642822,
	"learning_rate": 4.887450976468705e-05,
	"loss": 1.6471,
	"num_input_tokens_seen": 12264272,
	"step": 22500
	},
	{
	"epoch": 0.23011045301744837,
	"grad_norm": 6.742521286010742,
	"learning_rate": 4.884949775892428e-05,
	"loss": 1.6588,
	"num_input_tokens_seen": 12538760,
	"step": 23000
	},
	{
	"epoch": 0.2351128541700016,
	"grad_norm": 8.37658977508545,
	"learning_rate": 4.882448575316152e-05,
	"loss": 1.667,
	"num_input_tokens_seen": 12814464,
	"step": 23500
	},
	{
	"epoch": 0.24011525532255482,
	"grad_norm": 7.458651065826416,
	"learning_rate": 4.879947374739876e-05,
	"loss": 1.6459,
	"num_input_tokens_seen": 13083456,
	"step": 24000
	},
	{
	"epoch": 0.24511765647510805,
	"grad_norm": 10.364368438720703,
	"learning_rate": 4.8774461741635986e-05,
	"loss": 1.651,
	"num_input_tokens_seen": 13361568,
	"step": 24500
	},
	{
	"epoch": 0.25012005762766126,
	"grad_norm": 6.404083251953125,
	"learning_rate": 4.874944973587322e-05,
	"loss": 1.6271,
	"num_input_tokens_seen": 13638952,
	"step": 25000
	},
	{
	"epoch": 0.2551224587802145,
	"grad_norm": 7.239497184753418,
	"learning_rate": 4.8724437730110456e-05,
	"loss": 1.6325,
	"num_input_tokens_seen": 13909896,
	"step": 25500
	},
	{
	"epoch": 0.26012485993276774,
	"grad_norm": 9.5720796585083,
	"learning_rate": 4.869942572434769e-05,
	"loss": 1.6227,
	"num_input_tokens_seen": 14182688,
	"step": 26000
	},
	{
	"epoch": 0.265127261085321,
	"grad_norm": 7.255125045776367,
	"learning_rate": 4.867441371858492e-05,
	"loss": 1.6328,
	"num_input_tokens_seen": 14455888,
	"step": 26500
	},
	{
	"epoch": 0.27012966223787416,
	"grad_norm": 7.990500450134277,
	"learning_rate": 4.8649401712822154e-05,
	"loss": 1.6315,
	"num_input_tokens_seen": 14726048,
	"step": 27000
	},
	{
	"epoch": 0.2751320633904274,
	"grad_norm": 7.787556171417236,
	"learning_rate": 4.8624389707059396e-05,
	"loss": 1.6357,
	"num_input_tokens_seen": 15005208,
	"step": 27500
	},
	{
	"epoch": 0.28013446454298063,
	"grad_norm": 6.046635627746582,
	"learning_rate": 4.8599377701296624e-05,
	"loss": 1.6173,
	"num_input_tokens_seen": 15272768,
	"step": 28000
	},
	{
	"epoch": 0.28513686569553387,
	"grad_norm": 6.547093391418457,
	"learning_rate": 4.857436569553386e-05,
	"loss": 1.6067,
	"num_input_tokens_seen": 15539248,
	"step": 28500
	},
	{
	"epoch": 0.2901392668480871,
	"grad_norm": 8.07209587097168,
	"learning_rate": 4.8549353689771094e-05,
	"loss": 1.6018,
	"num_input_tokens_seen": 15810072,
	"step": 29000
	},
	{
	"epoch": 0.2951416680006403,
	"grad_norm": 7.229666709899902,
	"learning_rate": 4.852434168400833e-05,
	"loss": 1.6238,
	"num_input_tokens_seen": 16082968,
	"step": 29500
	},
	{
	"epoch": 0.3001440691531935,
	"grad_norm": 6.863572597503662,
	"learning_rate": 4.849932967824556e-05,
	"loss": 1.6104,
	"num_input_tokens_seen": 16354784,
	"step": 30000
	},
	{
	"epoch": 0.30514647030574676,
	"grad_norm": 8.546486854553223,
	"learning_rate": 4.847431767248279e-05,
	"loss": 1.5961,
	"num_input_tokens_seen": 16623816,
	"step": 30500
	},
	{
	"epoch": 0.3101488714583,
	"grad_norm": 6.493512153625488,
	"learning_rate": 4.844930566672003e-05,
	"loss": 1.5977,
	"num_input_tokens_seen": 16896624,
	"step": 31000
	},
	{
	"epoch": 0.3151512726108532,
	"grad_norm": 7.902426242828369,
	"learning_rate": 4.842429366095726e-05,
	"loss": 1.6049,
	"num_input_tokens_seen": 17168672,
	"step": 31500
	},
	{
	"epoch": 0.3201536737634064,
	"grad_norm": 8.033360481262207,
	"learning_rate": 4.83992816551945e-05,
	"loss": 1.581,
	"num_input_tokens_seen": 17433848,
	"step": 32000
	},
	{
	"epoch": 0.32515607491595966,
	"grad_norm": 7.9239325523376465,
	"learning_rate": 4.837426964943173e-05,
	"loss": 1.6029,
	"num_input_tokens_seen": 17704920,
	"step": 32500
	},
	{
	"epoch": 0.3301584760685129,
	"grad_norm": 6.995474815368652,
	"learning_rate": 4.834925764366897e-05,
	"loss": 1.576,
	"num_input_tokens_seen": 17969776,
	"step": 33000
	},
	{
	"epoch": 0.33516087722106613,
	"grad_norm": 8.305245399475098,
	"learning_rate": 4.8324245637906195e-05,
	"loss": 1.5909,
	"num_input_tokens_seen": 18239784,
	"step": 33500
	},
	{
	"epoch": 0.3401632783736193,
	"grad_norm": 6.429056167602539,
	"learning_rate": 4.829923363214343e-05,
	"loss": 1.5742,
	"num_input_tokens_seen": 18507688,
	"step": 34000
	},
	{
	"epoch": 0.34516567952617255,
	"grad_norm": 7.208921432495117,
	"learning_rate": 4.8274221626380665e-05,
	"loss": 1.573,
	"num_input_tokens_seen": 18776368,
	"step": 34500
	},
	{
	"epoch": 0.3501680806787258,
	"grad_norm": 7.433680057525635,
	"learning_rate": 4.82492096206179e-05,
	"loss": 1.588,
	"num_input_tokens_seen": 19050584,
	"step": 35000
	},
	{
	"epoch": 0.35517048183127903,
	"grad_norm": 6.901820182800293,
	"learning_rate": 4.8224197614855135e-05,
	"loss": 1.58,
	"num_input_tokens_seen": 19333968,
	"step": 35500
	},
	{
	"epoch": 0.36017288298383227,
	"grad_norm": 8.789533615112305,
	"learning_rate": 4.819918560909237e-05,
	"loss": 1.5758,
	"num_input_tokens_seen": 19612632,
	"step": 36000
	},
	{
	"epoch": 0.36517528413638545,
	"grad_norm": 7.546513557434082,
	"learning_rate": 4.8174173603329605e-05,
	"loss": 1.5763,
	"num_input_tokens_seen": 19883800,
	"step": 36500
	},
	{
	"epoch": 0.3701776852889387,
	"grad_norm": 6.489349842071533,
	"learning_rate": 4.814916159756683e-05,
	"loss": 1.5866,
	"num_input_tokens_seen": 20158632,
	"step": 37000
	},
	{
	"epoch": 0.3751800864414919,
	"grad_norm": 7.696920871734619,
	"learning_rate": 4.812414959180407e-05,
	"loss": 1.5858,
	"num_input_tokens_seen": 20430440,
	"step": 37500
	},
	{
	"epoch": 0.38018248759404516,
	"grad_norm": 6.559112071990967,
	"learning_rate": 4.80991375860413e-05,
	"loss": 1.5596,
	"num_input_tokens_seen": 20703976,
	"step": 38000
	},
	{
	"epoch": 0.38518488874659834,
	"grad_norm": 8.480047225952148,
	"learning_rate": 4.807412558027853e-05,
	"loss": 1.5533,
	"num_input_tokens_seen": 20972048,
	"step": 38500
	},
	{
	"epoch": 0.3901872898991516,
	"grad_norm": 5.950156211853027,
	"learning_rate": 4.804911357451577e-05,
	"loss": 1.5642,
	"num_input_tokens_seen": 21240912,
	"step": 39000
	},
	{
	"epoch": 0.3951896910517048,
	"grad_norm": 5.799604892730713,
	"learning_rate": 4.802410156875301e-05,
	"loss": 1.5598,
	"num_input_tokens_seen": 21507728,
	"step": 39500
	},
	{
	"epoch": 0.40019209220425805,
	"grad_norm": 5.980112075805664,
	"learning_rate": 4.7999089562990236e-05,
	"loss": 1.5609,
	"num_input_tokens_seen": 21783160,
	"step": 40000
	},
	{
	"epoch": 0.4051944933568113,
	"grad_norm": 5.936067581176758,
	"learning_rate": 4.797407755722747e-05,
	"loss": 1.5523,
	"num_input_tokens_seen": 22052792,
	"step": 40500
	},
	{
	"epoch": 0.4101968945093645,
	"grad_norm": 9.166204452514648,
	"learning_rate": 4.7949065551464706e-05,
	"loss": 1.5452,
	"num_input_tokens_seen": 22324072,
	"step": 41000
	},
	{
	"epoch": 0.4151992956619177,
	"grad_norm": 8.854216575622559,
	"learning_rate": 4.792405354570194e-05,
	"loss": 1.5516,
	"num_input_tokens_seen": 22590624,
	"step": 41500
	},
	{
	"epoch": 0.42020169681447095,
	"grad_norm": 9.261016845703125,
	"learning_rate": 4.789904153993917e-05,
	"loss": 1.5374,
	"num_input_tokens_seen": 22862424,
	"step": 42000
	},
	{
	"epoch": 0.4252040979670242,
	"grad_norm": 7.714609622955322,
	"learning_rate": 4.7874029534176404e-05,
	"loss": 1.544,
	"num_input_tokens_seen": 23128888,
	"step": 42500
	},
	{
	"epoch": 0.4302064991195774,
	"grad_norm": 5.665945529937744,
	"learning_rate": 4.784901752841364e-05,
	"loss": 1.5532,
	"num_input_tokens_seen": 23407576,
	"step": 43000
	},
	{
	"epoch": 0.4352089002721306,
	"grad_norm": 6.948183536529541,
	"learning_rate": 4.7824005522650874e-05,
	"loss": 1.5467,
	"num_input_tokens_seen": 23683544,
	"step": 43500
	},
	{
	"epoch": 0.44021130142468384,
	"grad_norm": 5.725684642791748,
	"learning_rate": 4.779899351688811e-05,
	"loss": 1.5295,
	"num_input_tokens_seen": 23948640,
	"step": 44000
	},
	{
	"epoch": 0.4452137025772371,
	"grad_norm": 6.168211936950684,
	"learning_rate": 4.7773981511125344e-05,
	"loss": 1.5477,
	"num_input_tokens_seen": 24212584,
	"step": 44500
	},
	{
	"epoch": 0.4502161037297903,
	"grad_norm": 6.778971195220947,
	"learning_rate": 4.774896950536258e-05,
	"loss": 1.5134,
	"num_input_tokens_seen": 24481104,
	"step": 45000
	},
	{
	"epoch": 0.4552185048823435,
	"grad_norm": 7.2399210929870605,
	"learning_rate": 4.772395749959981e-05,
	"loss": 1.5447,
	"num_input_tokens_seen": 24756992,
	"step": 45500
	},
	{
	"epoch": 0.46022090603489674,
	"grad_norm": 6.476212024688721,
	"learning_rate": 4.769894549383704e-05,
	"loss": 1.5361,
	"num_input_tokens_seen": 25020392,
	"step": 46000
	},
	{
	"epoch": 0.46522330718745,
	"grad_norm": 10.64287281036377,
	"learning_rate": 4.767393348807428e-05,
	"loss": 1.5409,
	"num_input_tokens_seen": 25296728,
	"step": 46500
	},
	{
	"epoch": 0.4702257083400032,
	"grad_norm": 7.746724605560303,
	"learning_rate": 4.764892148231151e-05,
	"loss": 1.4953,
	"num_input_tokens_seen": 25562256,
	"step": 47000
	},
	{
	"epoch": 0.47522810949255645,
	"grad_norm": 6.38646125793457,
	"learning_rate": 4.762390947654875e-05,
	"loss": 1.5518,
	"num_input_tokens_seen": 25833464,
	"step": 47500
	},
	{
	"epoch": 0.48023051064510963,
	"grad_norm": 6.2214555740356445,
	"learning_rate": 4.759889747078598e-05,
	"loss": 1.5375,
	"num_input_tokens_seen": 26108816,
	"step": 48000
	},
	{
	"epoch": 0.48523291179766287,
	"grad_norm": 7.317322731018066,
	"learning_rate": 4.757388546502322e-05,
	"loss": 1.5449,
	"num_input_tokens_seen": 26385360,
	"step": 48500
	},
	{
	"epoch": 0.4902353129502161,
	"grad_norm": 6.4762701988220215,
	"learning_rate": 4.7548873459260445e-05,
	"loss": 1.5179,
	"num_input_tokens_seen": 26656488,
	"step": 49000
	},
	{
	"epoch": 0.49523771410276934,
	"grad_norm": 7.051132678985596,
	"learning_rate": 4.752386145349768e-05,
	"loss": 1.5213,
	"num_input_tokens_seen": 26925744,
	"step": 49500
	},
	{
	"epoch": 0.5002401152553225,
	"grad_norm": 8.628856658935547,
	"learning_rate": 4.7498849447734915e-05,
	"loss": 1.5517,
	"num_input_tokens_seen": 27202296,
	"step": 50000
	},
	{
	"epoch": 0.5052425164078758,
	"grad_norm": 6.756930351257324,
	"learning_rate": 4.747383744197215e-05,
	"loss": 1.5061,
	"num_input_tokens_seen": 27469216,
	"step": 50500
	},
	{
	"epoch": 0.510244917560429,
	"grad_norm": 8.543140411376953,
	"learning_rate": 4.7448825436209385e-05,
	"loss": 1.5323,
	"num_input_tokens_seen": 27746208,
	"step": 51000
	},
	{
	"epoch": 0.5152473187129822,
	"grad_norm": 7.62526273727417,
	"learning_rate": 4.742381343044662e-05,
	"loss": 1.5284,
	"num_input_tokens_seen": 28024152,
	"step": 51500
	},
	{
	"epoch": 0.5202497198655355,
	"grad_norm": 6.117633819580078,
	"learning_rate": 4.7398801424683855e-05,
	"loss": 1.5304,
	"num_input_tokens_seen": 28300312,
	"step": 52000
	},
	{
	"epoch": 0.5252521210180887,
	"grad_norm": 6.280879497528076,
	"learning_rate": 4.737378941892108e-05,
	"loss": 1.4873,
	"num_input_tokens_seen": 28573472,
	"step": 52500
	},
	{
	"epoch": 0.530254522170642,
	"grad_norm": 6.297519683837891,
	"learning_rate": 4.734877741315832e-05,
	"loss": 1.512,
	"num_input_tokens_seen": 28846960,
	"step": 53000
	},
	{
	"epoch": 0.5352569233231952,
	"grad_norm": 7.927740097045898,
	"learning_rate": 4.732376540739555e-05,
	"loss": 1.5303,
	"num_input_tokens_seen": 29120648,
	"step": 53500
	},
	{
	"epoch": 0.5402593244757483,
	"grad_norm": 6.746880054473877,
	"learning_rate": 4.729875340163278e-05,
	"loss": 1.5187,
	"num_input_tokens_seen": 29389712,
	"step": 54000
	},
	{
	"epoch": 0.5452617256283016,
	"grad_norm": 6.765636920928955,
	"learning_rate": 4.7273741395870016e-05,
	"loss": 1.502,
	"num_input_tokens_seen": 29661920,
	"step": 54500
	},
	{
	"epoch": 0.5502641267808548,
	"grad_norm": 4.868513107299805,
	"learning_rate": 4.724872939010726e-05,
	"loss": 1.499,
	"num_input_tokens_seen": 29933584,
	"step": 55000
	},
	{
	"epoch": 0.555266527933408,
	"grad_norm": 6.332437515258789,
	"learning_rate": 4.722371738434449e-05,
	"loss": 1.4815,
	"num_input_tokens_seen": 30200096,
	"step": 55500
	},
	{
	"epoch": 0.5602689290859613,
	"grad_norm": 6.429714679718018,
	"learning_rate": 4.719870537858172e-05,
	"loss": 1.5138,
	"num_input_tokens_seen": 30475600,
	"step": 56000
	},
	{
	"epoch": 0.5652713302385145,
	"grad_norm": 6.9108991622924805,
	"learning_rate": 4.7173693372818956e-05,
	"loss": 1.5218,
	"num_input_tokens_seen": 30750536,
	"step": 56500
	},
	{
	"epoch": 0.5702737313910677,
	"grad_norm": 7.187946796417236,
	"learning_rate": 4.714868136705619e-05,
	"loss": 1.4937,
	"num_input_tokens_seen": 31023928,
	"step": 57000
	},
	{
	"epoch": 0.575276132543621,
	"grad_norm": 7.880980014801025,
	"learning_rate": 4.712366936129342e-05,
	"loss": 1.5149,
	"num_input_tokens_seen": 31295016,
	"step": 57500
	},
	{
	"epoch": 0.5802785336961742,
	"grad_norm": 6.050008773803711,
	"learning_rate": 4.7098657355530654e-05,
	"loss": 1.5172,
	"num_input_tokens_seen": 31571344,
	"step": 58000
	},
	{
	"epoch": 0.5852809348487273,
	"grad_norm": 5.153658390045166,
	"learning_rate": 4.707364534976789e-05,
	"loss": 1.499,
	"num_input_tokens_seen": 31847512,
	"step": 58500
	},
	{
	"epoch": 0.5902833360012806,
	"grad_norm": 8.292108535766602,
	"learning_rate": 4.704863334400513e-05,
	"loss": 1.4897,
	"num_input_tokens_seen": 32118720,
	"step": 59000
	},
	{
	"epoch": 0.5952857371538338,
	"grad_norm": 5.900440216064453,
	"learning_rate": 4.702362133824236e-05,
	"loss": 1.5195,
	"num_input_tokens_seen": 32397744,
	"step": 59500
	},
	{
	"epoch": 0.600288138306387,
	"grad_norm": 7.023585796356201,
	"learning_rate": 4.6998609332479594e-05,
	"loss": 1.4755,
	"num_input_tokens_seen": 32671912,
	"step": 60000
	},
	{
	"epoch": 0.6052905394589403,
	"grad_norm": 7.419212818145752,
	"learning_rate": 4.697359732671683e-05,
	"loss": 1.4844,
	"num_input_tokens_seen": 32941344,
	"step": 60500
	},
	{
	"epoch": 0.6102929406114935,
	"grad_norm": 7.654923915863037,
	"learning_rate": 4.694858532095406e-05,
	"loss": 1.497,
	"num_input_tokens_seen": 33221672,
	"step": 61000
	},
	{
	"epoch": 0.6152953417640468,
	"grad_norm": 6.979129791259766,
	"learning_rate": 4.692357331519129e-05,
	"loss": 1.4855,
	"num_input_tokens_seen": 33489080,
	"step": 61500
	},
	{
	"epoch": 0.6202977429166,
	"grad_norm": 6.450369834899902,
	"learning_rate": 4.689856130942853e-05,
	"loss": 1.4945,
	"num_input_tokens_seen": 33763488,
	"step": 62000
	},
	{
	"epoch": 0.6253001440691532,
	"grad_norm": 6.070815563201904,
	"learning_rate": 4.687354930366576e-05,
	"loss": 1.4991,
	"num_input_tokens_seen": 34031328,
	"step": 62500
	},
	{
	"epoch": 0.6303025452217064,
	"grad_norm": 5.402656078338623,
	"learning_rate": 4.6848537297903e-05,
	"loss": 1.4957,
	"num_input_tokens_seen": 34304608,
	"step": 63000
	},
	{
	"epoch": 0.6353049463742596,
	"grad_norm": 10.961112022399902,
	"learning_rate": 4.682352529214023e-05,
	"loss": 1.4767,
	"num_input_tokens_seen": 34569600,
	"step": 63500
	},
	{
	"epoch": 0.6403073475268128,
	"grad_norm": 7.523622035980225,
	"learning_rate": 4.679851328637747e-05,
	"loss": 1.4953,
	"num_input_tokens_seen": 34838720,
	"step": 64000
	},
	{
	"epoch": 0.6453097486793661,
	"grad_norm": 7.367971420288086,
	"learning_rate": 4.6773501280614695e-05,
	"loss": 1.4959,
	"num_input_tokens_seen": 35110952,
	"step": 64500
	},
	{
	"epoch": 0.6503121498319193,
	"grad_norm": 7.122432231903076,
	"learning_rate": 4.674848927485193e-05,
	"loss": 1.4617,
	"num_input_tokens_seen": 35379336,
	"step": 65000
	},
	{
	"epoch": 0.6553145509844726,
	"grad_norm": 6.941073894500732,
	"learning_rate": 4.6723477269089165e-05,
	"loss": 1.4828,
	"num_input_tokens_seen": 35654144,
	"step": 65500
	},
	{
	"epoch": 0.6603169521370258,
	"grad_norm": 7.309379577636719,
	"learning_rate": 4.669846526332639e-05,
	"loss": 1.4695,
	"num_input_tokens_seen": 35922592,
	"step": 66000
	},
	{
	"epoch": 0.665319353289579,
	"grad_norm": 8.28540325164795,
	"learning_rate": 4.6673453257563635e-05,
	"loss": 1.4853,
	"num_input_tokens_seen": 36195592,
	"step": 66500
	},
	{
	"epoch": 0.6703217544421323,
	"grad_norm": 6.311332702636719,
	"learning_rate": 4.664844125180087e-05,
	"loss": 1.478,
	"num_input_tokens_seen": 36471728,
	"step": 67000
	},
	{
	"epoch": 0.6753241555946854,
	"grad_norm": 6.863243579864502,
	"learning_rate": 4.6623429246038105e-05,
	"loss": 1.4935,
	"num_input_tokens_seen": 36738232,
	"step": 67500
	},
	{
	"epoch": 0.6803265567472386,
	"grad_norm": 5.535435199737549,
	"learning_rate": 4.659841724027533e-05,
	"loss": 1.4689,
	"num_input_tokens_seen": 37003552,
	"step": 68000
	},
	{
	"epoch": 0.6853289578997919,
	"grad_norm": 7.348452568054199,
	"learning_rate": 4.657340523451257e-05,
	"loss": 1.4802,
	"num_input_tokens_seen": 37273624,
	"step": 68500
	},
	{
	"epoch": 0.6903313590523451,
	"grad_norm": 5.919636249542236,
	"learning_rate": 4.65483932287498e-05,
	"loss": 1.468,
	"num_input_tokens_seen": 37542216,
	"step": 69000
	},
	{
	"epoch": 0.6953337602048983,
	"grad_norm": 6.997893333435059,
	"learning_rate": 4.652338122298703e-05,
	"loss": 1.4711,
	"num_input_tokens_seen": 37817712,
	"step": 69500
	},
	{
	"epoch": 0.7003361613574516,
	"grad_norm": 7.683621883392334,
	"learning_rate": 4.6498369217224266e-05,
	"loss": 1.4467,
	"num_input_tokens_seen": 38086368,
	"step": 70000
	},
	{
	"epoch": 0.7053385625100048,
	"grad_norm": 5.56058931350708,
	"learning_rate": 4.647335721146151e-05,
	"loss": 1.4631,
	"num_input_tokens_seen": 38364016,
	"step": 70500
	},
	{
	"epoch": 0.7103409636625581,
	"grad_norm": 5.151466369628906,
	"learning_rate": 4.644834520569874e-05,
	"loss": 1.4776,
	"num_input_tokens_seen": 38639544,
	"step": 71000
	},
	{
	"epoch": 0.7153433648151113,
	"grad_norm": 7.764716625213623,
	"learning_rate": 4.642333319993597e-05,
	"loss": 1.4629,
	"num_input_tokens_seen": 38900248,
	"step": 71500
	},
	{
	"epoch": 0.7203457659676645,
	"grad_norm": 7.205192565917969,
	"learning_rate": 4.6398321194173206e-05,
	"loss": 1.4699,
	"num_input_tokens_seen": 39177440,
	"step": 72000
	},
	{
	"epoch": 0.7253481671202177,
	"grad_norm": 6.734379768371582,
	"learning_rate": 4.637330918841044e-05,
	"loss": 1.4649,
	"num_input_tokens_seen": 39442976,
	"step": 72500
	},
	{
	"epoch": 0.7303505682727709,
	"grad_norm": 6.191771507263184,
	"learning_rate": 4.634829718264767e-05,
	"loss": 1.4764,
	"num_input_tokens_seen": 39715104,
	"step": 73000
	},
	{
	"epoch": 0.7353529694253241,
	"grad_norm": 7.378221035003662,
	"learning_rate": 4.6323285176884904e-05,
	"loss": 1.4515,
	"num_input_tokens_seen": 39990848,
	"step": 73500
	},
	{
	"epoch": 0.7403553705778774,
	"grad_norm": 6.436953067779541,
	"learning_rate": 4.629827317112214e-05,
	"loss": 1.4495,
	"num_input_tokens_seen": 40258280,
	"step": 74000
	},
	{
	"epoch": 0.7453577717304306,
	"grad_norm": 5.954966068267822,
	"learning_rate": 4.6273261165359374e-05,
	"loss": 1.4497,
	"num_input_tokens_seen": 40535544,
	"step": 74500
	},
	{
	"epoch": 0.7503601728829838,
	"grad_norm": 6.085744857788086,
	"learning_rate": 4.624824915959661e-05,
	"loss": 1.4428,
	"num_input_tokens_seen": 40804552,
	"step": 75000
	},
	{
	"epoch": 0.7553625740355371,
	"grad_norm": 6.737603664398193,
	"learning_rate": 4.6223237153833844e-05,
	"loss": 1.4394,
	"num_input_tokens_seen": 41072144,
	"step": 75500
	},
	{
	"epoch": 0.7603649751880903,
	"grad_norm": 5.9119439125061035,
	"learning_rate": 4.619822514807108e-05,
	"loss": 1.4408,
	"num_input_tokens_seen": 41341080,
	"step": 76000
	},
	{
	"epoch": 0.7653673763406436,
	"grad_norm": 7.842981815338135,
	"learning_rate": 4.617321314230831e-05,
	"loss": 1.4538,
	"num_input_tokens_seen": 41613760,
	"step": 76500
	},
	{
	"epoch": 0.7703697774931967,
	"grad_norm": 7.999574184417725,
	"learning_rate": 4.614820113654554e-05,
	"loss": 1.451,
	"num_input_tokens_seen": 41886512,
	"step": 77000
	},
	{
	"epoch": 0.7753721786457499,
	"grad_norm": 5.851772308349609,
	"learning_rate": 4.612318913078278e-05,
	"loss": 1.4317,
	"num_input_tokens_seen": 42154824,
	"step": 77500
	},
	{
	"epoch": 0.7803745797983032,
	"grad_norm": 7.43974494934082,
	"learning_rate": 4.609817712502001e-05,
	"loss": 1.4707,
	"num_input_tokens_seen": 42425080,
	"step": 78000
	},
	{
	"epoch": 0.7853769809508564,
	"grad_norm": 6.566989898681641,
	"learning_rate": 4.607316511925725e-05,
	"loss": 1.4725,
	"num_input_tokens_seen": 42695896,
	"step": 78500
	},
	{
	"epoch": 0.7903793821034096,
	"grad_norm": 6.765398979187012,
	"learning_rate": 4.604815311349448e-05,
	"loss": 1.4454,
	"num_input_tokens_seen": 42961864,
	"step": 79000
	},
	{
	"epoch": 0.7953817832559629,
	"grad_norm": 5.989940643310547,
	"learning_rate": 4.602314110773172e-05,
	"loss": 1.4551,
	"num_input_tokens_seen": 43237224,
	"step": 79500
	},
	{
	"epoch": 0.8003841844085161,
	"grad_norm": 8.16629409790039,
	"learning_rate": 4.5998129101968945e-05,
	"loss": 1.4354,
	"num_input_tokens_seen": 43512872,
	"step": 80000
	},
	{
	"epoch": 0.8053865855610693,
	"grad_norm": 6.704333305358887,
	"learning_rate": 4.597311709620618e-05,
	"loss": 1.4481,
	"num_input_tokens_seen": 43779448,
	"step": 80500
	},
	{
	"epoch": 0.8103889867136226,
	"grad_norm": 6.2965593338012695,
	"learning_rate": 4.5948105090443415e-05,
	"loss": 1.4443,
	"num_input_tokens_seen": 44053296,
	"step": 81000
	},
	{
	"epoch": 0.8153913878661757,
	"grad_norm": 6.224064350128174,
	"learning_rate": 4.592309308468064e-05,
	"loss": 1.47,
	"num_input_tokens_seen": 44328488,
	"step": 81500
	},
	{
	"epoch": 0.820393789018729,
	"grad_norm": 6.873196601867676,
	"learning_rate": 4.589808107891788e-05,
	"loss": 1.4429,
	"num_input_tokens_seen": 44604152,
	"step": 82000
	},
	{
	"epoch": 0.8253961901712822,
	"grad_norm": 6.774177551269531,
	"learning_rate": 4.587306907315512e-05,
	"loss": 1.4427,
	"num_input_tokens_seen": 44880240,
	"step": 82500
	},
	{
	"epoch": 0.8303985913238354,
	"grad_norm": 7.543479919433594,
	"learning_rate": 4.5848057067392355e-05,
	"loss": 1.4559,
	"num_input_tokens_seen": 45150264,
	"step": 83000
	},
	{
	"epoch": 0.8354009924763887,
	"grad_norm": 6.445783615112305,
	"learning_rate": 4.582304506162958e-05,
	"loss": 1.4215,
	"num_input_tokens_seen": 45419664,
	"step": 83500
	},
	{
	"epoch": 0.8404033936289419,
	"grad_norm": 8.083765029907227,
	"learning_rate": 4.579803305586682e-05,
	"loss": 1.4636,
	"num_input_tokens_seen": 45691768,
	"step": 84000
	},
	{
	"epoch": 0.8454057947814951,
	"grad_norm": 6.205325126647949,
	"learning_rate": 4.577302105010405e-05,
	"loss": 1.4386,
	"num_input_tokens_seen": 45965288,
	"step": 84500
	},
	{
	"epoch": 0.8504081959340484,
	"grad_norm": 5.954364776611328,
	"learning_rate": 4.574800904434128e-05,
	"loss": 1.454,
	"num_input_tokens_seen": 46239520,
	"step": 85000
	},
	{
	"epoch": 0.8554105970866016,
	"grad_norm": 7.476288318634033,
	"learning_rate": 4.5722997038578516e-05,
	"loss": 1.4375,
	"num_input_tokens_seen": 46506456,
	"step": 85500
	},
	{
	"epoch": 0.8604129982391548,
	"grad_norm": 9.656715393066406,
	"learning_rate": 4.569798503281575e-05,
	"loss": 1.4293,
	"num_input_tokens_seen": 46775832,
	"step": 86000
	},
	{
	"epoch": 0.865415399391708,
	"grad_norm": 5.440873622894287,
	"learning_rate": 4.567297302705299e-05,
	"loss": 1.428,
	"num_input_tokens_seen": 47053184,
	"step": 86500
	},
	{
	"epoch": 0.8704178005442612,
	"grad_norm": 6.26190710067749,
	"learning_rate": 4.564796102129022e-05,
	"loss": 1.4175,
	"num_input_tokens_seen": 47326160,
	"step": 87000
	},
	{
	"epoch": 0.8754202016968144,
	"grad_norm": 5.701922416687012,
	"learning_rate": 4.5622949015527456e-05,
	"loss": 1.4323,
	"num_input_tokens_seen": 47596624,
	"step": 87500
	},
	{
	"epoch": 0.8804226028493677,
	"grad_norm": 7.687532901763916,
	"learning_rate": 4.559793700976469e-05,
	"loss": 1.4403,
	"num_input_tokens_seen": 47866072,
	"step": 88000
	},
	{
	"epoch": 0.8854250040019209,
	"grad_norm": 4.988935470581055,
	"learning_rate": 4.557292500400192e-05,
	"loss": 1.445,
	"num_input_tokens_seen": 48153664,
	"step": 88500
	},
	{
	"epoch": 0.8904274051544742,
	"grad_norm": 5.36391544342041,
	"learning_rate": 4.5547912998239154e-05,
	"loss": 1.43,
	"num_input_tokens_seen": 48432248,
	"step": 89000
	},
	{
	"epoch": 0.8954298063070274,
	"grad_norm": 7.618863105773926,
	"learning_rate": 4.552290099247639e-05,
	"loss": 1.4122,
	"num_input_tokens_seen": 48705584,
	"step": 89500
	},
	{
	"epoch": 0.9004322074595806,
	"grad_norm": 9.530303001403809,
	"learning_rate": 4.5497888986713624e-05,
	"loss": 1.4392,
	"num_input_tokens_seen": 48985152,
	"step": 90000
	},
	{
	"epoch": 0.9054346086121339,
	"grad_norm": 7.428534030914307,
	"learning_rate": 4.547287698095086e-05,
	"loss": 1.4289,
	"num_input_tokens_seen": 49262664,
	"step": 90500
	},
	{
	"epoch": 0.910437009764687,
	"grad_norm": 7.3600287437438965,
	"learning_rate": 4.5447864975188094e-05,
	"loss": 1.4242,
	"num_input_tokens_seen": 49536480,
	"step": 91000
	},
	{
	"epoch": 0.9154394109172402,
	"grad_norm": 5.594141960144043,
	"learning_rate": 4.542285296942533e-05,
	"loss": 1.4266,
	"num_input_tokens_seen": 49809336,
	"step": 91500
	},
	{
	"epoch": 0.9204418120697935,
	"grad_norm": 6.597540378570557,
	"learning_rate": 4.539784096366256e-05,
	"loss": 1.4216,
	"num_input_tokens_seen": 50082984,
	"step": 92000
	},
	{
	"epoch": 0.9254442132223467,
	"grad_norm": 8.180904388427734,
	"learning_rate": 4.537282895789979e-05,
	"loss": 1.4374,
	"num_input_tokens_seen": 50358512,
	"step": 92500
	},
	{
	"epoch": 0.9304466143749,
	"grad_norm": 7.512216567993164,
	"learning_rate": 4.534781695213703e-05,
	"loss": 1.4178,
	"num_input_tokens_seen": 50634216,
	"step": 93000
	},
	{
	"epoch": 0.9354490155274532,
	"grad_norm": 6.1448283195495605,
	"learning_rate": 4.532280494637426e-05,
	"loss": 1.399,
	"num_input_tokens_seen": 50902088,
	"step": 93500
	},
	{
	"epoch": 0.9404514166800064,
	"grad_norm": 6.424488544464111,
	"learning_rate": 4.52977929406115e-05,
	"loss": 1.4115,
	"num_input_tokens_seen": 51174136,
	"step": 94000
	},
	{
	"epoch": 0.9454538178325597,
	"grad_norm": 5.398598670959473,
	"learning_rate": 4.527278093484873e-05,
	"loss": 1.4146,
	"num_input_tokens_seen": 51453752,
	"step": 94500
	},
	{
	"epoch": 0.9504562189851129,
	"grad_norm": 6.272931098937988,
	"learning_rate": 4.524776892908597e-05,
	"loss": 1.4166,
	"num_input_tokens_seen": 51728016,
	"step": 95000
	},
	{
	"epoch": 0.955458620137666,
	"grad_norm": 6.412170886993408,
	"learning_rate": 4.5222756923323195e-05,
	"loss": 1.4241,
	"num_input_tokens_seen": 51995272,
	"step": 95500
	},
	{
	"epoch": 0.9604610212902193,
	"grad_norm": 7.181222438812256,
	"learning_rate": 4.519774491756043e-05,
	"loss": 1.4166,
	"num_input_tokens_seen": 52276888,
	"step": 96000
	},
	{
	"epoch": 0.9654634224427725,
	"grad_norm": 6.848874092102051,
	"learning_rate": 4.5172732911797665e-05,
	"loss": 1.4028,
	"num_input_tokens_seen": 52555928,
	"step": 96500
	},
	{
	"epoch": 0.9704658235953257,
	"grad_norm": 6.6588568687438965,
	"learning_rate": 4.51477209060349e-05,
	"loss": 1.3993,
	"num_input_tokens_seen": 52824472,
	"step": 97000
	},
	{
	"epoch": 0.975468224747879,
	"grad_norm": 7.8776373863220215,
	"learning_rate": 4.512270890027213e-05,
	"loss": 1.4204,
	"num_input_tokens_seen": 53098176,
	"step": 97500
	},
	{
	"epoch": 0.9804706259004322,
	"grad_norm": 5.281984806060791,
	"learning_rate": 4.509769689450937e-05,
	"loss": 1.4191,
	"num_input_tokens_seen": 53379376,
	"step": 98000
	},
	{
	"epoch": 0.9854730270529855,
	"grad_norm": 8.383103370666504,
	"learning_rate": 4.5072684888746605e-05,
	"loss": 1.4232,
	"num_input_tokens_seen": 53654608,
	"step": 98500
	},
	{
	"epoch": 0.9904754282055387,
	"grad_norm": 5.8474626541137695,
	"learning_rate": 4.504767288298383e-05,
	"loss": 1.4099,
	"num_input_tokens_seen": 53931080,
	"step": 99000
	},
	{
	"epoch": 0.9954778293580919,
	"grad_norm": 6.058784008026123,
	"learning_rate": 4.502266087722107e-05,
	"loss": 1.3993,
	"num_input_tokens_seen": 54204800,
	"step": 99500
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.2487133741378784,
	"eval_runtime": 187.129,
	"eval_samples_per_second": 1068.274,
	"eval_steps_per_second": 133.539,
	"num_input_tokens_seen": 54454616,
	"step": 99952
	},
	{
	"epoch": 1.000480230510645,
	"grad_norm": 5.304110050201416,
	"learning_rate": 4.49976488714583e-05,
	"loss": 1.3882,
	"num_input_tokens_seen": 54481288,
	"step": 100000
	},
	{
	"epoch": 1.0054826316631984,
	"grad_norm": 7.098052501678467,
	"learning_rate": 4.497263686569553e-05,
	"loss": 1.2973,
	"num_input_tokens_seen": 54749928,
	"step": 100500
	},
	{
	"epoch": 1.0104850328157515,
	"grad_norm": 7.15824031829834,
	"learning_rate": 4.4947624859932766e-05,
	"loss": 1.3323,
	"num_input_tokens_seen": 55027920,
	"step": 101000
	},
	{
	"epoch": 1.0154874339683049,
	"grad_norm": 6.138706684112549,
	"learning_rate": 4.492261285417e-05,
	"loss": 1.3195,
	"num_input_tokens_seen": 55303960,
	"step": 101500
	},
	{
	"epoch": 1.020489835120858,
	"grad_norm": 8.01395320892334,
	"learning_rate": 4.4897600848407236e-05,
	"loss": 1.2913,
	"num_input_tokens_seen": 55577184,
	"step": 102000
	},
	{
	"epoch": 1.0254922362734111,
	"grad_norm": 7.413015842437744,
	"learning_rate": 4.487258884264447e-05,
	"loss": 1.3284,
	"num_input_tokens_seen": 55851192,
	"step": 102500
	},
	{
	"epoch": 1.0304946374259645,
	"grad_norm": 6.665005207061768,
	"learning_rate": 4.4847576836881706e-05,
	"loss": 1.3239,
	"num_input_tokens_seen": 56125184,
	"step": 103000
	},
	{
	"epoch": 1.0354970385785176,
	"grad_norm": 6.208978652954102,
	"learning_rate": 4.482256483111894e-05,
	"loss": 1.3198,
	"num_input_tokens_seen": 56399640,
	"step": 103500
	},
	{
	"epoch": 1.040499439731071,
	"grad_norm": 6.494995594024658,
	"learning_rate": 4.479755282535617e-05,
	"loss": 1.3036,
	"num_input_tokens_seen": 56672752,
	"step": 104000
	},
	{
	"epoch": 1.045501840883624,
	"grad_norm": 7.3449625968933105,
	"learning_rate": 4.4772540819593404e-05,
	"loss": 1.3304,
	"num_input_tokens_seen": 56942744,
	"step": 104500
	},
	{
	"epoch": 1.0505042420361774,
	"grad_norm": 5.880083084106445,
	"learning_rate": 4.474752881383064e-05,
	"loss": 1.3273,
	"num_input_tokens_seen": 57223568,
	"step": 105000
	},
	{
	"epoch": 1.0555066431887306,
	"grad_norm": 7.793262004852295,
	"learning_rate": 4.4722516808067874e-05,
	"loss": 1.3364,
	"num_input_tokens_seen": 57501104,
	"step": 105500
	},
	{
	"epoch": 1.060509044341284,
	"grad_norm": 5.995269298553467,
	"learning_rate": 4.469750480230511e-05,
	"loss": 1.3157,
	"num_input_tokens_seen": 57774032,
	"step": 106000
	},
	{
	"epoch": 1.065511445493837,
	"grad_norm": 6.386702060699463,
	"learning_rate": 4.4672492796542344e-05,
	"loss": 1.2906,
	"num_input_tokens_seen": 58052328,
	"step": 106500
	},
	{
	"epoch": 1.0705138466463904,
	"grad_norm": 6.049729347229004,
	"learning_rate": 4.464748079077958e-05,
	"loss": 1.3073,
	"num_input_tokens_seen": 58325864,
	"step": 107000
	},
	{
	"epoch": 1.0755162477989435,
	"grad_norm": 6.0326433181762695,
	"learning_rate": 4.462246878501681e-05,
	"loss": 1.3223,
	"num_input_tokens_seen": 58605688,
	"step": 107500
	},
	{
	"epoch": 1.0805186489514966,
	"grad_norm": 7.254247188568115,
	"learning_rate": 4.459745677925404e-05,
	"loss": 1.3131,
	"num_input_tokens_seen": 58875792,
	"step": 108000
	},
	{
	"epoch": 1.08552105010405,
	"grad_norm": 5.334825038909912,
	"learning_rate": 4.457244477349128e-05,
	"loss": 1.3313,
	"num_input_tokens_seen": 59148200,
	"step": 108500
	},
	{
	"epoch": 1.090523451256603,
	"grad_norm": 5.982466697692871,
	"learning_rate": 4.454743276772851e-05,
	"loss": 1.3031,
	"num_input_tokens_seen": 59416680,
	"step": 109000
	},
	{
	"epoch": 1.0955258524091565,
	"grad_norm": 5.858680725097656,
	"learning_rate": 4.452242076196575e-05,
	"loss": 1.2964,
	"num_input_tokens_seen": 59680504,
	"step": 109500
	},
	{
	"epoch": 1.1005282535617096,
	"grad_norm": 7.001748085021973,
	"learning_rate": 4.449740875620298e-05,
	"loss": 1.3203,
	"num_input_tokens_seen": 59951112,
	"step": 110000
	},
	{
	"epoch": 1.105530654714263,
	"grad_norm": 7.0456013679504395,
	"learning_rate": 4.447239675044022e-05,
	"loss": 1.3229,
	"num_input_tokens_seen": 60223952,
	"step": 110500
	},
	{
	"epoch": 1.110533055866816,
	"grad_norm": 8.38005256652832,
	"learning_rate": 4.4447384744677446e-05,
	"loss": 1.3045,
	"num_input_tokens_seen": 60497304,
	"step": 111000
	},
	{
	"epoch": 1.1155354570193694,
	"grad_norm": 6.44760799407959,
	"learning_rate": 4.442237273891468e-05,
	"loss": 1.3298,
	"num_input_tokens_seen": 60770032,
	"step": 111500
	},
	{
	"epoch": 1.1205378581719225,
	"grad_norm": 7.661795616149902,
	"learning_rate": 4.4397360733151915e-05,
	"loss": 1.299,
	"num_input_tokens_seen": 61041904,
	"step": 112000
	},
	{
	"epoch": 1.1255402593244757,
	"grad_norm": 7.2505340576171875,
	"learning_rate": 4.437234872738915e-05,
	"loss": 1.3444,
	"num_input_tokens_seen": 61315792,
	"step": 112500
	},
	{
	"epoch": 1.130542660477029,
	"grad_norm": 8.16947078704834,
	"learning_rate": 4.434733672162638e-05,
	"loss": 1.313,
	"num_input_tokens_seen": 61591968,
	"step": 113000
	},
	{
	"epoch": 1.1355450616295821,
	"grad_norm": 6.221188068389893,
	"learning_rate": 4.4322324715863614e-05,
	"loss": 1.3266,
	"num_input_tokens_seen": 61862648,
	"step": 113500
	},
	{
	"epoch": 1.1405474627821355,
	"grad_norm": 5.967212677001953,
	"learning_rate": 4.4297312710100855e-05,
	"loss": 1.3521,
	"num_input_tokens_seen": 62138024,
	"step": 114000
	},
	{
	"epoch": 1.1455498639346886,
	"grad_norm": 6.872376441955566,
	"learning_rate": 4.4272300704338084e-05,
	"loss": 1.3218,
	"num_input_tokens_seen": 62414352,
	"step": 114500
	},
	{
	"epoch": 1.150552265087242,
	"grad_norm": 6.218190670013428,
	"learning_rate": 4.424728869857532e-05,
	"loss": 1.3306,
	"num_input_tokens_seen": 62689104,
	"step": 115000
	},
	{
	"epoch": 1.155554666239795,
	"grad_norm": 8.191985130310059,
	"learning_rate": 4.4222276692812553e-05,
	"loss": 1.3236,
	"num_input_tokens_seen": 62963216,
	"step": 115500
	},
	{
	"epoch": 1.1605570673923484,
	"grad_norm": 6.161906719207764,
	"learning_rate": 4.419726468704979e-05,
	"loss": 1.3258,
	"num_input_tokens_seen": 63235456,
	"step": 116000
	},
	{
	"epoch": 1.1655594685449016,
	"grad_norm": 7.158758640289307,
	"learning_rate": 4.417225268128702e-05,
	"loss": 1.3037,
	"num_input_tokens_seen": 63505248,
	"step": 116500
	},
	{
	"epoch": 1.1705618696974547,
	"grad_norm": 5.683105945587158,
	"learning_rate": 4.414724067552425e-05,
	"loss": 1.3154,
	"num_input_tokens_seen": 63772504,
	"step": 117000
	},
	{
	"epoch": 1.175564270850008,
	"grad_norm": 7.0123467445373535,
	"learning_rate": 4.4122228669761487e-05,
	"loss": 1.3043,
	"num_input_tokens_seen": 64045928,
	"step": 117500
	},
	{
	"epoch": 1.1805666720025612,
	"grad_norm": 5.434397220611572,
	"learning_rate": 4.409721666399872e-05,
	"loss": 1.3247,
	"num_input_tokens_seen": 64313624,
	"step": 118000
	},
	{
	"epoch": 1.1855690731551145,
	"grad_norm": 6.298323631286621,
	"learning_rate": 4.4072204658235956e-05,
	"loss": 1.3333,
	"num_input_tokens_seen": 64591384,
	"step": 118500
	},
	{
	"epoch": 1.1905714743076676,
	"grad_norm": 6.530762672424316,
	"learning_rate": 4.404719265247319e-05,
	"loss": 1.3324,
	"num_input_tokens_seen": 64864128,
	"step": 119000
	},
	{
	"epoch": 1.195573875460221,
	"grad_norm": 7.463630199432373,
	"learning_rate": 4.4022180646710426e-05,
	"loss": 1.314,
	"num_input_tokens_seen": 65134680,
	"step": 119500
	},
	{
	"epoch": 1.200576276612774,
	"grad_norm": 8.017274856567383,
	"learning_rate": 4.3997168640947655e-05,
	"loss": 1.3,
	"num_input_tokens_seen": 65400128,
	"step": 120000
	},
	{
	"epoch": 1.2055786777653275,
	"grad_norm": 6.083741188049316,
	"learning_rate": 4.397215663518489e-05,
	"loss": 1.3122,
	"num_input_tokens_seen": 65670200,
	"step": 120500
	},
	{
	"epoch": 1.2105810789178806,
	"grad_norm": 7.809543609619141,
	"learning_rate": 4.3947144629422125e-05,
	"loss": 1.316,
	"num_input_tokens_seen": 65935248,
	"step": 121000
	},
	{
	"epoch": 1.2155834800704337,
	"grad_norm": 6.627076148986816,
	"learning_rate": 4.392213262365936e-05,
	"loss": 1.3024,
	"num_input_tokens_seen": 66206584,
	"step": 121500
	},
	{
	"epoch": 1.220585881222987,
	"grad_norm": 5.432526111602783,
	"learning_rate": 4.3897120617896594e-05,
	"loss": 1.3181,
	"num_input_tokens_seen": 66476424,
	"step": 122000
	},
	{
	"epoch": 1.2255882823755402,
	"grad_norm": 5.557873249053955,
	"learning_rate": 4.387210861213383e-05,
	"loss": 1.3066,
	"num_input_tokens_seen": 66746568,
	"step": 122500
	},
	{
	"epoch": 1.2305906835280935,
	"grad_norm": 5.4136738777160645,
	"learning_rate": 4.384709660637106e-05,
	"loss": 1.3065,
	"num_input_tokens_seen": 67013472,
	"step": 123000
	},
	{
	"epoch": 1.2355930846806467,
	"grad_norm": 4.602624416351318,
	"learning_rate": 4.382208460060829e-05,
	"loss": 1.2921,
	"num_input_tokens_seen": 67284136,
	"step": 123500
	},
	{
	"epoch": 1.2405954858332,
	"grad_norm": 7.711009502410889,
	"learning_rate": 4.379707259484553e-05,
	"loss": 1.3104,
	"num_input_tokens_seen": 67555712,
	"step": 124000
	},
	{
	"epoch": 1.2455978869857531,
	"grad_norm": 5.971095561981201,
	"learning_rate": 4.377206058908276e-05,
	"loss": 1.3288,
	"num_input_tokens_seen": 67830816,
	"step": 124500
	},
	{
	"epoch": 1.2506002881383065,
	"grad_norm": 5.992773056030273,
	"learning_rate": 4.374704858331999e-05,
	"loss": 1.3372,
	"num_input_tokens_seen": 68113208,
	"step": 125000
	},
	{
	"epoch": 1.2556026892908596,
	"grad_norm": 7.2574238777160645,
	"learning_rate": 4.372203657755723e-05,
	"loss": 1.2964,
	"num_input_tokens_seen": 68376088,
	"step": 125500
	},
	{
	"epoch": 1.2606050904434127,
	"grad_norm": 4.974996566772461,
	"learning_rate": 4.369702457179447e-05,
	"loss": 1.3021,
	"num_input_tokens_seen": 68641168,
	"step": 126000
	},
	{
	"epoch": 1.265607491595966,
	"grad_norm": 5.745625019073486,
	"learning_rate": 4.3672012566031696e-05,
	"loss": 1.3217,
	"num_input_tokens_seen": 68909752,
	"step": 126500
	},
	{
	"epoch": 1.2706098927485192,
	"grad_norm": 6.78819465637207,
	"learning_rate": 4.364700056026893e-05,
	"loss": 1.3211,
	"num_input_tokens_seen": 69181824,
	"step": 127000
	},
	{
	"epoch": 1.2756122939010726,
	"grad_norm": 7.1991047859191895,
	"learning_rate": 4.3621988554506166e-05,
	"loss": 1.3175,
	"num_input_tokens_seen": 69448304,
	"step": 127500
	},
	{
	"epoch": 1.2806146950536257,
	"grad_norm": 5.636517524719238,
	"learning_rate": 4.35969765487434e-05,
	"loss": 1.308,
	"num_input_tokens_seen": 69724960,
	"step": 128000
	},
	{
	"epoch": 1.285617096206179,
	"grad_norm": 6.406187057495117,
	"learning_rate": 4.357196454298063e-05,
	"loss": 1.3225,
	"num_input_tokens_seen": 70004440,
	"step": 128500
	},
	{
	"epoch": 1.2906194973587322,
	"grad_norm": 5.746100902557373,
	"learning_rate": 4.3546952537217864e-05,
	"loss": 1.3084,
	"num_input_tokens_seen": 70276824,
	"step": 129000
	},
	{
	"epoch": 1.2956218985112855,
	"grad_norm": 5.6266584396362305,
	"learning_rate": 4.3521940531455105e-05,
	"loss": 1.3251,
	"num_input_tokens_seen": 70549080,
	"step": 129500
	},
	{
	"epoch": 1.3006242996638386,
	"grad_norm": 6.3568315505981445,
	"learning_rate": 4.3496928525692334e-05,
	"loss": 1.2909,
	"num_input_tokens_seen": 70822216,
	"step": 130000
	},
	{
	"epoch": 1.3056267008163918,
	"grad_norm": 6.566619873046875,
	"learning_rate": 4.347191651992957e-05,
	"loss": 1.3083,
	"num_input_tokens_seen": 71088152,
	"step": 130500
	},
	{
	"epoch": 1.310629101968945,
	"grad_norm": 8.060522079467773,
	"learning_rate": 4.3446904514166804e-05,
	"loss": 1.3124,
	"num_input_tokens_seen": 71354416,
	"step": 131000
	},
	{
	"epoch": 1.3156315031214985,
	"grad_norm": 7.366143226623535,
	"learning_rate": 4.342189250840404e-05,
	"loss": 1.317,
	"num_input_tokens_seen": 71630192,
	"step": 131500
	},
	{
	"epoch": 1.3206339042740516,
	"grad_norm": 6.985642910003662,
	"learning_rate": 4.339688050264127e-05,
	"loss": 1.3115,
	"num_input_tokens_seen": 71898288,
	"step": 132000
	},
	{
	"epoch": 1.3256363054266047,
	"grad_norm": 6.185933589935303,
	"learning_rate": 4.33718684968785e-05,
	"loss": 1.3227,
	"num_input_tokens_seen": 72177880,
	"step": 132500
	},
	{
	"epoch": 1.330638706579158,
	"grad_norm": 5.259435176849365,
	"learning_rate": 4.334685649111574e-05,
	"loss": 1.3202,
	"num_input_tokens_seen": 72456024,
	"step": 133000
	},
	{
	"epoch": 1.3356411077317112,
	"grad_norm": 6.163081169128418,
	"learning_rate": 4.332184448535297e-05,
	"loss": 1.3021,
	"num_input_tokens_seen": 72724464,
	"step": 133500
	},
	{
	"epoch": 1.3406435088842645,
	"grad_norm": 5.284718036651611,
	"learning_rate": 4.329683247959021e-05,
	"loss": 1.3063,
	"num_input_tokens_seen": 72991696,
	"step": 134000
	},
	{
	"epoch": 1.3456459100368177,
	"grad_norm": 6.016850471496582,
	"learning_rate": 4.327182047382744e-05,
	"loss": 1.3012,
	"num_input_tokens_seen": 73261048,
	"step": 134500
	},
	{
	"epoch": 1.3506483111893708,
	"grad_norm": 6.393965244293213,
	"learning_rate": 4.3246808468064677e-05,
	"loss": 1.2991,
	"num_input_tokens_seen": 73529952,
	"step": 135000
	},
	{
	"epoch": 1.3556507123419241,
	"grad_norm": 7.240478992462158,
	"learning_rate": 4.3221796462301905e-05,
	"loss": 1.3297,
	"num_input_tokens_seen": 73806208,
	"step": 135500
	},
	{
	"epoch": 1.3606531134944775,
	"grad_norm": 6.343556880950928,
	"learning_rate": 4.319678445653914e-05,
	"loss": 1.3228,
	"num_input_tokens_seen": 74076360,
	"step": 136000
	},
	{
	"epoch": 1.3656555146470306,
	"grad_norm": 5.717186450958252,
	"learning_rate": 4.3171772450776375e-05,
	"loss": 1.3018,
	"num_input_tokens_seen": 74350688,
	"step": 136500
	},
	{
	"epoch": 1.3706579157995837,
	"grad_norm": 5.872751235961914,
	"learning_rate": 4.314676044501361e-05,
	"loss": 1.3053,
	"num_input_tokens_seen": 74623168,
	"step": 137000
	},
	{
	"epoch": 1.375660316952137,
	"grad_norm": 6.422801971435547,
	"learning_rate": 4.3121748439250845e-05,
	"loss": 1.3107,
	"num_input_tokens_seen": 74892400,
	"step": 137500
	},
	{
	"epoch": 1.3806627181046902,
	"grad_norm": 5.038456439971924,
	"learning_rate": 4.309673643348808e-05,
	"loss": 1.3261,
	"num_input_tokens_seen": 75161376,
	"step": 138000
	},
	{
	"epoch": 1.3856651192572436,
	"grad_norm": 6.162600040435791,
	"learning_rate": 4.3071724427725315e-05,
	"loss": 1.2904,
	"num_input_tokens_seen": 75437000,
	"step": 138500
	},
	{
	"epoch": 1.3906675204097967,
	"grad_norm": 5.364713191986084,
	"learning_rate": 4.304671242196254e-05,
	"loss": 1.3162,
	"num_input_tokens_seen": 75711312,
	"step": 139000
	},
	{
	"epoch": 1.3956699215623498,
	"grad_norm": 6.959611415863037,
	"learning_rate": 4.302170041619978e-05,
	"loss": 1.3231,
	"num_input_tokens_seen": 75982336,
	"step": 139500
	},
	{
	"epoch": 1.4006723227149032,
	"grad_norm": 7.737590789794922,
	"learning_rate": 4.299668841043701e-05,
	"loss": 1.3175,
	"num_input_tokens_seen": 76261536,
	"step": 140000
	},
	{
	"epoch": 1.4056747238674565,
	"grad_norm": 5.541545391082764,
	"learning_rate": 4.297167640467424e-05,
	"loss": 1.3075,
	"num_input_tokens_seen": 76530928,
	"step": 140500
	},
	{
	"epoch": 1.4106771250200096,
	"grad_norm": 6.196156024932861,
	"learning_rate": 4.2946664398911476e-05,
	"loss": 1.3045,
	"num_input_tokens_seen": 76805928,
	"step": 141000
	},
	{
	"epoch": 1.4156795261725628,
	"grad_norm": 5.349905490875244,
	"learning_rate": 4.292165239314872e-05,
	"loss": 1.3223,
	"num_input_tokens_seen": 77083224,
	"step": 141500
	},
	{
	"epoch": 1.4206819273251161,
	"grad_norm": 5.8378586769104,
	"learning_rate": 4.2896640387385946e-05,
	"loss": 1.3025,
	"num_input_tokens_seen": 77352800,
	"step": 142000
	},
	{
	"epoch": 1.4256843284776692,
	"grad_norm": 6.061739921569824,
	"learning_rate": 4.287162838162318e-05,
	"loss": 1.3074,
	"num_input_tokens_seen": 77625328,
	"step": 142500
	},
	{
	"epoch": 1.4306867296302226,
	"grad_norm": 5.522953510284424,
	"learning_rate": 4.2846616375860416e-05,
	"loss": 1.3052,
	"num_input_tokens_seen": 77902368,
	"step": 143000
	},
	{
	"epoch": 1.4356891307827757,
	"grad_norm": 6.295720100402832,
	"learning_rate": 4.282160437009765e-05,
	"loss": 1.3118,
	"num_input_tokens_seen": 78177488,
	"step": 143500
	},
	{
	"epoch": 1.4406915319353288,
	"grad_norm": 6.575023651123047,
	"learning_rate": 4.279659236433488e-05,
	"loss": 1.3093,
	"num_input_tokens_seen": 78446712,
	"step": 144000
	},
	{
	"epoch": 1.4456939330878822,
	"grad_norm": 6.984113693237305,
	"learning_rate": 4.2771580358572114e-05,
	"loss": 1.3076,
	"num_input_tokens_seen": 78720880,
	"step": 144500
	},
	{
	"epoch": 1.4506963342404355,
	"grad_norm": 5.520240306854248,
	"learning_rate": 4.274656835280935e-05,
	"loss": 1.3001,
	"num_input_tokens_seen": 78987824,
	"step": 145000
	},
	{
	"epoch": 1.4556987353929887,
	"grad_norm": 8.607036590576172,
	"learning_rate": 4.2721556347046584e-05,
	"loss": 1.3129,
	"num_input_tokens_seen": 79265448,
	"step": 145500
	},
	{
	"epoch": 1.4607011365455418,
	"grad_norm": 5.851890563964844,
	"learning_rate": 4.269654434128382e-05,
	"loss": 1.283,
	"num_input_tokens_seen": 79533224,
	"step": 146000
	},
	{
	"epoch": 1.4657035376980951,
	"grad_norm": 6.837863922119141,
	"learning_rate": 4.2671532335521054e-05,
	"loss": 1.3191,
	"num_input_tokens_seen": 79806784,
	"step": 146500
	},
	{
	"epoch": 1.4707059388506483,
	"grad_norm": 8.558204650878906,
	"learning_rate": 4.264652032975829e-05,
	"loss": 1.3004,
	"num_input_tokens_seen": 80082392,
	"step": 147000
	},
	{
	"epoch": 1.4757083400032016,
	"grad_norm": 5.562234401702881,
	"learning_rate": 4.262150832399552e-05,
	"loss": 1.3127,
	"num_input_tokens_seen": 80357544,
	"step": 147500
	},
	{
	"epoch": 1.4807107411557547,
	"grad_norm": 6.331244945526123,
	"learning_rate": 4.259649631823275e-05,
	"loss": 1.2875,
	"num_input_tokens_seen": 80619480,
	"step": 148000
	},
	{
	"epoch": 1.4857131423083079,
	"grad_norm": 7.26661491394043,
	"learning_rate": 4.257148431246999e-05,
	"loss": 1.286,
	"num_input_tokens_seen": 80889016,
	"step": 148500
	},
	{
	"epoch": 1.4907155434608612,
	"grad_norm": 6.140303134918213,
	"learning_rate": 4.254647230670722e-05,
	"loss": 1.3209,
	"num_input_tokens_seen": 81158600,
	"step": 149000
	},
	{
	"epoch": 1.4957179446134146,
	"grad_norm": 6.452395439147949,
	"learning_rate": 4.252146030094446e-05,
	"loss": 1.3115,
	"num_input_tokens_seen": 81438680,
	"step": 149500
	},
	{
	"epoch": 1.5007203457659677,
	"grad_norm": 7.9884257316589355,
	"learning_rate": 4.249644829518169e-05,
	"loss": 1.2958,
	"num_input_tokens_seen": 81705824,
	"step": 150000
	},
	{
	"epoch": 1.5057227469185208,
	"grad_norm": 5.807667255401611,
	"learning_rate": 4.247143628941893e-05,
	"loss": 1.3309,
	"num_input_tokens_seen": 81978560,
	"step": 150500
	},
	{
	"epoch": 1.5107251480710742,
	"grad_norm": 6.487443447113037,
	"learning_rate": 4.2446424283656155e-05,
	"loss": 1.303,
	"num_input_tokens_seen": 82250552,
	"step": 151000
	},
	{
	"epoch": 1.5157275492236273,
	"grad_norm": 7.297651767730713,
	"learning_rate": 4.242141227789339e-05,
	"loss": 1.2961,
	"num_input_tokens_seen": 82528296,
	"step": 151500
	},
	{
	"epoch": 1.5207299503761806,
	"grad_norm": 6.434643268585205,
	"learning_rate": 4.2396400272130625e-05,
	"loss": 1.2926,
	"num_input_tokens_seen": 82791496,
	"step": 152000
	},
	{
	"epoch": 1.5257323515287338,
	"grad_norm": 6.918686389923096,
	"learning_rate": 4.237138826636785e-05,
	"loss": 1.2998,
	"num_input_tokens_seen": 83063776,
	"step": 152500
	},
	{
	"epoch": 1.530734752681287,
	"grad_norm": 5.594851493835449,
	"learning_rate": 4.2346376260605095e-05,
	"loss": 1.321,
	"num_input_tokens_seen": 83339208,
	"step": 153000
	},
	{
	"epoch": 1.5357371538338402,
	"grad_norm": 6.245510578155518,
	"learning_rate": 4.232136425484233e-05,
	"loss": 1.2743,
	"num_input_tokens_seen": 83610920,
	"step": 153500
	},
	{
	"epoch": 1.5407395549863936,
	"grad_norm": 6.392094612121582,
	"learning_rate": 4.2296352249079565e-05,
	"loss": 1.3062,
	"num_input_tokens_seen": 83883600,
	"step": 154000
	},
	{
	"epoch": 1.5457419561389467,
	"grad_norm": 6.538769245147705,
	"learning_rate": 4.227134024331679e-05,
	"loss": 1.3111,
	"num_input_tokens_seen": 84152704,
	"step": 154500
	},
	{
	"epoch": 1.5507443572914998,
	"grad_norm": 6.384563446044922,
	"learning_rate": 4.224632823755403e-05,
	"loss": 1.2767,
	"num_input_tokens_seen": 84425920,
	"step": 155000
	},
	{
	"epoch": 1.5557467584440532,
	"grad_norm": 6.407052040100098,
	"learning_rate": 4.222131623179126e-05,
	"loss": 1.2865,
	"num_input_tokens_seen": 84697904,
	"step": 155500
	},
	{
	"epoch": 1.5607491595966063,
	"grad_norm": 6.534234046936035,
	"learning_rate": 4.219630422602849e-05,
	"loss": 1.2817,
	"num_input_tokens_seen": 84968680,
	"step": 156000
	},
	{
	"epoch": 1.5657515607491597,
	"grad_norm": 5.641045093536377,
	"learning_rate": 4.2171292220265726e-05,
	"loss": 1.2963,
	"num_input_tokens_seen": 85238032,
	"step": 156500
	},
	{
	"epoch": 1.5707539619017128,
	"grad_norm": 6.242879867553711,
	"learning_rate": 4.214628021450297e-05,
	"loss": 1.2924,
	"num_input_tokens_seen": 85511200,
	"step": 157000
	},
	{
	"epoch": 1.575756363054266,
	"grad_norm": 6.90887451171875,
	"learning_rate": 4.21212682087402e-05,
	"loss": 1.2968,
	"num_input_tokens_seen": 85785448,
	"step": 157500
	},
	{
	"epoch": 1.5807587642068193,
	"grad_norm": 7.269606590270996,
	"learning_rate": 4.209625620297743e-05,
	"loss": 1.2845,
	"num_input_tokens_seen": 86056312,
	"step": 158000
	},
	{
	"epoch": 1.5857611653593726,
	"grad_norm": 5.152353763580322,
	"learning_rate": 4.2071244197214666e-05,
	"loss": 1.2909,
	"num_input_tokens_seen": 86333312,
	"step": 158500
	},
	{
	"epoch": 1.5907635665119257,
	"grad_norm": 6.0240631103515625,
	"learning_rate": 4.20462321914519e-05,
	"loss": 1.2923,
	"num_input_tokens_seen": 86610480,
	"step": 159000
	},
	{
	"epoch": 1.5957659676644789,
	"grad_norm": 7.361881256103516,
	"learning_rate": 4.202122018568913e-05,
	"loss": 1.2759,
	"num_input_tokens_seen": 86882480,
	"step": 159500
	},
	{
	"epoch": 1.6007683688170322,
	"grad_norm": 5.192800521850586,
	"learning_rate": 4.1996208179926364e-05,
	"loss": 1.298,
	"num_input_tokens_seen": 87144592,
	"step": 160000
	},
	{
	"epoch": 1.6057707699695856,
	"grad_norm": 7.1856369972229,
	"learning_rate": 4.19711961741636e-05,
	"loss": 1.2955,
	"num_input_tokens_seen": 87420328,
	"step": 160500
	},
	{
	"epoch": 1.6107731711221387,
	"grad_norm": 5.096145153045654,
	"learning_rate": 4.1946184168400834e-05,
	"loss": 1.2923,
	"num_input_tokens_seen": 87696968,
	"step": 161000
	},
	{
	"epoch": 1.6157755722746918,
	"grad_norm": 6.808541297912598,
	"learning_rate": 4.192117216263807e-05,
	"loss": 1.3044,
	"num_input_tokens_seen": 87977352,
	"step": 161500
	},
	{
	"epoch": 1.620777973427245,
	"grad_norm": 5.258007526397705,
	"learning_rate": 4.1896160156875304e-05,
	"loss": 1.3023,
	"num_input_tokens_seen": 88251864,
	"step": 162000
	},
	{
	"epoch": 1.6257803745797983,
	"grad_norm": 5.184575080871582,
	"learning_rate": 4.187114815111254e-05,
	"loss": 1.2594,
	"num_input_tokens_seen": 88521800,
	"step": 162500
	},
	{
	"epoch": 1.6307827757323516,
	"grad_norm": 5.858316421508789,
	"learning_rate": 4.184613614534977e-05,
	"loss": 1.2854,
	"num_input_tokens_seen": 88788776,
	"step": 163000
	},
	{
	"epoch": 1.6357851768849048,
	"grad_norm": 7.03213357925415,
	"learning_rate": 4.1821124139587e-05,
	"loss": 1.2745,
	"num_input_tokens_seen": 89054472,
	"step": 163500
	},
	{
	"epoch": 1.640787578037458,
	"grad_norm": 7.509394645690918,
	"learning_rate": 4.179611213382424e-05,
	"loss": 1.2932,
	"num_input_tokens_seen": 89332456,
	"step": 164000
	},
	{
	"epoch": 1.6457899791900112,
	"grad_norm": 7.114541530609131,
	"learning_rate": 4.177110012806147e-05,
	"loss": 1.2751,
	"num_input_tokens_seen": 89609920,
	"step": 164500
	},
	{
	"epoch": 1.6507923803425646,
	"grad_norm": 14.539456367492676,
	"learning_rate": 4.174608812229871e-05,
	"loss": 1.3115,
	"num_input_tokens_seen": 89875856,
	"step": 165000
	},
	{
	"epoch": 1.6557947814951177,
	"grad_norm": 5.730625629425049,
	"learning_rate": 4.172107611653594e-05,
	"loss": 1.2938,
	"num_input_tokens_seen": 90148472,
	"step": 165500
	},
	{
	"epoch": 1.6607971826476708,
	"grad_norm": 5.901363849639893,
	"learning_rate": 4.169606411077318e-05,
	"loss": 1.2895,
	"num_input_tokens_seen": 90424400,
	"step": 166000
	},
	{
	"epoch": 1.665799583800224,
	"grad_norm": 5.94663667678833,
	"learning_rate": 4.1671052105010405e-05,
	"loss": 1.2988,
	"num_input_tokens_seen": 90702152,
	"step": 166500
	},
	{
	"epoch": 1.6708019849527773,
	"grad_norm": 5.720317363739014,
	"learning_rate": 4.164604009924764e-05,
	"loss": 1.2921,
	"num_input_tokens_seen": 90980904,
	"step": 167000
	},
	{
	"epoch": 1.6758043861053307,
	"grad_norm": 8.514877319335938,
	"learning_rate": 4.1621028093484875e-05,
	"loss": 1.2762,
	"num_input_tokens_seen": 91249200,
	"step": 167500
	},
	{
	"epoch": 1.6808067872578838,
	"grad_norm": 8.756369590759277,
	"learning_rate": 4.15960160877221e-05,
	"loss": 1.2898,
	"num_input_tokens_seen": 91523408,
	"step": 168000
	},
	{
	"epoch": 1.685809188410437,
	"grad_norm": 4.922306537628174,
	"learning_rate": 4.1571004081959345e-05,
	"loss": 1.2873,
	"num_input_tokens_seen": 91795848,
	"step": 168500
	},
	{
	"epoch": 1.6908115895629903,
	"grad_norm": 5.668425559997559,
	"learning_rate": 4.154599207619658e-05,
	"loss": 1.2662,
	"num_input_tokens_seen": 92067336,
	"step": 169000
	},
	{
	"epoch": 1.6958139907155436,
	"grad_norm": 6.631772518157959,
	"learning_rate": 4.1520980070433815e-05,
	"loss": 1.3048,
	"num_input_tokens_seen": 92339392,
	"step": 169500
	},
	{
	"epoch": 1.7008163918680967,
	"grad_norm": 6.489889144897461,
	"learning_rate": 4.149596806467104e-05,
	"loss": 1.2835,
	"num_input_tokens_seen": 92613216,
	"step": 170000
	},
	{
	"epoch": 1.7058187930206499,
	"grad_norm": 6.344711780548096,
	"learning_rate": 4.147095605890828e-05,
	"loss": 1.2918,
	"num_input_tokens_seen": 92890872,
	"step": 170500
	},
	{
	"epoch": 1.710821194173203,
	"grad_norm": 7.276896953582764,
	"learning_rate": 4.144594405314551e-05,
	"loss": 1.303,
	"num_input_tokens_seen": 93161528,
	"step": 171000
	},
	{
	"epoch": 1.7158235953257563,
	"grad_norm": 6.139397144317627,
	"learning_rate": 4.142093204738274e-05,
	"loss": 1.2884,
	"num_input_tokens_seen": 93434024,
	"step": 171500
	},
	{
	"epoch": 1.7208259964783097,
	"grad_norm": 5.353676795959473,
	"learning_rate": 4.1395920041619976e-05,
	"loss": 1.2865,
	"num_input_tokens_seen": 93712728,
	"step": 172000
	},
	{
	"epoch": 1.7258283976308628,
	"grad_norm": 7.979468822479248,
	"learning_rate": 4.137090803585721e-05,
	"loss": 1.2884,
	"num_input_tokens_seen": 93992640,
	"step": 172500
	},
	{
	"epoch": 1.730830798783416,
	"grad_norm": 5.386059761047363,
	"learning_rate": 4.134589603009445e-05,
	"loss": 1.2875,
	"num_input_tokens_seen": 94262344,
	"step": 173000
	},
	{
	"epoch": 1.7358331999359693,
	"grad_norm": 4.8488311767578125,
	"learning_rate": 4.132088402433168e-05,
	"loss": 1.2636,
	"num_input_tokens_seen": 94536416,
	"step": 173500
	},
	{
	"epoch": 1.7408356010885226,
	"grad_norm": 7.375112056732178,
	"learning_rate": 4.1295872018568916e-05,
	"loss": 1.276,
	"num_input_tokens_seen": 94806528,
	"step": 174000
	},
	{
	"epoch": 1.7458380022410758,
	"grad_norm": 4.830787181854248,
	"learning_rate": 4.127086001280615e-05,
	"loss": 1.2681,
	"num_input_tokens_seen": 95076832,
	"step": 174500
	},
	{
	"epoch": 1.750840403393629,
	"grad_norm": 5.590123653411865,
	"learning_rate": 4.124584800704338e-05,
	"loss": 1.273,
	"num_input_tokens_seen": 95342672,
	"step": 175000
	},
	{
	"epoch": 1.755842804546182,
	"grad_norm": 5.334784984588623,
	"learning_rate": 4.1220836001280614e-05,
	"loss": 1.29,
	"num_input_tokens_seen": 95613968,
	"step": 175500
	},
	{
	"epoch": 1.7608452056987354,
	"grad_norm": 5.795757293701172,
	"learning_rate": 4.119582399551785e-05,
	"loss": 1.2683,
	"num_input_tokens_seen": 95880488,
	"step": 176000
	},
	{
	"epoch": 1.7658476068512887,
	"grad_norm": 5.436016082763672,
	"learning_rate": 4.1170811989755084e-05,
	"loss": 1.2665,
	"num_input_tokens_seen": 96148192,
	"step": 176500
	},
	{
	"epoch": 1.7708500080038418,
	"grad_norm": 7.753640174865723,
	"learning_rate": 4.114579998399232e-05,
	"loss": 1.3018,
	"num_input_tokens_seen": 96422808,
	"step": 177000
	},
	{
	"epoch": 1.775852409156395,
	"grad_norm": 6.833972454071045,
	"learning_rate": 4.1120787978229554e-05,
	"loss": 1.2731,
	"num_input_tokens_seen": 96691008,
	"step": 177500
	},
	{
	"epoch": 1.7808548103089483,
	"grad_norm": 5.354393482208252,
	"learning_rate": 4.109577597246679e-05,
	"loss": 1.2683,
	"num_input_tokens_seen": 96964040,
	"step": 178000
	},
	{
	"epoch": 1.7858572114615017,
	"grad_norm": 5.666247367858887,
	"learning_rate": 4.107076396670402e-05,
	"loss": 1.3028,
	"num_input_tokens_seen": 97244192,
	"step": 178500
	},
	{
	"epoch": 1.7908596126140548,
	"grad_norm": 5.841219902038574,
	"learning_rate": 4.104575196094125e-05,
	"loss": 1.2637,
	"num_input_tokens_seen": 97515856,
	"step": 179000
	},
	{
	"epoch": 1.795862013766608,
	"grad_norm": 6.097582817077637,
	"learning_rate": 4.102073995517849e-05,
	"loss": 1.2602,
	"num_input_tokens_seen": 97784032,
	"step": 179500
	},
	{
	"epoch": 1.800864414919161,
	"grad_norm": 6.291224002838135,
	"learning_rate": 4.099572794941572e-05,
	"loss": 1.2792,
	"num_input_tokens_seen": 98061744,
	"step": 180000
	},
	{
	"epoch": 1.8058668160717144,
	"grad_norm": 6.529845237731934,
	"learning_rate": 4.097071594365296e-05,
	"loss": 1.2751,
	"num_input_tokens_seen": 98333416,
	"step": 180500
	},
	{
	"epoch": 1.8108692172242677,
	"grad_norm": 5.767446041107178,
	"learning_rate": 4.094570393789019e-05,
	"loss": 1.2924,
	"num_input_tokens_seen": 98611352,
	"step": 181000
	},
	{
	"epoch": 1.8158716183768209,
	"grad_norm": 11.748208999633789,
	"learning_rate": 4.092069193212743e-05,
	"loss": 1.2656,
	"num_input_tokens_seen": 98875048,
	"step": 181500
	},
	{
	"epoch": 1.820874019529374,
	"grad_norm": 6.215290069580078,
	"learning_rate": 4.0895679926364655e-05,
	"loss": 1.2854,
	"num_input_tokens_seen": 99142440,
	"step": 182000
	},
	{
	"epoch": 1.8258764206819273,
	"grad_norm": 4.965378284454346,
	"learning_rate": 4.087066792060189e-05,
	"loss": 1.3011,
	"num_input_tokens_seen": 99420240,
	"step": 182500
	},
	{
	"epoch": 1.8308788218344807,
	"grad_norm": 4.903427600860596,
	"learning_rate": 4.0845655914839125e-05,
	"loss": 1.29,
	"num_input_tokens_seen": 99700544,
	"step": 183000
	},
	{
	"epoch": 1.8358812229870338,
	"grad_norm": 7.428767204284668,
	"learning_rate": 4.082064390907635e-05,
	"loss": 1.2784,
	"num_input_tokens_seen": 99976104,
	"step": 183500
	},
	{
	"epoch": 1.840883624139587,
	"grad_norm": 5.334924697875977,
	"learning_rate": 4.079563190331359e-05,
	"loss": 1.2617,
	"num_input_tokens_seen": 100248360,
	"step": 184000
	},
	{
	"epoch": 1.84588602529214,
	"grad_norm": 5.380727291107178,
	"learning_rate": 4.077061989755083e-05,
	"loss": 1.2824,
	"num_input_tokens_seen": 100520712,
	"step": 184500
	},
	{
	"epoch": 1.8508884264446934,
	"grad_norm": 6.993951320648193,
	"learning_rate": 4.0745607891788065e-05,
	"loss": 1.3006,
	"num_input_tokens_seen": 100795856,
	"step": 185000
	},
	{
	"epoch": 1.8558908275972468,
	"grad_norm": 6.079780578613281,
	"learning_rate": 4.072059588602529e-05,
	"loss": 1.2844,
	"num_input_tokens_seen": 101069232,
	"step": 185500
	},
	{
	"epoch": 1.8608932287498,
	"grad_norm": 5.772866725921631,
	"learning_rate": 4.069558388026253e-05,
	"loss": 1.269,
	"num_input_tokens_seen": 101347816,
	"step": 186000
	},
	{
	"epoch": 1.865895629902353,
	"grad_norm": 6.067032337188721,
	"learning_rate": 4.067057187449976e-05,
	"loss": 1.2753,
	"num_input_tokens_seen": 101618784,
	"step": 186500
	},
	{
	"epoch": 1.8708980310549064,
	"grad_norm": 8.178043365478516,
	"learning_rate": 4.064555986873699e-05,
	"loss": 1.2694,
	"num_input_tokens_seen": 101889416,
	"step": 187000
	},
	{
	"epoch": 1.8759004322074597,
	"grad_norm": 5.999898433685303,
	"learning_rate": 4.0620547862974226e-05,
	"loss": 1.2774,
	"num_input_tokens_seen": 102163040,
	"step": 187500
	},
	{
	"epoch": 1.8809028333600128,
	"grad_norm": 7.069881439208984,
	"learning_rate": 4.059553585721146e-05,
	"loss": 1.2848,
	"num_input_tokens_seen": 102431528,
	"step": 188000
	},
	{
	"epoch": 1.885905234512566,
	"grad_norm": 5.21435546875,
	"learning_rate": 4.05705238514487e-05,
	"loss": 1.2599,
	"num_input_tokens_seen": 102705520,
	"step": 188500
	},
	{
	"epoch": 1.890907635665119,
	"grad_norm": 6.542243003845215,
	"learning_rate": 4.054551184568593e-05,
	"loss": 1.283,
	"num_input_tokens_seen": 102981304,
	"step": 189000
	},
	{
	"epoch": 1.8959100368176725,
	"grad_norm": 6.719133377075195,
	"learning_rate": 4.0520499839923166e-05,
	"loss": 1.2879,
	"num_input_tokens_seen": 103259112,
	"step": 189500
	},
	{
	"epoch": 1.9009124379702258,
	"grad_norm": 6.38728666305542,
	"learning_rate": 4.04954878341604e-05,
	"loss": 1.2548,
	"num_input_tokens_seen": 103534888,
	"step": 190000
	},
	{
	"epoch": 1.905914839122779,
	"grad_norm": 5.428126811981201,
	"learning_rate": 4.047047582839763e-05,
	"loss": 1.28,
	"num_input_tokens_seen": 103803600,
	"step": 190500
	},
	{
	"epoch": 1.910917240275332,
	"grad_norm": 5.377976894378662,
	"learning_rate": 4.0445463822634864e-05,
	"loss": 1.2658,
	"num_input_tokens_seen": 104075160,
	"step": 191000
	},
	{
	"epoch": 1.9159196414278854,
	"grad_norm": 5.453880786895752,
	"learning_rate": 4.04204518168721e-05,
	"loss": 1.2643,
	"num_input_tokens_seen": 104349992,
	"step": 191500
	},
	{
	"epoch": 1.9209220425804387,
	"grad_norm": 5.114168167114258,
	"learning_rate": 4.0395439811109334e-05,
	"loss": 1.2769,
	"num_input_tokens_seen": 104621104,
	"step": 192000
	},
	{
	"epoch": 1.9259244437329919,
	"grad_norm": 5.22728157043457,
	"learning_rate": 4.037042780534657e-05,
	"loss": 1.2842,
	"num_input_tokens_seen": 104890976,
	"step": 192500
	},
	{
	"epoch": 1.930926844885545,
	"grad_norm": 5.4410881996154785,
	"learning_rate": 4.0345415799583804e-05,
	"loss": 1.2627,
	"num_input_tokens_seen": 105165152,
	"step": 193000
	},
	{
	"epoch": 1.9359292460380981,
	"grad_norm": 5.700538158416748,
	"learning_rate": 4.032040379382104e-05,
	"loss": 1.275,
	"num_input_tokens_seen": 105431920,
	"step": 193500
	},
	{
	"epoch": 1.9409316471906515,
	"grad_norm": 5.171668529510498,
	"learning_rate": 4.029539178805827e-05,
	"loss": 1.2852,
	"num_input_tokens_seen": 105709976,
	"step": 194000
	},
	{
	"epoch": 1.9459340483432048,
	"grad_norm": 7.026444911956787,
	"learning_rate": 4.02703797822955e-05,
	"loss": 1.2718,
	"num_input_tokens_seen": 105983472,
	"step": 194500
	},
	{
	"epoch": 1.950936449495758,
	"grad_norm": 6.670947074890137,
	"learning_rate": 4.024536777653274e-05,
	"loss": 1.2574,
	"num_input_tokens_seen": 106257632,
	"step": 195000
	},
	{
	"epoch": 1.955938850648311,
	"grad_norm": 5.797586441040039,
	"learning_rate": 4.022035577076997e-05,
	"loss": 1.2821,
	"num_input_tokens_seen": 106533272,
	"step": 195500
	},
	{
	"epoch": 1.9609412518008644,
	"grad_norm": 7.070456504821777,
	"learning_rate": 4.019534376500721e-05,
	"loss": 1.2749,
	"num_input_tokens_seen": 106804176,
	"step": 196000
	},
	{
	"epoch": 1.9659436529534178,
	"grad_norm": 5.074236869812012,
	"learning_rate": 4.017033175924444e-05,
	"loss": 1.2837,
	"num_input_tokens_seen": 107077264,
	"step": 196500
	},
	{
	"epoch": 1.970946054105971,
	"grad_norm": 5.952401161193848,
	"learning_rate": 4.014531975348168e-05,
	"loss": 1.2481,
	"num_input_tokens_seen": 107342400,
	"step": 197000
	},
	{
	"epoch": 1.975948455258524,
	"grad_norm": 6.63128662109375,
	"learning_rate": 4.0120307747718905e-05,
	"loss": 1.2769,
	"num_input_tokens_seen": 107619760,
	"step": 197500
	},
	{
	"epoch": 1.9809508564110772,
	"grad_norm": 6.601523399353027,
	"learning_rate": 4.009529574195614e-05,
	"loss": 1.275,
	"num_input_tokens_seen": 107898512,
	"step": 198000
	},
	{
	"epoch": 1.9859532575636305,
	"grad_norm": 6.857260227203369,
	"learning_rate": 4.0070283736193375e-05,
	"loss": 1.2508,
	"num_input_tokens_seen": 108163904,
	"step": 198500
	},
	{
	"epoch": 1.9909556587161839,
	"grad_norm": 5.871264934539795,
	"learning_rate": 4.004527173043061e-05,
	"loss": 1.2712,
	"num_input_tokens_seen": 108440480,
	"step": 199000
	},
	{
	"epoch": 1.995958059868737,
	"grad_norm": 7.567385673522949,
	"learning_rate": 4.002025972466784e-05,
	"loss": 1.2801,
	"num_input_tokens_seen": 108714992,
	"step": 199500
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.1701077222824097,
	"eval_runtime": 186.6785,
	"eval_samples_per_second": 1070.851,
	"eval_steps_per_second": 133.861,
	"num_input_tokens_seen": 108935048,
	"step": 199904
	},
	{
	"epoch": 2.00096046102129,
	"grad_norm": 5.430812835693359,
	"learning_rate": 3.999524771890507e-05,
	"loss": 1.2538,
	"num_input_tokens_seen": 108986608,
	"step": 200000
	},
	{
	"epoch": 2.0059628621738432,
	"grad_norm": 7.064018249511719,
	"learning_rate": 3.9970235713142315e-05,
	"loss": 1.1538,
	"num_input_tokens_seen": 109256864,
	"step": 200500
	},
	{
	"epoch": 2.010965263326397,
	"grad_norm": 6.479573726654053,
	"learning_rate": 3.994522370737954e-05,
	"loss": 1.1664,
	"num_input_tokens_seen": 109523672,
	"step": 201000
	},
	{
	"epoch": 2.01596766447895,
	"grad_norm": 6.595979690551758,
	"learning_rate": 3.992021170161678e-05,
	"loss": 1.1338,
	"num_input_tokens_seen": 109791408,
	"step": 201500
	},
	{
	"epoch": 2.020970065631503,
	"grad_norm": 7.46008825302124,
	"learning_rate": 3.989519969585401e-05,
	"loss": 1.1799,
	"num_input_tokens_seen": 110064104,
	"step": 202000
	},
	{
	"epoch": 2.025972466784056,
	"grad_norm": 5.414816379547119,
	"learning_rate": 3.987018769009124e-05,
	"loss": 1.1688,
	"num_input_tokens_seen": 110335328,
	"step": 202500
	},
	{
	"epoch": 2.0309748679366098,
	"grad_norm": 7.442201137542725,
	"learning_rate": 3.9845175684328476e-05,
	"loss": 1.1804,
	"num_input_tokens_seen": 110611648,
	"step": 203000
	},
	{
	"epoch": 2.035977269089163,
	"grad_norm": 5.2355475425720215,
	"learning_rate": 3.982016367856571e-05,
	"loss": 1.1776,
	"num_input_tokens_seen": 110883064,
	"step": 203500
	},
	{
	"epoch": 2.040979670241716,
	"grad_norm": 7.008761882781982,
	"learning_rate": 3.9795151672802946e-05,
	"loss": 1.1622,
	"num_input_tokens_seen": 111162464,
	"step": 204000
	},
	{
	"epoch": 2.045982071394269,
	"grad_norm": 5.213141918182373,
	"learning_rate": 3.977013966704018e-05,
	"loss": 1.1863,
	"num_input_tokens_seen": 111434960,
	"step": 204500
	},
	{
	"epoch": 2.0509844725468223,
	"grad_norm": 6.3171000480651855,
	"learning_rate": 3.9745127661277416e-05,
	"loss": 1.1735,
	"num_input_tokens_seen": 111707896,
	"step": 205000
	},
	{
	"epoch": 2.055986873699376,
	"grad_norm": 5.790093898773193,
	"learning_rate": 3.972011565551465e-05,
	"loss": 1.1916,
	"num_input_tokens_seen": 111976120,
	"step": 205500
	},
	{
	"epoch": 2.060989274851929,
	"grad_norm": 5.817662239074707,
	"learning_rate": 3.969510364975188e-05,
	"loss": 1.1996,
	"num_input_tokens_seen": 112248384,
	"step": 206000
	},
	{
	"epoch": 2.065991676004482,
	"grad_norm": 7.098010063171387,
	"learning_rate": 3.9670091643989114e-05,
	"loss": 1.1698,
	"num_input_tokens_seen": 112525640,
	"step": 206500
	},
	{
	"epoch": 2.070994077157035,
	"grad_norm": 5.172534942626953,
	"learning_rate": 3.964507963822635e-05,
	"loss": 1.17,
	"num_input_tokens_seen": 112794848,
	"step": 207000
	},
	{
	"epoch": 2.0759964783095888,
	"grad_norm": 5.681086540222168,
	"learning_rate": 3.9620067632463584e-05,
	"loss": 1.1812,
	"num_input_tokens_seen": 113070744,
	"step": 207500
	},
	{
	"epoch": 2.080998879462142,
	"grad_norm": 6.1572489738464355,
	"learning_rate": 3.959505562670082e-05,
	"loss": 1.1733,
	"num_input_tokens_seen": 113352016,
	"step": 208000
	},
	{
	"epoch": 2.086001280614695,
	"grad_norm": 6.149631023406982,
	"learning_rate": 3.9570043620938054e-05,
	"loss": 1.1733,
	"num_input_tokens_seen": 113629168,
	"step": 208500
	},
	{
	"epoch": 2.091003681767248,
	"grad_norm": 4.973777770996094,
	"learning_rate": 3.954503161517529e-05,
	"loss": 1.1732,
	"num_input_tokens_seen": 113899440,
	"step": 209000
	},
	{
	"epoch": 2.0960060829198017,
	"grad_norm": 12.051576614379883,
	"learning_rate": 3.952001960941252e-05,
	"loss": 1.1974,
	"num_input_tokens_seen": 114170160,
	"step": 209500
	},
	{
	"epoch": 2.101008484072355,
	"grad_norm": 5.458679676055908,
	"learning_rate": 3.949500760364975e-05,
	"loss": 1.1664,
	"num_input_tokens_seen": 114441696,
	"step": 210000
	},
	{
	"epoch": 2.106010885224908,
	"grad_norm": 5.033444404602051,
	"learning_rate": 3.946999559788699e-05,
	"loss": 1.1781,
	"num_input_tokens_seen": 114715752,
	"step": 210500
	},
	{
	"epoch": 2.111013286377461,
	"grad_norm": 5.643963813781738,
	"learning_rate": 3.944498359212422e-05,
	"loss": 1.1849,
	"num_input_tokens_seen": 114996136,
	"step": 211000
	},
	{
	"epoch": 2.1160156875300142,
	"grad_norm": 6.656442165374756,
	"learning_rate": 3.941997158636145e-05,
	"loss": 1.1792,
	"num_input_tokens_seen": 115259352,
	"step": 211500
	},
	{
	"epoch": 2.121018088682568,
	"grad_norm": 5.712615013122559,
	"learning_rate": 3.939495958059869e-05,
	"loss": 1.1799,
	"num_input_tokens_seen": 115534944,
	"step": 212000
	},
	{
	"epoch": 2.126020489835121,
	"grad_norm": 8.317249298095703,
	"learning_rate": 3.936994757483593e-05,
	"loss": 1.1853,
	"num_input_tokens_seen": 115808536,
	"step": 212500
	},
	{
	"epoch": 2.131022890987674,
	"grad_norm": 6.112279415130615,
	"learning_rate": 3.9344935569073155e-05,
	"loss": 1.1822,
	"num_input_tokens_seen": 116087064,
	"step": 213000
	},
	{
	"epoch": 2.136025292140227,
	"grad_norm": 7.357901096343994,
	"learning_rate": 3.931992356331039e-05,
	"loss": 1.1866,
	"num_input_tokens_seen": 116365200,
	"step": 213500
	},
	{
	"epoch": 2.1410276932927808,
	"grad_norm": 5.3409929275512695,
	"learning_rate": 3.9294911557547625e-05,
	"loss": 1.1897,
	"num_input_tokens_seen": 116636120,
	"step": 214000
	},
	{
	"epoch": 2.146030094445334,
	"grad_norm": 7.562960624694824,
	"learning_rate": 3.926989955178486e-05,
	"loss": 1.1809,
	"num_input_tokens_seen": 116916360,
	"step": 214500
	},
	{
	"epoch": 2.151032495597887,
	"grad_norm": 5.4258503913879395,
	"learning_rate": 3.924488754602209e-05,
	"loss": 1.1871,
	"num_input_tokens_seen": 117184808,
	"step": 215000
	},
	{
	"epoch": 2.15603489675044,
	"grad_norm": 6.741093158721924,
	"learning_rate": 3.9219875540259324e-05,
	"loss": 1.176,
	"num_input_tokens_seen": 117454928,
	"step": 215500
	},
	{
	"epoch": 2.1610372979029933,
	"grad_norm": 6.085869789123535,
	"learning_rate": 3.9194863534496565e-05,
	"loss": 1.1789,
	"num_input_tokens_seen": 117722352,
	"step": 216000
	},
	{
	"epoch": 2.166039699055547,
	"grad_norm": 6.9086151123046875,
	"learning_rate": 3.9169851528733793e-05,
	"loss": 1.189,
	"num_input_tokens_seen": 117990704,
	"step": 216500
	},
	{
	"epoch": 2.1710421002081,
	"grad_norm": 5.497861385345459,
	"learning_rate": 3.914483952297103e-05,
	"loss": 1.1768,
	"num_input_tokens_seen": 118255368,
	"step": 217000
	},
	{
	"epoch": 2.176044501360653,
	"grad_norm": 8.487640380859375,
	"learning_rate": 3.9119827517208263e-05,
	"loss": 1.1743,
	"num_input_tokens_seen": 118525432,
	"step": 217500
	},
	{
	"epoch": 2.181046902513206,
	"grad_norm": 5.8003435134887695,
	"learning_rate": 3.90948155114455e-05,
	"loss": 1.1697,
	"num_input_tokens_seen": 118799496,
	"step": 218000
	},
	{
	"epoch": 2.18604930366576,
	"grad_norm": 7.726077079772949,
	"learning_rate": 3.9069803505682727e-05,
	"loss": 1.1784,
	"num_input_tokens_seen": 119074944,
	"step": 218500
	},
	{
	"epoch": 2.191051704818313,
	"grad_norm": 5.625581741333008,
	"learning_rate": 3.904479149991996e-05,
	"loss": 1.1856,
	"num_input_tokens_seen": 119353528,
	"step": 219000
	},
	{
	"epoch": 2.196054105970866,
	"grad_norm": 5.582902908325195,
	"learning_rate": 3.9019779494157196e-05,
	"loss": 1.1832,
	"num_input_tokens_seen": 119627520,
	"step": 219500
	},
	{
	"epoch": 2.201056507123419,
	"grad_norm": 5.2057671546936035,
	"learning_rate": 3.899476748839443e-05,
	"loss": 1.1888,
	"num_input_tokens_seen": 119894432,
	"step": 220000
	},
	{
	"epoch": 2.2060589082759723,
	"grad_norm": 6.18375825881958,
	"learning_rate": 3.8969755482631666e-05,
	"loss": 1.1636,
	"num_input_tokens_seen": 120165872,
	"step": 220500
	},
	{
	"epoch": 2.211061309428526,
	"grad_norm": 7.083649158477783,
	"learning_rate": 3.89447434768689e-05,
	"loss": 1.1716,
	"num_input_tokens_seen": 120437360,
	"step": 221000
	},
	{
	"epoch": 2.216063710581079,
	"grad_norm": 6.966033458709717,
	"learning_rate": 3.891973147110613e-05,
	"loss": 1.1899,
	"num_input_tokens_seen": 120707824,
	"step": 221500
	},
	{
	"epoch": 2.221066111733632,
	"grad_norm": 4.439563751220703,
	"learning_rate": 3.8894719465343365e-05,
	"loss": 1.1714,
	"num_input_tokens_seen": 120977840,
	"step": 222000
	},
	{
	"epoch": 2.2260685128861852,
	"grad_norm": 6.870123386383057,
	"learning_rate": 3.88697074595806e-05,
	"loss": 1.1793,
	"num_input_tokens_seen": 121254560,
	"step": 222500
	},
	{
	"epoch": 2.231070914038739,
	"grad_norm": 8.789484024047852,
	"learning_rate": 3.8844695453817834e-05,
	"loss": 1.1851,
	"num_input_tokens_seen": 121523936,
	"step": 223000
	},
	{
	"epoch": 2.236073315191292,
	"grad_norm": 6.196369647979736,
	"learning_rate": 3.881968344805507e-05,
	"loss": 1.1857,
	"num_input_tokens_seen": 121795288,
	"step": 223500
	},
	{
	"epoch": 2.241075716343845,
	"grad_norm": 5.902594566345215,
	"learning_rate": 3.8794671442292304e-05,
	"loss": 1.2016,
	"num_input_tokens_seen": 122065592,
	"step": 224000
	},
	{
	"epoch": 2.246078117496398,
	"grad_norm": 6.811281681060791,
	"learning_rate": 3.876965943652954e-05,
	"loss": 1.1837,
	"num_input_tokens_seen": 122340584,
	"step": 224500
	},
	{
	"epoch": 2.2510805186489513,
	"grad_norm": 6.388464450836182,
	"learning_rate": 3.874464743076677e-05,
	"loss": 1.1816,
	"num_input_tokens_seen": 122612352,
	"step": 225000
	},
	{
	"epoch": 2.256082919801505,
	"grad_norm": 6.045330047607422,
	"learning_rate": 3.8719635425004e-05,
	"loss": 1.1835,
	"num_input_tokens_seen": 122878624,
	"step": 225500
	},
	{
	"epoch": 2.261085320954058,
	"grad_norm": 7.601827621459961,
	"learning_rate": 3.869462341924124e-05,
	"loss": 1.1766,
	"num_input_tokens_seen": 123143944,
	"step": 226000
	},
	{
	"epoch": 2.266087722106611,
	"grad_norm": 5.323575496673584,
	"learning_rate": 3.866961141347847e-05,
	"loss": 1.1913,
	"num_input_tokens_seen": 123415600,
	"step": 226500
	},
	{
	"epoch": 2.2710901232591643,
	"grad_norm": 6.938271522521973,
	"learning_rate": 3.86445994077157e-05,
	"loss": 1.1812,
	"num_input_tokens_seen": 123682608,
	"step": 227000
	},
	{
	"epoch": 2.276092524411718,
	"grad_norm": 5.9254021644592285,
	"learning_rate": 3.861958740195294e-05,
	"loss": 1.1856,
	"num_input_tokens_seen": 123954888,
	"step": 227500
	},
	{
	"epoch": 2.281094925564271,
	"grad_norm": 7.544998645782471,
	"learning_rate": 3.859457539619018e-05,
	"loss": 1.1957,
	"num_input_tokens_seen": 124230632,
	"step": 228000
	},
	{
	"epoch": 2.286097326716824,
	"grad_norm": 6.14992618560791,
	"learning_rate": 3.8569563390427406e-05,
	"loss": 1.1894,
	"num_input_tokens_seen": 124507352,
	"step": 228500
	},
	{
	"epoch": 2.291099727869377,
	"grad_norm": 5.440382957458496,
	"learning_rate": 3.854455138466464e-05,
	"loss": 1.1752,
	"num_input_tokens_seen": 124781440,
	"step": 229000
	},
	{
	"epoch": 2.2961021290219303,
	"grad_norm": 7.271317481994629,
	"learning_rate": 3.8519539378901876e-05,
	"loss": 1.1749,
	"num_input_tokens_seen": 125055624,
	"step": 229500
	},
	{
	"epoch": 2.301104530174484,
	"grad_norm": 5.141626834869385,
	"learning_rate": 3.849452737313911e-05,
	"loss": 1.18,
	"num_input_tokens_seen": 125329000,
	"step": 230000
	},
	{
	"epoch": 2.306106931327037,
	"grad_norm": 6.321171760559082,
	"learning_rate": 3.846951536737634e-05,
	"loss": 1.1741,
	"num_input_tokens_seen": 125605816,
	"step": 230500
	},
	{
	"epoch": 2.31110933247959,
	"grad_norm": 5.19276237487793,
	"learning_rate": 3.8444503361613574e-05,
	"loss": 1.1966,
	"num_input_tokens_seen": 125887328,
	"step": 231000
	},
	{
	"epoch": 2.3161117336321433,
	"grad_norm": 5.9422125816345215,
	"learning_rate": 3.841949135585081e-05,
	"loss": 1.1638,
	"num_input_tokens_seen": 126158768,
	"step": 231500
	},
	{
	"epoch": 2.321114134784697,
	"grad_norm": 5.361838340759277,
	"learning_rate": 3.8394479350088044e-05,
	"loss": 1.1737,
	"num_input_tokens_seen": 126429432,
	"step": 232000
	},
	{
	"epoch": 2.32611653593725,
	"grad_norm": 6.030839920043945,
	"learning_rate": 3.836946734432528e-05,
	"loss": 1.1975,
	"num_input_tokens_seen": 126703336,
	"step": 232500
	},
	{
	"epoch": 2.331118937089803,
	"grad_norm": 6.013172149658203,
	"learning_rate": 3.8344455338562514e-05,
	"loss": 1.1785,
	"num_input_tokens_seen": 126981120,
	"step": 233000
	},
	{
	"epoch": 2.3361213382423562,
	"grad_norm": 5.227244853973389,
	"learning_rate": 3.831944333279975e-05,
	"loss": 1.1934,
	"num_input_tokens_seen": 127248672,
	"step": 233500
	},
	{
	"epoch": 2.3411237393949094,
	"grad_norm": 5.995646953582764,
	"learning_rate": 3.829443132703698e-05,
	"loss": 1.198,
	"num_input_tokens_seen": 127525032,
	"step": 234000
	},
	{
	"epoch": 2.346126140547463,
	"grad_norm": 8.163732528686523,
	"learning_rate": 3.826941932127421e-05,
	"loss": 1.1743,
	"num_input_tokens_seen": 127793384,
	"step": 234500
	},
	{
	"epoch": 2.351128541700016,
	"grad_norm": 5.394166946411133,
	"learning_rate": 3.824440731551145e-05,
	"loss": 1.1726,
	"num_input_tokens_seen": 128065120,
	"step": 235000
	},
	{
	"epoch": 2.356130942852569,
	"grad_norm": 5.673594951629639,
	"learning_rate": 3.821939530974868e-05,
	"loss": 1.1959,
	"num_input_tokens_seen": 128334976,
	"step": 235500
	},
	{
	"epoch": 2.3611333440051223,
	"grad_norm": 5.715531826019287,
	"learning_rate": 3.8194383303985917e-05,
	"loss": 1.1936,
	"num_input_tokens_seen": 128610504,
	"step": 236000
	},
	{
	"epoch": 2.366135745157676,
	"grad_norm": 5.725061416625977,
	"learning_rate": 3.816937129822315e-05,
	"loss": 1.1771,
	"num_input_tokens_seen": 128881800,
	"step": 236500
	},
	{
	"epoch": 2.371138146310229,
	"grad_norm": 4.505105972290039,
	"learning_rate": 3.8144359292460386e-05,
	"loss": 1.1826,
	"num_input_tokens_seen": 129157576,
	"step": 237000
	},
	{
	"epoch": 2.376140547462782,
	"grad_norm": 5.860077857971191,
	"learning_rate": 3.8119347286697615e-05,
	"loss": 1.1925,
	"num_input_tokens_seen": 129432392,
	"step": 237500
	},
	{
	"epoch": 2.3811429486153353,
	"grad_norm": 6.7791337966918945,
	"learning_rate": 3.809433528093485e-05,
	"loss": 1.1746,
	"num_input_tokens_seen": 129700968,
	"step": 238000
	},
	{
	"epoch": 2.3861453497678884,
	"grad_norm": 5.708649635314941,
	"learning_rate": 3.8069323275172085e-05,
	"loss": 1.1793,
	"num_input_tokens_seen": 129977384,
	"step": 238500
	},
	{
	"epoch": 2.391147750920442,
	"grad_norm": 5.659774303436279,
	"learning_rate": 3.804431126940932e-05,
	"loss": 1.1797,
	"num_input_tokens_seen": 130248672,
	"step": 239000
	},
	{
	"epoch": 2.396150152072995,
	"grad_norm": 6.859200477600098,
	"learning_rate": 3.8019299263646555e-05,
	"loss": 1.1853,
	"num_input_tokens_seen": 130522208,
	"step": 239500
	},
	{
	"epoch": 2.401152553225548,
	"grad_norm": 6.860942840576172,
	"learning_rate": 3.799428725788379e-05,
	"loss": 1.1922,
	"num_input_tokens_seen": 130799088,
	"step": 240000
	},
	{
	"epoch": 2.4061549543781013,
	"grad_norm": 6.199068069458008,
	"learning_rate": 3.7969275252121025e-05,
	"loss": 1.1825,
	"num_input_tokens_seen": 131067984,
	"step": 240500
	},
	{
	"epoch": 2.411157355530655,
	"grad_norm": 5.724475383758545,
	"learning_rate": 3.794426324635825e-05,
	"loss": 1.168,
	"num_input_tokens_seen": 131340552,
	"step": 241000
	},
	{
	"epoch": 2.416159756683208,
	"grad_norm": 5.187953472137451,
	"learning_rate": 3.791925124059549e-05,
	"loss": 1.1875,
	"num_input_tokens_seen": 131613968,
	"step": 241500
	},
	{
	"epoch": 2.421162157835761,
	"grad_norm": 6.069790363311768,
	"learning_rate": 3.789423923483272e-05,
	"loss": 1.1866,
	"num_input_tokens_seen": 131880736,
	"step": 242000
	},
	{
	"epoch": 2.4261645589883143,
	"grad_norm": 6.761556148529053,
	"learning_rate": 3.786922722906995e-05,
	"loss": 1.205,
	"num_input_tokens_seen": 132150456,
	"step": 242500
	},
	{
	"epoch": 2.4311669601408674,
	"grad_norm": 5.816013336181641,
	"learning_rate": 3.7844215223307186e-05,
	"loss": 1.1938,
	"num_input_tokens_seen": 132424832,
	"step": 243000
	},
	{
	"epoch": 2.436169361293421,
	"grad_norm": 6.447406768798828,
	"learning_rate": 3.781920321754443e-05,
	"loss": 1.1792,
	"num_input_tokens_seen": 132691704,
	"step": 243500
	},
	{
	"epoch": 2.441171762445974,
	"grad_norm": 6.802369117736816,
	"learning_rate": 3.7794191211781656e-05,
	"loss": 1.1891,
	"num_input_tokens_seen": 132962376,
	"step": 244000
	},
	{
	"epoch": 2.4461741635985272,
	"grad_norm": 5.149132251739502,
	"learning_rate": 3.776917920601889e-05,
	"loss": 1.1691,
	"num_input_tokens_seen": 133236272,
	"step": 244500
	},
	{
	"epoch": 2.4511765647510804,
	"grad_norm": 6.554666996002197,
	"learning_rate": 3.7744167200256126e-05,
	"loss": 1.1958,
	"num_input_tokens_seen": 133505504,
	"step": 245000
	},
	{
	"epoch": 2.456178965903634,
	"grad_norm": 5.13792610168457,
	"learning_rate": 3.771915519449336e-05,
	"loss": 1.1771,
	"num_input_tokens_seen": 133785904,
	"step": 245500
	},
	{
	"epoch": 2.461181367056187,
	"grad_norm": 4.5011491775512695,
	"learning_rate": 3.769414318873059e-05,
	"loss": 1.192,
	"num_input_tokens_seen": 134055360,
	"step": 246000
	},
	{
	"epoch": 2.46618376820874,
	"grad_norm": 7.41070556640625,
	"learning_rate": 3.7669131182967824e-05,
	"loss": 1.1682,
	"num_input_tokens_seen": 134321528,
	"step": 246500
	},
	{
	"epoch": 2.4711861693612933,
	"grad_norm": 7.749119281768799,
	"learning_rate": 3.764411917720506e-05,
	"loss": 1.188,
	"num_input_tokens_seen": 134595208,
	"step": 247000
	},
	{
	"epoch": 2.4761885705138464,
	"grad_norm": 5.476714134216309,
	"learning_rate": 3.7619107171442294e-05,
	"loss": 1.1668,
	"num_input_tokens_seen": 134869136,
	"step": 247500
	},
	{
	"epoch": 2.4811909716664,
	"grad_norm": 5.9990010261535645,
	"learning_rate": 3.759409516567953e-05,
	"loss": 1.182,
	"num_input_tokens_seen": 135144112,
	"step": 248000
	},
	{
	"epoch": 2.486193372818953,
	"grad_norm": 5.635094165802002,
	"learning_rate": 3.7569083159916764e-05,
	"loss": 1.1861,
	"num_input_tokens_seen": 135413984,
	"step": 248500
	},
	{
	"epoch": 2.4911957739715063,
	"grad_norm": 5.974431991577148,
	"learning_rate": 3.7544071154154e-05,
	"loss": 1.1927,
	"num_input_tokens_seen": 135697672,
	"step": 249000
	},
	{
	"epoch": 2.4961981751240594,
	"grad_norm": 6.688498497009277,
	"learning_rate": 3.751905914839123e-05,
	"loss": 1.2016,
	"num_input_tokens_seen": 135975272,
	"step": 249500
	},
	{
	"epoch": 2.501200576276613,
	"grad_norm": 8.589900970458984,
	"learning_rate": 3.749404714262846e-05,
	"loss": 1.1711,
	"num_input_tokens_seen": 136241376,
	"step": 250000
	},
	{
	"epoch": 2.506202977429166,
	"grad_norm": 6.064274311065674,
	"learning_rate": 3.74690351368657e-05,
	"loss": 1.2027,
	"num_input_tokens_seen": 136510824,
	"step": 250500
	},
	{
	"epoch": 2.511205378581719,
	"grad_norm": 5.36790657043457,
	"learning_rate": 3.744402313110293e-05,
	"loss": 1.189,
	"num_input_tokens_seen": 136777568,
	"step": 251000
	},
	{
	"epoch": 2.5162077797342723,
	"grad_norm": 5.9187703132629395,
	"learning_rate": 3.741901112534017e-05,
	"loss": 1.1894,
	"num_input_tokens_seen": 137049696,
	"step": 251500
	},
	{
	"epoch": 2.5212101808868255,
	"grad_norm": 5.2425007820129395,
	"learning_rate": 3.73939991195774e-05,
	"loss": 1.2087,
	"num_input_tokens_seen": 137319688,
	"step": 252000
	},
	{
	"epoch": 2.526212582039379,
	"grad_norm": 6.622330188751221,
	"learning_rate": 3.736898711381464e-05,
	"loss": 1.172,
	"num_input_tokens_seen": 137592360,
	"step": 252500
	},
	{
	"epoch": 2.531214983191932,
	"grad_norm": 5.9546122550964355,
	"learning_rate": 3.7343975108051865e-05,
	"loss": 1.1784,
	"num_input_tokens_seen": 137869696,
	"step": 253000
	},
	{
	"epoch": 2.5362173843444853,
	"grad_norm": 6.10466194152832,
	"learning_rate": 3.73189631022891e-05,
	"loss": 1.1806,
	"num_input_tokens_seen": 138146440,
	"step": 253500
	},
	{
	"epoch": 2.5412197854970384,
	"grad_norm": 7.046773433685303,
	"learning_rate": 3.7293951096526335e-05,
	"loss": 1.187,
	"num_input_tokens_seen": 138432672,
	"step": 254000
	},
	{
	"epoch": 2.546222186649592,
	"grad_norm": 5.8726115226745605,
	"learning_rate": 3.726893909076356e-05,
	"loss": 1.1769,
	"num_input_tokens_seen": 138704056,
	"step": 254500
	},
	{
	"epoch": 2.551224587802145,
	"grad_norm": 6.145564079284668,
	"learning_rate": 3.7243927085000805e-05,
	"loss": 1.1783,
	"num_input_tokens_seen": 138972048,
	"step": 255000
	},
	{
	"epoch": 2.5562269889546982,
	"grad_norm": 8.949604988098145,
	"learning_rate": 3.721891507923804e-05,
	"loss": 1.1928,
	"num_input_tokens_seen": 139249808,
	"step": 255500
	},
	{
	"epoch": 2.5612293901072514,
	"grad_norm": 6.0869975090026855,
	"learning_rate": 3.7193903073475275e-05,
	"loss": 1.2032,
	"num_input_tokens_seen": 139528824,
	"step": 256000
	},
	{
	"epoch": 2.5662317912598045,
	"grad_norm": 6.634551048278809,
	"learning_rate": 3.71688910677125e-05,
	"loss": 1.1977,
	"num_input_tokens_seen": 139798352,
	"step": 256500
	},
	{
	"epoch": 2.571234192412358,
	"grad_norm": 5.805966377258301,
	"learning_rate": 3.714387906194974e-05,
	"loss": 1.1725,
	"num_input_tokens_seen": 140071304,
	"step": 257000
	},
	{
	"epoch": 2.576236593564911,
	"grad_norm": 5.509829998016357,
	"learning_rate": 3.711886705618697e-05,
	"loss": 1.1794,
	"num_input_tokens_seen": 140351576,
	"step": 257500
	},
	{
	"epoch": 2.5812389947174643,
	"grad_norm": 7.246334552764893,
	"learning_rate": 3.70938550504242e-05,
	"loss": 1.1638,
	"num_input_tokens_seen": 140629520,
	"step": 258000
	},
	{
	"epoch": 2.5862413958700174,
	"grad_norm": 5.683703899383545,
	"learning_rate": 3.7068843044661436e-05,
	"loss": 1.1772,
	"num_input_tokens_seen": 140907480,
	"step": 258500
	},
	{
	"epoch": 2.591243797022571,
	"grad_norm": 5.520617485046387,
	"learning_rate": 3.704383103889867e-05,
	"loss": 1.1874,
	"num_input_tokens_seen": 141174448,
	"step": 259000
	},
	{
	"epoch": 2.596246198175124,
	"grad_norm": 6.609923839569092,
	"learning_rate": 3.701881903313591e-05,
	"loss": 1.1954,
	"num_input_tokens_seen": 141451848,
	"step": 259500
	},
	{
	"epoch": 2.6012485993276773,
	"grad_norm": 5.208652973175049,
	"learning_rate": 3.699380702737314e-05,
	"loss": 1.1777,
	"num_input_tokens_seen": 141719928,
	"step": 260000
	},
	{
	"epoch": 2.6062510004802304,
	"grad_norm": 6.525882720947266,
	"learning_rate": 3.6968795021610376e-05,
	"loss": 1.1725,
	"num_input_tokens_seen": 141993992,
	"step": 260500
	},
	{
	"epoch": 2.6112534016327835,
	"grad_norm": 6.694952011108398,
	"learning_rate": 3.694378301584761e-05,
	"loss": 1.1764,
	"num_input_tokens_seen": 142262512,
	"step": 261000
	},
	{
	"epoch": 2.616255802785337,
	"grad_norm": 6.036692142486572,
	"learning_rate": 3.691877101008484e-05,
	"loss": 1.1863,
	"num_input_tokens_seen": 142535016,
	"step": 261500
	},
	{
	"epoch": 2.62125820393789,
	"grad_norm": 4.5128021240234375,
	"learning_rate": 3.6893759004322074e-05,
	"loss": 1.1914,
	"num_input_tokens_seen": 142817040,
	"step": 262000
	},
	{
	"epoch": 2.6262606050904433,
	"grad_norm": 6.445744037628174,
	"learning_rate": 3.686874699855931e-05,
	"loss": 1.1938,
	"num_input_tokens_seen": 143093520,
	"step": 262500
	},
	{
	"epoch": 2.631263006242997,
	"grad_norm": 5.805507183074951,
	"learning_rate": 3.6843734992796544e-05,
	"loss": 1.176,
	"num_input_tokens_seen": 143361184,
	"step": 263000
	},
	{
	"epoch": 2.63626540739555,
	"grad_norm": 7.369002819061279,
	"learning_rate": 3.681872298703378e-05,
	"loss": 1.1737,
	"num_input_tokens_seen": 143633104,
	"step": 263500
	},
	{
	"epoch": 2.641267808548103,
	"grad_norm": 5.3200459480285645,
	"learning_rate": 3.6793710981271014e-05,
	"loss": 1.1853,
	"num_input_tokens_seen": 143903304,
	"step": 264000
	},
	{
	"epoch": 2.6462702097006563,
	"grad_norm": 4.868594169616699,
	"learning_rate": 3.676869897550825e-05,
	"loss": 1.1924,
	"num_input_tokens_seen": 144176568,
	"step": 264500
	},
	{
	"epoch": 2.6512726108532094,
	"grad_norm": 6.198353290557861,
	"learning_rate": 3.674368696974548e-05,
	"loss": 1.1854,
	"num_input_tokens_seen": 144457912,
	"step": 265000
	},
	{
	"epoch": 2.6562750120057625,
	"grad_norm": 5.720507621765137,
	"learning_rate": 3.671867496398271e-05,
	"loss": 1.1922,
	"num_input_tokens_seen": 144733560,
	"step": 265500
	},
	{
	"epoch": 2.661277413158316,
	"grad_norm": 6.092404365539551,
	"learning_rate": 3.669366295821995e-05,
	"loss": 1.1784,
	"num_input_tokens_seen": 145006896,
	"step": 266000
	},
	{
	"epoch": 2.6662798143108692,
	"grad_norm": 5.7721266746521,
	"learning_rate": 3.666865095245718e-05,
	"loss": 1.1682,
	"num_input_tokens_seen": 145276408,
	"step": 266500
	},
	{
	"epoch": 2.6712822154634224,
	"grad_norm": 5.34429407119751,
	"learning_rate": 3.664363894669442e-05,
	"loss": 1.2014,
	"num_input_tokens_seen": 145549104,
	"step": 267000
	},
	{
	"epoch": 2.676284616615976,
	"grad_norm": 5.627655982971191,
	"learning_rate": 3.661862694093165e-05,
	"loss": 1.1873,
	"num_input_tokens_seen": 145813696,
	"step": 267500
	},
	{
	"epoch": 2.681287017768529,
	"grad_norm": 5.520989894866943,
	"learning_rate": 3.659361493516889e-05,
	"loss": 1.1801,
	"num_input_tokens_seen": 146081824,
	"step": 268000
	},
	{
	"epoch": 2.686289418921082,
	"grad_norm": 5.194046497344971,
	"learning_rate": 3.6568602929406115e-05,
	"loss": 1.2043,
	"num_input_tokens_seen": 146359992,
	"step": 268500
	},
	{
	"epoch": 2.6912918200736353,
	"grad_norm": 7.6289753913879395,
	"learning_rate": 3.654359092364335e-05,
	"loss": 1.1667,
	"num_input_tokens_seen": 146635688,
	"step": 269000
	},
	{
	"epoch": 2.6962942212261884,
	"grad_norm": 6.4248504638671875,
	"learning_rate": 3.6518578917880585e-05,
	"loss": 1.182,
	"num_input_tokens_seen": 146907280,
	"step": 269500
	},
	{
	"epoch": 2.7012966223787416,
	"grad_norm": 7.369548797607422,
	"learning_rate": 3.649356691211781e-05,
	"loss": 1.1863,
	"num_input_tokens_seen": 147180456,
	"step": 270000
	},
	{
	"epoch": 2.706299023531295,
	"grad_norm": 7.325328826904297,
	"learning_rate": 3.646855490635505e-05,
	"loss": 1.1731,
	"num_input_tokens_seen": 147447936,
	"step": 270500
	},
	{
	"epoch": 2.7113014246838483,
	"grad_norm": 6.618239879608154,
	"learning_rate": 3.644354290059229e-05,
	"loss": 1.1898,
	"num_input_tokens_seen": 147714576,
	"step": 271000
	},
	{
	"epoch": 2.7163038258364014,
	"grad_norm": 6.6161932945251465,
	"learning_rate": 3.6418530894829525e-05,
	"loss": 1.1757,
	"num_input_tokens_seen": 147982616,
	"step": 271500
	},
	{
	"epoch": 2.721306226988955,
	"grad_norm": 4.964172840118408,
	"learning_rate": 3.639351888906675e-05,
	"loss": 1.1822,
	"num_input_tokens_seen": 148261928,
	"step": 272000
	},
	{
	"epoch": 2.726308628141508,
	"grad_norm": 5.542762756347656,
	"learning_rate": 3.636850688330399e-05,
	"loss": 1.1979,
	"num_input_tokens_seen": 148537656,
	"step": 272500
	},
	{
	"epoch": 2.731311029294061,
	"grad_norm": 6.122353553771973,
	"learning_rate": 3.634349487754122e-05,
	"loss": 1.1837,
	"num_input_tokens_seen": 148805656,
	"step": 273000
	},
	{
	"epoch": 2.7363134304466143,
	"grad_norm": 5.522734642028809,
	"learning_rate": 3.631848287177845e-05,
	"loss": 1.1755,
	"num_input_tokens_seen": 149071656,
	"step": 273500
	},
	{
	"epoch": 2.7413158315991675,
	"grad_norm": 7.560063362121582,
	"learning_rate": 3.6293470866015686e-05,
	"loss": 1.1801,
	"num_input_tokens_seen": 149339936,
	"step": 274000
	},
	{
	"epoch": 2.7463182327517206,
	"grad_norm": 5.46027135848999,
	"learning_rate": 3.626845886025292e-05,
	"loss": 1.1734,
	"num_input_tokens_seen": 149616152,
	"step": 274500
	},
	{
	"epoch": 2.751320633904274,
	"grad_norm": 5.810853004455566,
	"learning_rate": 3.624344685449016e-05,
	"loss": 1.1806,
	"num_input_tokens_seen": 149886976,
	"step": 275000
	},
	{
	"epoch": 2.7563230350568273,
	"grad_norm": 5.957060813903809,
	"learning_rate": 3.621843484872739e-05,
	"loss": 1.1777,
	"num_input_tokens_seen": 150161384,
	"step": 275500
	},
	{
	"epoch": 2.7613254362093804,
	"grad_norm": 8.7448148727417,
	"learning_rate": 3.6193422842964626e-05,
	"loss": 1.1535,
	"num_input_tokens_seen": 150426192,
	"step": 276000
	},
	{
	"epoch": 2.766327837361934,
	"grad_norm": 6.24728536605835,
	"learning_rate": 3.616841083720186e-05,
	"loss": 1.1741,
	"num_input_tokens_seen": 150694480,
	"step": 276500
	},
	{
	"epoch": 2.771330238514487,
	"grad_norm": 8.271539688110352,
	"learning_rate": 3.614339883143909e-05,
	"loss": 1.1853,
	"num_input_tokens_seen": 150965896,
	"step": 277000
	},
	{
	"epoch": 2.7763326396670402,
	"grad_norm": 6.075042247772217,
	"learning_rate": 3.6118386825676324e-05,
	"loss": 1.1729,
	"num_input_tokens_seen": 151239800,
	"step": 277500
	},
	{
	"epoch": 2.7813350408195934,
	"grad_norm": 7.93595552444458,
	"learning_rate": 3.609337481991356e-05,
	"loss": 1.185,
	"num_input_tokens_seen": 151512560,
	"step": 278000
	},
	{
	"epoch": 2.7863374419721465,
	"grad_norm": 7.406468868255615,
	"learning_rate": 3.6068362814150794e-05,
	"loss": 1.1908,
	"num_input_tokens_seen": 151789264,
	"step": 278500
	},
	{
	"epoch": 2.7913398431246996,
	"grad_norm": 6.6226325035095215,
	"learning_rate": 3.604335080838803e-05,
	"loss": 1.1696,
	"num_input_tokens_seen": 152057600,
	"step": 279000
	},
	{
	"epoch": 2.796342244277253,
	"grad_norm": 5.142138481140137,
	"learning_rate": 3.6018338802625264e-05,
	"loss": 1.1694,
	"num_input_tokens_seen": 152328800,
	"step": 279500
	},
	{
	"epoch": 2.8013446454298063,
	"grad_norm": 6.834789752960205,
	"learning_rate": 3.59933267968625e-05,
	"loss": 1.1798,
	"num_input_tokens_seen": 152610624,
	"step": 280000
	},
	{
	"epoch": 2.8063470465823595,
	"grad_norm": 5.720213890075684,
	"learning_rate": 3.596831479109973e-05,
	"loss": 1.1781,
	"num_input_tokens_seen": 152876576,
	"step": 280500
	},
	{
	"epoch": 2.811349447734913,
	"grad_norm": 6.060703277587891,
	"learning_rate": 3.594330278533696e-05,
	"loss": 1.1781,
	"num_input_tokens_seen": 153146728,
	"step": 281000
	},
	{
	"epoch": 2.816351848887466,
	"grad_norm": 7.374409198760986,
	"learning_rate": 3.59182907795742e-05,
	"loss": 1.1925,
	"num_input_tokens_seen": 153416872,
	"step": 281500
	},
	{
	"epoch": 2.8213542500400193,
	"grad_norm": 6.183439254760742,
	"learning_rate": 3.5893278773811425e-05,
	"loss": 1.1588,
	"num_input_tokens_seen": 153688560,
	"step": 282000
	},
	{
	"epoch": 2.8263566511925724,
	"grad_norm": 7.167964935302734,
	"learning_rate": 3.586826676804867e-05,
	"loss": 1.1799,
	"num_input_tokens_seen": 153968432,
	"step": 282500
	},
	{
	"epoch": 2.8313590523451255,
	"grad_norm": 5.514324188232422,
	"learning_rate": 3.58432547622859e-05,
	"loss": 1.1695,
	"num_input_tokens_seen": 154241312,
	"step": 283000
	},
	{
	"epoch": 2.8363614534976787,
	"grad_norm": 4.6626667976379395,
	"learning_rate": 3.581824275652314e-05,
	"loss": 1.1876,
	"num_input_tokens_seen": 154513432,
	"step": 283500
	},
	{
	"epoch": 2.8413638546502322,
	"grad_norm": 5.130783557891846,
	"learning_rate": 3.5793230750760365e-05,
	"loss": 1.1806,
	"num_input_tokens_seen": 154791160,
	"step": 284000
	},
	{
	"epoch": 2.8463662558027853,
	"grad_norm": 6.905600547790527,
	"learning_rate": 3.57682187449976e-05,
	"loss": 1.1774,
	"num_input_tokens_seen": 155060824,
	"step": 284500
	},
	{
	"epoch": 2.8513686569553385,
	"grad_norm": 5.459284782409668,
	"learning_rate": 3.5743206739234835e-05,
	"loss": 1.17,
	"num_input_tokens_seen": 155335544,
	"step": 285000
	},
	{
	"epoch": 2.856371058107892,
	"grad_norm": 6.299667835235596,
	"learning_rate": 3.571819473347206e-05,
	"loss": 1.1751,
	"num_input_tokens_seen": 155613112,
	"step": 285500
	},
	{
	"epoch": 2.861373459260445,
	"grad_norm": 5.297176361083984,
	"learning_rate": 3.56931827277093e-05,
	"loss": 1.173,
	"num_input_tokens_seen": 155888552,
	"step": 286000
	},
	{
	"epoch": 2.8663758604129983,
	"grad_norm": 7.074682712554932,
	"learning_rate": 3.566817072194654e-05,
	"loss": 1.1753,
	"num_input_tokens_seen": 156163384,
	"step": 286500
	},
	{
	"epoch": 2.8713782615655514,
	"grad_norm": 7.402191638946533,
	"learning_rate": 3.5643158716183775e-05,
	"loss": 1.1763,
	"num_input_tokens_seen": 156433192,
	"step": 287000
	},
	{
	"epoch": 2.8763806627181046,
	"grad_norm": 6.5372419357299805,
	"learning_rate": 3.5618146710421e-05,
	"loss": 1.1931,
	"num_input_tokens_seen": 156704752,
	"step": 287500
	},
	{
	"epoch": 2.8813830638706577,
	"grad_norm": 6.030176162719727,
	"learning_rate": 3.559313470465824e-05,
	"loss": 1.1808,
	"num_input_tokens_seen": 156979192,
	"step": 288000
	},
	{
	"epoch": 2.8863854650232112,
	"grad_norm": 5.74777364730835,
	"learning_rate": 3.556812269889547e-05,
	"loss": 1.1693,
	"num_input_tokens_seen": 157251448,
	"step": 288500
	},
	{
	"epoch": 2.8913878661757644,
	"grad_norm": 5.995535373687744,
	"learning_rate": 3.55431106931327e-05,
	"loss": 1.1637,
	"num_input_tokens_seen": 157518624,
	"step": 289000
	},
	{
	"epoch": 2.8963902673283175,
	"grad_norm": 7.268390655517578,
	"learning_rate": 3.5518098687369936e-05,
	"loss": 1.171,
	"num_input_tokens_seen": 157789104,
	"step": 289500
	},
	{
	"epoch": 2.901392668480871,
	"grad_norm": 6.150352478027344,
	"learning_rate": 3.549308668160717e-05,
	"loss": 1.1607,
	"num_input_tokens_seen": 158064360,
	"step": 290000
	},
	{
	"epoch": 2.906395069633424,
	"grad_norm": 9.338305473327637,
	"learning_rate": 3.5468074675844406e-05,
	"loss": 1.1777,
	"num_input_tokens_seen": 158337456,
	"step": 290500
	},
	{
	"epoch": 2.9113974707859773,
	"grad_norm": 7.0623674392700195,
	"learning_rate": 3.544306267008164e-05,
	"loss": 1.1673,
	"num_input_tokens_seen": 158610232,
	"step": 291000
	},
	{
	"epoch": 2.9163998719385305,
	"grad_norm": 6.665122985839844,
	"learning_rate": 3.5418050664318876e-05,
	"loss": 1.1764,
	"num_input_tokens_seen": 158883800,
	"step": 291500
	},
	{
	"epoch": 2.9214022730910836,
	"grad_norm": 5.489156723022461,
	"learning_rate": 3.539303865855611e-05,
	"loss": 1.1674,
	"num_input_tokens_seen": 159156920,
	"step": 292000
	},
	{
	"epoch": 2.9264046742436367,
	"grad_norm": 4.9325456619262695,
	"learning_rate": 3.536802665279334e-05,
	"loss": 1.1724,
	"num_input_tokens_seen": 159422696,
	"step": 292500
	},
	{
	"epoch": 2.9314070753961903,
	"grad_norm": 4.590809345245361,
	"learning_rate": 3.5343014647030574e-05,
	"loss": 1.1691,
	"num_input_tokens_seen": 159694472,
	"step": 293000
	},
	{
	"epoch": 2.9364094765487434,
	"grad_norm": 5.634531497955322,
	"learning_rate": 3.531800264126781e-05,
	"loss": 1.1875,
	"num_input_tokens_seen": 159966504,
	"step": 293500
	},
	{
	"epoch": 2.9414118777012965,
	"grad_norm": 7.636883735656738,
	"learning_rate": 3.5292990635505044e-05,
	"loss": 1.1771,
	"num_input_tokens_seen": 160236568,
	"step": 294000
	},
	{
	"epoch": 2.94641427885385,
	"grad_norm": 4.785983562469482,
	"learning_rate": 3.526797862974228e-05,
	"loss": 1.1746,
	"num_input_tokens_seen": 160505800,
	"step": 294500
	},
	{
	"epoch": 2.9514166800064032,
	"grad_norm": 5.1736931800842285,
	"learning_rate": 3.5242966623979514e-05,
	"loss": 1.1753,
	"num_input_tokens_seen": 160785240,
	"step": 295000
	},
	{
	"epoch": 2.9564190811589564,
	"grad_norm": 6.308248519897461,
	"learning_rate": 3.521795461821675e-05,
	"loss": 1.1851,
	"num_input_tokens_seen": 161049888,
	"step": 295500
	},
	{
	"epoch": 2.9614214823115095,
	"grad_norm": 6.6797404289245605,
	"learning_rate": 3.519294261245398e-05,
	"loss": 1.1486,
	"num_input_tokens_seen": 161316952,
	"step": 296000
	},
	{
	"epoch": 2.9664238834640626,
	"grad_norm": 5.875812530517578,
	"learning_rate": 3.516793060669121e-05,
	"loss": 1.1689,
	"num_input_tokens_seen": 161584440,
	"step": 296500
	},
	{
	"epoch": 2.9714262846166157,
	"grad_norm": 6.539891719818115,
	"learning_rate": 3.514291860092845e-05,
	"loss": 1.1567,
	"num_input_tokens_seen": 161861384,
	"step": 297000
	},
	{
	"epoch": 2.9764286857691693,
	"grad_norm": 4.355959415435791,
	"learning_rate": 3.511790659516568e-05,
	"loss": 1.1654,
	"num_input_tokens_seen": 162134976,
	"step": 297500
	},
	{
	"epoch": 2.9814310869217224,
	"grad_norm": 8.101115226745605,
	"learning_rate": 3.509289458940292e-05,
	"loss": 1.1749,
	"num_input_tokens_seen": 162408584,
	"step": 298000
	},
	{
	"epoch": 2.9864334880742756,
	"grad_norm": 6.168905735015869,
	"learning_rate": 3.506788258364015e-05,
	"loss": 1.1823,
	"num_input_tokens_seen": 162688056,
	"step": 298500
	},
	{
	"epoch": 2.991435889226829,
	"grad_norm": 6.624521255493164,
	"learning_rate": 3.504287057787739e-05,
	"loss": 1.1709,
	"num_input_tokens_seen": 162956872,
	"step": 299000
	},
	{
	"epoch": 2.9964382903793823,
	"grad_norm": 6.812922954559326,
	"learning_rate": 3.5017858572114615e-05,
	"loss": 1.1728,
	"num_input_tokens_seen": 163231632,
	"step": 299500
	},
	{
	"epoch": 3.0,
	"eval_loss": 1.1232455968856812,
	"eval_runtime": 186.7896,
	"eval_samples_per_second": 1070.215,
	"eval_steps_per_second": 133.782,
	"num_input_tokens_seen": 163424808,
	"step": 299856
	},
	{
	"epoch": 3.0014406915319354,
	"grad_norm": 4.925895690917969,
	"learning_rate": 3.499284656635185e-05,
	"loss": 1.1557,
	"num_input_tokens_seen": 163507488,
	"step": 300000
	},
	{
	"epoch": 3.0064430926844885,
	"grad_norm": 4.663059234619141,
	"learning_rate": 3.4967834560589085e-05,
	"loss": 1.0655,
	"num_input_tokens_seen": 163782720,
	"step": 300500
	},
	{
	"epoch": 3.0114454938370416,
	"grad_norm": 7.381974220275879,
	"learning_rate": 3.494282255482632e-05,
	"loss": 1.0891,
	"num_input_tokens_seen": 164062072,
	"step": 301000
	},
	{
	"epoch": 3.016447894989595,
	"grad_norm": 6.4466094970703125,
	"learning_rate": 3.491781054906355e-05,
	"loss": 1.074,
	"num_input_tokens_seen": 164336176,
	"step": 301500
	},
	{
	"epoch": 3.0214502961421483,
	"grad_norm": 5.126181602478027,
	"learning_rate": 3.489279854330078e-05,
	"loss": 1.0666,
	"num_input_tokens_seen": 164610040,
	"step": 302000
	},
	{
	"epoch": 3.0264526972947015,
	"grad_norm": 5.322078227996826,
	"learning_rate": 3.4867786537538025e-05,
	"loss": 1.0837,
	"num_input_tokens_seen": 164887400,
	"step": 302500
	},
	{
	"epoch": 3.0314550984472546,
	"grad_norm": 5.671963691711426,
	"learning_rate": 3.484277453177525e-05,
	"loss": 1.0829,
	"num_input_tokens_seen": 165162256,
	"step": 303000
	},
	{
	"epoch": 3.0364574995998077,
	"grad_norm": 4.6445441246032715,
	"learning_rate": 3.481776252601249e-05,
	"loss": 1.0771,
	"num_input_tokens_seen": 165430680,
	"step": 303500
	},
	{
	"epoch": 3.0414599007523613,
	"grad_norm": 5.632525444030762,
	"learning_rate": 3.479275052024972e-05,
	"loss": 1.0893,
	"num_input_tokens_seen": 165706048,
	"step": 304000
	},
	{
	"epoch": 3.0464623019049144,
	"grad_norm": 4.770864963531494,
	"learning_rate": 3.476773851448695e-05,
	"loss": 1.0772,
	"num_input_tokens_seen": 165979496,
	"step": 304500
	},
	{
	"epoch": 3.0514647030574675,
	"grad_norm": 7.340290546417236,
	"learning_rate": 3.4742726508724186e-05,
	"loss": 1.0851,
	"num_input_tokens_seen": 166256376,
	"step": 305000
	},
	{
	"epoch": 3.0564671042100207,
	"grad_norm": 5.2338080406188965,
	"learning_rate": 3.471771450296142e-05,
	"loss": 1.0949,
	"num_input_tokens_seen": 166529712,
	"step": 305500
	},
	{
	"epoch": 3.0614695053625742,
	"grad_norm": 5.540538311004639,
	"learning_rate": 3.4692702497198656e-05,
	"loss": 1.0929,
	"num_input_tokens_seen": 166795520,
	"step": 306000
	},
	{
	"epoch": 3.0664719065151274,
	"grad_norm": 6.512203693389893,
	"learning_rate": 3.466769049143589e-05,
	"loss": 1.075,
	"num_input_tokens_seen": 167066728,
	"step": 306500
	},
	{
	"epoch": 3.0714743076676805,
	"grad_norm": 5.783512592315674,
	"learning_rate": 3.4642678485673126e-05,
	"loss": 1.0749,
	"num_input_tokens_seen": 167335800,
	"step": 307000
	},
	{
	"epoch": 3.0764767088202336,
	"grad_norm": 5.550832271575928,
	"learning_rate": 3.461766647991036e-05,
	"loss": 1.0886,
	"num_input_tokens_seen": 167610656,
	"step": 307500
	},
	{
	"epoch": 3.0814791099727867,
	"grad_norm": 5.394260883331299,
	"learning_rate": 3.459265447414759e-05,
	"loss": 1.0906,
	"num_input_tokens_seen": 167882480,
	"step": 308000
	},
	{
	"epoch": 3.0864815111253403,
	"grad_norm": 5.690032005310059,
	"learning_rate": 3.4567642468384824e-05,
	"loss": 1.0851,
	"num_input_tokens_seen": 168156832,
	"step": 308500
	},
	{
	"epoch": 3.0914839122778934,
	"grad_norm": 6.620737552642822,
	"learning_rate": 3.454263046262206e-05,
	"loss": 1.0931,
	"num_input_tokens_seen": 168435520,
	"step": 309000
	},
	{
	"epoch": 3.0964863134304466,
	"grad_norm": 6.105669021606445,
	"learning_rate": 3.4517618456859294e-05,
	"loss": 1.0755,
	"num_input_tokens_seen": 168708304,
	"step": 309500
	},
	{
	"epoch": 3.1014887145829997,
	"grad_norm": 6.636053562164307,
	"learning_rate": 3.449260645109653e-05,
	"loss": 1.08,
	"num_input_tokens_seen": 168969008,
	"step": 310000
	},
	{
	"epoch": 3.1064911157355533,
	"grad_norm": 7.361510753631592,
	"learning_rate": 3.4467594445333764e-05,
	"loss": 1.0981,
	"num_input_tokens_seen": 169241920,
	"step": 310500
	},
	{
	"epoch": 3.1114935168881064,
	"grad_norm": 4.566134929656982,
	"learning_rate": 3.4442582439571e-05,
	"loss": 1.0713,
	"num_input_tokens_seen": 169520520,
	"step": 311000
	},
	{
	"epoch": 3.1164959180406595,
	"grad_norm": 5.323643207550049,
	"learning_rate": 3.441757043380823e-05,
	"loss": 1.0884,
	"num_input_tokens_seen": 169794728,
	"step": 311500
	},
	{
	"epoch": 3.1214983191932126,
	"grad_norm": 5.005212306976318,
	"learning_rate": 3.439255842804546e-05,
	"loss": 1.0817,
	"num_input_tokens_seen": 170074952,
	"step": 312000
	},
	{
	"epoch": 3.1265007203457658,
	"grad_norm": 6.78676176071167,
	"learning_rate": 3.43675464222827e-05,
	"loss": 1.1067,
	"num_input_tokens_seen": 170350784,
	"step": 312500
	},
	{
	"epoch": 3.1315031214983193,
	"grad_norm": 5.532153129577637,
	"learning_rate": 3.434253441651993e-05,
	"loss": 1.0729,
	"num_input_tokens_seen": 170621008,
	"step": 313000
	},
	{
	"epoch": 3.1365055226508725,
	"grad_norm": 6.041494369506836,
	"learning_rate": 3.431752241075716e-05,
	"loss": 1.0667,
	"num_input_tokens_seen": 170896544,
	"step": 313500
	},
	{
	"epoch": 3.1415079238034256,
	"grad_norm": 5.707986831665039,
	"learning_rate": 3.42925104049944e-05,
	"loss": 1.0803,
	"num_input_tokens_seen": 171167464,
	"step": 314000
	},
	{
	"epoch": 3.1465103249559787,
	"grad_norm": 6.608933925628662,
	"learning_rate": 3.426749839923164e-05,
	"loss": 1.0944,
	"num_input_tokens_seen": 171437824,
	"step": 314500
	},
	{
	"epoch": 3.1515127261085323,
	"grad_norm": 4.988198280334473,
	"learning_rate": 3.4242486393468865e-05,
	"loss": 1.0928,
	"num_input_tokens_seen": 171713920,
	"step": 315000
	},
	{
	"epoch": 3.1565151272610854,
	"grad_norm": 5.763394832611084,
	"learning_rate": 3.42174743877061e-05,
	"loss": 1.0655,
	"num_input_tokens_seen": 171991720,
	"step": 315500
	},
	{
	"epoch": 3.1615175284136385,
	"grad_norm": 6.287621974945068,
	"learning_rate": 3.4192462381943335e-05,
	"loss": 1.1027,
	"num_input_tokens_seen": 172269040,
	"step": 316000
	},
	{
	"epoch": 3.1665199295661917,
	"grad_norm": 7.083132266998291,
	"learning_rate": 3.416745037618057e-05,
	"loss": 1.097,
	"num_input_tokens_seen": 172556304,
	"step": 316500
	},
	{
	"epoch": 3.1715223307187452,
	"grad_norm": 5.856710433959961,
	"learning_rate": 3.41424383704178e-05,
	"loss": 1.0848,
	"num_input_tokens_seen": 172825392,
	"step": 317000
	},
	{
	"epoch": 3.1765247318712984,
	"grad_norm": 5.9765849113464355,
	"learning_rate": 3.4117426364655033e-05,
	"loss": 1.0959,
	"num_input_tokens_seen": 173095280,
	"step": 317500
	},
	{
	"epoch": 3.1815271330238515,
	"grad_norm": 7.099453926086426,
	"learning_rate": 3.409241435889227e-05,
	"loss": 1.0853,
	"num_input_tokens_seen": 173365904,
	"step": 318000
	},
	{
	"epoch": 3.1865295341764046,
	"grad_norm": 6.180022239685059,
	"learning_rate": 3.40674023531295e-05,
	"loss": 1.0783,
	"num_input_tokens_seen": 173632760,
	"step": 318500
	},
	{
	"epoch": 3.1915319353289577,
	"grad_norm": 5.463505744934082,
	"learning_rate": 3.404239034736674e-05,
	"loss": 1.0838,
	"num_input_tokens_seen": 173903984,
	"step": 319000
	},
	{
	"epoch": 3.1965343364815113,
	"grad_norm": 5.173684120178223,
	"learning_rate": 3.401737834160397e-05,
	"loss": 1.1002,
	"num_input_tokens_seen": 174179216,
	"step": 319500
	},
	{
	"epoch": 3.2015367376340644,
	"grad_norm": 7.594663619995117,
	"learning_rate": 3.399236633584121e-05,
	"loss": 1.096,
	"num_input_tokens_seen": 174445040,
	"step": 320000
	},
	{
	"epoch": 3.2065391387866176,
	"grad_norm": 6.0014262199401855,
	"learning_rate": 3.3967354330078436e-05,
	"loss": 1.0874,
	"num_input_tokens_seen": 174714360,
	"step": 320500
	},
	{
	"epoch": 3.2115415399391707,
	"grad_norm": 6.118896961212158,
	"learning_rate": 3.394234232431567e-05,
	"loss": 1.0911,
	"num_input_tokens_seen": 174982632,
	"step": 321000
	},
	{
	"epoch": 3.2165439410917243,
	"grad_norm": 6.8333587646484375,
	"learning_rate": 3.3917330318552906e-05,
	"loss": 1.1197,
	"num_input_tokens_seen": 175255784,
	"step": 321500
	},
	{
	"epoch": 3.2215463422442774,
	"grad_norm": 4.892594337463379,
	"learning_rate": 3.389231831279014e-05,
	"loss": 1.1041,
	"num_input_tokens_seen": 175526640,
	"step": 322000
	},
	{
	"epoch": 3.2265487433968305,
	"grad_norm": 5.051529884338379,
	"learning_rate": 3.3867306307027376e-05,
	"loss": 1.102,
	"num_input_tokens_seen": 175794768,
	"step": 322500
	},
	{
	"epoch": 3.2315511445493836,
	"grad_norm": 5.638453960418701,
	"learning_rate": 3.384229430126461e-05,
	"loss": 1.1116,
	"num_input_tokens_seen": 176065112,
	"step": 323000
	},
	{
	"epoch": 3.2365535457019368,
	"grad_norm": 7.20506477355957,
	"learning_rate": 3.381728229550184e-05,
	"loss": 1.0918,
	"num_input_tokens_seen": 176336008,
	"step": 323500
	},
	{
	"epoch": 3.2415559468544903,
	"grad_norm": 7.046761512756348,
	"learning_rate": 3.3792270289739074e-05,
	"loss": 1.0734,
	"num_input_tokens_seen": 176605936,
	"step": 324000
	},
	{
	"epoch": 3.2465583480070435,
	"grad_norm": 6.106048107147217,
	"learning_rate": 3.376725828397631e-05,
	"loss": 1.0953,
	"num_input_tokens_seen": 176880432,
	"step": 324500
	},
	{
	"epoch": 3.2515607491595966,
	"grad_norm": 6.578117847442627,
	"learning_rate": 3.3742246278213544e-05,
	"loss": 1.0973,
	"num_input_tokens_seen": 177149064,
	"step": 325000
	},
	{
	"epoch": 3.2565631503121497,
	"grad_norm": 5.515709400177002,
	"learning_rate": 3.371723427245078e-05,
	"loss": 1.1044,
	"num_input_tokens_seen": 177427928,
	"step": 325500
	},
	{
	"epoch": 3.2615655514647033,
	"grad_norm": 6.71830940246582,
	"learning_rate": 3.3692222266688014e-05,
	"loss": 1.0983,
	"num_input_tokens_seen": 177700128,
	"step": 326000
	},
	{
	"epoch": 3.2665679526172564,
	"grad_norm": 6.004988670349121,
	"learning_rate": 3.366721026092525e-05,
	"loss": 1.0844,
	"num_input_tokens_seen": 177979224,
	"step": 326500
	},
	{
	"epoch": 3.2715703537698095,
	"grad_norm": 6.418676376342773,
	"learning_rate": 3.364219825516248e-05,
	"loss": 1.0996,
	"num_input_tokens_seen": 178254504,
	"step": 327000
	},
	{
	"epoch": 3.2765727549223627,
	"grad_norm": 6.826735973358154,
	"learning_rate": 3.361718624939971e-05,
	"loss": 1.086,
	"num_input_tokens_seen": 178527880,
	"step": 327500
	},
	{
	"epoch": 3.281575156074916,
	"grad_norm": 7.035877704620361,
	"learning_rate": 3.359217424363695e-05,
	"loss": 1.0919,
	"num_input_tokens_seen": 178801256,
	"step": 328000
	},
	{
	"epoch": 3.2865775572274694,
	"grad_norm": 7.336743354797363,
	"learning_rate": 3.356716223787418e-05,
	"loss": 1.1121,
	"num_input_tokens_seen": 179072160,
	"step": 328500
	},
	{
	"epoch": 3.2915799583800225,
	"grad_norm": 5.2435383796691895,
	"learning_rate": 3.354215023211141e-05,
	"loss": 1.0915,
	"num_input_tokens_seen": 179344440,
	"step": 329000
	},
	{
	"epoch": 3.2965823595325756,
	"grad_norm": 7.368856906890869,
	"learning_rate": 3.3517138226348646e-05,
	"loss": 1.0991,
	"num_input_tokens_seen": 179619064,
	"step": 329500
	},
	{
	"epoch": 3.3015847606851287,
	"grad_norm": 6.245655059814453,
	"learning_rate": 3.349212622058589e-05,
	"loss": 1.0883,
	"num_input_tokens_seen": 179888680,
	"step": 330000
	},
	{
	"epoch": 3.3065871618376823,
	"grad_norm": 6.055501461029053,
	"learning_rate": 3.3467114214823116e-05,
	"loss": 1.0854,
	"num_input_tokens_seen": 180162488,
	"step": 330500
	},
	{
	"epoch": 3.3115895629902354,
	"grad_norm": 5.36578893661499,
	"learning_rate": 3.344210220906035e-05,
	"loss": 1.0829,
	"num_input_tokens_seen": 180435488,
	"step": 331000
	},
	{
	"epoch": 3.3165919641427886,
	"grad_norm": 4.865072727203369,
	"learning_rate": 3.3417090203297585e-05,
	"loss": 1.0914,
	"num_input_tokens_seen": 180708088,
	"step": 331500
	},
	{
	"epoch": 3.3215943652953417,
	"grad_norm": 5.984726428985596,
	"learning_rate": 3.339207819753482e-05,
	"loss": 1.0988,
	"num_input_tokens_seen": 180972032,
	"step": 332000
	},
	{
	"epoch": 3.326596766447895,
	"grad_norm": 6.17361307144165,
	"learning_rate": 3.336706619177205e-05,
	"loss": 1.1045,
	"num_input_tokens_seen": 181243824,
	"step": 332500
	},
	{
	"epoch": 3.3315991676004484,
	"grad_norm": 5.614140510559082,
	"learning_rate": 3.3342054186009284e-05,
	"loss": 1.1017,
	"num_input_tokens_seen": 181516200,
	"step": 333000
	},
	{
	"epoch": 3.3366015687530015,
	"grad_norm": 6.182852268218994,
	"learning_rate": 3.331704218024652e-05,
	"loss": 1.104,
	"num_input_tokens_seen": 181789432,
	"step": 333500
	},
	{
	"epoch": 3.3416039699055546,
	"grad_norm": 6.281063079833984,
	"learning_rate": 3.3292030174483754e-05,
	"loss": 1.1114,
	"num_input_tokens_seen": 182061728,
	"step": 334000
	},
	{
	"epoch": 3.3466063710581078,
	"grad_norm": 5.531891822814941,
	"learning_rate": 3.326701816872099e-05,
	"loss": 1.0908,
	"num_input_tokens_seen": 182340072,
	"step": 334500
	},
	{
	"epoch": 3.3516087722106613,
	"grad_norm": 5.755847930908203,
	"learning_rate": 3.3242006162958223e-05,
	"loss": 1.0978,
	"num_input_tokens_seen": 182603520,
	"step": 335000
	},
	{
	"epoch": 3.3566111733632145,
	"grad_norm": 5.261629104614258,
	"learning_rate": 3.321699415719546e-05,
	"loss": 1.089,
	"num_input_tokens_seen": 182871456,
	"step": 335500
	},
	{
	"epoch": 3.3616135745157676,
	"grad_norm": 9.492514610290527,
	"learning_rate": 3.319198215143269e-05,
	"loss": 1.0943,
	"num_input_tokens_seen": 183145224,
	"step": 336000
	},
	{
	"epoch": 3.3666159756683207,
	"grad_norm": 5.316561222076416,
	"learning_rate": 3.316697014566992e-05,
	"loss": 1.1153,
	"num_input_tokens_seen": 183418328,
	"step": 336500
	},
	{
	"epoch": 3.371618376820874,
	"grad_norm": 4.869199275970459,
	"learning_rate": 3.3141958139907157e-05,
	"loss": 1.0922,
	"num_input_tokens_seen": 183701552,
	"step": 337000
	},
	{
	"epoch": 3.3766207779734274,
	"grad_norm": 5.928160667419434,
	"learning_rate": 3.311694613414439e-05,
	"loss": 1.1058,
	"num_input_tokens_seen": 183971600,
	"step": 337500
	},
	{
	"epoch": 3.3816231791259805,
	"grad_norm": 5.425112724304199,
	"learning_rate": 3.3091934128381626e-05,
	"loss": 1.0863,
	"num_input_tokens_seen": 184239416,
	"step": 338000
	},
	{
	"epoch": 3.3866255802785337,
	"grad_norm": 5.094555854797363,
	"learning_rate": 3.306692212261886e-05,
	"loss": 1.0826,
	"num_input_tokens_seen": 184503600,
	"step": 338500
	},
	{
	"epoch": 3.391627981431087,
	"grad_norm": 6.472997665405273,
	"learning_rate": 3.3041910116856096e-05,
	"loss": 1.0987,
	"num_input_tokens_seen": 184777584,
	"step": 339000
	},
	{
	"epoch": 3.3966303825836404,
	"grad_norm": 5.41008996963501,
	"learning_rate": 3.3016898111093325e-05,
	"loss": 1.1025,
	"num_input_tokens_seen": 185048208,
	"step": 339500
	},
	{
	"epoch": 3.4016327837361935,
	"grad_norm": 6.235612869262695,
	"learning_rate": 3.299188610533056e-05,
	"loss": 1.1097,
	"num_input_tokens_seen": 185317376,
	"step": 340000
	},
	{
	"epoch": 3.4066351848887466,
	"grad_norm": 5.876267910003662,
	"learning_rate": 3.2966874099567795e-05,
	"loss": 1.111,
	"num_input_tokens_seen": 185588416,
	"step": 340500
	},
	{
	"epoch": 3.4116375860412997,
	"grad_norm": 4.517580032348633,
	"learning_rate": 3.294186209380502e-05,
	"loss": 1.0877,
	"num_input_tokens_seen": 185855440,
	"step": 341000
	},
	{
	"epoch": 3.416639987193853,
	"grad_norm": 7.28811502456665,
	"learning_rate": 3.2916850088042264e-05,
	"loss": 1.1021,
	"num_input_tokens_seen": 186125800,
	"step": 341500
	},
	{
	"epoch": 3.4216423883464064,
	"grad_norm": 7.394123077392578,
	"learning_rate": 3.28918380822795e-05,
	"loss": 1.1103,
	"num_input_tokens_seen": 186390984,
	"step": 342000
	},
	{
	"epoch": 3.4266447894989596,
	"grad_norm": 6.393476963043213,
	"learning_rate": 3.286682607651673e-05,
	"loss": 1.0946,
	"num_input_tokens_seen": 186659016,
	"step": 342500
	},
	{
	"epoch": 3.4316471906515127,
	"grad_norm": 5.5101470947265625,
	"learning_rate": 3.284181407075396e-05,
	"loss": 1.1031,
	"num_input_tokens_seen": 186933800,
	"step": 343000
	},
	{
	"epoch": 3.436649591804066,
	"grad_norm": 5.820064067840576,
	"learning_rate": 3.28168020649912e-05,
	"loss": 1.0992,
	"num_input_tokens_seen": 187203688,
	"step": 343500
	},
	{
	"epoch": 3.4416519929566194,
	"grad_norm": 4.500607013702393,
	"learning_rate": 3.279179005922843e-05,
	"loss": 1.1083,
	"num_input_tokens_seen": 187477344,
	"step": 344000
	},
	{
	"epoch": 3.4466543941091725,
	"grad_norm": 6.536877632141113,
	"learning_rate": 3.276677805346566e-05,
	"loss": 1.0988,
	"num_input_tokens_seen": 187753544,
	"step": 344500
	},
	{
	"epoch": 3.4516567952617256,
	"grad_norm": 6.723674774169922,
	"learning_rate": 3.2741766047702896e-05,
	"loss": 1.0814,
	"num_input_tokens_seen": 188027648,
	"step": 345000
	},
	{
	"epoch": 3.4566591964142788,
	"grad_norm": 5.175849437713623,
	"learning_rate": 3.271675404194014e-05,
	"loss": 1.1108,
	"num_input_tokens_seen": 188298976,
	"step": 345500
	},
	{
	"epoch": 3.461661597566832,
	"grad_norm": 4.006369590759277,
	"learning_rate": 3.2691742036177366e-05,
	"loss": 1.102,
	"num_input_tokens_seen": 188573952,
	"step": 346000
	},
	{
	"epoch": 3.4666639987193855,
	"grad_norm": 5.444148063659668,
	"learning_rate": 3.26667300304146e-05,
	"loss": 1.0963,
	"num_input_tokens_seen": 188843992,
	"step": 346500
	},
	{
	"epoch": 3.4716663998719386,
	"grad_norm": 6.093343257904053,
	"learning_rate": 3.2641718024651836e-05,
	"loss": 1.1117,
	"num_input_tokens_seen": 189117128,
	"step": 347000
	},
	{
	"epoch": 3.4766688010244917,
	"grad_norm": 5.752835750579834,
	"learning_rate": 3.261670601888907e-05,
	"loss": 1.0973,
	"num_input_tokens_seen": 189389104,
	"step": 347500
	},
	{
	"epoch": 3.481671202177045,
	"grad_norm": 4.975690841674805,
	"learning_rate": 3.25916940131263e-05,
	"loss": 1.1074,
	"num_input_tokens_seen": 189665040,
	"step": 348000
	},
	{
	"epoch": 3.4866736033295984,
	"grad_norm": 5.228826999664307,
	"learning_rate": 3.2566682007363534e-05,
	"loss": 1.0942,
	"num_input_tokens_seen": 189939112,
	"step": 348500
	},
	{
	"epoch": 3.4916760044821515,
	"grad_norm": 5.240488052368164,
	"learning_rate": 3.254167000160077e-05,
	"loss": 1.1023,
	"num_input_tokens_seen": 190214888,
	"step": 349000
	},
	{
	"epoch": 3.4966784056347047,
	"grad_norm": 6.247119903564453,
	"learning_rate": 3.2516657995838004e-05,
	"loss": 1.1001,
	"num_input_tokens_seen": 190486416,
	"step": 349500
	},
	{
	"epoch": 3.501680806787258,
	"grad_norm": 7.789793968200684,
	"learning_rate": 3.249164599007524e-05,
	"loss": 1.1066,
	"num_input_tokens_seen": 190761576,
	"step": 350000
	},
	{
	"epoch": 3.506683207939811,
	"grad_norm": 4.448274612426758,
	"learning_rate": 3.2466633984312474e-05,
	"loss": 1.1009,
	"num_input_tokens_seen": 191031280,
	"step": 350500
	},
	{
	"epoch": 3.5116856090923645,
	"grad_norm": 7.334349632263184,
	"learning_rate": 3.244162197854971e-05,
	"loss": 1.1059,
	"num_input_tokens_seen": 191300640,
	"step": 351000
	},
	{
	"epoch": 3.5166880102449176,
	"grad_norm": 6.003718852996826,
	"learning_rate": 3.241660997278694e-05,
	"loss": 1.097,
	"num_input_tokens_seen": 191573504,
	"step": 351500
	},
	{
	"epoch": 3.5216904113974707,
	"grad_norm": 5.930721759796143,
	"learning_rate": 3.239159796702417e-05,
	"loss": 1.0897,
	"num_input_tokens_seen": 191844912,
	"step": 352000
	},
	{
	"epoch": 3.526692812550024,
	"grad_norm": 4.852160453796387,
	"learning_rate": 3.236658596126141e-05,
	"loss": 1.0989,
	"num_input_tokens_seen": 192115928,
	"step": 352500
	},
	{
	"epoch": 3.5316952137025774,
	"grad_norm": 5.043008327484131,
	"learning_rate": 3.234157395549864e-05,
	"loss": 1.0835,
	"num_input_tokens_seen": 192381304,
	"step": 353000
	},
	{
	"epoch": 3.5366976148551306,
	"grad_norm": 5.529479503631592,
	"learning_rate": 3.231656194973588e-05,
	"loss": 1.1085,
	"num_input_tokens_seen": 192651760,
	"step": 353500
	},
	{
	"epoch": 3.5417000160076837,
	"grad_norm": 6.701032638549805,
	"learning_rate": 3.229154994397311e-05,
	"loss": 1.1058,
	"num_input_tokens_seen": 192924280,
	"step": 354000
	},
	{
	"epoch": 3.546702417160237,
	"grad_norm": 6.587806224822998,
	"learning_rate": 3.2266537938210347e-05,
	"loss": 1.0952,
	"num_input_tokens_seen": 193194504,
	"step": 354500
	},
	{
	"epoch": 3.55170481831279,
	"grad_norm": 5.651816368103027,
	"learning_rate": 3.2241525932447575e-05,
	"loss": 1.0987,
	"num_input_tokens_seen": 193457896,
	"step": 355000
	},
	{
	"epoch": 3.5567072194653435,
	"grad_norm": 4.911685943603516,
	"learning_rate": 3.221651392668481e-05,
	"loss": 1.0894,
	"num_input_tokens_seen": 193726256,
	"step": 355500
	},
	{
	"epoch": 3.5617096206178966,
	"grad_norm": 5.760750770568848,
	"learning_rate": 3.2191501920922045e-05,
	"loss": 1.1061,
	"num_input_tokens_seen": 194000904,
	"step": 356000
	},
	{
	"epoch": 3.5667120217704498,
	"grad_norm": 5.3068647384643555,
	"learning_rate": 3.216648991515927e-05,
	"loss": 1.0917,
	"num_input_tokens_seen": 194271728,
	"step": 356500
	},
	{
	"epoch": 3.571714422923003,
	"grad_norm": 5.526483535766602,
	"learning_rate": 3.2141477909396515e-05,
	"loss": 1.0853,
	"num_input_tokens_seen": 194541832,
	"step": 357000
	},
	{
	"epoch": 3.5767168240755565,
	"grad_norm": 6.068410396575928,
	"learning_rate": 3.211646590363375e-05,
	"loss": 1.1037,
	"num_input_tokens_seen": 194815496,
	"step": 357500
	},
	{
	"epoch": 3.5817192252281096,
	"grad_norm": 5.573991775512695,
	"learning_rate": 3.2091453897870985e-05,
	"loss": 1.104,
	"num_input_tokens_seen": 195090856,
	"step": 358000
	},
	{
	"epoch": 3.5867216263806627,
	"grad_norm": 7.24959135055542,
	"learning_rate": 3.206644189210821e-05,
	"loss": 1.1011,
	"num_input_tokens_seen": 195370496,
	"step": 358500
	},
	{
	"epoch": 3.591724027533216,
	"grad_norm": 5.9966535568237305,
	"learning_rate": 3.204142988634545e-05,
	"loss": 1.1042,
	"num_input_tokens_seen": 195642920,
	"step": 359000
	},
	{
	"epoch": 3.596726428685769,
	"grad_norm": 10.24399185180664,
	"learning_rate": 3.201641788058268e-05,
	"loss": 1.1068,
	"num_input_tokens_seen": 195918104,
	"step": 359500
	},
	{
	"epoch": 3.6017288298383225,
	"grad_norm": 6.0826215744018555,
	"learning_rate": 3.199140587481991e-05,
	"loss": 1.0953,
	"num_input_tokens_seen": 196193816,
	"step": 360000
	},
	{
	"epoch": 3.6067312309908757,
	"grad_norm": 5.735098838806152,
	"learning_rate": 3.1966393869057146e-05,
	"loss": 1.0956,
	"num_input_tokens_seen": 196461344,
	"step": 360500
	},
	{
	"epoch": 3.611733632143429,
	"grad_norm": 4.604750156402588,
	"learning_rate": 3.194138186329438e-05,
	"loss": 1.0863,
	"num_input_tokens_seen": 196732248,
	"step": 361000
	},
	{
	"epoch": 3.616736033295982,
	"grad_norm": 5.826147079467773,
	"learning_rate": 3.191636985753162e-05,
	"loss": 1.1043,
	"num_input_tokens_seen": 197008704,
	"step": 361500
	},
	{
	"epoch": 3.6217384344485355,
	"grad_norm": 6.071508884429932,
	"learning_rate": 3.189135785176885e-05,
	"loss": 1.1086,
	"num_input_tokens_seen": 197287472,
	"step": 362000
	},
	{
	"epoch": 3.6267408356010886,
	"grad_norm": 7.109647750854492,
	"learning_rate": 3.1866345846006086e-05,
	"loss": 1.1049,
	"num_input_tokens_seen": 197561376,
	"step": 362500
	},
	{
	"epoch": 3.6317432367536417,
	"grad_norm": 5.95808219909668,
	"learning_rate": 3.184133384024332e-05,
	"loss": 1.1102,
	"num_input_tokens_seen": 197833112,
	"step": 363000
	},
	{
	"epoch": 3.636745637906195,
	"grad_norm": 5.6464080810546875,
	"learning_rate": 3.181632183448055e-05,
	"loss": 1.1011,
	"num_input_tokens_seen": 198108448,
	"step": 363500
	},
	{
	"epoch": 3.641748039058748,
	"grad_norm": 6.354126453399658,
	"learning_rate": 3.1791309828717784e-05,
	"loss": 1.1115,
	"num_input_tokens_seen": 198384984,
	"step": 364000
	},
	{
	"epoch": 3.6467504402113016,
	"grad_norm": 4.0459394454956055,
	"learning_rate": 3.176629782295502e-05,
	"loss": 1.0864,
	"num_input_tokens_seen": 198658952,
	"step": 364500
	},
	{
	"epoch": 3.6517528413638547,
	"grad_norm": 5.361639022827148,
	"learning_rate": 3.1741285817192254e-05,
	"loss": 1.0827,
	"num_input_tokens_seen": 198924888,
	"step": 365000
	},
	{
	"epoch": 3.656755242516408,
	"grad_norm": 5.508306503295898,
	"learning_rate": 3.171627381142949e-05,
	"loss": 1.1204,
	"num_input_tokens_seen": 199201528,
	"step": 365500
	},
	{
	"epoch": 3.661757643668961,
	"grad_norm": 5.771850109100342,
	"learning_rate": 3.1691261805666724e-05,
	"loss": 1.0936,
	"num_input_tokens_seen": 199477568,
	"step": 366000
	},
	{
	"epoch": 3.6667600448215145,
	"grad_norm": 5.311666011810303,
	"learning_rate": 3.166624979990396e-05,
	"loss": 1.0837,
	"num_input_tokens_seen": 199742528,
	"step": 366500
	},
	{
	"epoch": 3.6717624459740676,
	"grad_norm": 6.869203090667725,
	"learning_rate": 3.164123779414119e-05,
	"loss": 1.0877,
	"num_input_tokens_seen": 200016352,
	"step": 367000
	},
	{
	"epoch": 3.6767648471266208,
	"grad_norm": 5.720645427703857,
	"learning_rate": 3.161622578837842e-05,
	"loss": 1.1157,
	"num_input_tokens_seen": 200288848,
	"step": 367500
	},
	{
	"epoch": 3.681767248279174,
	"grad_norm": 4.348053455352783,
	"learning_rate": 3.159121378261566e-05,
	"loss": 1.1081,
	"num_input_tokens_seen": 200560176,
	"step": 368000
	},
	{
	"epoch": 3.686769649431727,
	"grad_norm": 10.115488052368164,
	"learning_rate": 3.1566201776852885e-05,
	"loss": 1.0972,
	"num_input_tokens_seen": 200829688,
	"step": 368500
	},
	{
	"epoch": 3.6917720505842806,
	"grad_norm": 5.798775672912598,
	"learning_rate": 3.154118977109013e-05,
	"loss": 1.0972,
	"num_input_tokens_seen": 201096760,
	"step": 369000
	},
	{
	"epoch": 3.6967744517368337,
	"grad_norm": 6.090835094451904,
	"learning_rate": 3.151617776532736e-05,
	"loss": 1.0971,
	"num_input_tokens_seen": 201367440,
	"step": 369500
	},
	{
	"epoch": 3.701776852889387,
	"grad_norm": 5.695186138153076,
	"learning_rate": 3.14911657595646e-05,
	"loss": 1.0839,
	"num_input_tokens_seen": 201639960,
	"step": 370000
	},
	{
	"epoch": 3.70677925404194,
	"grad_norm": 7.136424541473389,
	"learning_rate": 3.1466153753801825e-05,
	"loss": 1.1157,
	"num_input_tokens_seen": 201913680,
	"step": 370500
	},
	{
	"epoch": 3.7117816551944935,
	"grad_norm": 5.564599514007568,
	"learning_rate": 3.144114174803906e-05,
	"loss": 1.0987,
	"num_input_tokens_seen": 202193184,
	"step": 371000
	},
	{
	"epoch": 3.7167840563470467,
	"grad_norm": 5.429393291473389,
	"learning_rate": 3.1416129742276295e-05,
	"loss": 1.0872,
	"num_input_tokens_seen": 202465104,
	"step": 371500
	},
	{
	"epoch": 3.7217864574996,
	"grad_norm": 6.241130828857422,
	"learning_rate": 3.139111773651352e-05,
	"loss": 1.1101,
	"num_input_tokens_seen": 202739128,
	"step": 372000
	},
	{
	"epoch": 3.726788858652153,
	"grad_norm": 5.023561954498291,
	"learning_rate": 3.136610573075076e-05,
	"loss": 1.1091,
	"num_input_tokens_seen": 203013680,
	"step": 372500
	},
	{
	"epoch": 3.731791259804706,
	"grad_norm": 4.592106342315674,
	"learning_rate": 3.1341093724988e-05,
	"loss": 1.105,
	"num_input_tokens_seen": 203285192,
	"step": 373000
	},
	{
	"epoch": 3.7367936609572596,
	"grad_norm": 4.939518928527832,
	"learning_rate": 3.1316081719225235e-05,
	"loss": 1.1075,
	"num_input_tokens_seen": 203559176,
	"step": 373500
	},
	{
	"epoch": 3.7417960621098127,
	"grad_norm": 5.232937812805176,
	"learning_rate": 3.129106971346246e-05,
	"loss": 1.1105,
	"num_input_tokens_seen": 203835152,
	"step": 374000
	},
	{
	"epoch": 3.746798463262366,
	"grad_norm": 4.963284492492676,
	"learning_rate": 3.12660577076997e-05,
	"loss": 1.0907,
	"num_input_tokens_seen": 204105752,
	"step": 374500
	},
	{
	"epoch": 3.751800864414919,
	"grad_norm": 5.728975296020508,
	"learning_rate": 3.124104570193693e-05,
	"loss": 1.1002,
	"num_input_tokens_seen": 204373136,
	"step": 375000
	},
	{
	"epoch": 3.7568032655674726,
	"grad_norm": 6.109611511230469,
	"learning_rate": 3.121603369617416e-05,
	"loss": 1.108,
	"num_input_tokens_seen": 204638480,
	"step": 375500
	},
	{
	"epoch": 3.7618056667200257,
	"grad_norm": 5.837881088256836,
	"learning_rate": 3.1191021690411396e-05,
	"loss": 1.1266,
	"num_input_tokens_seen": 204909880,
	"step": 376000
	},
	{
	"epoch": 3.766808067872579,
	"grad_norm": 6.2475666999816895,
	"learning_rate": 3.116600968464863e-05,
	"loss": 1.088,
	"num_input_tokens_seen": 205188256,
	"step": 376500
	},
	{
	"epoch": 3.771810469025132,
	"grad_norm": 5.80530309677124,
	"learning_rate": 3.1140997678885866e-05,
	"loss": 1.0914,
	"num_input_tokens_seen": 205462952,
	"step": 377000
	},
	{
	"epoch": 3.776812870177685,
	"grad_norm": 8.078316688537598,
	"learning_rate": 3.11159856731231e-05,
	"loss": 1.0968,
	"num_input_tokens_seen": 205733776,
	"step": 377500
	},
	{
	"epoch": 3.7818152713302386,
	"grad_norm": 6.782426834106445,
	"learning_rate": 3.1090973667360336e-05,
	"loss": 1.0869,
	"num_input_tokens_seen": 206004512,
	"step": 378000
	},
	{
	"epoch": 3.7868176724827918,
	"grad_norm": 5.787932395935059,
	"learning_rate": 3.106596166159757e-05,
	"loss": 1.1081,
	"num_input_tokens_seen": 206278760,
	"step": 378500
	},
	{
	"epoch": 3.791820073635345,
	"grad_norm": 6.141157150268555,
	"learning_rate": 3.10409496558348e-05,
	"loss": 1.1042,
	"num_input_tokens_seen": 206552664,
	"step": 379000
	},
	{
	"epoch": 3.796822474787898,
	"grad_norm": 5.748921871185303,
	"learning_rate": 3.1015937650072034e-05,
	"loss": 1.1058,
	"num_input_tokens_seen": 206824976,
	"step": 379500
	},
	{
	"epoch": 3.8018248759404516,
	"grad_norm": 5.540569305419922,
	"learning_rate": 3.099092564430927e-05,
	"loss": 1.102,
	"num_input_tokens_seen": 207100016,
	"step": 380000
	},
	{
	"epoch": 3.8068272770930047,
	"grad_norm": 6.440171718597412,
	"learning_rate": 3.0965913638546504e-05,
	"loss": 1.1179,
	"num_input_tokens_seen": 207370128,
	"step": 380500
	},
	{
	"epoch": 3.811829678245558,
	"grad_norm": 4.424386024475098,
	"learning_rate": 3.094090163278374e-05,
	"loss": 1.0881,
	"num_input_tokens_seen": 207637240,
	"step": 381000
	},
	{
	"epoch": 3.816832079398111,
	"grad_norm": 5.059506416320801,
	"learning_rate": 3.0915889627020974e-05,
	"loss": 1.0892,
	"num_input_tokens_seen": 207914904,
	"step": 381500
	},
	{
	"epoch": 3.821834480550664,
	"grad_norm": 5.5119805335998535,
	"learning_rate": 3.089087762125821e-05,
	"loss": 1.089,
	"num_input_tokens_seen": 208195200,
	"step": 382000
	},
	{
	"epoch": 3.8268368817032177,
	"grad_norm": 5.340829372406006,
	"learning_rate": 3.086586561549544e-05,
	"loss": 1.0989,
	"num_input_tokens_seen": 208469512,
	"step": 382500
	},
	{
	"epoch": 3.831839282855771,
	"grad_norm": 5.793147087097168,
	"learning_rate": 3.084085360973267e-05,
	"loss": 1.1051,
	"num_input_tokens_seen": 208740512,
	"step": 383000
	},
	{
	"epoch": 3.836841684008324,
	"grad_norm": 4.490692138671875,
	"learning_rate": 3.081584160396991e-05,
	"loss": 1.1077,
	"num_input_tokens_seen": 209018232,
	"step": 383500
	},
	{
	"epoch": 3.8418440851608775,
	"grad_norm": 6.107596397399902,
	"learning_rate": 3.0790829598207135e-05,
	"loss": 1.0995,
	"num_input_tokens_seen": 209290016,
	"step": 384000
	},
	{
	"epoch": 3.8468464863134306,
	"grad_norm": 7.825516223907471,
	"learning_rate": 3.076581759244438e-05,
	"loss": 1.0869,
	"num_input_tokens_seen": 209556592,
	"step": 384500
	},
	{
	"epoch": 3.8518488874659838,
	"grad_norm": 4.849490165710449,
	"learning_rate": 3.074080558668161e-05,
	"loss": 1.1221,
	"num_input_tokens_seen": 209832880,
	"step": 385000
	},
	{
	"epoch": 3.856851288618537,
	"grad_norm": 6.529792308807373,
	"learning_rate": 3.071579358091885e-05,
	"loss": 1.1062,
	"num_input_tokens_seen": 210114184,
	"step": 385500
	},
	{
	"epoch": 3.86185368977109,
	"grad_norm": 6.837585926055908,
	"learning_rate": 3.0690781575156075e-05,
	"loss": 1.0878,
	"num_input_tokens_seen": 210380480,
	"step": 386000
	},
	{
	"epoch": 3.866856090923643,
	"grad_norm": 6.309233665466309,
	"learning_rate": 3.066576956939331e-05,
	"loss": 1.1116,
	"num_input_tokens_seen": 210653688,
	"step": 386500
	},
	{
	"epoch": 3.8718584920761967,
	"grad_norm": 6.287944316864014,
	"learning_rate": 3.0640757563630545e-05,
	"loss": 1.1021,
	"num_input_tokens_seen": 210927232,
	"step": 387000
	},
	{
	"epoch": 3.87686089322875,
	"grad_norm": 5.488702774047852,
	"learning_rate": 3.061574555786777e-05,
	"loss": 1.1043,
	"num_input_tokens_seen": 211197296,
	"step": 387500
	},
	{
	"epoch": 3.881863294381303,
	"grad_norm": 8.246638298034668,
	"learning_rate": 3.059073355210501e-05,
	"loss": 1.0917,
	"num_input_tokens_seen": 211469200,
	"step": 388000
	},
	{
	"epoch": 3.8868656955338565,
	"grad_norm": 6.3921332359313965,
	"learning_rate": 3.056572154634224e-05,
	"loss": 1.1079,
	"num_input_tokens_seen": 211736248,
	"step": 388500
	},
	{
	"epoch": 3.8918680966864097,
	"grad_norm": 5.241750717163086,
	"learning_rate": 3.0540709540579485e-05,
	"loss": 1.0928,
	"num_input_tokens_seen": 212005560,
	"step": 389000
	},
	{
	"epoch": 3.8968704978389628,
	"grad_norm": 5.063024997711182,
	"learning_rate": 3.0515697534816713e-05,
	"loss": 1.1103,
	"num_input_tokens_seen": 212271040,
	"step": 389500
	},
	{
	"epoch": 3.901872898991516,
	"grad_norm": 5.5935139656066895,
	"learning_rate": 3.0490685529053948e-05,
	"loss": 1.1169,
	"num_input_tokens_seen": 212544560,
	"step": 390000
	},
	{
	"epoch": 3.906875300144069,
	"grad_norm": 5.44050931930542,
	"learning_rate": 3.0465673523291183e-05,
	"loss": 1.0862,
	"num_input_tokens_seen": 212819160,
	"step": 390500
	},
	{
	"epoch": 3.911877701296622,
	"grad_norm": 5.747745990753174,
	"learning_rate": 3.044066151752841e-05,
	"loss": 1.0898,
	"num_input_tokens_seen": 213087032,
	"step": 391000
	},
	{
	"epoch": 3.9168801024491757,
	"grad_norm": 5.6474995613098145,
	"learning_rate": 3.041564951176565e-05,
	"loss": 1.1183,
	"num_input_tokens_seen": 213366232,
	"step": 391500
	},
	{
	"epoch": 3.921882503601729,
	"grad_norm": 5.1681928634643555,
	"learning_rate": 3.0390637506002884e-05,
	"loss": 1.1001,
	"num_input_tokens_seen": 213633560,
	"step": 392000
	},
	{
	"epoch": 3.926884904754282,
	"grad_norm": 7.847573280334473,
	"learning_rate": 3.036562550024012e-05,
	"loss": 1.0939,
	"num_input_tokens_seen": 213908816,
	"step": 392500
	},
	{
	"epoch": 3.9318873059068356,
	"grad_norm": 7.0550713539123535,
	"learning_rate": 3.0340613494477348e-05,
	"loss": 1.1101,
	"num_input_tokens_seen": 214186464,
	"step": 393000
	},
	{
	"epoch": 3.9368897070593887,
	"grad_norm": 5.558708667755127,
	"learning_rate": 3.0315601488714586e-05,
	"loss": 1.1038,
	"num_input_tokens_seen": 214455448,
	"step": 393500
	},
	{
	"epoch": 3.941892108211942,
	"grad_norm": 7.920301914215088,
	"learning_rate": 3.029058948295182e-05,
	"loss": 1.1085,
	"num_input_tokens_seen": 214732032,
	"step": 394000
	},
	{
	"epoch": 3.946894509364495,
	"grad_norm": 6.4054789543151855,
	"learning_rate": 3.026557747718905e-05,
	"loss": 1.1035,
	"num_input_tokens_seen": 215009992,
	"step": 394500
	},
	{
	"epoch": 3.951896910517048,
	"grad_norm": 5.385251045227051,
	"learning_rate": 3.0240565471426284e-05,
	"loss": 1.1004,
	"num_input_tokens_seen": 215281032,
	"step": 395000
	},
	{
	"epoch": 3.956899311669601,
	"grad_norm": 6.670193672180176,
	"learning_rate": 3.0215553465663523e-05,
	"loss": 1.0895,
	"num_input_tokens_seen": 215547536,
	"step": 395500
	},
	{
	"epoch": 3.9619017128221548,
	"grad_norm": 9.283798217773438,
	"learning_rate": 3.0190541459900757e-05,
	"loss": 1.0853,
	"num_input_tokens_seen": 215818168,
	"step": 396000
	},
	{
	"epoch": 3.966904113974708,
	"grad_norm": 5.494171142578125,
	"learning_rate": 3.0165529454137986e-05,
	"loss": 1.1118,
	"num_input_tokens_seen": 216097808,
	"step": 396500
	},
	{
	"epoch": 3.971906515127261,
	"grad_norm": 9.865717887878418,
	"learning_rate": 3.014051744837522e-05,
	"loss": 1.1092,
	"num_input_tokens_seen": 216372792,
	"step": 397000
	},
	{
	"epoch": 3.9769089162798146,
	"grad_norm": 7.068398952484131,
	"learning_rate": 3.0115505442612456e-05,
	"loss": 1.0978,
	"num_input_tokens_seen": 216645048,
	"step": 397500
	},
	{
	"epoch": 3.9819113174323677,
	"grad_norm": 7.0897626876831055,
	"learning_rate": 3.0090493436849687e-05,
	"loss": 1.0978,
	"num_input_tokens_seen": 216922104,
	"step": 398000
	},
	{
	"epoch": 3.986913718584921,
	"grad_norm": 6.884424686431885,
	"learning_rate": 3.0065481431086922e-05,
	"loss": 1.1057,
	"num_input_tokens_seen": 217197472,
	"step": 398500
	},
	{
	"epoch": 3.991916119737474,
	"grad_norm": 8.55648136138916,
	"learning_rate": 3.0040469425324157e-05,
	"loss": 1.0986,
	"num_input_tokens_seen": 217464560,
	"step": 399000
	},
	{
	"epoch": 3.996918520890027,
	"grad_norm": 6.080700874328613,
	"learning_rate": 3.0015457419561392e-05,
	"loss": 1.1001,
	"num_input_tokens_seen": 217738936,
	"step": 399500
	},
	{
	"epoch": 4.0,
	"eval_loss": 1.0870640277862549,
	"eval_runtime": 187.0155,
	"eval_samples_per_second": 1068.922,
	"eval_steps_per_second": 133.62,
	"num_input_tokens_seen": 217911400,
	"step": 399808
	},
	{
	"epoch": 4.00192092204258,
	"grad_norm": 5.729778289794922,
	"learning_rate": 2.9990445413798624e-05,
	"loss": 1.041,
	"num_input_tokens_seen": 218020144,
	"step": 400000
	},
	{
	"epoch": 4.006923323195133,
	"grad_norm": 5.8337225914001465,
	"learning_rate": 2.996543340803586e-05,
	"loss": 1.0154,
	"num_input_tokens_seen": 218293352,
	"step": 400500
	},
	{
	"epoch": 4.0119257243476865,
	"grad_norm": 6.142926216125488,
	"learning_rate": 2.9940421402273094e-05,
	"loss": 1.0043,
	"num_input_tokens_seen": 218559112,
	"step": 401000
	},
	{
	"epoch": 4.0169281255002405,
	"grad_norm": 4.911243915557861,
	"learning_rate": 2.9915409396510325e-05,
	"loss": 1.0061,
	"num_input_tokens_seen": 218839224,
	"step": 401500
	},
	{
	"epoch": 4.021930526652794,
	"grad_norm": 5.466070175170898,
	"learning_rate": 2.989039739074756e-05,
	"loss": 0.9953,
	"num_input_tokens_seen": 219111776,
	"step": 402000
	},
	{
	"epoch": 4.026932927805347,
	"grad_norm": 6.471262454986572,
	"learning_rate": 2.9865385384984795e-05,
	"loss": 0.9955,
	"num_input_tokens_seen": 219383912,
	"step": 402500
	},
	{
	"epoch": 4.0319353289579,
	"grad_norm": 7.179049491882324,
	"learning_rate": 2.9840373379222027e-05,
	"loss": 1.0101,
	"num_input_tokens_seen": 219647992,
	"step": 403000
	},
	{
	"epoch": 4.036937730110453,
	"grad_norm": 5.031703948974609,
	"learning_rate": 2.981536137345926e-05,
	"loss": 1.0021,
	"num_input_tokens_seen": 219913768,
	"step": 403500
	},
	{
	"epoch": 4.041940131263006,
	"grad_norm": 4.3193840980529785,
	"learning_rate": 2.9790349367696497e-05,
	"loss": 1.0078,
	"num_input_tokens_seen": 220190376,
	"step": 404000
	},
	{
	"epoch": 4.046942532415559,
	"grad_norm": 5.400819778442383,
	"learning_rate": 2.976533736193373e-05,
	"loss": 0.9949,
	"num_input_tokens_seen": 220460224,
	"step": 404500
	},
	{
	"epoch": 4.051944933568112,
	"grad_norm": 6.279000759124756,
	"learning_rate": 2.9740325356170963e-05,
	"loss": 1.0322,
	"num_input_tokens_seen": 220736472,
	"step": 405000
	},
	{
	"epoch": 4.0569473347206655,
	"grad_norm": 7.3011627197265625,
	"learning_rate": 2.9715313350408198e-05,
	"loss": 1.0112,
	"num_input_tokens_seen": 221004608,
	"step": 405500
	},
	{
	"epoch": 4.0619497358732195,
	"grad_norm": 6.007471561431885,
	"learning_rate": 2.9690301344645433e-05,
	"loss": 1.0231,
	"num_input_tokens_seen": 221278264,
	"step": 406000
	},
	{
	"epoch": 4.066952137025773,
	"grad_norm": 5.404012203216553,
	"learning_rate": 2.966528933888266e-05,
	"loss": 1.0205,
	"num_input_tokens_seen": 221555688,
	"step": 406500
	},
	{
	"epoch": 4.071954538178326,
	"grad_norm": 4.693950653076172,
	"learning_rate": 2.9640277333119896e-05,
	"loss": 1.021,
	"num_input_tokens_seen": 221832040,
	"step": 407000
	},
	{
	"epoch": 4.076956939330879,
	"grad_norm": 5.678884029388428,
	"learning_rate": 2.9615265327357135e-05,
	"loss": 1.0268,
	"num_input_tokens_seen": 222112352,
	"step": 407500
	},
	{
	"epoch": 4.081959340483432,
	"grad_norm": 5.514533042907715,
	"learning_rate": 2.959025332159437e-05,
	"loss": 1.0236,
	"num_input_tokens_seen": 222383544,
	"step": 408000
	},
	{
	"epoch": 4.086961741635985,
	"grad_norm": 6.353760719299316,
	"learning_rate": 2.9565241315831598e-05,
	"loss": 1.0076,
	"num_input_tokens_seen": 222653528,
	"step": 408500
	},
	{
	"epoch": 4.091964142788538,
	"grad_norm": 5.7514519691467285,
	"learning_rate": 2.9540229310068833e-05,
	"loss": 1.0175,
	"num_input_tokens_seen": 222929176,
	"step": 409000
	},
	{
	"epoch": 4.096966543941091,
	"grad_norm": 5.185674667358398,
	"learning_rate": 2.951521730430607e-05,
	"loss": 1.023,
	"num_input_tokens_seen": 223205600,
	"step": 409500
	},
	{
	"epoch": 4.1019689450936445,
	"grad_norm": 6.269286632537842,
	"learning_rate": 2.94902052985433e-05,
	"loss": 1.0177,
	"num_input_tokens_seen": 223471424,
	"step": 410000
	},
	{
	"epoch": 4.1069713462461985,
	"grad_norm": 5.551058292388916,
	"learning_rate": 2.9465193292780534e-05,
	"loss": 1.014,
	"num_input_tokens_seen": 223744904,
	"step": 410500
	},
	{
	"epoch": 4.111973747398752,
	"grad_norm": 7.259944438934326,
	"learning_rate": 2.944018128701777e-05,
	"loss": 1.0176,
	"num_input_tokens_seen": 224017960,
	"step": 411000
	},
	{
	"epoch": 4.116976148551305,
	"grad_norm": 6.2288498878479,
	"learning_rate": 2.9415169281255008e-05,
	"loss": 1.0208,
	"num_input_tokens_seen": 224288328,
	"step": 411500
	},
	{
	"epoch": 4.121978549703858,
	"grad_norm": 4.875370502471924,
	"learning_rate": 2.9390157275492236e-05,
	"loss": 1.0218,
	"num_input_tokens_seen": 224564744,
	"step": 412000
	},
	{
	"epoch": 4.126980950856411,
	"grad_norm": 5.8250603675842285,
	"learning_rate": 2.936514526972947e-05,
	"loss": 1.0176,
	"num_input_tokens_seen": 224833216,
	"step": 412500
	},
	{
	"epoch": 4.131983352008964,
	"grad_norm": 4.689972877502441,
	"learning_rate": 2.9340133263966706e-05,
	"loss": 1.0031,
	"num_input_tokens_seen": 225109008,
	"step": 413000
	},
	{
	"epoch": 4.136985753161517,
	"grad_norm": 6.370342254638672,
	"learning_rate": 2.9315121258203937e-05,
	"loss": 1.0235,
	"num_input_tokens_seen": 225386144,
	"step": 413500
	},
	{
	"epoch": 4.14198815431407,
	"grad_norm": 5.214616298675537,
	"learning_rate": 2.9290109252441172e-05,
	"loss": 1.0147,
	"num_input_tokens_seen": 225665576,
	"step": 414000
	},
	{
	"epoch": 4.146990555466624,
	"grad_norm": 5.056887626647949,
	"learning_rate": 2.9265097246678407e-05,
	"loss": 1.0134,
	"num_input_tokens_seen": 225936744,
	"step": 414500
	},
	{
	"epoch": 4.1519929566191776,
	"grad_norm": 7.385371685028076,
	"learning_rate": 2.9240085240915642e-05,
	"loss": 1.0133,
	"num_input_tokens_seen": 226206672,
	"step": 415000
	},
	{
	"epoch": 4.156995357771731,
	"grad_norm": 6.09354829788208,
	"learning_rate": 2.9215073235152874e-05,
	"loss": 1.0257,
	"num_input_tokens_seen": 226483208,
	"step": 415500
	},
	{
	"epoch": 4.161997758924284,
	"grad_norm": 6.554540634155273,
	"learning_rate": 2.919006122939011e-05,
	"loss": 1.004,
	"num_input_tokens_seen": 226756440,
	"step": 416000
	},
	{
	"epoch": 4.167000160076837,
	"grad_norm": 6.016900539398193,
	"learning_rate": 2.9165049223627344e-05,
	"loss": 1.0373,
	"num_input_tokens_seen": 227035824,
	"step": 416500
	},
	{
	"epoch": 4.17200256122939,
	"grad_norm": 5.212109565734863,
	"learning_rate": 2.9140037217864575e-05,
	"loss": 1.0168,
	"num_input_tokens_seen": 227309792,
	"step": 417000
	},
	{
	"epoch": 4.177004962381943,
	"grad_norm": 5.641068935394287,
	"learning_rate": 2.911502521210181e-05,
	"loss": 1.0184,
	"num_input_tokens_seen": 227578216,
	"step": 417500
	},
	{
	"epoch": 4.182007363534496,
	"grad_norm": 4.603857040405273,
	"learning_rate": 2.9090013206339045e-05,
	"loss": 1.0092,
	"num_input_tokens_seen": 227844640,
	"step": 418000
	},
	{
	"epoch": 4.187009764687049,
	"grad_norm": 7.76889705657959,
	"learning_rate": 2.906500120057628e-05,
	"loss": 1.0324,
	"num_input_tokens_seen": 228114632,
	"step": 418500
	},
	{
	"epoch": 4.1920121658396035,
	"grad_norm": 5.698912143707275,
	"learning_rate": 2.9039989194813512e-05,
	"loss": 1.0159,
	"num_input_tokens_seen": 228392896,
	"step": 419000
	},
	{
	"epoch": 4.197014566992157,
	"grad_norm": 4.45599365234375,
	"learning_rate": 2.9014977189050747e-05,
	"loss": 1.0243,
	"num_input_tokens_seen": 228657144,
	"step": 419500
	},
	{
	"epoch": 4.20201696814471,
	"grad_norm": 4.775566577911377,
	"learning_rate": 2.8989965183287982e-05,
	"loss": 1.0249,
	"num_input_tokens_seen": 228930912,
	"step": 420000
	},
	{
	"epoch": 4.207019369297263,
	"grad_norm": 4.6044511795043945,
	"learning_rate": 2.896495317752521e-05,
	"loss": 1.0171,
	"num_input_tokens_seen": 229190776,
	"step": 420500
	},
	{
	"epoch": 4.212021770449816,
	"grad_norm": 5.821028709411621,
	"learning_rate": 2.8939941171762448e-05,
	"loss": 1.0197,
	"num_input_tokens_seen": 229464464,
	"step": 421000
	},
	{
	"epoch": 4.217024171602369,
	"grad_norm": 6.407191753387451,
	"learning_rate": 2.8914929165999683e-05,
	"loss": 1.0193,
	"num_input_tokens_seen": 229735080,
	"step": 421500
	},
	{
	"epoch": 4.222026572754922,
	"grad_norm": 6.624352931976318,
	"learning_rate": 2.8889917160236918e-05,
	"loss": 1.0388,
	"num_input_tokens_seen": 230010112,
	"step": 422000
	},
	{
	"epoch": 4.227028973907475,
	"grad_norm": 5.672749042510986,
	"learning_rate": 2.8864905154474146e-05,
	"loss": 1.0094,
	"num_input_tokens_seen": 230273040,
	"step": 422500
	},
	{
	"epoch": 4.2320313750600285,
	"grad_norm": 4.765455722808838,
	"learning_rate": 2.8839893148711385e-05,
	"loss": 1.038,
	"num_input_tokens_seen": 230549568,
	"step": 423000
	},
	{
	"epoch": 4.2370337762125825,
	"grad_norm": 5.471391677856445,
	"learning_rate": 2.881488114294862e-05,
	"loss": 1.0137,
	"num_input_tokens_seen": 230815880,
	"step": 423500
	},
	{
	"epoch": 4.242036177365136,
	"grad_norm": 5.090280532836914,
	"learning_rate": 2.8789869137185848e-05,
	"loss": 1.0254,
	"num_input_tokens_seen": 231087416,
	"step": 424000
	},
	{
	"epoch": 4.247038578517689,
	"grad_norm": 5.823254585266113,
	"learning_rate": 2.8764857131423083e-05,
	"loss": 1.0369,
	"num_input_tokens_seen": 231351728,
	"step": 424500
	},
	{
	"epoch": 4.252040979670242,
	"grad_norm": 5.406543731689453,
	"learning_rate": 2.873984512566032e-05,
	"loss": 1.0233,
	"num_input_tokens_seen": 231626944,
	"step": 425000
	},
	{
	"epoch": 4.257043380822795,
	"grad_norm": 6.112472057342529,
	"learning_rate": 2.871483311989755e-05,
	"loss": 1.046,
	"num_input_tokens_seen": 231901904,
	"step": 425500
	},
	{
	"epoch": 4.262045781975348,
	"grad_norm": 5.495764255523682,
	"learning_rate": 2.8689821114134784e-05,
	"loss": 1.0127,
	"num_input_tokens_seen": 232177576,
	"step": 426000
	},
	{
	"epoch": 4.267048183127901,
	"grad_norm": 5.970737934112549,
	"learning_rate": 2.866480910837202e-05,
	"loss": 1.0266,
	"num_input_tokens_seen": 232448808,
	"step": 426500
	},
	{
	"epoch": 4.272050584280454,
	"grad_norm": 6.965437889099121,
	"learning_rate": 2.8639797102609254e-05,
	"loss": 1.0311,
	"num_input_tokens_seen": 232724960,
	"step": 427000
	},
	{
	"epoch": 4.2770529854330075,
	"grad_norm": 6.662547588348389,
	"learning_rate": 2.8614785096846486e-05,
	"loss": 1.0216,
	"num_input_tokens_seen": 232999800,
	"step": 427500
	},
	{
	"epoch": 4.2820553865855615,
	"grad_norm": 4.90582275390625,
	"learning_rate": 2.858977309108372e-05,
	"loss": 1.036,
	"num_input_tokens_seen": 233278352,
	"step": 428000
	},
	{
	"epoch": 4.287057787738115,
	"grad_norm": 5.090430736541748,
	"learning_rate": 2.8564761085320956e-05,
	"loss": 1.0253,
	"num_input_tokens_seen": 233542648,
	"step": 428500
	},
	{
	"epoch": 4.292060188890668,
	"grad_norm": 6.307216167449951,
	"learning_rate": 2.8539749079558187e-05,
	"loss": 1.0367,
	"num_input_tokens_seen": 233821008,
	"step": 429000
	},
	{
	"epoch": 4.297062590043221,
	"grad_norm": 5.634079933166504,
	"learning_rate": 2.8514737073795422e-05,
	"loss": 1.0248,
	"num_input_tokens_seen": 234099000,
	"step": 429500
	},
	{
	"epoch": 4.302064991195774,
	"grad_norm": 6.014862060546875,
	"learning_rate": 2.8489725068032657e-05,
	"loss": 1.0231,
	"num_input_tokens_seen": 234375176,
	"step": 430000
	},
	{
	"epoch": 4.307067392348327,
	"grad_norm": 5.199640274047852,
	"learning_rate": 2.8464713062269892e-05,
	"loss": 1.0366,
	"num_input_tokens_seen": 234650128,
	"step": 430500
	},
	{
	"epoch": 4.31206979350088,
	"grad_norm": 4.8902692794799805,
	"learning_rate": 2.8439701056507124e-05,
	"loss": 1.0394,
	"num_input_tokens_seen": 234918712,
	"step": 431000
	},
	{
	"epoch": 4.317072194653433,
	"grad_norm": 4.592429161071777,
	"learning_rate": 2.841468905074436e-05,
	"loss": 1.029,
	"num_input_tokens_seen": 235196600,
	"step": 431500
	},
	{
	"epoch": 4.3220745958059865,
	"grad_norm": 5.6518144607543945,
	"learning_rate": 2.8389677044981594e-05,
	"loss": 1.0217,
	"num_input_tokens_seen": 235465976,
	"step": 432000
	},
	{
	"epoch": 4.3270769969585405,
	"grad_norm": 5.183743000030518,
	"learning_rate": 2.8364665039218825e-05,
	"loss": 1.0262,
	"num_input_tokens_seen": 235745992,
	"step": 432500
	},
	{
	"epoch": 4.332079398111094,
	"grad_norm": 4.891019821166992,
	"learning_rate": 2.833965303345606e-05,
	"loss": 1.0363,
	"num_input_tokens_seen": 236018376,
	"step": 433000
	},
	{
	"epoch": 4.337081799263647,
	"grad_norm": 4.2536725997924805,
	"learning_rate": 2.8314641027693295e-05,
	"loss": 1.022,
	"num_input_tokens_seen": 236289296,
	"step": 433500
	},
	{
	"epoch": 4.3420842004162,
	"grad_norm": 6.686141014099121,
	"learning_rate": 2.828962902193053e-05,
	"loss": 1.0393,
	"num_input_tokens_seen": 236575672,
	"step": 434000
	},
	{
	"epoch": 4.347086601568753,
	"grad_norm": 4.4611945152282715,
	"learning_rate": 2.8264617016167762e-05,
	"loss": 1.0419,
	"num_input_tokens_seen": 236849624,
	"step": 434500
	},
	{
	"epoch": 4.352089002721306,
	"grad_norm": 4.447482585906982,
	"learning_rate": 2.8239605010404997e-05,
	"loss": 1.0337,
	"num_input_tokens_seen": 237115712,
	"step": 435000
	},
	{
	"epoch": 4.357091403873859,
	"grad_norm": 5.549137115478516,
	"learning_rate": 2.8214593004642232e-05,
	"loss": 1.0161,
	"num_input_tokens_seen": 237386704,
	"step": 435500
	},
	{
	"epoch": 4.362093805026412,
	"grad_norm": 6.824407577514648,
	"learning_rate": 2.818958099887946e-05,
	"loss": 1.025,
	"num_input_tokens_seen": 237662672,
	"step": 436000
	},
	{
	"epoch": 4.3670962061789655,
	"grad_norm": 5.618262767791748,
	"learning_rate": 2.8164568993116695e-05,
	"loss": 1.0222,
	"num_input_tokens_seen": 237934856,
	"step": 436500
	},
	{
	"epoch": 4.37209860733152,
	"grad_norm": 5.112995624542236,
	"learning_rate": 2.8139556987353933e-05,
	"loss": 1.0119,
	"num_input_tokens_seen": 238206992,
	"step": 437000
	},
	{
	"epoch": 4.377101008484073,
	"grad_norm": 5.395593166351318,
	"learning_rate": 2.811454498159117e-05,
	"loss": 1.0337,
	"num_input_tokens_seen": 238477792,
	"step": 437500
	},
	{
	"epoch": 4.382103409636626,
	"grad_norm": 8.581912994384766,
	"learning_rate": 2.8089532975828397e-05,
	"loss": 1.0447,
	"num_input_tokens_seen": 238754960,
	"step": 438000
	},
	{
	"epoch": 4.387105810789179,
	"grad_norm": 5.694709777832031,
	"learning_rate": 2.806452097006563e-05,
	"loss": 1.0404,
	"num_input_tokens_seen": 239027008,
	"step": 438500
	},
	{
	"epoch": 4.392108211941732,
	"grad_norm": 6.605731010437012,
	"learning_rate": 2.803950896430287e-05,
	"loss": 1.0412,
	"num_input_tokens_seen": 239292592,
	"step": 439000
	},
	{
	"epoch": 4.397110613094285,
	"grad_norm": 5.162715911865234,
	"learning_rate": 2.8014496958540098e-05,
	"loss": 1.0266,
	"num_input_tokens_seen": 239564344,
	"step": 439500
	},
	{
	"epoch": 4.402113014246838,
	"grad_norm": 8.414751052856445,
	"learning_rate": 2.7989484952777333e-05,
	"loss": 1.0461,
	"num_input_tokens_seen": 239839984,
	"step": 440000
	},
	{
	"epoch": 4.4071154153993914,
	"grad_norm": 5.043530464172363,
	"learning_rate": 2.7964472947014568e-05,
	"loss": 1.0312,
	"num_input_tokens_seen": 240116944,
	"step": 440500
	},
	{
	"epoch": 4.412117816551945,
	"grad_norm": 6.508191108703613,
	"learning_rate": 2.7939460941251806e-05,
	"loss": 1.0355,
	"num_input_tokens_seen": 240386144,
	"step": 441000
	},
	{
	"epoch": 4.417120217704499,
	"grad_norm": 4.704832077026367,
	"learning_rate": 2.7914448935489035e-05,
	"loss": 1.0252,
	"num_input_tokens_seen": 240655192,
	"step": 441500
	},
	{
	"epoch": 4.422122618857052,
	"grad_norm": 6.601123332977295,
	"learning_rate": 2.788943692972627e-05,
	"loss": 1.0564,
	"num_input_tokens_seen": 240931640,
	"step": 442000
	},
	{
	"epoch": 4.427125020009605,
	"grad_norm": 5.828186988830566,
	"learning_rate": 2.7864424923963504e-05,
	"loss": 1.0359,
	"num_input_tokens_seen": 241199768,
	"step": 442500
	},
	{
	"epoch": 4.432127421162158,
	"grad_norm": 4.463243007659912,
	"learning_rate": 2.7839412918200736e-05,
	"loss": 1.03,
	"num_input_tokens_seen": 241474320,
	"step": 443000
	},
	{
	"epoch": 4.437129822314711,
	"grad_norm": 5.028249263763428,
	"learning_rate": 2.781440091243797e-05,
	"loss": 1.0403,
	"num_input_tokens_seen": 241750640,
	"step": 443500
	},
	{
	"epoch": 4.442132223467264,
	"grad_norm": 4.5420684814453125,
	"learning_rate": 2.7789388906675206e-05,
	"loss": 1.0171,
	"num_input_tokens_seen": 242018848,
	"step": 444000
	},
	{
	"epoch": 4.447134624619817,
	"grad_norm": 7.803140640258789,
	"learning_rate": 2.7764376900912438e-05,
	"loss": 1.0297,
	"num_input_tokens_seen": 242284168,
	"step": 444500
	},
	{
	"epoch": 4.4521370257723705,
	"grad_norm": 5.844732761383057,
	"learning_rate": 2.7739364895149673e-05,
	"loss": 1.0348,
	"num_input_tokens_seen": 242553128,
	"step": 445000
	},
	{
	"epoch": 4.457139426924924,
	"grad_norm": 5.830750942230225,
	"learning_rate": 2.7714352889386908e-05,
	"loss": 1.0429,
	"num_input_tokens_seen": 242827088,
	"step": 445500
	},
	{
	"epoch": 4.462141828077478,
	"grad_norm": 4.908278942108154,
	"learning_rate": 2.7689340883624143e-05,
	"loss": 1.028,
	"num_input_tokens_seen": 243093120,
	"step": 446000
	},
	{
	"epoch": 4.467144229230031,
	"grad_norm": 5.725689888000488,
	"learning_rate": 2.7664328877861374e-05,
	"loss": 1.023,
	"num_input_tokens_seen": 243364816,
	"step": 446500
	},
	{
	"epoch": 4.472146630382584,
	"grad_norm": 5.354498386383057,
	"learning_rate": 2.763931687209861e-05,
	"loss": 1.0433,
	"num_input_tokens_seen": 243641016,
	"step": 447000
	},
	{
	"epoch": 4.477149031535137,
	"grad_norm": 6.727901458740234,
	"learning_rate": 2.7614304866335844e-05,
	"loss": 1.0142,
	"num_input_tokens_seen": 243912976,
	"step": 447500
	},
	{
	"epoch": 4.48215143268769,
	"grad_norm": 5.042398452758789,
	"learning_rate": 2.7589292860573072e-05,
	"loss": 1.0301,
	"num_input_tokens_seen": 244181688,
	"step": 448000
	},
	{
	"epoch": 4.487153833840243,
	"grad_norm": 6.022967338562012,
	"learning_rate": 2.756428085481031e-05,
	"loss": 1.0242,
	"num_input_tokens_seen": 244448704,
	"step": 448500
	},
	{
	"epoch": 4.492156234992796,
	"grad_norm": 5.077592849731445,
	"learning_rate": 2.7539268849047546e-05,
	"loss": 1.0373,
	"num_input_tokens_seen": 244722392,
	"step": 449000
	},
	{
	"epoch": 4.4971586361453495,
	"grad_norm": 5.527291774749756,
	"learning_rate": 2.751425684328478e-05,
	"loss": 1.0183,
	"num_input_tokens_seen": 244995952,
	"step": 449500
	},
	{
	"epoch": 4.502161037297903,
	"grad_norm": 5.025604248046875,
	"learning_rate": 2.748924483752201e-05,
	"loss": 1.0164,
	"num_input_tokens_seen": 245272304,
	"step": 450000
	},
	{
	"epoch": 4.507163438450457,
	"grad_norm": 5.344061374664307,
	"learning_rate": 2.7464232831759247e-05,
	"loss": 1.0373,
	"num_input_tokens_seen": 245546016,
	"step": 450500
	},
	{
	"epoch": 4.51216583960301,
	"grad_norm": 4.6710524559021,
	"learning_rate": 2.7439220825996482e-05,
	"loss": 1.0194,
	"num_input_tokens_seen": 245823488,
	"step": 451000
	},
	{
	"epoch": 4.517168240755563,
	"grad_norm": 5.240355014801025,
	"learning_rate": 2.741420882023371e-05,
	"loss": 1.0277,
	"num_input_tokens_seen": 246097728,
	"step": 451500
	},
	{
	"epoch": 4.522170641908116,
	"grad_norm": 5.007404327392578,
	"learning_rate": 2.7389196814470945e-05,
	"loss": 1.0217,
	"num_input_tokens_seen": 246368736,
	"step": 452000
	},
	{
	"epoch": 4.527173043060669,
	"grad_norm": 5.346477508544922,
	"learning_rate": 2.7364184808708184e-05,
	"loss": 1.0283,
	"num_input_tokens_seen": 246637968,
	"step": 452500
	},
	{
	"epoch": 4.532175444213222,
	"grad_norm": 5.416214466094971,
	"learning_rate": 2.733917280294542e-05,
	"loss": 1.0448,
	"num_input_tokens_seen": 246918648,
	"step": 453000
	},
	{
	"epoch": 4.537177845365775,
	"grad_norm": 7.101502418518066,
	"learning_rate": 2.7314160797182647e-05,
	"loss": 1.0469,
	"num_input_tokens_seen": 247181624,
	"step": 453500
	},
	{
	"epoch": 4.5421802465183285,
	"grad_norm": 5.758215427398682,
	"learning_rate": 2.728914879141988e-05,
	"loss": 1.0337,
	"num_input_tokens_seen": 247456808,
	"step": 454000
	},
	{
	"epoch": 4.547182647670882,
	"grad_norm": 7.215245246887207,
	"learning_rate": 2.726413678565712e-05,
	"loss": 1.0265,
	"num_input_tokens_seen": 247730456,
	"step": 454500
	},
	{
	"epoch": 4.552185048823436,
	"grad_norm": 5.474388122558594,
	"learning_rate": 2.7239124779894348e-05,
	"loss": 1.0319,
	"num_input_tokens_seen": 248006488,
	"step": 455000
	},
	{
	"epoch": 4.557187449975989,
	"grad_norm": 4.975455284118652,
	"learning_rate": 2.7214112774131583e-05,
	"loss": 1.029,
	"num_input_tokens_seen": 248283776,
	"step": 455500
	},
	{
	"epoch": 4.562189851128542,
	"grad_norm": 5.586923599243164,
	"learning_rate": 2.7189100768368818e-05,
	"loss": 1.0314,
	"num_input_tokens_seen": 248564784,
	"step": 456000
	},
	{
	"epoch": 4.567192252281095,
	"grad_norm": 7.202296257019043,
	"learning_rate": 2.7164088762606053e-05,
	"loss": 1.0436,
	"num_input_tokens_seen": 248837928,
	"step": 456500
	},
	{
	"epoch": 4.572194653433648,
	"grad_norm": 6.214195728302002,
	"learning_rate": 2.7139076756843285e-05,
	"loss": 1.0253,
	"num_input_tokens_seen": 249109248,
	"step": 457000
	},
	{
	"epoch": 4.577197054586201,
	"grad_norm": 6.16148567199707,
	"learning_rate": 2.711406475108052e-05,
	"loss": 1.0385,
	"num_input_tokens_seen": 249384792,
	"step": 457500
	},
	{
	"epoch": 4.582199455738754,
	"grad_norm": 5.71275520324707,
	"learning_rate": 2.7089052745317755e-05,
	"loss": 1.0432,
	"num_input_tokens_seen": 249651928,
	"step": 458000
	},
	{
	"epoch": 4.5872018568913075,
	"grad_norm": 4.817130088806152,
	"learning_rate": 2.7064040739554986e-05,
	"loss": 1.02,
	"num_input_tokens_seen": 249917104,
	"step": 458500
	},
	{
	"epoch": 4.592204258043861,
	"grad_norm": 5.333267688751221,
	"learning_rate": 2.703902873379222e-05,
	"loss": 1.0214,
	"num_input_tokens_seen": 250188040,
	"step": 459000
	},
	{
	"epoch": 4.597206659196415,
	"grad_norm": 5.287978172302246,
	"learning_rate": 2.7014016728029456e-05,
	"loss": 1.0401,
	"num_input_tokens_seen": 250468056,
	"step": 459500
	},
	{
	"epoch": 4.602209060348968,
	"grad_norm": 4.713915824890137,
	"learning_rate": 2.698900472226669e-05,
	"loss": 1.032,
	"num_input_tokens_seen": 250737232,
	"step": 460000
	},
	{
	"epoch": 4.607211461501521,
	"grad_norm": 6.2646965980529785,
	"learning_rate": 2.6963992716503923e-05,
	"loss": 1.0289,
	"num_input_tokens_seen": 251009944,
	"step": 460500
	},
	{
	"epoch": 4.612213862654074,
	"grad_norm": 6.391628742218018,
	"learning_rate": 2.6938980710741158e-05,
	"loss": 1.037,
	"num_input_tokens_seen": 251276984,
	"step": 461000
	},
	{
	"epoch": 4.617216263806627,
	"grad_norm": 6.245530128479004,
	"learning_rate": 2.6913968704978393e-05,
	"loss": 1.0321,
	"num_input_tokens_seen": 251544248,
	"step": 461500
	},
	{
	"epoch": 4.62221866495918,
	"grad_norm": 5.505767345428467,
	"learning_rate": 2.6888956699215624e-05,
	"loss": 1.023,
	"num_input_tokens_seen": 251820376,
	"step": 462000
	},
	{
	"epoch": 4.6272210661117334,
	"grad_norm": 5.286034107208252,
	"learning_rate": 2.686394469345286e-05,
	"loss": 1.029,
	"num_input_tokens_seen": 252089664,
	"step": 462500
	},
	{
	"epoch": 4.632223467264287,
	"grad_norm": 5.050361156463623,
	"learning_rate": 2.6838932687690094e-05,
	"loss": 1.0215,
	"num_input_tokens_seen": 252354304,
	"step": 463000
	},
	{
	"epoch": 4.63722586841684,
	"grad_norm": 4.83864164352417,
	"learning_rate": 2.6813920681927322e-05,
	"loss": 1.0292,
	"num_input_tokens_seen": 252625992,
	"step": 463500
	},
	{
	"epoch": 4.642228269569394,
	"grad_norm": 4.267606735229492,
	"learning_rate": 2.678890867616456e-05,
	"loss": 1.0356,
	"num_input_tokens_seen": 252900240,
	"step": 464000
	},
	{
	"epoch": 4.647230670721947,
	"grad_norm": 5.304383754730225,
	"learning_rate": 2.6763896670401796e-05,
	"loss": 1.0182,
	"num_input_tokens_seen": 253175392,
	"step": 464500
	},
	{
	"epoch": 4.6522330718745,
	"grad_norm": 7.107183933258057,
	"learning_rate": 2.673888466463903e-05,
	"loss": 1.0311,
	"num_input_tokens_seen": 253449480,
	"step": 465000
	},
	{
	"epoch": 4.657235473027053,
	"grad_norm": 7.010105133056641,
	"learning_rate": 2.671387265887626e-05,
	"loss": 1.0213,
	"num_input_tokens_seen": 253717600,
	"step": 465500
	},
	{
	"epoch": 4.662237874179606,
	"grad_norm": 5.442753791809082,
	"learning_rate": 2.6688860653113494e-05,
	"loss": 1.0624,
	"num_input_tokens_seen": 253996064,
	"step": 466000
	},
	{
	"epoch": 4.667240275332159,
	"grad_norm": 5.711010932922363,
	"learning_rate": 2.6663848647350732e-05,
	"loss": 1.0382,
	"num_input_tokens_seen": 254277992,
	"step": 466500
	},
	{
	"epoch": 4.6722426764847125,
	"grad_norm": 5.396849632263184,
	"learning_rate": 2.663883664158796e-05,
	"loss": 1.0358,
	"num_input_tokens_seen": 254544856,
	"step": 467000
	},
	{
	"epoch": 4.677245077637266,
	"grad_norm": 7.533030033111572,
	"learning_rate": 2.6613824635825195e-05,
	"loss": 1.0344,
	"num_input_tokens_seen": 254815184,
	"step": 467500
	},
	{
	"epoch": 4.682247478789819,
	"grad_norm": 6.03594446182251,
	"learning_rate": 2.658881263006243e-05,
	"loss": 1.0234,
	"num_input_tokens_seen": 255087048,
	"step": 468000
	},
	{
	"epoch": 4.687249879942373,
	"grad_norm": 6.070241928100586,
	"learning_rate": 2.656380062429967e-05,
	"loss": 1.0226,
	"num_input_tokens_seen": 255357680,
	"step": 468500
	},
	{
	"epoch": 4.692252281094926,
	"grad_norm": 6.334639549255371,
	"learning_rate": 2.6538788618536897e-05,
	"loss": 1.0262,
	"num_input_tokens_seen": 255624976,
	"step": 469000
	},
	{
	"epoch": 4.697254682247479,
	"grad_norm": 6.096264839172363,
	"learning_rate": 2.6513776612774132e-05,
	"loss": 1.0208,
	"num_input_tokens_seen": 255898192,
	"step": 469500
	},
	{
	"epoch": 4.702257083400032,
	"grad_norm": 6.717766761779785,
	"learning_rate": 2.6488764607011367e-05,
	"loss": 1.0395,
	"num_input_tokens_seen": 256174976,
	"step": 470000
	},
	{
	"epoch": 4.707259484552585,
	"grad_norm": 5.3120527267456055,
	"learning_rate": 2.64637526012486e-05,
	"loss": 1.0346,
	"num_input_tokens_seen": 256445504,
	"step": 470500
	},
	{
	"epoch": 4.712261885705138,
	"grad_norm": 5.765807151794434,
	"learning_rate": 2.6438740595485833e-05,
	"loss": 1.0221,
	"num_input_tokens_seen": 256728192,
	"step": 471000
	},
	{
	"epoch": 4.7172642868576915,
	"grad_norm": 5.730865478515625,
	"learning_rate": 2.6413728589723068e-05,
	"loss": 1.0305,
	"num_input_tokens_seen": 256998424,
	"step": 471500
	},
	{
	"epoch": 4.722266688010245,
	"grad_norm": 7.514993190765381,
	"learning_rate": 2.6388716583960303e-05,
	"loss": 1.0316,
	"num_input_tokens_seen": 257266816,
	"step": 472000
	},
	{
	"epoch": 4.727269089162798,
	"grad_norm": 4.826568603515625,
	"learning_rate": 2.6363704578197535e-05,
	"loss": 1.0336,
	"num_input_tokens_seen": 257528416,
	"step": 472500
	},
	{
	"epoch": 4.732271490315352,
	"grad_norm": 5.88137674331665,
	"learning_rate": 2.633869257243477e-05,
	"loss": 1.0379,
	"num_input_tokens_seen": 257803064,
	"step": 473000
	},
	{
	"epoch": 4.737273891467905,
	"grad_norm": 5.539977073669434,
	"learning_rate": 2.6313680566672005e-05,
	"loss": 1.0487,
	"num_input_tokens_seen": 258074752,
	"step": 473500
	},
	{
	"epoch": 4.742276292620458,
	"grad_norm": 4.8047871589660645,
	"learning_rate": 2.6288668560909236e-05,
	"loss": 1.0437,
	"num_input_tokens_seen": 258356488,
	"step": 474000
	},
	{
	"epoch": 4.747278693773011,
	"grad_norm": 5.240783214569092,
	"learning_rate": 2.626365655514647e-05,
	"loss": 1.0349,
	"num_input_tokens_seen": 258631128,
	"step": 474500
	},
	{
	"epoch": 4.752281094925564,
	"grad_norm": 5.152280807495117,
	"learning_rate": 2.6238644549383706e-05,
	"loss": 1.0395,
	"num_input_tokens_seen": 258902464,
	"step": 475000
	},
	{
	"epoch": 4.757283496078117,
	"grad_norm": 4.534987449645996,
	"learning_rate": 2.621363254362094e-05,
	"loss": 1.0417,
	"num_input_tokens_seen": 259167448,
	"step": 475500
	},
	{
	"epoch": 4.7622858972306705,
	"grad_norm": 5.842191219329834,
	"learning_rate": 2.6188620537858173e-05,
	"loss": 1.0251,
	"num_input_tokens_seen": 259437192,
	"step": 476000
	},
	{
	"epoch": 4.767288298383224,
	"grad_norm": 6.532055377960205,
	"learning_rate": 2.6163608532095408e-05,
	"loss": 1.0235,
	"num_input_tokens_seen": 259710112,
	"step": 476500
	},
	{
	"epoch": 4.772290699535777,
	"grad_norm": 4.665198802947998,
	"learning_rate": 2.6138596526332643e-05,
	"loss": 1.0329,
	"num_input_tokens_seen": 259983048,
	"step": 477000
	},
	{
	"epoch": 4.777293100688331,
	"grad_norm": 5.536545276641846,
	"learning_rate": 2.611358452056987e-05,
	"loss": 1.0144,
	"num_input_tokens_seen": 260257608,
	"step": 477500
	},
	{
	"epoch": 4.782295501840884,
	"grad_norm": 7.246273994445801,
	"learning_rate": 2.608857251480711e-05,
	"loss": 1.0353,
	"num_input_tokens_seen": 260533312,
	"step": 478000
	},
	{
	"epoch": 4.787297902993437,
	"grad_norm": 5.359396934509277,
	"learning_rate": 2.6063560509044344e-05,
	"loss": 1.0359,
	"num_input_tokens_seen": 260808264,
	"step": 478500
	},
	{
	"epoch": 4.79230030414599,
	"grad_norm": 5.461490154266357,
	"learning_rate": 2.603854850328158e-05,
	"loss": 1.0342,
	"num_input_tokens_seen": 261080680,
	"step": 479000
	},
	{
	"epoch": 4.797302705298543,
	"grad_norm": 6.074306488037109,
	"learning_rate": 2.6013536497518807e-05,
	"loss": 1.0386,
	"num_input_tokens_seen": 261352616,
	"step": 479500
	},
	{
	"epoch": 4.802305106451096,
	"grad_norm": 4.465676307678223,
	"learning_rate": 2.5988524491756046e-05,
	"loss": 1.0287,
	"num_input_tokens_seen": 261635744,
	"step": 480000
	},
	{
	"epoch": 4.8073075076036496,
	"grad_norm": 5.1833953857421875,
	"learning_rate": 2.596351248599328e-05,
	"loss": 1.0237,
	"num_input_tokens_seen": 261911376,
	"step": 480500
	},
	{
	"epoch": 4.812309908756203,
	"grad_norm": 7.636727809906006,
	"learning_rate": 2.593850048023051e-05,
	"loss": 1.0376,
	"num_input_tokens_seen": 262186256,
	"step": 481000
	},
	{
	"epoch": 4.817312309908756,
	"grad_norm": 5.770178318023682,
	"learning_rate": 2.5913488474467744e-05,
	"loss": 1.0221,
	"num_input_tokens_seen": 262461448,
	"step": 481500
	},
	{
	"epoch": 4.82231471106131,
	"grad_norm": 7.173573970794678,
	"learning_rate": 2.5888476468704982e-05,
	"loss": 1.0206,
	"num_input_tokens_seen": 262734672,
	"step": 482000
	},
	{
	"epoch": 4.827317112213863,
	"grad_norm": 5.029593467712402,
	"learning_rate": 2.5863464462942217e-05,
	"loss": 1.0507,
	"num_input_tokens_seen": 263009408,
	"step": 482500
	},
	{
	"epoch": 4.832319513366416,
	"grad_norm": 6.359258651733398,
	"learning_rate": 2.5838452457179445e-05,
	"loss": 1.0275,
	"num_input_tokens_seen": 263280584,
	"step": 483000
	},
	{
	"epoch": 4.837321914518969,
	"grad_norm": 5.677992820739746,
	"learning_rate": 2.581344045141668e-05,
	"loss": 1.0195,
	"num_input_tokens_seen": 263545768,
	"step": 483500
	},
	{
	"epoch": 4.842324315671522,
	"grad_norm": 4.935763835906982,
	"learning_rate": 2.578842844565392e-05,
	"loss": 1.0311,
	"num_input_tokens_seen": 263822840,
	"step": 484000
	},
	{
	"epoch": 4.8473267168240755,
	"grad_norm": 5.072977542877197,
	"learning_rate": 2.5763416439891147e-05,
	"loss": 1.0246,
	"num_input_tokens_seen": 264100088,
	"step": 484500
	},
	{
	"epoch": 4.852329117976629,
	"grad_norm": 6.382875442504883,
	"learning_rate": 2.5738404434128382e-05,
	"loss": 1.0211,
	"num_input_tokens_seen": 264373424,
	"step": 485000
	},
	{
	"epoch": 4.857331519129182,
	"grad_norm": 5.98667049407959,
	"learning_rate": 2.5713392428365617e-05,
	"loss": 1.0457,
	"num_input_tokens_seen": 264652616,
	"step": 485500
	},
	{
	"epoch": 4.862333920281735,
	"grad_norm": 5.859986782073975,
	"learning_rate": 2.568838042260285e-05,
	"loss": 1.0291,
	"num_input_tokens_seen": 264919240,
	"step": 486000
	},
	{
	"epoch": 4.867336321434289,
	"grad_norm": 5.3083271980285645,
	"learning_rate": 2.5663368416840083e-05,
	"loss": 1.024,
	"num_input_tokens_seen": 265186880,
	"step": 486500
	},
	{
	"epoch": 4.872338722586842,
	"grad_norm": 5.720509052276611,
	"learning_rate": 2.563835641107732e-05,
	"loss": 1.0329,
	"num_input_tokens_seen": 265456584,
	"step": 487000
	},
	{
	"epoch": 4.877341123739395,
	"grad_norm": 5.909444332122803,
	"learning_rate": 2.5613344405314553e-05,
	"loss": 1.0205,
	"num_input_tokens_seen": 265720768,
	"step": 487500
	},
	{
	"epoch": 4.882343524891948,
	"grad_norm": 4.779830455780029,
	"learning_rate": 2.5588332399551785e-05,
	"loss": 1.0226,
	"num_input_tokens_seen": 265991224,
	"step": 488000
	},
	{
	"epoch": 4.887345926044501,
	"grad_norm": 5.503864765167236,
	"learning_rate": 2.556332039378902e-05,
	"loss": 1.0299,
	"num_input_tokens_seen": 266260752,
	"step": 488500
	},
	{
	"epoch": 4.8923483271970545,
	"grad_norm": 6.2289581298828125,
	"learning_rate": 2.5538308388026255e-05,
	"loss": 1.0165,
	"num_input_tokens_seen": 266538032,
	"step": 489000
	},
	{
	"epoch": 4.897350728349608,
	"grad_norm": 6.163370132446289,
	"learning_rate": 2.5513296382263486e-05,
	"loss": 1.0273,
	"num_input_tokens_seen": 266812688,
	"step": 489500
	},
	{
	"epoch": 4.902353129502161,
	"grad_norm": 5.308876991271973,
	"learning_rate": 2.548828437650072e-05,
	"loss": 1.0302,
	"num_input_tokens_seen": 267083632,
	"step": 490000
	},
	{
	"epoch": 4.907355530654714,
	"grad_norm": 6.824766635894775,
	"learning_rate": 2.5463272370737956e-05,
	"loss": 1.0287,
	"num_input_tokens_seen": 267354032,
	"step": 490500
	},
	{
	"epoch": 4.912357931807268,
	"grad_norm": 5.9447102546691895,
	"learning_rate": 2.543826036497519e-05,
	"loss": 1.0552,
	"num_input_tokens_seen": 267626432,
	"step": 491000
	},
	{
	"epoch": 4.917360332959821,
	"grad_norm": 5.845020771026611,
	"learning_rate": 2.5413248359212423e-05,
	"loss": 1.0136,
	"num_input_tokens_seen": 267900520,
	"step": 491500
	},
	{
	"epoch": 4.922362734112374,
	"grad_norm": 5.4116082191467285,
	"learning_rate": 2.5388236353449658e-05,
	"loss": 1.0163,
	"num_input_tokens_seen": 268165832,
	"step": 492000
	},
	{
	"epoch": 4.927365135264927,
	"grad_norm": 7.0753326416015625,
	"learning_rate": 2.5363224347686893e-05,
	"loss": 1.0393,
	"num_input_tokens_seen": 268441848,
	"step": 492500
	},
	{
	"epoch": 4.93236753641748,
	"grad_norm": 7.350298881530762,
	"learning_rate": 2.533821234192412e-05,
	"loss": 1.0463,
	"num_input_tokens_seen": 268716696,
	"step": 493000
	},
	{
	"epoch": 4.9373699375700335,
	"grad_norm": 5.284552574157715,
	"learning_rate": 2.531320033616136e-05,
	"loss": 1.0311,
	"num_input_tokens_seen": 268988968,
	"step": 493500
	},
	{
	"epoch": 4.942372338722587,
	"grad_norm": 6.068382740020752,
	"learning_rate": 2.5288188330398594e-05,
	"loss": 1.0379,
	"num_input_tokens_seen": 269264776,
	"step": 494000
	},
	{
	"epoch": 4.94737473987514,
	"grad_norm": 6.806668281555176,
	"learning_rate": 2.526317632463583e-05,
	"loss": 1.0403,
	"num_input_tokens_seen": 269535320,
	"step": 494500
	},
	{
	"epoch": 4.952377141027693,
	"grad_norm": 5.127531051635742,
	"learning_rate": 2.5238164318873058e-05,
	"loss": 1.0269,
	"num_input_tokens_seen": 269805928,
	"step": 495000
	},
	{
	"epoch": 4.957379542180247,
	"grad_norm": 4.772179126739502,
	"learning_rate": 2.5213152313110293e-05,
	"loss": 1.0251,
	"num_input_tokens_seen": 270085064,
	"step": 495500
	},
	{
	"epoch": 4.9623819433328,
	"grad_norm": 7.208611011505127,
	"learning_rate": 2.518814030734753e-05,
	"loss": 1.0134,
	"num_input_tokens_seen": 270359424,
	"step": 496000
	},
	{
	"epoch": 4.967384344485353,
	"grad_norm": 5.730184555053711,
	"learning_rate": 2.516312830158476e-05,
	"loss": 1.0226,
	"num_input_tokens_seen": 270634264,
	"step": 496500
	},
	{
	"epoch": 4.972386745637906,
	"grad_norm": 5.047354698181152,
	"learning_rate": 2.5138116295821994e-05,
	"loss": 1.034,
	"num_input_tokens_seen": 270902440,
	"step": 497000
	},
	{
	"epoch": 4.977389146790459,
	"grad_norm": 4.870574951171875,
	"learning_rate": 2.511310429005923e-05,
	"loss": 1.0434,
	"num_input_tokens_seen": 271179104,
	"step": 497500
	},
	{
	"epoch": 4.9823915479430125,
	"grad_norm": 5.616664409637451,
	"learning_rate": 2.5088092284296467e-05,
	"loss": 1.0236,
	"num_input_tokens_seen": 271451512,
	"step": 498000
	},
	{
	"epoch": 4.987393949095566,
	"grad_norm": 4.676699638366699,
	"learning_rate": 2.5063080278533696e-05,
	"loss": 1.0464,
	"num_input_tokens_seen": 271724472,
	"step": 498500
	},
	{
	"epoch": 4.992396350248119,
	"grad_norm": 5.634840965270996,
	"learning_rate": 2.503806827277093e-05,
	"loss": 1.0291,
	"num_input_tokens_seen": 271995512,
	"step": 499000
	},
	{
	"epoch": 4.997398751400672,
	"grad_norm": 6.081726551055908,
	"learning_rate": 2.5013056267008166e-05,
	"loss": 1.0243,
	"num_input_tokens_seen": 272263560,
	"step": 499500
	},
	{
	"epoch": 5.0,
	"eval_loss": 1.0584163665771484,
	"eval_runtime": 192.7527,
	"eval_samples_per_second": 1037.106,
	"eval_steps_per_second": 129.643,
	"num_input_tokens_seen": 272407288,
	"step": 499760
	},
	{
	"epoch": 5.0,
	"num_input_tokens_seen": 272407288,
	"step": 499760,
	"total_flos": 7.214188795055309e+16,
	"train_loss": 0.0,
	"train_runtime": 0.0544,
	"train_samples_per_second": 73478382.327,
	"train_steps_per_second": 9184797.791,
	"train_tokens_per_second": 5003948262.574
	}
	],
	"logging_steps": 500,
	"max_steps": 499760,
	"num_input_tokens_seen": 272407288,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.214188795055309e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}