medgemma_check / trainer_state.json

Training in progress, epoch 1

62f063d verified 7 months ago

157 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 50,
	"global_step": 13947,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0035850646207897896,
	"grad_norm": 28.958446502685547,
	"learning_rate": 3.512544802867384e-06,
	"loss": 14.3981,
	"mean_token_accuracy": 0.4658013021945953,
	"num_tokens": 631305.0,
	"step": 50
	},
	{
	"epoch": 0.0035850646207897896,
	"eval_loss": 3.598968505859375,
	"eval_mean_token_accuracy": 0.4642415362596512,
	"eval_num_tokens": 631305.0,
	"eval_runtime": 55.3723,
	"eval_samples_per_second": 7.224,
	"eval_steps_per_second": 0.903,
	"step": 50
	},
	{
	"epoch": 0.007170129241579579,
	"grad_norm": 46.98331832885742,
	"learning_rate": 7.096774193548387e-06,
	"loss": 13.6155,
	"mean_token_accuracy": 0.47677032694220545,
	"num_tokens": 1263143.0,
	"step": 100
	},
	{
	"epoch": 0.007170129241579579,
	"eval_loss": 3.242854595184326,
	"eval_mean_token_accuracy": 0.4895547354221344,
	"eval_num_tokens": 1263143.0,
	"eval_runtime": 56.3676,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 0.887,
	"step": 100
	},
	{
	"epoch": 0.01075519386236937,
	"grad_norm": 23.78474235534668,
	"learning_rate": 1.0681003584229391e-05,
	"loss": 11.8849,
	"mean_token_accuracy": 0.5030167695879936,
	"num_tokens": 1896120.0,
	"step": 150
	},
	{
	"epoch": 0.01075519386236937,
	"eval_loss": 2.791355609893799,
	"eval_mean_token_accuracy": 0.5165965485572815,
	"eval_num_tokens": 1896120.0,
	"eval_runtime": 55.265,
	"eval_samples_per_second": 7.238,
	"eval_steps_per_second": 0.905,
	"step": 150
	},
	{
	"epoch": 0.014340258483159158,
	"grad_norm": 11.690914154052734,
	"learning_rate": 1.4265232974910395e-05,
	"loss": 9.8852,
	"mean_token_accuracy": 0.5450691656768322,
	"num_tokens": 2527332.0,
	"step": 200
	},
	{
	"epoch": 0.014340258483159158,
	"eval_loss": 2.1748604774475098,
	"eval_mean_token_accuracy": 0.5758289074897767,
	"eval_num_tokens": 2527332.0,
	"eval_runtime": 55.335,
	"eval_samples_per_second": 7.229,
	"eval_steps_per_second": 0.904,
	"step": 200
	},
	{
	"epoch": 0.01792532310394895,
	"grad_norm": 9.011432647705078,
	"learning_rate": 1.78494623655914e-05,
	"loss": 7.7315,
	"mean_token_accuracy": 0.5919728323817253,
	"num_tokens": 3158451.0,
	"step": 250
	},
	{
	"epoch": 0.01792532310394895,
	"eval_loss": 1.7914152145385742,
	"eval_mean_token_accuracy": 0.6036396706104279,
	"eval_num_tokens": 3158451.0,
	"eval_runtime": 55.3537,
	"eval_samples_per_second": 7.226,
	"eval_steps_per_second": 0.903,
	"step": 250
	},
	{
	"epoch": 0.02151038772473874,
	"grad_norm": 9.172738075256348,
	"learning_rate": 2.1433691756272405e-05,
	"loss": 6.6634,
	"mean_token_accuracy": 0.6193091833591461,
	"num_tokens": 3790537.0,
	"step": 300
	},
	{
	"epoch": 0.02151038772473874,
	"eval_loss": 1.5858986377716064,
	"eval_mean_token_accuracy": 0.6325684702396392,
	"eval_num_tokens": 3790537.0,
	"eval_runtime": 55.5221,
	"eval_samples_per_second": 7.204,
	"eval_steps_per_second": 0.901,
	"step": 300
	},
	{
	"epoch": 0.025095452345528527,
	"grad_norm": 6.380577087402344,
	"learning_rate": 2.5017921146953403e-05,
	"loss": 5.9955,
	"mean_token_accuracy": 0.6299453395605087,
	"num_tokens": 4416803.0,
	"step": 350
	},
	{
	"epoch": 0.025095452345528527,
	"eval_loss": 1.4283970594406128,
	"eval_mean_token_accuracy": 0.637500970363617,
	"eval_num_tokens": 4416803.0,
	"eval_runtime": 55.6098,
	"eval_samples_per_second": 7.193,
	"eval_steps_per_second": 0.899,
	"step": 350
	},
	{
	"epoch": 0.028680516966318317,
	"grad_norm": 8.31059455871582,
	"learning_rate": 2.860215053763441e-05,
	"loss": 5.6524,
	"mean_token_accuracy": 0.6386667934060096,
	"num_tokens": 5049525.0,
	"step": 400
	},
	{
	"epoch": 0.028680516966318317,
	"eval_loss": 1.4044820070266724,
	"eval_mean_token_accuracy": 0.6408572208881378,
	"eval_num_tokens": 5049525.0,
	"eval_runtime": 55.375,
	"eval_samples_per_second": 7.223,
	"eval_steps_per_second": 0.903,
	"step": 400
	},
	{
	"epoch": 0.03226558158710811,
	"grad_norm": 8.33178997039795,
	"learning_rate": 3.218637992831541e-05,
	"loss": 5.5798,
	"mean_token_accuracy": 0.6421743601560592,
	"num_tokens": 5681852.0,
	"step": 450
	},
	{
	"epoch": 0.03226558158710811,
	"eval_loss": 1.390726923942566,
	"eval_mean_token_accuracy": 0.642348815202713,
	"eval_num_tokens": 5681852.0,
	"eval_runtime": 55.3167,
	"eval_samples_per_second": 7.231,
	"eval_steps_per_second": 0.904,
	"step": 450
	},
	{
	"epoch": 0.0358506462078979,
	"grad_norm": 6.159327507019043,
	"learning_rate": 3.577060931899642e-05,
	"loss": 5.5753,
	"mean_token_accuracy": 0.6416634133458138,
	"num_tokens": 6314159.0,
	"step": 500
	},
	{
	"epoch": 0.0358506462078979,
	"eval_loss": 1.3759286403656006,
	"eval_mean_token_accuracy": 0.6448968076705932,
	"eval_num_tokens": 6314159.0,
	"eval_runtime": 55.4132,
	"eval_samples_per_second": 7.219,
	"eval_steps_per_second": 0.902,
	"step": 500
	},
	{
	"epoch": 0.03943571082868769,
	"grad_norm": 7.295239448547363,
	"learning_rate": 3.935483870967742e-05,
	"loss": 5.4486,
	"mean_token_accuracy": 0.6444561332464218,
	"num_tokens": 6948430.0,
	"step": 550
	},
	{
	"epoch": 0.03943571082868769,
	"eval_loss": 1.3677067756652832,
	"eval_mean_token_accuracy": 0.6456243467330932,
	"eval_num_tokens": 6948430.0,
	"eval_runtime": 55.4348,
	"eval_samples_per_second": 7.216,
	"eval_steps_per_second": 0.902,
	"step": 550
	},
	{
	"epoch": 0.04302077544947748,
	"grad_norm": 8.140225410461426,
	"learning_rate": 4.2939068100358425e-05,
	"loss": 5.491,
	"mean_token_accuracy": 0.6452211833000183,
	"num_tokens": 7574739.0,
	"step": 600
	},
	{
	"epoch": 0.04302077544947748,
	"eval_loss": 1.3580710887908936,
	"eval_mean_token_accuracy": 0.6465290606021881,
	"eval_num_tokens": 7574739.0,
	"eval_runtime": 55.3881,
	"eval_samples_per_second": 7.222,
	"eval_steps_per_second": 0.903,
	"step": 600
	},
	{
	"epoch": 0.04660584007026727,
	"grad_norm": 7.000651836395264,
	"learning_rate": 4.6523297491039434e-05,
	"loss": 5.4196,
	"mean_token_accuracy": 0.6482405418157577,
	"num_tokens": 8203512.0,
	"step": 650
	},
	{
	"epoch": 0.04660584007026727,
	"eval_loss": 1.3494269847869873,
	"eval_mean_token_accuracy": 0.6481932699680328,
	"eval_num_tokens": 8203512.0,
	"eval_runtime": 55.3883,
	"eval_samples_per_second": 7.222,
	"eval_steps_per_second": 0.903,
	"step": 650
	},
	{
	"epoch": 0.05019090469105705,
	"grad_norm": 8.582626342773438,
	"learning_rate": 5.0107526881720436e-05,
	"loss": 5.3867,
	"mean_token_accuracy": 0.650465478003025,
	"num_tokens": 8831306.0,
	"step": 700
	},
	{
	"epoch": 0.05019090469105705,
	"eval_loss": 1.3439626693725586,
	"eval_mean_token_accuracy": 0.6484399271011353,
	"eval_num_tokens": 8831306.0,
	"eval_runtime": 55.4414,
	"eval_samples_per_second": 7.215,
	"eval_steps_per_second": 0.902,
	"step": 700
	},
	{
	"epoch": 0.05377596931184685,
	"grad_norm": 8.785462379455566,
	"learning_rate": 5.369175627240144e-05,
	"loss": 5.3822,
	"mean_token_accuracy": 0.6480473777651787,
	"num_tokens": 9462041.0,
	"step": 750
	},
	{
	"epoch": 0.05377596931184685,
	"eval_loss": 1.3385406732559204,
	"eval_mean_token_accuracy": 0.649928457736969,
	"eval_num_tokens": 9462041.0,
	"eval_runtime": 55.3213,
	"eval_samples_per_second": 7.23,
	"eval_steps_per_second": 0.904,
	"step": 750
	},
	{
	"epoch": 0.05736103393263663,
	"grad_norm": 6.1994547843933105,
	"learning_rate": 5.727598566308244e-05,
	"loss": 5.305,
	"mean_token_accuracy": 0.6530899196863175,
	"num_tokens": 10095648.0,
	"step": 800
	},
	{
	"epoch": 0.05736103393263663,
	"eval_loss": 1.333341360092163,
	"eval_mean_token_accuracy": 0.6506243336200714,
	"eval_num_tokens": 10095648.0,
	"eval_runtime": 55.4523,
	"eval_samples_per_second": 7.213,
	"eval_steps_per_second": 0.902,
	"step": 800
	},
	{
	"epoch": 0.06094609855342643,
	"grad_norm": 5.850490570068359,
	"learning_rate": 6.086021505376345e-05,
	"loss": 5.3301,
	"mean_token_accuracy": 0.6499336344003678,
	"num_tokens": 10730377.0,
	"step": 850
	},
	{
	"epoch": 0.06094609855342643,
	"eval_loss": 1.3294757604599,
	"eval_mean_token_accuracy": 0.6494286286830903,
	"eval_num_tokens": 10730377.0,
	"eval_runtime": 55.628,
	"eval_samples_per_second": 7.191,
	"eval_steps_per_second": 0.899,
	"step": 850
	},
	{
	"epoch": 0.06453116317421621,
	"grad_norm": 5.629384517669678,
	"learning_rate": 6.444444444444446e-05,
	"loss": 5.2911,
	"mean_token_accuracy": 0.6521104833483696,
	"num_tokens": 11363798.0,
	"step": 900
	},
	{
	"epoch": 0.06453116317421621,
	"eval_loss": 1.3235622644424438,
	"eval_mean_token_accuracy": 0.6512654149532318,
	"eval_num_tokens": 11363798.0,
	"eval_runtime": 55.5848,
	"eval_samples_per_second": 7.196,
	"eval_steps_per_second": 0.9,
	"step": 900
	},
	{
	"epoch": 0.068116227795006,
	"grad_norm": 6.046393871307373,
	"learning_rate": 6.802867383512545e-05,
	"loss": 5.2478,
	"mean_token_accuracy": 0.6536632561683655,
	"num_tokens": 11993502.0,
	"step": 950
	},
	{
	"epoch": 0.068116227795006,
	"eval_loss": 1.3197156190872192,
	"eval_mean_token_accuracy": 0.6517732429504395,
	"eval_num_tokens": 11993502.0,
	"eval_runtime": 55.3206,
	"eval_samples_per_second": 7.231,
	"eval_steps_per_second": 0.904,
	"step": 950
	},
	{
	"epoch": 0.0717012924157958,
	"grad_norm": 6.950500011444092,
	"learning_rate": 7.161290322580646e-05,
	"loss": 5.2368,
	"mean_token_accuracy": 0.6554682296514511,
	"num_tokens": 12628081.0,
	"step": 1000
	},
	{
	"epoch": 0.0717012924157958,
	"eval_loss": 1.3148993253707886,
	"eval_mean_token_accuracy": 0.652986958026886,
	"eval_num_tokens": 12628081.0,
	"eval_runtime": 55.4045,
	"eval_samples_per_second": 7.22,
	"eval_steps_per_second": 0.902,
	"step": 1000
	},
	{
	"epoch": 0.07528635703658558,
	"grad_norm": 5.844649791717529,
	"learning_rate": 7.519713261648746e-05,
	"loss": 5.2604,
	"mean_token_accuracy": 0.6538248571753502,
	"num_tokens": 13254893.0,
	"step": 1050
	},
	{
	"epoch": 0.07528635703658558,
	"eval_loss": 1.3124916553497314,
	"eval_mean_token_accuracy": 0.6538188600540161,
	"eval_num_tokens": 13254893.0,
	"eval_runtime": 56.9195,
	"eval_samples_per_second": 7.027,
	"eval_steps_per_second": 0.878,
	"step": 1050
	},
	{
	"epoch": 0.07887142165737537,
	"grad_norm": 5.3114094734191895,
	"learning_rate": 7.878136200716845e-05,
	"loss": 5.235,
	"mean_token_accuracy": 0.6541680765151977,
	"num_tokens": 13893524.0,
	"step": 1100
	},
	{
	"epoch": 0.07887142165737537,
	"eval_loss": 1.309714674949646,
	"eval_mean_token_accuracy": 0.6538467502593994,
	"eval_num_tokens": 13893524.0,
	"eval_runtime": 56.3705,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 0.887,
	"step": 1100
	},
	{
	"epoch": 0.08245648627816517,
	"grad_norm": 5.666459083557129,
	"learning_rate": 8.236559139784946e-05,
	"loss": 5.1803,
	"mean_token_accuracy": 0.6568083089590072,
	"num_tokens": 14522906.0,
	"step": 1150
	},
	{
	"epoch": 0.08245648627816517,
	"eval_loss": 1.305640459060669,
	"eval_mean_token_accuracy": 0.655296059846878,
	"eval_num_tokens": 14522906.0,
	"eval_runtime": 57.2106,
	"eval_samples_per_second": 6.992,
	"eval_steps_per_second": 0.874,
	"step": 1150
	},
	{
	"epoch": 0.08604155089895496,
	"grad_norm": 6.020337104797363,
	"learning_rate": 8.594982078853047e-05,
	"loss": 5.2056,
	"mean_token_accuracy": 0.653913055062294,
	"num_tokens": 15156803.0,
	"step": 1200
	},
	{
	"epoch": 0.08604155089895496,
	"eval_loss": 1.3023688793182373,
	"eval_mean_token_accuracy": 0.6569918835163117,
	"eval_num_tokens": 15156803.0,
	"eval_runtime": 56.4134,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 0.886,
	"step": 1200
	},
	{
	"epoch": 0.08962661551974474,
	"grad_norm": 5.757259368896484,
	"learning_rate": 8.953405017921147e-05,
	"loss": 5.2154,
	"mean_token_accuracy": 0.6549820226430892,
	"num_tokens": 15788828.0,
	"step": 1250
	},
	{
	"epoch": 0.08962661551974474,
	"eval_loss": 1.3033726215362549,
	"eval_mean_token_accuracy": 0.6548340058326722,
	"eval_num_tokens": 15788828.0,
	"eval_runtime": 56.3999,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 0.887,
	"step": 1250
	},
	{
	"epoch": 0.09321168014053453,
	"grad_norm": 6.876058101654053,
	"learning_rate": 9.311827956989248e-05,
	"loss": 5.2374,
	"mean_token_accuracy": 0.6526922315359116,
	"num_tokens": 16423385.0,
	"step": 1300
	},
	{
	"epoch": 0.09321168014053453,
	"eval_loss": 1.2987463474273682,
	"eval_mean_token_accuracy": 0.6556110656261445,
	"eval_num_tokens": 16423385.0,
	"eval_runtime": 56.3308,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 0.888,
	"step": 1300
	},
	{
	"epoch": 0.09679674476132433,
	"grad_norm": 5.170133590698242,
	"learning_rate": 9.670250896057349e-05,
	"loss": 5.2584,
	"mean_token_accuracy": 0.6529216593503953,
	"num_tokens": 17058608.0,
	"step": 1350
	},
	{
	"epoch": 0.09679674476132433,
	"eval_loss": 1.2979986667633057,
	"eval_mean_token_accuracy": 0.6553151261806488,
	"eval_num_tokens": 17058608.0,
	"eval_runtime": 56.3719,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 0.887,
	"step": 1350
	},
	{
	"epoch": 0.1003818093821141,
	"grad_norm": 5.678673267364502,
	"learning_rate": 9.996813256851498e-05,
	"loss": 5.1909,
	"mean_token_accuracy": 0.6570302325487137,
	"num_tokens": 17689690.0,
	"step": 1400
	},
	{
	"epoch": 0.1003818093821141,
	"eval_loss": 1.2949328422546387,
	"eval_mean_token_accuracy": 0.6552190041542053,
	"eval_num_tokens": 17689690.0,
	"eval_runtime": 56.3054,
	"eval_samples_per_second": 7.104,
	"eval_steps_per_second": 0.888,
	"step": 1400
	},
	{
	"epoch": 0.1039668740029039,
	"grad_norm": 4.694892406463623,
	"learning_rate": 9.956978967495221e-05,
	"loss": 5.1132,
	"mean_token_accuracy": 0.6600784501433372,
	"num_tokens": 18321232.0,
	"step": 1450
	},
	{
	"epoch": 0.1039668740029039,
	"eval_loss": 1.2946751117706299,
	"eval_mean_token_accuracy": 0.6560806667804718,
	"eval_num_tokens": 18321232.0,
	"eval_runtime": 56.7345,
	"eval_samples_per_second": 7.05,
	"eval_steps_per_second": 0.881,
	"step": 1450
	},
	{
	"epoch": 0.1075519386236937,
	"grad_norm": 5.286959171295166,
	"learning_rate": 9.917144678138942e-05,
	"loss": 5.2297,
	"mean_token_accuracy": 0.6539956346154213,
	"num_tokens": 18952518.0,
	"step": 1500
	},
	{
	"epoch": 0.1075519386236937,
	"eval_loss": 1.2900216579437256,
	"eval_mean_token_accuracy": 0.6562173092365264,
	"eval_num_tokens": 18952518.0,
	"eval_runtime": 56.3853,
	"eval_samples_per_second": 7.094,
	"eval_steps_per_second": 0.887,
	"step": 1500
	},
	{
	"epoch": 0.11113700324448349,
	"grad_norm": 5.229610443115234,
	"learning_rate": 9.877310388782664e-05,
	"loss": 5.1376,
	"mean_token_accuracy": 0.6599933451414108,
	"num_tokens": 19580453.0,
	"step": 1550
	},
	{
	"epoch": 0.11113700324448349,
	"eval_loss": 1.2871261835098267,
	"eval_mean_token_accuracy": 0.6577617633342743,
	"eval_num_tokens": 19580453.0,
	"eval_runtime": 56.3376,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 0.888,
	"step": 1550
	},
	{
	"epoch": 0.11472206786527327,
	"grad_norm": 4.540684223175049,
	"learning_rate": 9.837476099426386e-05,
	"loss": 5.1124,
	"mean_token_accuracy": 0.659881052672863,
	"num_tokens": 20220713.0,
	"step": 1600
	},
	{
	"epoch": 0.11472206786527327,
	"eval_loss": 1.2855585813522339,
	"eval_mean_token_accuracy": 0.657675279378891,
	"eval_num_tokens": 20220713.0,
	"eval_runtime": 56.4741,
	"eval_samples_per_second": 7.083,
	"eval_steps_per_second": 0.885,
	"step": 1600
	},
	{
	"epoch": 0.11830713248606306,
	"grad_norm": 5.147482872009277,
	"learning_rate": 9.797641810070109e-05,
	"loss": 5.1251,
	"mean_token_accuracy": 0.658254965543747,
	"num_tokens": 20853860.0,
	"step": 1650
	},
	{
	"epoch": 0.11830713248606306,
	"eval_loss": 1.283848762512207,
	"eval_mean_token_accuracy": 0.6582966887950897,
	"eval_num_tokens": 20853860.0,
	"eval_runtime": 57.6401,
	"eval_samples_per_second": 6.94,
	"eval_steps_per_second": 0.867,
	"step": 1650
	},
	{
	"epoch": 0.12189219710685285,
	"grad_norm": 4.544667720794678,
	"learning_rate": 9.757807520713831e-05,
	"loss": 5.0706,
	"mean_token_accuracy": 0.6628770676255226,
	"num_tokens": 21487498.0,
	"step": 1700
	},
	{
	"epoch": 0.12189219710685285,
	"eval_loss": 1.2798463106155396,
	"eval_mean_token_accuracy": 0.6587248671054841,
	"eval_num_tokens": 21487498.0,
	"eval_runtime": 56.4142,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 0.886,
	"step": 1700
	},
	{
	"epoch": 0.12547726172764265,
	"grad_norm": 4.541973114013672,
	"learning_rate": 9.717973231357553e-05,
	"loss": 5.054,
	"mean_token_accuracy": 0.6628148990869522,
	"num_tokens": 22120725.0,
	"step": 1750
	},
	{
	"epoch": 0.12547726172764265,
	"eval_loss": 1.278252124786377,
	"eval_mean_token_accuracy": 0.6595626533031463,
	"eval_num_tokens": 22120725.0,
	"eval_runtime": 56.5087,
	"eval_samples_per_second": 7.079,
	"eval_steps_per_second": 0.885,
	"step": 1750
	},
	{
	"epoch": 0.12906232634843243,
	"grad_norm": 5.01814603805542,
	"learning_rate": 9.678138942001275e-05,
	"loss": 5.1334,
	"mean_token_accuracy": 0.6570143532752991,
	"num_tokens": 22751630.0,
	"step": 1800
	},
	{
	"epoch": 0.12906232634843243,
	"eval_loss": 1.2745345830917358,
	"eval_mean_token_accuracy": 0.6588572013378143,
	"eval_num_tokens": 22751630.0,
	"eval_runtime": 56.4708,
	"eval_samples_per_second": 7.083,
	"eval_steps_per_second": 0.885,
	"step": 1800
	},
	{
	"epoch": 0.1326473909692222,
	"grad_norm": 5.249142646789551,
	"learning_rate": 9.638304652644997e-05,
	"loss": 5.0772,
	"mean_token_accuracy": 0.6610330584645271,
	"num_tokens": 23380871.0,
	"step": 1850
	},
	{
	"epoch": 0.1326473909692222,
	"eval_loss": 1.271730661392212,
	"eval_mean_token_accuracy": 0.6606413364410401,
	"eval_num_tokens": 23380871.0,
	"eval_runtime": 56.3956,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 0.887,
	"step": 1850
	},
	{
	"epoch": 0.136232455590012,
	"grad_norm": 4.495316505432129,
	"learning_rate": 9.598470363288719e-05,
	"loss": 5.1115,
	"mean_token_accuracy": 0.6598174887895584,
	"num_tokens": 24016153.0,
	"step": 1900
	},
	{
	"epoch": 0.136232455590012,
	"eval_loss": 1.2678121328353882,
	"eval_mean_token_accuracy": 0.659992311000824,
	"eval_num_tokens": 24016153.0,
	"eval_runtime": 56.3408,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 0.887,
	"step": 1900
	},
	{
	"epoch": 0.1398175202108018,
	"grad_norm": 4.675460338592529,
	"learning_rate": 9.558636073932441e-05,
	"loss": 5.1039,
	"mean_token_accuracy": 0.6611927005648613,
	"num_tokens": 24651410.0,
	"step": 1950
	},
	{
	"epoch": 0.1398175202108018,
	"eval_loss": 1.2681583166122437,
	"eval_mean_token_accuracy": 0.6607218337059021,
	"eval_num_tokens": 24651410.0,
	"eval_runtime": 56.0826,
	"eval_samples_per_second": 7.132,
	"eval_steps_per_second": 0.892,
	"step": 1950
	},
	{
	"epoch": 0.1434025848315916,
	"grad_norm": 4.928748607635498,
	"learning_rate": 9.518801784576164e-05,
	"loss": 5.1005,
	"mean_token_accuracy": 0.6606691733002663,
	"num_tokens": 25282438.0,
	"step": 2000
	},
	{
	"epoch": 0.1434025848315916,
	"eval_loss": 1.2662436962127686,
	"eval_mean_token_accuracy": 0.6602835392951966,
	"eval_num_tokens": 25282438.0,
	"eval_runtime": 56.1345,
	"eval_samples_per_second": 7.126,
	"eval_steps_per_second": 0.891,
	"step": 2000
	},
	{
	"epoch": 0.14698764945238138,
	"grad_norm": 4.237011432647705,
	"learning_rate": 9.478967495219886e-05,
	"loss": 5.0865,
	"mean_token_accuracy": 0.6610729214549065,
	"num_tokens": 25914467.0,
	"step": 2050
	},
	{
	"epoch": 0.14698764945238138,
	"eval_loss": 1.2659285068511963,
	"eval_mean_token_accuracy": 0.6619378459453583,
	"eval_num_tokens": 25914467.0,
	"eval_runtime": 56.41,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 0.886,
	"step": 2050
	},
	{
	"epoch": 0.15057271407317116,
	"grad_norm": 4.498386383056641,
	"learning_rate": 9.439133205863608e-05,
	"loss": 5.0536,
	"mean_token_accuracy": 0.662959768474102,
	"num_tokens": 26547088.0,
	"step": 2100
	},
	{
	"epoch": 0.15057271407317116,
	"eval_loss": 1.2620855569839478,
	"eval_mean_token_accuracy": 0.6622272551059722,
	"eval_num_tokens": 26547088.0,
	"eval_runtime": 56.4966,
	"eval_samples_per_second": 7.08,
	"eval_steps_per_second": 0.885,
	"step": 2100
	},
	{
	"epoch": 0.15415777869396097,
	"grad_norm": 4.547789573669434,
	"learning_rate": 9.39929891650733e-05,
	"loss": 5.0074,
	"mean_token_accuracy": 0.6667503699660301,
	"num_tokens": 27181781.0,
	"step": 2150
	},
	{
	"epoch": 0.15415777869396097,
	"eval_loss": 1.2630900144577026,
	"eval_mean_token_accuracy": 0.6616924941539765,
	"eval_num_tokens": 27181781.0,
	"eval_runtime": 56.423,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 0.886,
	"step": 2150
	},
	{
	"epoch": 0.15774284331475075,
	"grad_norm": 4.9150896072387695,
	"learning_rate": 9.359464627151052e-05,
	"loss": 5.0802,
	"mean_token_accuracy": 0.6615395992994308,
	"num_tokens": 27816217.0,
	"step": 2200
	},
	{
	"epoch": 0.15774284331475075,
	"eval_loss": 1.2614257335662842,
	"eval_mean_token_accuracy": 0.6630010890960694,
	"eval_num_tokens": 27816217.0,
	"eval_runtime": 56.1652,
	"eval_samples_per_second": 7.122,
	"eval_steps_per_second": 0.89,
	"step": 2200
	},
	{
	"epoch": 0.16132790793554053,
	"grad_norm": 4.487524032592773,
	"learning_rate": 9.319630337794774e-05,
	"loss": 5.0135,
	"mean_token_accuracy": 0.6651386457681656,
	"num_tokens": 28449167.0,
	"step": 2250
	},
	{
	"epoch": 0.16132790793554053,
	"eval_loss": 1.2573643922805786,
	"eval_mean_token_accuracy": 0.6616563200950623,
	"eval_num_tokens": 28449167.0,
	"eval_runtime": 56.2616,
	"eval_samples_per_second": 7.11,
	"eval_steps_per_second": 0.889,
	"step": 2250
	},
	{
	"epoch": 0.16491297255633033,
	"grad_norm": 4.237537860870361,
	"learning_rate": 9.279796048438496e-05,
	"loss": 5.0198,
	"mean_token_accuracy": 0.6647991991043091,
	"num_tokens": 29080404.0,
	"step": 2300
	},
	{
	"epoch": 0.16491297255633033,
	"eval_loss": 1.2570703029632568,
	"eval_mean_token_accuracy": 0.6629821956157684,
	"eval_num_tokens": 29080404.0,
	"eval_runtime": 56.2199,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 0.889,
	"step": 2300
	},
	{
	"epoch": 0.1684980371771201,
	"grad_norm": 4.835733890533447,
	"learning_rate": 9.239961759082219e-05,
	"loss": 5.0592,
	"mean_token_accuracy": 0.6617502626776696,
	"num_tokens": 29711200.0,
	"step": 2350
	},
	{
	"epoch": 0.1684980371771201,
	"eval_loss": 1.2566256523132324,
	"eval_mean_token_accuracy": 0.6639114606380463,
	"eval_num_tokens": 29711200.0,
	"eval_runtime": 56.2408,
	"eval_samples_per_second": 7.112,
	"eval_steps_per_second": 0.889,
	"step": 2350
	},
	{
	"epoch": 0.17208310179790992,
	"grad_norm": 4.832096099853516,
	"learning_rate": 9.200127469725941e-05,
	"loss": 5.0603,
	"mean_token_accuracy": 0.6628168100118637,
	"num_tokens": 30343251.0,
	"step": 2400
	},
	{
	"epoch": 0.17208310179790992,
	"eval_loss": 1.2529999017715454,
	"eval_mean_token_accuracy": 0.6634249198436737,
	"eval_num_tokens": 30343251.0,
	"eval_runtime": 56.4282,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 0.886,
	"step": 2400
	},
	{
	"epoch": 0.1756681664186997,
	"grad_norm": 4.870041370391846,
	"learning_rate": 9.160293180369663e-05,
	"loss": 5.0036,
	"mean_token_accuracy": 0.6657980665564537,
	"num_tokens": 30983003.0,
	"step": 2450
	},
	{
	"epoch": 0.1756681664186997,
	"eval_loss": 1.2508057355880737,
	"eval_mean_token_accuracy": 0.664600031375885,
	"eval_num_tokens": 30983003.0,
	"eval_runtime": 56.1477,
	"eval_samples_per_second": 7.124,
	"eval_steps_per_second": 0.891,
	"step": 2450
	},
	{
	"epoch": 0.17925323103948948,
	"grad_norm": 4.8386993408203125,
	"learning_rate": 9.120458891013385e-05,
	"loss": 4.9378,
	"mean_token_accuracy": 0.6697717472910881,
	"num_tokens": 31612440.0,
	"step": 2500
	},
	{
	"epoch": 0.17925323103948948,
	"eval_loss": 1.2504231929779053,
	"eval_mean_token_accuracy": 0.6656661999225616,
	"eval_num_tokens": 31612440.0,
	"eval_runtime": 56.432,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 0.886,
	"step": 2500
	},
	{
	"epoch": 0.1828382956602793,
	"grad_norm": 4.897119045257568,
	"learning_rate": 9.080624601657107e-05,
	"loss": 5.0576,
	"mean_token_accuracy": 0.6637110111117362,
	"num_tokens": 32246052.0,
	"step": 2550
	},
	{
	"epoch": 0.1828382956602793,
	"eval_loss": 1.2486332654953003,
	"eval_mean_token_accuracy": 0.6662761294841766,
	"eval_num_tokens": 32246052.0,
	"eval_runtime": 56.3188,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 0.888,
	"step": 2550
	},
	{
	"epoch": 0.18642336028106907,
	"grad_norm": 4.67065954208374,
	"learning_rate": 9.040790312300828e-05,
	"loss": 5.0137,
	"mean_token_accuracy": 0.6648938983678818,
	"num_tokens": 32876620.0,
	"step": 2600
	},
	{
	"epoch": 0.18642336028106907,
	"eval_loss": 1.2486134767532349,
	"eval_mean_token_accuracy": 0.6653382694721222,
	"eval_num_tokens": 32876620.0,
	"eval_runtime": 56.3432,
	"eval_samples_per_second": 7.099,
	"eval_steps_per_second": 0.887,
	"step": 2600
	},
	{
	"epoch": 0.19000842490185885,
	"grad_norm": 4.4095563888549805,
	"learning_rate": 9.000956022944551e-05,
	"loss": 5.0065,
	"mean_token_accuracy": 0.6646731504797936,
	"num_tokens": 33511123.0,
	"step": 2650
	},
	{
	"epoch": 0.19000842490185885,
	"eval_loss": 1.2494382858276367,
	"eval_mean_token_accuracy": 0.6639154195785523,
	"eval_num_tokens": 33511123.0,
	"eval_runtime": 56.3106,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 0.888,
	"step": 2650
	},
	{
	"epoch": 0.19359348952264865,
	"grad_norm": 4.82889461517334,
	"learning_rate": 8.961121733588274e-05,
	"loss": 5.0066,
	"mean_token_accuracy": 0.666558310687542,
	"num_tokens": 34141280.0,
	"step": 2700
	},
	{
	"epoch": 0.19359348952264865,
	"eval_loss": 1.2460081577301025,
	"eval_mean_token_accuracy": 0.6646526777744293,
	"eval_num_tokens": 34141280.0,
	"eval_runtime": 56.6246,
	"eval_samples_per_second": 7.064,
	"eval_steps_per_second": 0.883,
	"step": 2700
	},
	{
	"epoch": 0.19717855414343843,
	"grad_norm": 4.663321018218994,
	"learning_rate": 8.921287444231994e-05,
	"loss": 4.9428,
	"mean_token_accuracy": 0.6681969156861305,
	"num_tokens": 34774698.0,
	"step": 2750
	},
	{
	"epoch": 0.19717855414343843,
	"eval_loss": 1.244221806526184,
	"eval_mean_token_accuracy": 0.6656762886047364,
	"eval_num_tokens": 34774698.0,
	"eval_runtime": 56.2438,
	"eval_samples_per_second": 7.112,
	"eval_steps_per_second": 0.889,
	"step": 2750
	},
	{
	"epoch": 0.2007636187642282,
	"grad_norm": 4.264768600463867,
	"learning_rate": 8.881453154875718e-05,
	"loss": 5.0028,
	"mean_token_accuracy": 0.6653160175681114,
	"num_tokens": 35406754.0,
	"step": 2800
	},
	{
	"epoch": 0.2007636187642282,
	"eval_loss": 1.2440837621688843,
	"eval_mean_token_accuracy": 0.6653203201293946,
	"eval_num_tokens": 35406754.0,
	"eval_runtime": 56.2314,
	"eval_samples_per_second": 7.113,
	"eval_steps_per_second": 0.889,
	"step": 2800
	},
	{
	"epoch": 0.20434868338501802,
	"grad_norm": 4.938720226287842,
	"learning_rate": 8.84161886551944e-05,
	"loss": 4.9905,
	"mean_token_accuracy": 0.666375992000103,
	"num_tokens": 36037785.0,
	"step": 2850
	},
	{
	"epoch": 0.20434868338501802,
	"eval_loss": 1.2425023317337036,
	"eval_mean_token_accuracy": 0.664773497581482,
	"eval_num_tokens": 36037785.0,
	"eval_runtime": 56.4922,
	"eval_samples_per_second": 7.081,
	"eval_steps_per_second": 0.885,
	"step": 2850
	},
	{
	"epoch": 0.2079337480058078,
	"grad_norm": 4.350741386413574,
	"learning_rate": 8.801784576163161e-05,
	"loss": 4.858,
	"mean_token_accuracy": 0.6740978673100472,
	"num_tokens": 36672636.0,
	"step": 2900
	},
	{
	"epoch": 0.2079337480058078,
	"eval_loss": 1.2399791479110718,
	"eval_mean_token_accuracy": 0.6653912532329559,
	"eval_num_tokens": 36672636.0,
	"eval_runtime": 57.5992,
	"eval_samples_per_second": 6.945,
	"eval_steps_per_second": 0.868,
	"step": 2900
	},
	{
	"epoch": 0.2115188126265976,
	"grad_norm": 4.187928676605225,
	"learning_rate": 8.761950286806884e-05,
	"loss": 4.973,
	"mean_token_accuracy": 0.6659010905027389,
	"num_tokens": 37304390.0,
	"step": 2950
	},
	{
	"epoch": 0.2115188126265976,
	"eval_loss": 1.239449143409729,
	"eval_mean_token_accuracy": 0.6661972737312317,
	"eval_num_tokens": 37304390.0,
	"eval_runtime": 55.9136,
	"eval_samples_per_second": 7.154,
	"eval_steps_per_second": 0.894,
	"step": 2950
	},
	{
	"epoch": 0.2151038772473874,
	"grad_norm": 4.3214802742004395,
	"learning_rate": 8.722115997450606e-05,
	"loss": 4.9911,
	"mean_token_accuracy": 0.6659192404150963,
	"num_tokens": 37937712.0,
	"step": 3000
	},
	{
	"epoch": 0.2151038772473874,
	"eval_loss": 1.2380547523498535,
	"eval_mean_token_accuracy": 0.6668792748451233,
	"eval_num_tokens": 37937712.0,
	"eval_runtime": 56.7402,
	"eval_samples_per_second": 7.05,
	"eval_steps_per_second": 0.881,
	"step": 3000
	},
	{
	"epoch": 0.21868894186817717,
	"grad_norm": 5.154741287231445,
	"learning_rate": 8.682281708094327e-05,
	"loss": 4.9341,
	"mean_token_accuracy": 0.6695549800992012,
	"num_tokens": 38567208.0,
	"step": 3050
	},
	{
	"epoch": 0.21868894186817717,
	"eval_loss": 1.2387843132019043,
	"eval_mean_token_accuracy": 0.6668635201454163,
	"eval_num_tokens": 38567208.0,
	"eval_runtime": 56.2471,
	"eval_samples_per_second": 7.111,
	"eval_steps_per_second": 0.889,
	"step": 3050
	},
	{
	"epoch": 0.22227400648896697,
	"grad_norm": 5.014278888702393,
	"learning_rate": 8.64244741873805e-05,
	"loss": 4.8853,
	"mean_token_accuracy": 0.6707546302676201,
	"num_tokens": 39198318.0,
	"step": 3100
	},
	{
	"epoch": 0.22227400648896697,
	"eval_loss": 1.2394779920578003,
	"eval_mean_token_accuracy": 0.6670789694786072,
	"eval_num_tokens": 39198318.0,
	"eval_runtime": 56.2239,
	"eval_samples_per_second": 7.114,
	"eval_steps_per_second": 0.889,
	"step": 3100
	},
	{
	"epoch": 0.22585907110975675,
	"grad_norm": 4.228548049926758,
	"learning_rate": 8.602613129381773e-05,
	"loss": 4.9269,
	"mean_token_accuracy": 0.6687791690230369,
	"num_tokens": 39828524.0,
	"step": 3150
	},
	{
	"epoch": 0.22585907110975675,
	"eval_loss": 1.2372474670410156,
	"eval_mean_token_accuracy": 0.666018306016922,
	"eval_num_tokens": 39828524.0,
	"eval_runtime": 56.2199,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 0.889,
	"step": 3150
	},
	{
	"epoch": 0.22944413573054653,
	"grad_norm": 4.169594764709473,
	"learning_rate": 8.562778840025495e-05,
	"loss": 4.9485,
	"mean_token_accuracy": 0.6667472127079964,
	"num_tokens": 40459992.0,
	"step": 3200
	},
	{
	"epoch": 0.22944413573054653,
	"eval_loss": 1.2357257604599,
	"eval_mean_token_accuracy": 0.6657440733909606,
	"eval_num_tokens": 40459992.0,
	"eval_runtime": 56.3901,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 0.887,
	"step": 3200
	},
	{
	"epoch": 0.23302920035133634,
	"grad_norm": 4.309950828552246,
	"learning_rate": 8.522944550669216e-05,
	"loss": 4.9128,
	"mean_token_accuracy": 0.671622729897499,
	"num_tokens": 41094373.0,
	"step": 3250
	},
	{
	"epoch": 0.23302920035133634,
	"eval_loss": 1.2348511219024658,
	"eval_mean_token_accuracy": 0.6659791529178619,
	"eval_num_tokens": 41094373.0,
	"eval_runtime": 56.3939,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 0.887,
	"step": 3250
	},
	{
	"epoch": 0.23661426497212612,
	"grad_norm": 4.153282642364502,
	"learning_rate": 8.48311026131294e-05,
	"loss": 4.9831,
	"mean_token_accuracy": 0.66548932492733,
	"num_tokens": 41725155.0,
	"step": 3300
	},
	{
	"epoch": 0.23661426497212612,
	"eval_loss": 1.2328479290008545,
	"eval_mean_token_accuracy": 0.6659755408763885,
	"eval_num_tokens": 41725155.0,
	"eval_runtime": 56.4734,
	"eval_samples_per_second": 7.083,
	"eval_steps_per_second": 0.885,
	"step": 3300
	},
	{
	"epoch": 0.2401993295929159,
	"grad_norm": 4.901464462280273,
	"learning_rate": 8.443275971956662e-05,
	"loss": 4.9905,
	"mean_token_accuracy": 0.6660814517736435,
	"num_tokens": 42361406.0,
	"step": 3350
	},
	{
	"epoch": 0.2401993295929159,
	"eval_loss": 1.2326833009719849,
	"eval_mean_token_accuracy": 0.6672022414207458,
	"eval_num_tokens": 42361406.0,
	"eval_runtime": 56.2896,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 0.888,
	"step": 3350
	},
	{
	"epoch": 0.2437843942137057,
	"grad_norm": 4.4632415771484375,
	"learning_rate": 8.403441682600382e-05,
	"loss": 4.8952,
	"mean_token_accuracy": 0.6706425687670707,
	"num_tokens": 42993909.0,
	"step": 3400
	},
	{
	"epoch": 0.2437843942137057,
	"eval_loss": 1.2327020168304443,
	"eval_mean_token_accuracy": 0.6668058276176453,
	"eval_num_tokens": 42993909.0,
	"eval_runtime": 56.2077,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 0.89,
	"step": 3400
	},
	{
	"epoch": 0.2473694588344955,
	"grad_norm": 4.537699222564697,
	"learning_rate": 8.363607393244104e-05,
	"loss": 4.921,
	"mean_token_accuracy": 0.6698031505942345,
	"num_tokens": 43628010.0,
	"step": 3450
	},
	{
	"epoch": 0.2473694588344955,
	"eval_loss": 1.2328044176101685,
	"eval_mean_token_accuracy": 0.667005888223648,
	"eval_num_tokens": 43628010.0,
	"eval_runtime": 56.142,
	"eval_samples_per_second": 7.125,
	"eval_steps_per_second": 0.891,
	"step": 3450
	},
	{
	"epoch": 0.2509545234552853,
	"grad_norm": 4.68520450592041,
	"learning_rate": 8.323773103887828e-05,
	"loss": 4.9443,
	"mean_token_accuracy": 0.667299503982067,
	"num_tokens": 44263542.0,
	"step": 3500
	},
	{
	"epoch": 0.2509545234552853,
	"eval_loss": 1.2303454875946045,
	"eval_mean_token_accuracy": 0.6684185063838959,
	"eval_num_tokens": 44263542.0,
	"eval_runtime": 56.0547,
	"eval_samples_per_second": 7.136,
	"eval_steps_per_second": 0.892,
	"step": 3500
	},
	{
	"epoch": 0.2545395880760751,
	"grad_norm": 4.269311428070068,
	"learning_rate": 8.283938814531549e-05,
	"loss": 4.9117,
	"mean_token_accuracy": 0.6701091477274894,
	"num_tokens": 44896448.0,
	"step": 3550
	},
	{
	"epoch": 0.2545395880760751,
	"eval_loss": 1.2301256656646729,
	"eval_mean_token_accuracy": 0.6679345464706421,
	"eval_num_tokens": 44896448.0,
	"eval_runtime": 56.8192,
	"eval_samples_per_second": 7.04,
	"eval_steps_per_second": 0.88,
	"step": 3550
	},
	{
	"epoch": 0.25812465269686485,
	"grad_norm": 4.6586198806762695,
	"learning_rate": 8.244104525175271e-05,
	"loss": 4.9361,
	"mean_token_accuracy": 0.6700941568613052,
	"num_tokens": 45535736.0,
	"step": 3600
	},
	{
	"epoch": 0.25812465269686485,
	"eval_loss": 1.2280727624893188,
	"eval_mean_token_accuracy": 0.668077005147934,
	"eval_num_tokens": 45535736.0,
	"eval_runtime": 56.7678,
	"eval_samples_per_second": 7.046,
	"eval_steps_per_second": 0.881,
	"step": 3600
	},
	{
	"epoch": 0.26170971731765463,
	"grad_norm": 4.350837230682373,
	"learning_rate": 8.204270235818994e-05,
	"loss": 4.8535,
	"mean_token_accuracy": 0.6710763236880303,
	"num_tokens": 46168014.0,
	"step": 3650
	},
	{
	"epoch": 0.26170971731765463,
	"eval_loss": 1.2273330688476562,
	"eval_mean_token_accuracy": 0.6685185146331787,
	"eval_num_tokens": 46168014.0,
	"eval_runtime": 56.2347,
	"eval_samples_per_second": 7.113,
	"eval_steps_per_second": 0.889,
	"step": 3650
	},
	{
	"epoch": 0.2652947819384444,
	"grad_norm": 4.489384174346924,
	"learning_rate": 8.164435946462715e-05,
	"loss": 4.9884,
	"mean_token_accuracy": 0.6643109431862831,
	"num_tokens": 46799865.0,
	"step": 3700
	},
	{
	"epoch": 0.2652947819384444,
	"eval_loss": 1.228873610496521,
	"eval_mean_token_accuracy": 0.6676431381702423,
	"eval_num_tokens": 46799865.0,
	"eval_runtime": 56.2386,
	"eval_samples_per_second": 7.113,
	"eval_steps_per_second": 0.889,
	"step": 3700
	},
	{
	"epoch": 0.26887984655923425,
	"grad_norm": 4.438107967376709,
	"learning_rate": 8.124601657106437e-05,
	"loss": 4.8433,
	"mean_token_accuracy": 0.6722122520208359,
	"num_tokens": 47431886.0,
	"step": 3750
	},
	{
	"epoch": 0.26887984655923425,
	"eval_loss": 1.2276620864868164,
	"eval_mean_token_accuracy": 0.6684055602550507,
	"eval_num_tokens": 47431886.0,
	"eval_runtime": 56.3388,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 0.887,
	"step": 3750
	},
	{
	"epoch": 0.272464911180024,
	"grad_norm": 4.851945877075195,
	"learning_rate": 8.08476736775016e-05,
	"loss": 4.9293,
	"mean_token_accuracy": 0.668489234149456,
	"num_tokens": 48065104.0,
	"step": 3800
	},
	{
	"epoch": 0.272464911180024,
	"eval_loss": 1.2269046306610107,
	"eval_mean_token_accuracy": 0.6687084710597992,
	"eval_num_tokens": 48065104.0,
	"eval_runtime": 56.1744,
	"eval_samples_per_second": 7.121,
	"eval_steps_per_second": 0.89,
	"step": 3800
	},
	{
	"epoch": 0.2760499758008138,
	"grad_norm": 4.730586528778076,
	"learning_rate": 8.044933078393882e-05,
	"loss": 4.8258,
	"mean_token_accuracy": 0.6736181953549385,
	"num_tokens": 48699465.0,
	"step": 3850
	},
	{
	"epoch": 0.2760499758008138,
	"eval_loss": 1.2258822917938232,
	"eval_mean_token_accuracy": 0.6694431722164154,
	"eval_num_tokens": 48699465.0,
	"eval_runtime": 56.2799,
	"eval_samples_per_second": 7.107,
	"eval_steps_per_second": 0.888,
	"step": 3850
	},
	{
	"epoch": 0.2796350404216036,
	"grad_norm": 4.539992809295654,
	"learning_rate": 8.005098789037604e-05,
	"loss": 4.9014,
	"mean_token_accuracy": 0.6706485760211944,
	"num_tokens": 49328518.0,
	"step": 3900
	},
	{
	"epoch": 0.2796350404216036,
	"eval_loss": 1.2248101234436035,
	"eval_mean_token_accuracy": 0.6695001828670502,
	"eval_num_tokens": 49328518.0,
	"eval_runtime": 56.4684,
	"eval_samples_per_second": 7.084,
	"eval_steps_per_second": 0.885,
	"step": 3900
	},
	{
	"epoch": 0.28322010504239337,
	"grad_norm": 5.000583648681641,
	"learning_rate": 7.965264499681326e-05,
	"loss": 4.7606,
	"mean_token_accuracy": 0.6768921792507172,
	"num_tokens": 49957049.0,
	"step": 3950
	},
	{
	"epoch": 0.28322010504239337,
	"eval_loss": 1.2227978706359863,
	"eval_mean_token_accuracy": 0.6691736376285553,
	"eval_num_tokens": 49957049.0,
	"eval_runtime": 56.328,
	"eval_samples_per_second": 7.101,
	"eval_steps_per_second": 0.888,
	"step": 3950
	},
	{
	"epoch": 0.2868051696631832,
	"grad_norm": 4.855432510375977,
	"learning_rate": 7.925430210325048e-05,
	"loss": 4.9544,
	"mean_token_accuracy": 0.6679512014985085,
	"num_tokens": 50593342.0,
	"step": 4000
	},
	{
	"epoch": 0.2868051696631832,
	"eval_loss": 1.222544550895691,
	"eval_mean_token_accuracy": 0.6694585859775544,
	"eval_num_tokens": 50593342.0,
	"eval_runtime": 56.2378,
	"eval_samples_per_second": 7.113,
	"eval_steps_per_second": 0.889,
	"step": 4000
	},
	{
	"epoch": 0.290390234283973,
	"grad_norm": 4.258941173553467,
	"learning_rate": 7.88559592096877e-05,
	"loss": 4.8759,
	"mean_token_accuracy": 0.6715140387415885,
	"num_tokens": 51220159.0,
	"step": 4050
	},
	{
	"epoch": 0.290390234283973,
	"eval_loss": 1.2212531566619873,
	"eval_mean_token_accuracy": 0.6692110347747803,
	"eval_num_tokens": 51220159.0,
	"eval_runtime": 56.3598,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 0.887,
	"step": 4050
	},
	{
	"epoch": 0.29397529890476276,
	"grad_norm": 4.41649055480957,
	"learning_rate": 7.845761631612492e-05,
	"loss": 4.8512,
	"mean_token_accuracy": 0.6730743369460106,
	"num_tokens": 51852052.0,
	"step": 4100
	},
	{
	"epoch": 0.29397529890476276,
	"eval_loss": 1.2219711542129517,
	"eval_mean_token_accuracy": 0.668809084892273,
	"eval_num_tokens": 51852052.0,
	"eval_runtime": 56.3222,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 0.888,
	"step": 4100
	},
	{
	"epoch": 0.29756036352555254,
	"grad_norm": 5.041947841644287,
	"learning_rate": 7.805927342256214e-05,
	"loss": 4.8012,
	"mean_token_accuracy": 0.6752137768268586,
	"num_tokens": 52488117.0,
	"step": 4150
	},
	{
	"epoch": 0.29756036352555254,
	"eval_loss": 1.2200063467025757,
	"eval_mean_token_accuracy": 0.6689476525783539,
	"eval_num_tokens": 52488117.0,
	"eval_runtime": 56.3663,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 0.887,
	"step": 4150
	},
	{
	"epoch": 0.3011454281463423,
	"grad_norm": 4.421684741973877,
	"learning_rate": 7.766093052899937e-05,
	"loss": 4.9011,
	"mean_token_accuracy": 0.6694827458262443,
	"num_tokens": 53124002.0,
	"step": 4200
	},
	{
	"epoch": 0.3011454281463423,
	"eval_loss": 1.2199760675430298,
	"eval_mean_token_accuracy": 0.6698788702487946,
	"eval_num_tokens": 53124002.0,
	"eval_runtime": 57.1381,
	"eval_samples_per_second": 7.001,
	"eval_steps_per_second": 0.875,
	"step": 4200
	},
	{
	"epoch": 0.30473049276713216,
	"grad_norm": 4.482224941253662,
	"learning_rate": 7.726258763543659e-05,
	"loss": 4.8888,
	"mean_token_accuracy": 0.6703590288758278,
	"num_tokens": 53754491.0,
	"step": 4250
	},
	{
	"epoch": 0.30473049276713216,
	"eval_loss": 1.2201299667358398,
	"eval_mean_token_accuracy": 0.6685253477096558,
	"eval_num_tokens": 53754491.0,
	"eval_runtime": 56.1814,
	"eval_samples_per_second": 7.12,
	"eval_steps_per_second": 0.89,
	"step": 4250
	},
	{
	"epoch": 0.30831555738792193,
	"grad_norm": 5.163293838500977,
	"learning_rate": 7.686424474187381e-05,
	"loss": 4.8934,
	"mean_token_accuracy": 0.6694687473773956,
	"num_tokens": 54384292.0,
	"step": 4300
	},
	{
	"epoch": 0.30831555738792193,
	"eval_loss": 1.2192912101745605,
	"eval_mean_token_accuracy": 0.670127317905426,
	"eval_num_tokens": 54384292.0,
	"eval_runtime": 56.2288,
	"eval_samples_per_second": 7.114,
	"eval_steps_per_second": 0.889,
	"step": 4300
	},
	{
	"epoch": 0.3119006220087117,
	"grad_norm": 4.469936847686768,
	"learning_rate": 7.646590184831103e-05,
	"loss": 4.8808,
	"mean_token_accuracy": 0.671641985476017,
	"num_tokens": 55015409.0,
	"step": 4350
	},
	{
	"epoch": 0.3119006220087117,
	"eval_loss": 1.2187691926956177,
	"eval_mean_token_accuracy": 0.6700682175159455,
	"eval_num_tokens": 55015409.0,
	"eval_runtime": 56.275,
	"eval_samples_per_second": 7.108,
	"eval_steps_per_second": 0.888,
	"step": 4350
	},
	{
	"epoch": 0.3154856866295015,
	"grad_norm": 4.397490501403809,
	"learning_rate": 7.606755895474825e-05,
	"loss": 4.8593,
	"mean_token_accuracy": 0.6729298800230026,
	"num_tokens": 55645076.0,
	"step": 4400
	},
	{
	"epoch": 0.3154856866295015,
	"eval_loss": 1.21873140335083,
	"eval_mean_token_accuracy": 0.6701312291622162,
	"eval_num_tokens": 55645076.0,
	"eval_runtime": 56.3255,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 0.888,
	"step": 4400
	},
	{
	"epoch": 0.3190707512502913,
	"grad_norm": 4.565478801727295,
	"learning_rate": 7.566921606118547e-05,
	"loss": 4.9259,
	"mean_token_accuracy": 0.6678701865673066,
	"num_tokens": 56277591.0,
	"step": 4450
	},
	{
	"epoch": 0.3190707512502913,
	"eval_loss": 1.2173478603363037,
	"eval_mean_token_accuracy": 0.6713691699504852,
	"eval_num_tokens": 56277591.0,
	"eval_runtime": 56.1846,
	"eval_samples_per_second": 7.119,
	"eval_steps_per_second": 0.89,
	"step": 4450
	},
	{
	"epoch": 0.32265581587108105,
	"grad_norm": 4.387983798980713,
	"learning_rate": 7.52708731676227e-05,
	"loss": 4.8506,
	"mean_token_accuracy": 0.6727069270610809,
	"num_tokens": 56909553.0,
	"step": 4500
	},
	{
	"epoch": 0.32265581587108105,
	"eval_loss": 1.2162431478500366,
	"eval_mean_token_accuracy": 0.6704595732688904,
	"eval_num_tokens": 56909553.0,
	"eval_runtime": 56.2594,
	"eval_samples_per_second": 7.11,
	"eval_steps_per_second": 0.889,
	"step": 4500
	},
	{
	"epoch": 0.3262408804918709,
	"grad_norm": 4.406232833862305,
	"learning_rate": 7.487253027405992e-05,
	"loss": 4.8975,
	"mean_token_accuracy": 0.6693887722492218,
	"num_tokens": 57541706.0,
	"step": 4550
	},
	{
	"epoch": 0.3262408804918709,
	"eval_loss": 1.216928243637085,
	"eval_mean_token_accuracy": 0.6708524739742279,
	"eval_num_tokens": 57541706.0,
	"eval_runtime": 56.2862,
	"eval_samples_per_second": 7.107,
	"eval_steps_per_second": 0.888,
	"step": 4550
	},
	{
	"epoch": 0.32982594511266067,
	"grad_norm": 4.329367637634277,
	"learning_rate": 7.447418738049714e-05,
	"loss": 4.8734,
	"mean_token_accuracy": 0.6720337501168251,
	"num_tokens": 58175251.0,
	"step": 4600
	},
	{
	"epoch": 0.32982594511266067,
	"eval_loss": 1.2153425216674805,
	"eval_mean_token_accuracy": 0.6709867632389068,
	"eval_num_tokens": 58175251.0,
	"eval_runtime": 56.449,
	"eval_samples_per_second": 7.086,
	"eval_steps_per_second": 0.886,
	"step": 4600
	},
	{
	"epoch": 0.33341100973345045,
	"grad_norm": 4.24669075012207,
	"learning_rate": 7.407584448693436e-05,
	"loss": 4.8742,
	"mean_token_accuracy": 0.6718363285064697,
	"num_tokens": 58807276.0,
	"step": 4650
	},
	{
	"epoch": 0.33341100973345045,
	"eval_loss": 1.2146964073181152,
	"eval_mean_token_accuracy": 0.6710757482051849,
	"eval_num_tokens": 58807276.0,
	"eval_runtime": 56.3596,
	"eval_samples_per_second": 7.097,
	"eval_steps_per_second": 0.887,
	"step": 4650
	},
	{
	"epoch": 0.3369960743542402,
	"grad_norm": 4.037027835845947,
	"learning_rate": 7.367750159337158e-05,
	"loss": 4.8869,
	"mean_token_accuracy": 0.6710193574428558,
	"num_tokens": 59434602.0,
	"step": 4700
	},
	{
	"epoch": 0.3369960743542402,
	"eval_loss": 1.2160181999206543,
	"eval_mean_token_accuracy": 0.6700944793224335,
	"eval_num_tokens": 59434602.0,
	"eval_runtime": 56.8171,
	"eval_samples_per_second": 7.04,
	"eval_steps_per_second": 0.88,
	"step": 4700
	},
	{
	"epoch": 0.34058113897503,
	"grad_norm": 4.7925262451171875,
	"learning_rate": 7.32791586998088e-05,
	"loss": 4.8639,
	"mean_token_accuracy": 0.6717003020644188,
	"num_tokens": 60067934.0,
	"step": 4750
	},
	{
	"epoch": 0.34058113897503,
	"eval_loss": 1.2146656513214111,
	"eval_mean_token_accuracy": 0.6714940690994262,
	"eval_num_tokens": 60067934.0,
	"eval_runtime": 56.6455,
	"eval_samples_per_second": 7.061,
	"eval_steps_per_second": 0.883,
	"step": 4750
	},
	{
	"epoch": 0.34416620359581984,
	"grad_norm": 4.179026126861572,
	"learning_rate": 7.288081580624602e-05,
	"loss": 4.7815,
	"mean_token_accuracy": 0.6770669308304786,
	"num_tokens": 60700674.0,
	"step": 4800
	},
	{
	"epoch": 0.34416620359581984,
	"eval_loss": 1.2132787704467773,
	"eval_mean_token_accuracy": 0.6709755408763886,
	"eval_num_tokens": 60700674.0,
	"eval_runtime": 56.6884,
	"eval_samples_per_second": 7.056,
	"eval_steps_per_second": 0.882,
	"step": 4800
	},
	{
	"epoch": 0.3477512682166096,
	"grad_norm": 4.608165740966797,
	"learning_rate": 7.248247291268324e-05,
	"loss": 4.8593,
	"mean_token_accuracy": 0.6736995288729668,
	"num_tokens": 61331555.0,
	"step": 4850
	},
	{
	"epoch": 0.3477512682166096,
	"eval_loss": 1.2121059894561768,
	"eval_mean_token_accuracy": 0.672556334733963,
	"eval_num_tokens": 61331555.0,
	"eval_runtime": 56.1182,
	"eval_samples_per_second": 7.128,
	"eval_steps_per_second": 0.891,
	"step": 4850
	},
	{
	"epoch": 0.3513363328373994,
	"grad_norm": 4.966649055480957,
	"learning_rate": 7.208413001912047e-05,
	"loss": 4.8738,
	"mean_token_accuracy": 0.671499859392643,
	"num_tokens": 61965343.0,
	"step": 4900
	},
	{
	"epoch": 0.3513363328373994,
	"eval_loss": 1.2120461463928223,
	"eval_mean_token_accuracy": 0.6718708264827729,
	"eval_num_tokens": 61965343.0,
	"eval_runtime": 56.145,
	"eval_samples_per_second": 7.124,
	"eval_steps_per_second": 0.891,
	"step": 4900
	},
	{
	"epoch": 0.3549213974581892,
	"grad_norm": 5.021463871002197,
	"learning_rate": 7.168578712555767e-05,
	"loss": 4.8567,
	"mean_token_accuracy": 0.6712884229421615,
	"num_tokens": 62596263.0,
	"step": 4950
	},
	{
	"epoch": 0.3549213974581892,
	"eval_loss": 1.2121599912643433,
	"eval_mean_token_accuracy": 0.671816600561142,
	"eval_num_tokens": 62596263.0,
	"eval_runtime": 56.6214,
	"eval_samples_per_second": 7.064,
	"eval_steps_per_second": 0.883,
	"step": 4950
	},
	{
	"epoch": 0.35850646207897896,
	"grad_norm": 4.346203804016113,
	"learning_rate": 7.128744423199491e-05,
	"loss": 4.8762,
	"mean_token_accuracy": 0.6713952556252479,
	"num_tokens": 63232395.0,
	"step": 5000
	},
	{
	"epoch": 0.35850646207897896,
	"eval_loss": 1.2105367183685303,
	"eval_mean_token_accuracy": 0.6715540933609009,
	"eval_num_tokens": 63232395.0,
	"eval_runtime": 56.1985,
	"eval_samples_per_second": 7.118,
	"eval_steps_per_second": 0.89,
	"step": 5000
	},
	{
	"epoch": 0.36209152669976874,
	"grad_norm": 4.725315570831299,
	"learning_rate": 7.088910133843213e-05,
	"loss": 4.8547,
	"mean_token_accuracy": 0.6712683519721031,
	"num_tokens": 63865141.0,
	"step": 5050
	},
	{
	"epoch": 0.36209152669976874,
	"eval_loss": 1.2104063034057617,
	"eval_mean_token_accuracy": 0.6721407020092011,
	"eval_num_tokens": 63865141.0,
	"eval_runtime": 56.4947,
	"eval_samples_per_second": 7.08,
	"eval_steps_per_second": 0.885,
	"step": 5050
	},
	{
	"epoch": 0.3656765913205586,
	"grad_norm": 4.475533962249756,
	"learning_rate": 7.049075844486934e-05,
	"loss": 4.8331,
	"mean_token_accuracy": 0.6741529366374016,
	"num_tokens": 64498005.0,
	"step": 5100
	},
	{
	"epoch": 0.3656765913205586,
	"eval_loss": 1.211449146270752,
	"eval_mean_token_accuracy": 0.6718828630447388,
	"eval_num_tokens": 64498005.0,
	"eval_runtime": 56.1253,
	"eval_samples_per_second": 7.127,
	"eval_steps_per_second": 0.891,
	"step": 5100
	},
	{
	"epoch": 0.36926165594134835,
	"grad_norm": 4.43773078918457,
	"learning_rate": 7.009241555130657e-05,
	"loss": 4.8576,
	"mean_token_accuracy": 0.6735836458206177,
	"num_tokens": 65132925.0,
	"step": 5150
	},
	{
	"epoch": 0.36926165594134835,
	"eval_loss": 1.2107973098754883,
	"eval_mean_token_accuracy": 0.67238405585289,
	"eval_num_tokens": 65132925.0,
	"eval_runtime": 56.3575,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 0.887,
	"step": 5150
	},
	{
	"epoch": 0.37284672056213813,
	"grad_norm": 4.340308666229248,
	"learning_rate": 6.96940726577438e-05,
	"loss": 4.8199,
	"mean_token_accuracy": 0.6730007353425026,
	"num_tokens": 65763710.0,
	"step": 5200
	},
	{
	"epoch": 0.37284672056213813,
	"eval_loss": 1.2099605798721313,
	"eval_mean_token_accuracy": 0.6728368639945984,
	"eval_num_tokens": 65763710.0,
	"eval_runtime": 56.2959,
	"eval_samples_per_second": 7.105,
	"eval_steps_per_second": 0.888,
	"step": 5200
	},
	{
	"epoch": 0.3764317851829279,
	"grad_norm": 4.555109024047852,
	"learning_rate": 6.9295729764181e-05,
	"loss": 4.8905,
	"mean_token_accuracy": 0.6707694306969643,
	"num_tokens": 66395012.0,
	"step": 5250
	},
	{
	"epoch": 0.3764317851829279,
	"eval_loss": 1.2099387645721436,
	"eval_mean_token_accuracy": 0.6722373139858245,
	"eval_num_tokens": 66395012.0,
	"eval_runtime": 56.4644,
	"eval_samples_per_second": 7.084,
	"eval_steps_per_second": 0.886,
	"step": 5250
	},
	{
	"epoch": 0.3800168498037177,
	"grad_norm": 4.202060699462891,
	"learning_rate": 6.889738687061822e-05,
	"loss": 4.8292,
	"mean_token_accuracy": 0.673227034509182,
	"num_tokens": 67031872.0,
	"step": 5300
	},
	{
	"epoch": 0.3800168498037177,
	"eval_loss": 1.210257887840271,
	"eval_mean_token_accuracy": 0.6714678919315338,
	"eval_num_tokens": 67031872.0,
	"eval_runtime": 56.3175,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 0.888,
	"step": 5300
	},
	{
	"epoch": 0.38360191442450753,
	"grad_norm": 4.315623760223389,
	"learning_rate": 6.849904397705546e-05,
	"loss": 4.8465,
	"mean_token_accuracy": 0.672520759999752,
	"num_tokens": 67663971.0,
	"step": 5350
	},
	{
	"epoch": 0.38360191442450753,
	"eval_loss": 1.20899498462677,
	"eval_mean_token_accuracy": 0.6721968007087707,
	"eval_num_tokens": 67663971.0,
	"eval_runtime": 56.4163,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 0.886,
	"step": 5350
	},
	{
	"epoch": 0.3871869790452973,
	"grad_norm": 4.103718280792236,
	"learning_rate": 6.810070108349267e-05,
	"loss": 4.8568,
	"mean_token_accuracy": 0.6714790239930153,
	"num_tokens": 68298646.0,
	"step": 5400
	},
	{
	"epoch": 0.3871869790452973,
	"eval_loss": 1.2082393169403076,
	"eval_mean_token_accuracy": 0.6712930297851563,
	"eval_num_tokens": 68298646.0,
	"eval_runtime": 56.3666,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 0.887,
	"step": 5400
	},
	{
	"epoch": 0.3907720436660871,
	"grad_norm": 4.669826030731201,
	"learning_rate": 6.770235818992989e-05,
	"loss": 4.8767,
	"mean_token_accuracy": 0.6715716090798378,
	"num_tokens": 68934666.0,
	"step": 5450
	},
	{
	"epoch": 0.3907720436660871,
	"eval_loss": 1.207878589630127,
	"eval_mean_token_accuracy": 0.672472620010376,
	"eval_num_tokens": 68934666.0,
	"eval_runtime": 56.6965,
	"eval_samples_per_second": 7.055,
	"eval_steps_per_second": 0.882,
	"step": 5450
	},
	{
	"epoch": 0.39435710828687687,
	"grad_norm": 4.467480659484863,
	"learning_rate": 6.730401529636712e-05,
	"loss": 4.8558,
	"mean_token_accuracy": 0.6721174070239067,
	"num_tokens": 69569216.0,
	"step": 5500
	},
	{
	"epoch": 0.39435710828687687,
	"eval_loss": 1.207086205482483,
	"eval_mean_token_accuracy": 0.6721065282821655,
	"eval_num_tokens": 69569216.0,
	"eval_runtime": 56.3201,
	"eval_samples_per_second": 7.102,
	"eval_steps_per_second": 0.888,
	"step": 5500
	},
	{
	"epoch": 0.39794217290766665,
	"grad_norm": 4.608986854553223,
	"learning_rate": 6.690567240280435e-05,
	"loss": 4.8658,
	"mean_token_accuracy": 0.6705604410171508,
	"num_tokens": 70207379.0,
	"step": 5550
	},
	{
	"epoch": 0.39794217290766665,
	"eval_loss": 1.2067745923995972,
	"eval_mean_token_accuracy": 0.6716193425655365,
	"eval_num_tokens": 70207379.0,
	"eval_runtime": 57.4805,
	"eval_samples_per_second": 6.959,
	"eval_steps_per_second": 0.87,
	"step": 5550
	},
	{
	"epoch": 0.4015272375284564,
	"grad_norm": 4.4026780128479,
	"learning_rate": 6.650732950924155e-05,
	"loss": 4.7928,
	"mean_token_accuracy": 0.6765011212229729,
	"num_tokens": 70836399.0,
	"step": 5600
	},
	{
	"epoch": 0.4015272375284564,
	"eval_loss": 1.2075951099395752,
	"eval_mean_token_accuracy": 0.6730300402641296,
	"eval_num_tokens": 70836399.0,
	"eval_runtime": 58.1991,
	"eval_samples_per_second": 6.873,
	"eval_steps_per_second": 0.859,
	"step": 5600
	},
	{
	"epoch": 0.40511230214924626,
	"grad_norm": 4.3206048011779785,
	"learning_rate": 6.610898661567877e-05,
	"loss": 4.7828,
	"mean_token_accuracy": 0.6755007293820381,
	"num_tokens": 71465978.0,
	"step": 5650
	},
	{
	"epoch": 0.40511230214924626,
	"eval_loss": 1.2060260772705078,
	"eval_mean_token_accuracy": 0.6736092364788056,
	"eval_num_tokens": 71465978.0,
	"eval_runtime": 55.9656,
	"eval_samples_per_second": 7.147,
	"eval_steps_per_second": 0.893,
	"step": 5650
	},
	{
	"epoch": 0.40869736677003604,
	"grad_norm": 4.6384196281433105,
	"learning_rate": 6.571064372211601e-05,
	"loss": 4.8045,
	"mean_token_accuracy": 0.6742757317423821,
	"num_tokens": 72094960.0,
	"step": 5700
	},
	{
	"epoch": 0.40869736677003604,
	"eval_loss": 1.2062655687332153,
	"eval_mean_token_accuracy": 0.6727207219600677,
	"eval_num_tokens": 72094960.0,
	"eval_runtime": 56.5884,
	"eval_samples_per_second": 7.069,
	"eval_steps_per_second": 0.884,
	"step": 5700
	},
	{
	"epoch": 0.4122824313908258,
	"grad_norm": 4.51801872253418,
	"learning_rate": 6.531230082855322e-05,
	"loss": 4.8502,
	"mean_token_accuracy": 0.6714598840475082,
	"num_tokens": 72728939.0,
	"step": 5750
	},
	{
	"epoch": 0.4122824313908258,
	"eval_loss": 1.2066096067428589,
	"eval_mean_token_accuracy": 0.6731921648979187,
	"eval_num_tokens": 72728939.0,
	"eval_runtime": 56.4183,
	"eval_samples_per_second": 7.09,
	"eval_steps_per_second": 0.886,
	"step": 5750
	},
	{
	"epoch": 0.4158674960116156,
	"grad_norm": 4.803595066070557,
	"learning_rate": 6.491395793499044e-05,
	"loss": 4.863,
	"mean_token_accuracy": 0.6716452211141586,
	"num_tokens": 73363737.0,
	"step": 5800
	},
	{
	"epoch": 0.4158674960116156,
	"eval_loss": 1.2050178050994873,
	"eval_mean_token_accuracy": 0.6734542024135589,
	"eval_num_tokens": 73363737.0,
	"eval_runtime": 56.4329,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 0.886,
	"step": 5800
	},
	{
	"epoch": 0.4194525606324054,
	"grad_norm": 4.864405155181885,
	"learning_rate": 6.451561504142767e-05,
	"loss": 4.82,
	"mean_token_accuracy": 0.6745044487714768,
	"num_tokens": 73997522.0,
	"step": 5850
	},
	{
	"epoch": 0.4194525606324054,
	"eval_loss": 1.2039889097213745,
	"eval_mean_token_accuracy": 0.6733579516410828,
	"eval_num_tokens": 73997522.0,
	"eval_runtime": 56.3966,
	"eval_samples_per_second": 7.093,
	"eval_steps_per_second": 0.887,
	"step": 5850
	},
	{
	"epoch": 0.4230376252531952,
	"grad_norm": 4.559540271759033,
	"learning_rate": 6.411727214786488e-05,
	"loss": 4.7735,
	"mean_token_accuracy": 0.6764472410082817,
	"num_tokens": 74632565.0,
	"step": 5900
	},
	{
	"epoch": 0.4230376252531952,
	"eval_loss": 1.2041822671890259,
	"eval_mean_token_accuracy": 0.6725377225875855,
	"eval_num_tokens": 74632565.0,
	"eval_runtime": 56.2069,
	"eval_samples_per_second": 7.117,
	"eval_steps_per_second": 0.89,
	"step": 5900
	},
	{
	"epoch": 0.426622689873985,
	"grad_norm": 4.625767230987549,
	"learning_rate": 6.37189292543021e-05,
	"loss": 4.8474,
	"mean_token_accuracy": 0.6734576171636582,
	"num_tokens": 75264457.0,
	"step": 5950
	},
	{
	"epoch": 0.426622689873985,
	"eval_loss": 1.2035109996795654,
	"eval_mean_token_accuracy": 0.6731998026371002,
	"eval_num_tokens": 75264457.0,
	"eval_runtime": 56.7209,
	"eval_samples_per_second": 7.052,
	"eval_steps_per_second": 0.882,
	"step": 5950
	},
	{
	"epoch": 0.4302077544947748,
	"grad_norm": 4.185346603393555,
	"learning_rate": 6.332058636073932e-05,
	"loss": 4.8327,
	"mean_token_accuracy": 0.6721743106842041,
	"num_tokens": 75893311.0,
	"step": 6000
	},
	{
	"epoch": 0.4302077544947748,
	"eval_loss": 1.203436255455017,
	"eval_mean_token_accuracy": 0.6730928170681,
	"eval_num_tokens": 75893311.0,
	"eval_runtime": 56.3504,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 0.887,
	"step": 6000
	},
	{
	"epoch": 0.43379281911556455,
	"grad_norm": 4.341583251953125,
	"learning_rate": 6.292224346717655e-05,
	"loss": 4.8072,
	"mean_token_accuracy": 0.6749084493517876,
	"num_tokens": 76529617.0,
	"step": 6050
	},
	{
	"epoch": 0.43379281911556455,
	"eval_loss": 1.2034169435501099,
	"eval_mean_token_accuracy": 0.6731595695018768,
	"eval_num_tokens": 76529617.0,
	"eval_runtime": 56.4332,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 0.886,
	"step": 6050
	},
	{
	"epoch": 0.43737788373635433,
	"grad_norm": 4.502080917358398,
	"learning_rate": 6.252390057361377e-05,
	"loss": 4.7284,
	"mean_token_accuracy": 0.6789399805665016,
	"num_tokens": 77158901.0,
	"step": 6100
	},
	{
	"epoch": 0.43737788373635433,
	"eval_loss": 1.2037384510040283,
	"eval_mean_token_accuracy": 0.6724783575534821,
	"eval_num_tokens": 77158901.0,
	"eval_runtime": 56.1762,
	"eval_samples_per_second": 7.12,
	"eval_steps_per_second": 0.89,
	"step": 6100
	},
	{
	"epoch": 0.4409629483571441,
	"grad_norm": 4.407749652862549,
	"learning_rate": 6.212555768005099e-05,
	"loss": 4.8102,
	"mean_token_accuracy": 0.6749192690849304,
	"num_tokens": 77792929.0,
	"step": 6150
	},
	{
	"epoch": 0.4409629483571441,
	"eval_loss": 1.2034553289413452,
	"eval_mean_token_accuracy": 0.6724519121646881,
	"eval_num_tokens": 77792929.0,
	"eval_runtime": 56.3346,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 0.888,
	"step": 6150
	},
	{
	"epoch": 0.44454801297793395,
	"grad_norm": 4.5488362312316895,
	"learning_rate": 6.172721478648821e-05,
	"loss": 4.8424,
	"mean_token_accuracy": 0.6731199064850807,
	"num_tokens": 78426748.0,
	"step": 6200
	},
	{
	"epoch": 0.44454801297793395,
	"eval_loss": 1.2025480270385742,
	"eval_mean_token_accuracy": 0.673497976064682,
	"eval_num_tokens": 78426748.0,
	"eval_runtime": 56.1462,
	"eval_samples_per_second": 7.124,
	"eval_steps_per_second": 0.891,
	"step": 6200
	},
	{
	"epoch": 0.44813307759872373,
	"grad_norm": 4.52962589263916,
	"learning_rate": 6.132887189292543e-05,
	"loss": 4.7814,
	"mean_token_accuracy": 0.6756982815265655,
	"num_tokens": 79054859.0,
	"step": 6250
	},
	{
	"epoch": 0.44813307759872373,
	"eval_loss": 1.2015492916107178,
	"eval_mean_token_accuracy": 0.6740836083889008,
	"eval_num_tokens": 79054859.0,
	"eval_runtime": 56.3541,
	"eval_samples_per_second": 7.098,
	"eval_steps_per_second": 0.887,
	"step": 6250
	},
	{
	"epoch": 0.4517181422195135,
	"grad_norm": 4.603536128997803,
	"learning_rate": 6.093052899936266e-05,
	"loss": 4.9195,
	"mean_token_accuracy": 0.6704733854532242,
	"num_tokens": 79688857.0,
	"step": 6300
	},
	{
	"epoch": 0.4517181422195135,
	"eval_loss": 1.2020344734191895,
	"eval_mean_token_accuracy": 0.6741014468669891,
	"eval_num_tokens": 79688857.0,
	"eval_runtime": 56.114,
	"eval_samples_per_second": 7.128,
	"eval_steps_per_second": 0.891,
	"step": 6300
	},
	{
	"epoch": 0.4553032068403033,
	"grad_norm": 5.02667236328125,
	"learning_rate": 6.053218610579987e-05,
	"loss": 4.7774,
	"mean_token_accuracy": 0.6772465297579765,
	"num_tokens": 80324585.0,
	"step": 6350
	},
	{
	"epoch": 0.4553032068403033,
	"eval_loss": 1.201953411102295,
	"eval_mean_token_accuracy": 0.6730434691905975,
	"eval_num_tokens": 80324585.0,
	"eval_runtime": 56.1284,
	"eval_samples_per_second": 7.127,
	"eval_steps_per_second": 0.891,
	"step": 6350
	},
	{
	"epoch": 0.45888827146109307,
	"grad_norm": 4.330198764801025,
	"learning_rate": 6.0133843212237096e-05,
	"loss": 4.8002,
	"mean_token_accuracy": 0.6744606778025627,
	"num_tokens": 80956366.0,
	"step": 6400
	},
	{
	"epoch": 0.45888827146109307,
	"eval_loss": 1.2010780572891235,
	"eval_mean_token_accuracy": 0.6726482355594635,
	"eval_num_tokens": 80956366.0,
	"eval_runtime": 56.1261,
	"eval_samples_per_second": 7.127,
	"eval_steps_per_second": 0.891,
	"step": 6400
	},
	{
	"epoch": 0.4624733360818829,
	"grad_norm": 4.510508060455322,
	"learning_rate": 5.973550031867432e-05,
	"loss": 4.8791,
	"mean_token_accuracy": 0.6714214497804641,
	"num_tokens": 81587826.0,
	"step": 6450
	},
	{
	"epoch": 0.4624733360818829,
	"eval_loss": 1.2023468017578125,
	"eval_mean_token_accuracy": 0.672912814617157,
	"eval_num_tokens": 81587826.0,
	"eval_runtime": 56.3171,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 0.888,
	"step": 6450
	},
	{
	"epoch": 0.4660584007026727,
	"grad_norm": 4.60286283493042,
	"learning_rate": 5.933715742511153e-05,
	"loss": 4.7999,
	"mean_token_accuracy": 0.6754237455129624,
	"num_tokens": 82222966.0,
	"step": 6500
	},
	{
	"epoch": 0.4660584007026727,
	"eval_loss": 1.2008494138717651,
	"eval_mean_token_accuracy": 0.6732868099212647,
	"eval_num_tokens": 82222966.0,
	"eval_runtime": 56.2084,
	"eval_samples_per_second": 7.116,
	"eval_steps_per_second": 0.89,
	"step": 6500
	},
	{
	"epoch": 0.46964346532346246,
	"grad_norm": 4.842785835266113,
	"learning_rate": 5.893881453154876e-05,
	"loss": 4.8096,
	"mean_token_accuracy": 0.6758663612604141,
	"num_tokens": 82855504.0,
	"step": 6550
	},
	{
	"epoch": 0.46964346532346246,
	"eval_loss": 1.200462818145752,
	"eval_mean_token_accuracy": 0.6739160513877869,
	"eval_num_tokens": 82855504.0,
	"eval_runtime": 56.2921,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 0.888,
	"step": 6550
	},
	{
	"epoch": 0.47322852994425224,
	"grad_norm": 4.244312763214111,
	"learning_rate": 5.854047163798598e-05,
	"loss": 4.773,
	"mean_token_accuracy": 0.6780867150425911,
	"num_tokens": 83488202.0,
	"step": 6600
	},
	{
	"epoch": 0.47322852994425224,
	"eval_loss": 1.200437068939209,
	"eval_mean_token_accuracy": 0.6741013741493225,
	"eval_num_tokens": 83488202.0,
	"eval_runtime": 56.4321,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 0.886,
	"step": 6600
	},
	{
	"epoch": 0.476813594565042,
	"grad_norm": 4.384121894836426,
	"learning_rate": 5.814212874442321e-05,
	"loss": 4.8256,
	"mean_token_accuracy": 0.6735525381565094,
	"num_tokens": 84123092.0,
	"step": 6650
	},
	{
	"epoch": 0.476813594565042,
	"eval_loss": 1.2007168531417847,
	"eval_mean_token_accuracy": 0.6743572854995727,
	"eval_num_tokens": 84123092.0,
	"eval_runtime": 56.5132,
	"eval_samples_per_second": 7.078,
	"eval_steps_per_second": 0.885,
	"step": 6650
	},
	{
	"epoch": 0.4803986591858318,
	"grad_norm": 5.510925769805908,
	"learning_rate": 5.774378585086042e-05,
	"loss": 4.7806,
	"mean_token_accuracy": 0.6750581926107406,
	"num_tokens": 84756126.0,
	"step": 6700
	},
	{
	"epoch": 0.4803986591858318,
	"eval_loss": 1.2009855508804321,
	"eval_mean_token_accuracy": 0.6739739573001862,
	"eval_num_tokens": 84756126.0,
	"eval_runtime": 56.6366,
	"eval_samples_per_second": 7.063,
	"eval_steps_per_second": 0.883,
	"step": 6700
	},
	{
	"epoch": 0.48398372380662164,
	"grad_norm": 4.581708908081055,
	"learning_rate": 5.7345442957297646e-05,
	"loss": 4.722,
	"mean_token_accuracy": 0.679350274503231,
	"num_tokens": 85386870.0,
	"step": 6750
	},
	{
	"epoch": 0.48398372380662164,
	"eval_loss": 1.2008088827133179,
	"eval_mean_token_accuracy": 0.6728281593322754,
	"eval_num_tokens": 85386870.0,
	"eval_runtime": 56.4337,
	"eval_samples_per_second": 7.088,
	"eval_steps_per_second": 0.886,
	"step": 6750
	},
	{
	"epoch": 0.4875687884274114,
	"grad_norm": 5.783533573150635,
	"learning_rate": 5.694710006373487e-05,
	"loss": 4.7616,
	"mean_token_accuracy": 0.6766093501448631,
	"num_tokens": 86015238.0,
	"step": 6800
	},
	{
	"epoch": 0.4875687884274114,
	"eval_loss": 1.2004883289337158,
	"eval_mean_token_accuracy": 0.6737746036052704,
	"eval_num_tokens": 86015238.0,
	"eval_runtime": 56.202,
	"eval_samples_per_second": 7.117,
	"eval_steps_per_second": 0.89,
	"step": 6800
	},
	{
	"epoch": 0.4911538530482012,
	"grad_norm": 4.4624714851379395,
	"learning_rate": 5.654875717017208e-05,
	"loss": 4.8036,
	"mean_token_accuracy": 0.6753204807639122,
	"num_tokens": 86646920.0,
	"step": 6850
	},
	{
	"epoch": 0.4911538530482012,
	"eval_loss": 1.1992673873901367,
	"eval_mean_token_accuracy": 0.6739728832244873,
	"eval_num_tokens": 86646920.0,
	"eval_runtime": 56.3145,
	"eval_samples_per_second": 7.103,
	"eval_steps_per_second": 0.888,
	"step": 6850
	},
	{
	"epoch": 0.494738917668991,
	"grad_norm": 4.528706073760986,
	"learning_rate": 5.615041427660931e-05,
	"loss": 4.8219,
	"mean_token_accuracy": 0.673625990152359,
	"num_tokens": 87279245.0,
	"step": 6900
	},
	{
	"epoch": 0.494738917668991,
	"eval_loss": 1.1988134384155273,
	"eval_mean_token_accuracy": 0.673334904909134,
	"eval_num_tokens": 87279245.0,
	"eval_runtime": 56.4107,
	"eval_samples_per_second": 7.091,
	"eval_steps_per_second": 0.886,
	"step": 6900
	},
	{
	"epoch": 0.49832398228978075,
	"grad_norm": 4.4395527839660645,
	"learning_rate": 5.575207138304653e-05,
	"loss": 4.8404,
	"mean_token_accuracy": 0.6731960904598236,
	"num_tokens": 87908715.0,
	"step": 6950
	},
	{
	"epoch": 0.49832398228978075,
	"eval_loss": 1.198786973953247,
	"eval_mean_token_accuracy": 0.6738696718215942,
	"eval_num_tokens": 87908715.0,
	"eval_runtime": 56.4217,
	"eval_samples_per_second": 7.089,
	"eval_steps_per_second": 0.886,
	"step": 6950
	},
	{
	"epoch": 0.5019090469105706,
	"grad_norm": 4.999813079833984,
	"learning_rate": 5.535372848948375e-05,
	"loss": 4.8014,
	"mean_token_accuracy": 0.6743469536304474,
	"num_tokens": 88541353.0,
	"step": 7000
	},
	{
	"epoch": 0.5019090469105706,
	"eval_loss": 1.1984182596206665,
	"eval_mean_token_accuracy": 0.6738111090660095,
	"eval_num_tokens": 88541353.0,
	"eval_runtime": 56.269,
	"eval_samples_per_second": 7.109,
	"eval_steps_per_second": 0.889,
	"step": 7000
	},
	{
	"epoch": 0.5054941115313604,
	"grad_norm": 5.244815826416016,
	"learning_rate": 5.4955385595920975e-05,
	"loss": 4.7345,
	"mean_token_accuracy": 0.6794330298900604,
	"num_tokens": 89171565.0,
	"step": 7050
	},
	{
	"epoch": 0.5054941115313604,
	"eval_loss": 1.1977105140686035,
	"eval_mean_token_accuracy": 0.6732430410385132,
	"eval_num_tokens": 89171565.0,
	"eval_runtime": 56.2208,
	"eval_samples_per_second": 7.115,
	"eval_steps_per_second": 0.889,
	"step": 7050
	},
	{
	"epoch": 0.5090791761521501,
	"grad_norm": 4.170567512512207,
	"learning_rate": 5.4557042702358196e-05,
	"loss": 4.7721,
	"mean_token_accuracy": 0.6758232372999191,
	"num_tokens": 89803955.0,
	"step": 7100
	},
	{
	"epoch": 0.5090791761521501,
	"eval_loss": 1.1980831623077393,
	"eval_mean_token_accuracy": 0.6739831912517548,
	"eval_num_tokens": 89803955.0,
	"eval_runtime": 56.1966,
	"eval_samples_per_second": 7.118,
	"eval_steps_per_second": 0.89,
	"step": 7100
	},
	{
	"epoch": 0.5126642407729399,
	"grad_norm": 4.576419830322266,
	"learning_rate": 5.415869980879541e-05,
	"loss": 4.7588,
	"mean_token_accuracy": 0.6762737995386123,
	"num_tokens": 90440293.0,
	"step": 7150
	},
	{
	"epoch": 0.5126642407729399,
	"eval_loss": 1.1975429058074951,
	"eval_mean_token_accuracy": 0.673925119638443,
	"eval_num_tokens": 90440293.0,
	"eval_runtime": 56.1988,
	"eval_samples_per_second": 7.118,
	"eval_steps_per_second": 0.89,
	"step": 7150
	},
	{
	"epoch": 0.5162493053937297,
	"grad_norm": 4.430201530456543,
	"learning_rate": 5.376035691523263e-05,
	"loss": 4.7482,
	"mean_token_accuracy": 0.6770784831047059,
	"num_tokens": 91071574.0,
	"step": 7200
	},
	{
	"epoch": 0.5162493053937297,
	"eval_loss": 1.1972256898880005,
	"eval_mean_token_accuracy": 0.6727135396003723,
	"eval_num_tokens": 91071574.0,
	"eval_runtime": 56.2879,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 0.888,
	"step": 7200
	},
	{
	"epoch": 0.5198343700145195,
	"grad_norm": 4.440696716308594,
	"learning_rate": 5.336201402166986e-05,
	"loss": 4.8496,
	"mean_token_accuracy": 0.6734337306022644,
	"num_tokens": 91704308.0,
	"step": 7250
	},
	{
	"epoch": 0.5198343700145195,
	"eval_loss": 1.196380853652954,
	"eval_mean_token_accuracy": 0.674187605381012,
	"eval_num_tokens": 91704308.0,
	"eval_runtime": 56.1737,
	"eval_samples_per_second": 7.121,
	"eval_steps_per_second": 0.89,
	"step": 7250
	},
	{
	"epoch": 0.5234194346353093,
	"grad_norm": 4.427169322967529,
	"learning_rate": 5.2963671128107075e-05,
	"loss": 4.7884,
	"mean_token_accuracy": 0.6760821756720543,
	"num_tokens": 92338569.0,
	"step": 7300
	},
	{
	"epoch": 0.5234194346353093,
	"eval_loss": 1.1962813138961792,
	"eval_mean_token_accuracy": 0.6740961968898773,
	"eval_num_tokens": 92338569.0,
	"eval_runtime": 56.279,
	"eval_samples_per_second": 7.107,
	"eval_steps_per_second": 0.888,
	"step": 7300
	},
	{
	"epoch": 0.527004499256099,
	"grad_norm": 4.586068630218506,
	"learning_rate": 5.25653282345443e-05,
	"loss": 4.8462,
	"mean_token_accuracy": 0.6725165358185768,
	"num_tokens": 92970201.0,
	"step": 7350
	},
	{
	"epoch": 0.527004499256099,
	"eval_loss": 1.1966549158096313,
	"eval_mean_token_accuracy": 0.6744921112060547,
	"eval_num_tokens": 92970201.0,
	"eval_runtime": 56.2579,
	"eval_samples_per_second": 7.11,
	"eval_steps_per_second": 0.889,
	"step": 7350
	},
	{
	"epoch": 0.5305895638768888,
	"grad_norm": 4.275878429412842,
	"learning_rate": 5.2166985340981525e-05,
	"loss": 4.7573,
	"mean_token_accuracy": 0.6764388364553452,
	"num_tokens": 93604624.0,
	"step": 7400
	},
	{
	"epoch": 0.5305895638768888,
	"eval_loss": 1.1963127851486206,
	"eval_mean_token_accuracy": 0.6738464891910553,
	"eval_num_tokens": 93604624.0,
	"eval_runtime": 56.2885,
	"eval_samples_per_second": 7.106,
	"eval_steps_per_second": 0.888,
	"step": 7400
	},
	{
	"epoch": 0.5341746284976787,
	"grad_norm": 4.383382797241211,
	"learning_rate": 5.176864244741873e-05,
	"loss": 4.8151,
	"mean_token_accuracy": 0.6745539313554764,
	"num_tokens": 94237768.0,
	"step": 7450
	},
	{
	"epoch": 0.5341746284976787,
	"eval_loss": 1.196314811706543,
	"eval_mean_token_accuracy": 0.6741366982460022,
	"eval_num_tokens": 94237768.0,
	"eval_runtime": 56.1682,
	"eval_samples_per_second": 7.121,
	"eval_steps_per_second": 0.89,
	"step": 7450
	},
	{
	"epoch": 0.5377596931184685,
	"grad_norm": 4.777865409851074,
	"learning_rate": 5.137029955385596e-05,
	"loss": 4.7179,
	"mean_token_accuracy": 0.6791237652301788,
	"num_tokens": 94868917.0,
	"step": 7500
	},
	{
	"epoch": 0.5377596931184685,
	"eval_loss": 1.1951854228973389,
	"eval_mean_token_accuracy": 0.6737760400772095,
	"eval_num_tokens": 94868917.0,
	"eval_runtime": 57.4744,
	"eval_samples_per_second": 6.96,
	"eval_steps_per_second": 0.87,
	"step": 7500
	},
	{
	"epoch": 0.5413447577392583,
	"grad_norm": 5.250718116760254,
	"learning_rate": 5.097195666029318e-05,
	"loss": 4.853,
	"mean_token_accuracy": 0.671261510848999,
	"num_tokens": 95504086.0,
	"step": 7550
	},
	{
	"epoch": 0.5413447577392583,
	"eval_loss": 1.1954213380813599,
	"eval_mean_token_accuracy": 0.6752165842056275,
	"eval_num_tokens": 95504086.0,
	"eval_runtime": 56.6697,
	"eval_samples_per_second": 7.058,
	"eval_steps_per_second": 0.882,
	"step": 7550
	},
	{
	"epoch": 0.544929822360048,
	"grad_norm": 4.873703479766846,
	"learning_rate": 5.05736137667304e-05,
	"loss": 4.7717,
	"mean_token_accuracy": 0.6773542383313179,
	"num_tokens": 96139635.0,
	"step": 7600
	},
	{
	"epoch": 0.544929822360048,
	"eval_loss": 1.1948680877685547,
	"eval_mean_token_accuracy": 0.6749390983581542,
	"eval_num_tokens": 96139635.0,
	"eval_runtime": 55.7291,
	"eval_samples_per_second": 7.178,
	"eval_steps_per_second": 0.897,
	"step": 7600
	},
	{
	"epoch": 0.5485148869808378,
	"grad_norm": 4.877697467803955,
	"learning_rate": 5.0175270873167626e-05,
	"loss": 4.7886,
	"mean_token_accuracy": 0.6762890338897705,
	"num_tokens": 96770646.0,
	"step": 7650
	},
	{
	"epoch": 0.5485148869808378,
	"eval_loss": 1.1947038173675537,
	"eval_mean_token_accuracy": 0.6754334461688996,
	"eval_num_tokens": 96770646.0,
	"eval_runtime": 55.5575,
	"eval_samples_per_second": 7.2,
	"eval_steps_per_second": 0.9,
	"step": 7650
	},
	{
	"epoch": 0.5520999516016276,
	"grad_norm": 4.1052117347717285,
	"learning_rate": 4.977692797960485e-05,
	"loss": 4.8169,
	"mean_token_accuracy": 0.6731060117483139,
	"num_tokens": 97404492.0,
	"step": 7700
	},
	{
	"epoch": 0.5520999516016276,
	"eval_loss": 1.1950753927230835,
	"eval_mean_token_accuracy": 0.6745660018920898,
	"eval_num_tokens": 97404492.0,
	"eval_runtime": 55.0653,
	"eval_samples_per_second": 7.264,
	"eval_steps_per_second": 0.908,
	"step": 7700
	},
	{
	"epoch": 0.5556850162224174,
	"grad_norm": 4.796311855316162,
	"learning_rate": 4.937858508604207e-05,
	"loss": 4.7797,
	"mean_token_accuracy": 0.6754096934199333,
	"num_tokens": 98040499.0,
	"step": 7750
	},
	{
	"epoch": 0.5556850162224174,
	"eval_loss": 1.1943681240081787,
	"eval_mean_token_accuracy": 0.6758341288566589,
	"eval_num_tokens": 98040499.0,
	"eval_runtime": 55.0042,
	"eval_samples_per_second": 7.272,
	"eval_steps_per_second": 0.909,
	"step": 7750
	},
	{
	"epoch": 0.5592700808432072,
	"grad_norm": 4.996248722076416,
	"learning_rate": 4.898024219247929e-05,
	"loss": 4.7915,
	"mean_token_accuracy": 0.6766231226921081,
	"num_tokens": 98666526.0,
	"step": 7800
	},
	{
	"epoch": 0.5592700808432072,
	"eval_loss": 1.1935983896255493,
	"eval_mean_token_accuracy": 0.6747439002990723,
	"eval_num_tokens": 98666526.0,
	"eval_runtime": 55.0204,
	"eval_samples_per_second": 7.27,
	"eval_steps_per_second": 0.909,
	"step": 7800
	},
	{
	"epoch": 0.562855145463997,
	"grad_norm": 4.6099534034729,
	"learning_rate": 4.858189929891651e-05,
	"loss": 4.7901,
	"mean_token_accuracy": 0.6749289181828498,
	"num_tokens": 99297640.0,
	"step": 7850
	},
	{
	"epoch": 0.562855145463997,
	"eval_loss": 1.1944231986999512,
	"eval_mean_token_accuracy": 0.6743023383617401,
	"eval_num_tokens": 99297640.0,
	"eval_runtime": 55.1784,
	"eval_samples_per_second": 7.249,
	"eval_steps_per_second": 0.906,
	"step": 7850
	},
	{
	"epoch": 0.5664402100847867,
	"grad_norm": 4.517291069030762,
	"learning_rate": 4.818355640535373e-05,
	"loss": 4.8626,
	"mean_token_accuracy": 0.6725256371498108,
	"num_tokens": 99928477.0,
	"step": 7900
	},
	{
	"epoch": 0.5664402100847867,
	"eval_loss": 1.1935796737670898,
	"eval_mean_token_accuracy": 0.6745834064483642,
	"eval_num_tokens": 99928477.0,
	"eval_runtime": 55.0686,
	"eval_samples_per_second": 7.264,
	"eval_steps_per_second": 0.908,
	"step": 7900
	},
	{
	"epoch": 0.5700252747055766,
	"grad_norm": 4.5024003982543945,
	"learning_rate": 4.778521351179095e-05,
	"loss": 4.712,
	"mean_token_accuracy": 0.6803113195300102,
	"num_tokens": 100557231.0,
	"step": 7950
	},
	{
	"epoch": 0.5700252747055766,
	"eval_loss": 1.1945058107376099,
	"eval_mean_token_accuracy": 0.6740881907939911,
	"eval_num_tokens": 100557231.0,
	"eval_runtime": 54.9762,
	"eval_samples_per_second": 7.276,
	"eval_steps_per_second": 0.909,
	"step": 7950
	},
	{
	"epoch": 0.5736103393263664,
	"grad_norm": 4.741750717163086,
	"learning_rate": 4.7386870618228176e-05,
	"loss": 4.7828,
	"mean_token_accuracy": 0.6768678402900696,
	"num_tokens": 101189608.0,
	"step": 8000
	},
	{
	"epoch": 0.5736103393263664,
	"eval_loss": 1.1939120292663574,
	"eval_mean_token_accuracy": 0.6754596734046936,
	"eval_num_tokens": 101189608.0,
	"eval_runtime": 55.073,
	"eval_samples_per_second": 7.263,
	"eval_steps_per_second": 0.908,
	"step": 8000
	},
	{
	"epoch": 0.5771954039471562,
	"grad_norm": 4.49591064453125,
	"learning_rate": 4.698852772466539e-05,
	"loss": 4.8169,
	"mean_token_accuracy": 0.6742269179224968,
	"num_tokens": 101822322.0,
	"step": 8050
	},
	{
	"epoch": 0.5771954039471562,
	"eval_loss": 1.1937360763549805,
	"eval_mean_token_accuracy": 0.6749664378166199,
	"eval_num_tokens": 101822322.0,
	"eval_runtime": 55.0891,
	"eval_samples_per_second": 7.261,
	"eval_steps_per_second": 0.908,
	"step": 8050
	},
	{
	"epoch": 0.580780468567946,
	"grad_norm": 5.148952007293701,
	"learning_rate": 4.659018483110262e-05,
	"loss": 4.7721,
	"mean_token_accuracy": 0.6771083778142929,
	"num_tokens": 102453524.0,
	"step": 8100
	},
	{
	"epoch": 0.580780468567946,
	"eval_loss": 1.194778323173523,
	"eval_mean_token_accuracy": 0.6745067381858826,
	"eval_num_tokens": 102453524.0,
	"eval_runtime": 55.1207,
	"eval_samples_per_second": 7.257,
	"eval_steps_per_second": 0.907,
	"step": 8100
	},
	{
	"epoch": 0.5843655331887357,
	"grad_norm": 5.115074634552002,
	"learning_rate": 4.619184193753984e-05,
	"loss": 4.7134,
	"mean_token_accuracy": 0.6806976914405822,
	"num_tokens": 103083835.0,
	"step": 8150
	},
	{
	"epoch": 0.5843655331887357,
	"eval_loss": 1.192982792854309,
	"eval_mean_token_accuracy": 0.6747034168243409,
	"eval_num_tokens": 103083835.0,
	"eval_runtime": 55.0852,
	"eval_samples_per_second": 7.261,
	"eval_steps_per_second": 0.908,
	"step": 8150
	},
	{
	"epoch": 0.5879505978095255,
	"grad_norm": 4.619081497192383,
	"learning_rate": 4.5793499043977055e-05,
	"loss": 4.796,
	"mean_token_accuracy": 0.6744829830527306,
	"num_tokens": 103715932.0,
	"step": 8200
	},
	{
	"epoch": 0.5879505978095255,
	"eval_loss": 1.192581057548523,
	"eval_mean_token_accuracy": 0.6748893690109253,
	"eval_num_tokens": 103715932.0,
	"eval_runtime": 55.0423,
	"eval_samples_per_second": 7.267,
	"eval_steps_per_second": 0.908,
	"step": 8200
	},
	{
	"epoch": 0.5915356624303153,
	"grad_norm": 4.433931350708008,
	"learning_rate": 4.539515615041428e-05,
	"loss": 4.7435,
	"mean_token_accuracy": 0.678233249783516,
	"num_tokens": 104345485.0,
	"step": 8250
	},
	{
	"epoch": 0.5915356624303153,
	"eval_loss": 1.1933448314666748,
	"eval_mean_token_accuracy": 0.6751340889930725,
	"eval_num_tokens": 104345485.0,
	"eval_runtime": 55.0423,
	"eval_samples_per_second": 7.267,
	"eval_steps_per_second": 0.908,
	"step": 8250
	},
	{
	"epoch": 0.5951207270511051,
	"grad_norm": 4.362198829650879,
	"learning_rate": 4.49968132568515e-05,
	"loss": 4.7737,
	"mean_token_accuracy": 0.6764271047711372,
	"num_tokens": 104978991.0,
	"step": 8300
	},
	{
	"epoch": 0.5951207270511051,
	"eval_loss": 1.1930105686187744,
	"eval_mean_token_accuracy": 0.6747807443141938,
	"eval_num_tokens": 104978991.0,
	"eval_runtime": 55.3077,
	"eval_samples_per_second": 7.232,
	"eval_steps_per_second": 0.904,
	"step": 8300
	},
	{
	"epoch": 0.5987057916718949,
	"grad_norm": 4.534180641174316,
	"learning_rate": 4.459847036328872e-05,
	"loss": 4.7728,
	"mean_token_accuracy": 0.677936093211174,
	"num_tokens": 105610427.0,
	"step": 8350
	},
	{
	"epoch": 0.5987057916718949,
	"eval_loss": 1.1923025846481323,
	"eval_mean_token_accuracy": 0.6750785481929779,
	"eval_num_tokens": 105610427.0,
	"eval_runtime": 55.0617,
	"eval_samples_per_second": 7.265,
	"eval_steps_per_second": 0.908,
	"step": 8350
	},
	{
	"epoch": 0.6022908562926846,
	"grad_norm": 5.027590274810791,
	"learning_rate": 4.420012746972594e-05,
	"loss": 4.7192,
	"mean_token_accuracy": 0.6799935781955719,
	"num_tokens": 106243018.0,
	"step": 8400
	},
	{
	"epoch": 0.6022908562926846,
	"eval_loss": 1.1910535097122192,
	"eval_mean_token_accuracy": 0.6752017951011657,
	"eval_num_tokens": 106243018.0,
	"eval_runtime": 55.087,
	"eval_samples_per_second": 7.261,
	"eval_steps_per_second": 0.908,
	"step": 8400
	},
	{
	"epoch": 0.6058759209134744,
	"grad_norm": 4.658295154571533,
	"learning_rate": 4.380178457616316e-05,
	"loss": 4.806,
	"mean_token_accuracy": 0.6742839315533637,
	"num_tokens": 106877488.0,
	"step": 8450
	},
	{
	"epoch": 0.6058759209134744,
	"eval_loss": 1.1911369562149048,
	"eval_mean_token_accuracy": 0.6754417788982391,
	"eval_num_tokens": 106877488.0,
	"eval_runtime": 55.1243,
	"eval_samples_per_second": 7.256,
	"eval_steps_per_second": 0.907,
	"step": 8450
	},
	{
	"epoch": 0.6094609855342643,
	"grad_norm": 4.897305488586426,
	"learning_rate": 4.340344168260038e-05,
	"loss": 4.7673,
	"mean_token_accuracy": 0.6776413953304291,
	"num_tokens": 107510169.0,
	"step": 8500
	},
	{
	"epoch": 0.6094609855342643,
	"eval_loss": 1.1910532712936401,
	"eval_mean_token_accuracy": 0.6744759595394134,
	"eval_num_tokens": 107510169.0,
	"eval_runtime": 55.0914,
	"eval_samples_per_second": 7.261,
	"eval_steps_per_second": 0.908,
	"step": 8500
	},
	{
	"epoch": 0.6130460501550541,
	"grad_norm": 4.881381034851074,
	"learning_rate": 4.3005098789037605e-05,
	"loss": 4.8061,
	"mean_token_accuracy": 0.674516750574112,
	"num_tokens": 108145421.0,
	"step": 8550
	},
	{
	"epoch": 0.6130460501550541,
	"eval_loss": 1.190964937210083,
	"eval_mean_token_accuracy": 0.6752122223377228,
	"eval_num_tokens": 108145421.0,
	"eval_runtime": 54.985,
	"eval_samples_per_second": 7.275,
	"eval_steps_per_second": 0.909,
	"step": 8550
	},
	{
	"epoch": 0.6166311147758439,
	"grad_norm": 5.073390483856201,
	"learning_rate": 4.2606755895474826e-05,
	"loss": 4.7739,
	"mean_token_accuracy": 0.6762193894386291,
	"num_tokens": 108780841.0,
	"step": 8600
	},
	{
	"epoch": 0.6166311147758439,
	"eval_loss": 1.1907490491867065,
	"eval_mean_token_accuracy": 0.6748946511745453,
	"eval_num_tokens": 108780841.0,
	"eval_runtime": 54.9525,
	"eval_samples_per_second": 7.279,
	"eval_steps_per_second": 0.91,
	"step": 8600
	},
	{
	"epoch": 0.6202161793966336,
	"grad_norm": 4.459120750427246,
	"learning_rate": 4.220841300191205e-05,
	"loss": 4.7864,
	"mean_token_accuracy": 0.6758550813794136,
	"num_tokens": 109418807.0,
	"step": 8650
	},
	{
	"epoch": 0.6202161793966336,
	"eval_loss": 1.1910618543624878,
	"eval_mean_token_accuracy": 0.6749819540977477,
	"eval_num_tokens": 109418807.0,
	"eval_runtime": 54.9049,
	"eval_samples_per_second": 7.285,
	"eval_steps_per_second": 0.911,
	"step": 8650
	},
	{
	"epoch": 0.6238012440174234,
	"grad_norm": 4.40315055847168,
	"learning_rate": 4.181007010834927e-05,
	"loss": 4.7917,
	"mean_token_accuracy": 0.6742719665169716,
	"num_tokens": 110057516.0,
	"step": 8700
	},
	{
	"epoch": 0.6238012440174234,
	"eval_loss": 1.1901732683181763,
	"eval_mean_token_accuracy": 0.674855477809906,
	"eval_num_tokens": 110057516.0,
	"eval_runtime": 54.9882,
	"eval_samples_per_second": 7.274,
	"eval_steps_per_second": 0.909,
	"step": 8700
	},
	{
	"epoch": 0.6273863086382132,
	"grad_norm": 4.657465934753418,
	"learning_rate": 4.141172721478649e-05,
	"loss": 4.7503,
	"mean_token_accuracy": 0.6786279901862144,
	"num_tokens": 110689903.0,
	"step": 8750
	},
	{
	"epoch": 0.6273863086382132,
	"eval_loss": 1.190616488456726,
	"eval_mean_token_accuracy": 0.675126885175705,
	"eval_num_tokens": 110689903.0,
	"eval_runtime": 55.2291,
	"eval_samples_per_second": 7.243,
	"eval_steps_per_second": 0.905,
	"step": 8750
	},
	{
	"epoch": 0.630971373259003,
	"grad_norm": 4.282220840454102,
	"learning_rate": 4.101338432122371e-05,
	"loss": 4.7029,
	"mean_token_accuracy": 0.6801710060238838,
	"num_tokens": 111323016.0,
	"step": 8800
	},
	{
	"epoch": 0.630971373259003,
	"eval_loss": 1.1904511451721191,
	"eval_mean_token_accuracy": 0.6755478191375732,
	"eval_num_tokens": 111323016.0,
	"eval_runtime": 54.9632,
	"eval_samples_per_second": 7.278,
	"eval_steps_per_second": 0.91,
	"step": 8800
	},
	{
	"epoch": 0.6345564378797928,
	"grad_norm": 4.598837852478027,
	"learning_rate": 4.0615041427660933e-05,
	"loss": 4.7755,
	"mean_token_accuracy": 0.6768260210752487,
	"num_tokens": 111959283.0,
	"step": 8850
	},
	{
	"epoch": 0.6345564378797928,
	"eval_loss": 1.1904475688934326,
	"eval_mean_token_accuracy": 0.6753637742996216,
	"eval_num_tokens": 111959283.0,
	"eval_runtime": 55.0394,
	"eval_samples_per_second": 7.268,
	"eval_steps_per_second": 0.908,
	"step": 8850
	},
	{
	"epoch": 0.6381415025005825,
	"grad_norm": 4.1816558837890625,
	"learning_rate": 4.0216698534098155e-05,
	"loss": 4.7758,
	"mean_token_accuracy": 0.6754831087589264,
	"num_tokens": 112596409.0,
	"step": 8900
	},
	{
	"epoch": 0.6381415025005825,
	"eval_loss": 1.1898977756500244,
	"eval_mean_token_accuracy": 0.6755084788799286,
	"eval_num_tokens": 112596409.0,
	"eval_runtime": 55.0202,
	"eval_samples_per_second": 7.27,
	"eval_steps_per_second": 0.909,
	"step": 8900
	},
	{
	"epoch": 0.6417265671213723,
	"grad_norm": 4.973260402679443,
	"learning_rate": 3.9818355640535376e-05,
	"loss": 4.7116,
	"mean_token_accuracy": 0.6818169742822647,
	"num_tokens": 113224902.0,
	"step": 8950
	},
	{
	"epoch": 0.6417265671213723,
	"eval_loss": 1.1896042823791504,
	"eval_mean_token_accuracy": 0.6757630515098572,
	"eval_num_tokens": 113224902.0,
	"eval_runtime": 54.9621,
	"eval_samples_per_second": 7.278,
	"eval_steps_per_second": 0.91,
	"step": 8950
	},
	{
	"epoch": 0.6453116317421621,
	"grad_norm": 4.470012664794922,
	"learning_rate": 3.94200127469726e-05,
	"loss": 4.713,
	"mean_token_accuracy": 0.6787376815080642,
	"num_tokens": 113858275.0,
	"step": 9000
	},
	{
	"epoch": 0.6453116317421621,
	"eval_loss": 1.1898657083511353,
	"eval_mean_token_accuracy": 0.6760083436965942,
	"eval_num_tokens": 113858275.0,
	"eval_runtime": 54.9184,
	"eval_samples_per_second": 7.284,
	"eval_steps_per_second": 0.91,
	"step": 9000
	},
	{
	"epoch": 0.648896696362952,
	"grad_norm": 4.098659992218018,
	"learning_rate": 3.902166985340981e-05,
	"loss": 4.7423,
	"mean_token_accuracy": 0.6774056190252304,
	"num_tokens": 114495903.0,
	"step": 9050
	},
	{
	"epoch": 0.648896696362952,
	"eval_loss": 1.1897211074829102,
	"eval_mean_token_accuracy": 0.6754970908164978,
	"eval_num_tokens": 114495903.0,
	"eval_runtime": 55.043,
	"eval_samples_per_second": 7.267,
	"eval_steps_per_second": 0.908,
	"step": 9050
	},
	{
	"epoch": 0.6524817609837418,
	"grad_norm": 4.9181976318359375,
	"learning_rate": 3.862332695984704e-05,
	"loss": 4.7403,
	"mean_token_accuracy": 0.6782529127597808,
	"num_tokens": 115123519.0,
	"step": 9100
	},
	{
	"epoch": 0.6524817609837418,
	"eval_loss": 1.1898068189620972,
	"eval_mean_token_accuracy": 0.6745435571670533,
	"eval_num_tokens": 115123519.0,
	"eval_runtime": 54.9272,
	"eval_samples_per_second": 7.282,
	"eval_steps_per_second": 0.91,
	"step": 9100
	},
	{
	"epoch": 0.6560668256045316,
	"grad_norm": 4.978320121765137,
	"learning_rate": 3.8224984066284255e-05,
	"loss": 4.8028,
	"mean_token_accuracy": 0.675481299161911,
	"num_tokens": 115755644.0,
	"step": 9150
	},
	{
	"epoch": 0.6560668256045316,
	"eval_loss": 1.1891556978225708,
	"eval_mean_token_accuracy": 0.6756797277927399,
	"eval_num_tokens": 115755644.0,
	"eval_runtime": 55.005,
	"eval_samples_per_second": 7.272,
	"eval_steps_per_second": 0.909,
	"step": 9150
	},
	{
	"epoch": 0.6596518902253213,
	"grad_norm": 4.682608604431152,
	"learning_rate": 3.7826641172721484e-05,
	"loss": 4.8228,
	"mean_token_accuracy": 0.6748796856403351,
	"num_tokens": 116391334.0,
	"step": 9200
	},
	{
	"epoch": 0.6596518902253213,
	"eval_loss": 1.1887702941894531,
	"eval_mean_token_accuracy": 0.6753370201587677,
	"eval_num_tokens": 116391334.0,
	"eval_runtime": 54.9714,
	"eval_samples_per_second": 7.277,
	"eval_steps_per_second": 0.91,
	"step": 9200
	},
	{
	"epoch": 0.6632369548461111,
	"grad_norm": 4.45632791519165,
	"learning_rate": 3.7428298279158705e-05,
	"loss": 4.7473,
	"mean_token_accuracy": 0.6801807761192322,
	"num_tokens": 117026978.0,
	"step": 9250
	},
	{
	"epoch": 0.6632369548461111,
	"eval_loss": 1.1893665790557861,
	"eval_mean_token_accuracy": 0.6753548145294189,
	"eval_num_tokens": 117026978.0,
	"eval_runtime": 55.0208,
	"eval_samples_per_second": 7.27,
	"eval_steps_per_second": 0.909,
	"step": 9250
	},
	{
	"epoch": 0.6668220194669009,
	"grad_norm": 4.2916951179504395,
	"learning_rate": 3.702995538559592e-05,
	"loss": 4.7187,
	"mean_token_accuracy": 0.6798599645495415,
	"num_tokens": 117660612.0,
	"step": 9300
	},
	{
	"epoch": 0.6668220194669009,
	"eval_loss": 1.189585566520691,
	"eval_mean_token_accuracy": 0.6756225192546844,
	"eval_num_tokens": 117660612.0,
	"eval_runtime": 55.0296,
	"eval_samples_per_second": 7.269,
	"eval_steps_per_second": 0.909,
	"step": 9300
	},
	{
	"epoch": 0.6704070840876907,
	"grad_norm": 4.559842109680176,
	"learning_rate": 3.663161249203315e-05,
	"loss": 4.7029,
	"mean_token_accuracy": 0.6812646022439003,
	"num_tokens": 118290778.0,
	"step": 9350
	},
	{
	"epoch": 0.6704070840876907,
	"eval_loss": 1.1883878707885742,
	"eval_mean_token_accuracy": 0.6754980099201202,
	"eval_num_tokens": 118290778.0,
	"eval_runtime": 55.0845,
	"eval_samples_per_second": 7.262,
	"eval_steps_per_second": 0.908,
	"step": 9350
	},
	{
	"epoch": 0.6739921487084805,
	"grad_norm": 4.957666873931885,
	"learning_rate": 3.623326959847036e-05,
	"loss": 4.716,
	"mean_token_accuracy": 0.6789155259728432,
	"num_tokens": 118921441.0,
	"step": 9400
	},
	{
	"epoch": 0.6739921487084805,
	"eval_loss": 1.1882615089416504,
	"eval_mean_token_accuracy": 0.6757899785041809,
	"eval_num_tokens": 118921441.0,
	"eval_runtime": 55.0393,
	"eval_samples_per_second": 7.268,
	"eval_steps_per_second": 0.908,
	"step": 9400
	},
	{
	"epoch": 0.6775772133292702,
	"grad_norm": 4.460175037384033,
	"learning_rate": 3.5834926704907584e-05,
	"loss": 4.7439,
	"mean_token_accuracy": 0.6776839691400528,
	"num_tokens": 119549331.0,
	"step": 9450
	},
	{
	"epoch": 0.6775772133292702,
	"eval_loss": 1.1887913942337036,
	"eval_mean_token_accuracy": 0.6761759769916534,
	"eval_num_tokens": 119549331.0,
	"eval_runtime": 54.9213,
	"eval_samples_per_second": 7.283,
	"eval_steps_per_second": 0.91,
	"step": 9450
	},
	{
	"epoch": 0.68116227795006,
	"grad_norm": 4.3697638511657715,
	"learning_rate": 3.543658381134481e-05,
	"loss": 4.7796,
	"mean_token_accuracy": 0.6753658777475358,
	"num_tokens": 120180706.0,
	"step": 9500
	},
	{
	"epoch": 0.68116227795006,
	"eval_loss": 1.187656044960022,
	"eval_mean_token_accuracy": 0.6755701994895935,
	"eval_num_tokens": 120180706.0,
	"eval_runtime": 54.925,
	"eval_samples_per_second": 7.283,
	"eval_steps_per_second": 0.91,
	"step": 9500
	},
	{
	"epoch": 0.6847473425708498,
	"grad_norm": 4.676335334777832,
	"learning_rate": 3.503824091778203e-05,
	"loss": 4.8121,
	"mean_token_accuracy": 0.6740303432941437,
	"num_tokens": 120813928.0,
	"step": 9550
	},
	{
	"epoch": 0.6847473425708498,
	"eval_loss": 1.1875134706497192,
	"eval_mean_token_accuracy": 0.6751706182956696,
	"eval_num_tokens": 120813928.0,
	"eval_runtime": 55.1212,
	"eval_samples_per_second": 7.257,
	"eval_steps_per_second": 0.907,
	"step": 9550
	},
	{
	"epoch": 0.6883324071916397,
	"grad_norm": 5.17042875289917,
	"learning_rate": 3.463989802421925e-05,
	"loss": 4.7668,
	"mean_token_accuracy": 0.6758210748434067,
	"num_tokens": 121446792.0,
	"step": 9600
	},
	{
	"epoch": 0.6883324071916397,
	"eval_loss": 1.1872638463974,
	"eval_mean_token_accuracy": 0.6760274660587311,
	"eval_num_tokens": 121446792.0,
	"eval_runtime": 55.1534,
	"eval_samples_per_second": 7.252,
	"eval_steps_per_second": 0.907,
	"step": 9600
	},
	{
	"epoch": 0.6919174718124295,
	"grad_norm": 4.4179840087890625,
	"learning_rate": 3.424155513065647e-05,
	"loss": 4.7633,
	"mean_token_accuracy": 0.6759152534604073,
	"num_tokens": 122072069.0,
	"step": 9650
	},
	{
	"epoch": 0.6919174718124295,
	"eval_loss": 1.1880455017089844,
	"eval_mean_token_accuracy": 0.6756154441833496,
	"eval_num_tokens": 122072069.0,
	"eval_runtime": 55.0701,
	"eval_samples_per_second": 7.263,
	"eval_steps_per_second": 0.908,
	"step": 9650
	},
	{
	"epoch": 0.6955025364332192,
	"grad_norm": 4.7966437339782715,
	"learning_rate": 3.384321223709369e-05,
	"loss": 4.7314,
	"mean_token_accuracy": 0.6790701761841774,
	"num_tokens": 122703011.0,
	"step": 9700
	},
	{
	"epoch": 0.6955025364332192,
	"eval_loss": 1.187593936920166,
	"eval_mean_token_accuracy": 0.6753950679302215,
	"eval_num_tokens": 122703011.0,
	"eval_runtime": 55.1146,
	"eval_samples_per_second": 7.258,
	"eval_steps_per_second": 0.907,
	"step": 9700
	},
	{
	"epoch": 0.699087601054009,
	"grad_norm": 4.6988630294799805,
	"learning_rate": 3.344486934353091e-05,
	"loss": 4.7162,
	"mean_token_accuracy": 0.680111817419529,
	"num_tokens": 123334937.0,
	"step": 9750
	},
	{
	"epoch": 0.699087601054009,
	"eval_loss": 1.1878883838653564,
	"eval_mean_token_accuracy": 0.6757830834388733,
	"eval_num_tokens": 123334937.0,
	"eval_runtime": 55.0822,
	"eval_samples_per_second": 7.262,
	"eval_steps_per_second": 0.908,
	"step": 9750
	},
	{
	"epoch": 0.7026726656747988,
	"grad_norm": 5.11058235168457,
	"learning_rate": 3.3046526449968134e-05,
	"loss": 4.7778,
	"mean_token_accuracy": 0.6746508419513703,
	"num_tokens": 123969291.0,
	"step": 9800
	},
	{
	"epoch": 0.7026726656747988,
	"eval_loss": 1.1869330406188965,
	"eval_mean_token_accuracy": 0.6755635273456574,
	"eval_num_tokens": 123969291.0,
	"eval_runtime": 55.0482,
	"eval_samples_per_second": 7.266,
	"eval_steps_per_second": 0.908,
	"step": 9800
	},
	{
	"epoch": 0.7062577302955886,
	"grad_norm": 4.539863109588623,
	"learning_rate": 3.2648183556405356e-05,
	"loss": 4.7265,
	"mean_token_accuracy": 0.6780777916312217,
	"num_tokens": 124597342.0,
	"step": 9850
	},
	{
	"epoch": 0.7062577302955886,
	"eval_loss": 1.1864935159683228,
	"eval_mean_token_accuracy": 0.6759455275535583,
	"eval_num_tokens": 124597342.0,
	"eval_runtime": 54.9859,
	"eval_samples_per_second": 7.275,
	"eval_steps_per_second": 0.909,
	"step": 9850
	},
	{
	"epoch": 0.7098427949163784,
	"grad_norm": 4.2660112380981445,
	"learning_rate": 3.224984066284258e-05,
	"loss": 4.7727,
	"mean_token_accuracy": 0.6779581853747367,
	"num_tokens": 125230255.0,
	"step": 9900
	},
	{
	"epoch": 0.7098427949163784,
	"eval_loss": 1.1863397359848022,
	"eval_mean_token_accuracy": 0.6765384769439697,
	"eval_num_tokens": 125230255.0,
	"eval_runtime": 55.0326,
	"eval_samples_per_second": 7.268,
	"eval_steps_per_second": 0.909,
	"step": 9900
	},
	{
	"epoch": 0.7134278595371681,
	"grad_norm": 4.660075664520264,
	"learning_rate": 3.18514977692798e-05,
	"loss": 4.6841,
	"mean_token_accuracy": 0.6811311572790146,
	"num_tokens": 125863729.0,
	"step": 9950
	},
	{
	"epoch": 0.7134278595371681,
	"eval_loss": 1.1863139867782593,
	"eval_mean_token_accuracy": 0.676126846075058,
	"eval_num_tokens": 125863729.0,
	"eval_runtime": 55.1646,
	"eval_samples_per_second": 7.251,
	"eval_steps_per_second": 0.906,
	"step": 9950
	},
	{
	"epoch": 0.7170129241579579,
	"grad_norm": 4.517760753631592,
	"learning_rate": 3.145315487571702e-05,
	"loss": 4.7781,
	"mean_token_accuracy": 0.6761695435643196,
	"num_tokens": 126496619.0,
	"step": 10000
	},
	{
	"epoch": 0.7170129241579579,
	"eval_loss": 1.1863616704940796,
	"eval_mean_token_accuracy": 0.6760414135456085,
	"eval_num_tokens": 126496619.0,
	"eval_runtime": 55.0497,
	"eval_samples_per_second": 7.266,
	"eval_steps_per_second": 0.908,
	"step": 10000
	},
	{
	"epoch": 0.7205979887787477,
	"grad_norm": 4.821887493133545,
	"learning_rate": 3.105481198215424e-05,
	"loss": 4.7506,
	"mean_token_accuracy": 0.677640742957592,
	"num_tokens": 127129025.0,
	"step": 10050
	},
	{
	"epoch": 0.7205979887787477,
	"eval_loss": 1.1864928007125854,
	"eval_mean_token_accuracy": 0.6763237309455872,
	"eval_num_tokens": 127129025.0,
	"eval_runtime": 55.0217,
	"eval_samples_per_second": 7.27,
	"eval_steps_per_second": 0.909,
	"step": 10050
	},
	{
	"epoch": 0.7241830533995375,
	"grad_norm": 5.278724670410156,
	"learning_rate": 3.065646908859146e-05,
	"loss": 4.7726,
	"mean_token_accuracy": 0.6762316790223122,
	"num_tokens": 127757800.0,
	"step": 10100
	},
	{
	"epoch": 0.7241830533995375,
	"eval_loss": 1.1857789754867554,
	"eval_mean_token_accuracy": 0.6754815447330474,
	"eval_num_tokens": 127757800.0,
	"eval_runtime": 55.2673,
	"eval_samples_per_second": 7.238,
	"eval_steps_per_second": 0.905,
	"step": 10100
	},
	{
	"epoch": 0.7277681180203274,
	"grad_norm": 4.649436950683594,
	"learning_rate": 3.025812619502868e-05,
	"loss": 4.803,
	"mean_token_accuracy": 0.6757835251092911,
	"num_tokens": 128391102.0,
	"step": 10150
	},
	{
	"epoch": 0.7277681180203274,
	"eval_loss": 1.1859068870544434,
	"eval_mean_token_accuracy": 0.6756039881706237,
	"eval_num_tokens": 128391102.0,
	"eval_runtime": 55.0647,
	"eval_samples_per_second": 7.264,
	"eval_steps_per_second": 0.908,
	"step": 10150
	},
	{
	"epoch": 0.7313531826411171,
	"grad_norm": 4.287916660308838,
	"learning_rate": 2.9859783301465906e-05,
	"loss": 4.7373,
	"mean_token_accuracy": 0.677640765607357,
	"num_tokens": 129023759.0,
	"step": 10200
	},
	{
	"epoch": 0.7313531826411171,
	"eval_loss": 1.1861519813537598,
	"eval_mean_token_accuracy": 0.6761102056503296,
	"eval_num_tokens": 129023759.0,
	"eval_runtime": 54.9417,
	"eval_samples_per_second": 7.28,
	"eval_steps_per_second": 0.91,
	"step": 10200
	},
	{
	"epoch": 0.7349382472619069,
	"grad_norm": 4.765435695648193,
	"learning_rate": 2.9461440407903124e-05,
	"loss": 4.7741,
	"mean_token_accuracy": 0.6759647503495216,
	"num_tokens": 129655248.0,
	"step": 10250
	},
	{
	"epoch": 0.7349382472619069,
	"eval_loss": 1.1853660345077515,
	"eval_mean_token_accuracy": 0.6756195032596588,
	"eval_num_tokens": 129655248.0,
	"eval_runtime": 55.3223,
	"eval_samples_per_second": 7.23,
	"eval_steps_per_second": 0.904,
	"step": 10250
	},
	{
	"epoch": 0.7385233118826967,
	"grad_norm": 4.814145088195801,
	"learning_rate": 2.906309751434035e-05,
	"loss": 4.783,
	"mean_token_accuracy": 0.6754540035128593,
	"num_tokens": 130291512.0,
	"step": 10300
	},
	{
	"epoch": 0.7385233118826967,
	"eval_loss": 1.1858062744140625,
	"eval_mean_token_accuracy": 0.6755566847324371,
	"eval_num_tokens": 130291512.0,
	"eval_runtime": 55.3243,
	"eval_samples_per_second": 7.23,
	"eval_steps_per_second": 0.904,
	"step": 10300
	},
	{
	"epoch": 0.7421083765034865,
	"grad_norm": 4.518885135650635,
	"learning_rate": 2.8664754620777567e-05,
	"loss": 4.7083,
	"mean_token_accuracy": 0.6788066929578781,
	"num_tokens": 130922542.0,
	"step": 10350
	},
	{
	"epoch": 0.7421083765034865,
	"eval_loss": 1.185410499572754,
	"eval_mean_token_accuracy": 0.6754859507083892,
	"eval_num_tokens": 130922542.0,
	"eval_runtime": 55.3328,
	"eval_samples_per_second": 7.229,
	"eval_steps_per_second": 0.904,
	"step": 10350
	},
	{
	"epoch": 0.7456934411242763,
	"grad_norm": 4.623891830444336,
	"learning_rate": 2.8266411727214788e-05,
	"loss": 4.8077,
	"mean_token_accuracy": 0.6753540116548539,
	"num_tokens": 131553716.0,
	"step": 10400
	},
	{
	"epoch": 0.7456934411242763,
	"eval_loss": 1.18582022190094,
	"eval_mean_token_accuracy": 0.6761428475379944,
	"eval_num_tokens": 131553716.0,
	"eval_runtime": 55.033,
	"eval_samples_per_second": 7.268,
	"eval_steps_per_second": 0.909,
	"step": 10400
	},
	{
	"epoch": 0.749278505745066,
	"grad_norm": 4.524717807769775,
	"learning_rate": 2.7868068833652013e-05,
	"loss": 4.7216,
	"mean_token_accuracy": 0.6801271498203277,
	"num_tokens": 132187857.0,
	"step": 10450
	},
	{
	"epoch": 0.749278505745066,
	"eval_loss": 1.1854428052902222,
	"eval_mean_token_accuracy": 0.6755358970165253,
	"eval_num_tokens": 132187857.0,
	"eval_runtime": 55.0174,
	"eval_samples_per_second": 7.27,
	"eval_steps_per_second": 0.909,
	"step": 10450
	},
	{
	"epoch": 0.7528635703658558,
	"grad_norm": 4.81862211227417,
	"learning_rate": 2.746972594008923e-05,
	"loss": 4.8024,
	"mean_token_accuracy": 0.6740377223491669,
	"num_tokens": 132818348.0,
	"step": 10500
	},
	{
	"epoch": 0.7528635703658558,
	"eval_loss": 1.184729814529419,
	"eval_mean_token_accuracy": 0.6763768219947814,
	"eval_num_tokens": 132818348.0,
	"eval_runtime": 54.9843,
	"eval_samples_per_second": 7.275,
	"eval_steps_per_second": 0.909,
	"step": 10500
	},
	{
	"epoch": 0.7564486349866456,
	"grad_norm": 4.876639366149902,
	"learning_rate": 2.707138304652645e-05,
	"loss": 4.691,
	"mean_token_accuracy": 0.682259525358677,
	"num_tokens": 133450534.0,
	"step": 10550
	},
	{
	"epoch": 0.7564486349866456,
	"eval_loss": 1.1844180822372437,
	"eval_mean_token_accuracy": 0.6765269267559052,
	"eval_num_tokens": 133450534.0,
	"eval_runtime": 55.1025,
	"eval_samples_per_second": 7.259,
	"eval_steps_per_second": 0.907,
	"step": 10550
	},
	{
	"epoch": 0.7600336996074354,
	"grad_norm": 5.20668363571167,
	"learning_rate": 2.6673040152963674e-05,
	"loss": 4.7633,
	"mean_token_accuracy": 0.6769976457953453,
	"num_tokens": 134081427.0,
	"step": 10600
	},
	{
	"epoch": 0.7600336996074354,
	"eval_loss": 1.1848989725112915,
	"eval_mean_token_accuracy": 0.6765480875968933,
	"eval_num_tokens": 134081427.0,
	"eval_runtime": 55.16,
	"eval_samples_per_second": 7.252,
	"eval_steps_per_second": 0.906,
	"step": 10600
	},
	{
	"epoch": 0.7636187642282252,
	"grad_norm": 4.415744304656982,
	"learning_rate": 2.6274697259400892e-05,
	"loss": 4.7572,
	"mean_token_accuracy": 0.6762901389598847,
	"num_tokens": 134717648.0,
	"step": 10650
	},
	{
	"epoch": 0.7636187642282252,
	"eval_loss": 1.1854746341705322,
	"eval_mean_token_accuracy": 0.6762021934986114,
	"eval_num_tokens": 134717648.0,
	"eval_runtime": 55.1597,
	"eval_samples_per_second": 7.252,
	"eval_steps_per_second": 0.906,
	"step": 10650
	},
	{
	"epoch": 0.7672038288490151,
	"grad_norm": 4.984974384307861,
	"learning_rate": 2.5876354365838113e-05,
	"loss": 4.6918,
	"mean_token_accuracy": 0.6813731342554092,
	"num_tokens": 135352362.0,
	"step": 10700
	},
	{
	"epoch": 0.7672038288490151,
	"eval_loss": 1.1856120824813843,
	"eval_mean_token_accuracy": 0.6763051617145538,
	"eval_num_tokens": 135352362.0,
	"eval_runtime": 54.9725,
	"eval_samples_per_second": 7.276,
	"eval_steps_per_second": 0.91,
	"step": 10700
	},
	{
	"epoch": 0.7707888934698048,
	"grad_norm": 4.5358781814575195,
	"learning_rate": 2.5478011472275338e-05,
	"loss": 4.7242,
	"mean_token_accuracy": 0.6771323186159134,
	"num_tokens": 135991559.0,
	"step": 10750
	},
	{
	"epoch": 0.7707888934698048,
	"eval_loss": 1.185410737991333,
	"eval_mean_token_accuracy": 0.676514265537262,
	"eval_num_tokens": 135991559.0,
	"eval_runtime": 55.0995,
	"eval_samples_per_second": 7.26,
	"eval_steps_per_second": 0.907,
	"step": 10750
	},
	{
	"epoch": 0.7743739580905946,
	"grad_norm": 4.364614009857178,
	"learning_rate": 2.5079668578712556e-05,
	"loss": 4.6947,
	"mean_token_accuracy": 0.6806002199649811,
	"num_tokens": 136624024.0,
	"step": 10800
	},
	{
	"epoch": 0.7743739580905946,
	"eval_loss": 1.184848666191101,
	"eval_mean_token_accuracy": 0.676878696680069,
	"eval_num_tokens": 136624024.0,
	"eval_runtime": 55.7118,
	"eval_samples_per_second": 7.18,
	"eval_steps_per_second": 0.897,
	"step": 10800
	},
	{
	"epoch": 0.7779590227113844,
	"grad_norm": 4.293883323669434,
	"learning_rate": 2.4681325685149778e-05,
	"loss": 4.7454,
	"mean_token_accuracy": 0.6780085292458534,
	"num_tokens": 137259400.0,
	"step": 10850
	},
	{
	"epoch": 0.7779590227113844,
	"eval_loss": 1.185441493988037,
	"eval_mean_token_accuracy": 0.6766848075389862,
	"eval_num_tokens": 137259400.0,
	"eval_runtime": 56.8526,
	"eval_samples_per_second": 7.036,
	"eval_steps_per_second": 0.879,
	"step": 10850
	},
	{
	"epoch": 0.7815440873321742,
	"grad_norm": 4.8266143798828125,
	"learning_rate": 2.4282982791587e-05,
	"loss": 4.7078,
	"mean_token_accuracy": 0.6800830870866775,
	"num_tokens": 137888937.0,
	"step": 10900
	},
	{
	"epoch": 0.7815440873321742,
	"eval_loss": 1.18449068069458,
	"eval_mean_token_accuracy": 0.6764636623859406,
	"eval_num_tokens": 137888937.0,
	"eval_runtime": 56.5392,
	"eval_samples_per_second": 7.075,
	"eval_steps_per_second": 0.884,
	"step": 10900
	},
	{
	"epoch": 0.785129151952964,
	"grad_norm": 4.471580982208252,
	"learning_rate": 2.388463989802422e-05,
	"loss": 4.6928,
	"mean_token_accuracy": 0.6799645683169365,
	"num_tokens": 138523132.0,
	"step": 10950
	},
	{
	"epoch": 0.785129151952964,
	"eval_loss": 1.1840896606445312,
	"eval_mean_token_accuracy": 0.6770457863807678,
	"eval_num_tokens": 138523132.0,
	"eval_runtime": 56.9603,
	"eval_samples_per_second": 7.022,
	"eval_steps_per_second": 0.878,
	"step": 10950
	},
	{
	"epoch": 0.7887142165737537,
	"grad_norm": 4.892276763916016,
	"learning_rate": 2.3486297004461442e-05,
	"loss": 4.7822,
	"mean_token_accuracy": 0.6743768805265427,
	"num_tokens": 139156280.0,
	"step": 11000
	},
	{
	"epoch": 0.7887142165737537,
	"eval_loss": 1.1841989755630493,
	"eval_mean_token_accuracy": 0.6765543162822724,
	"eval_num_tokens": 139156280.0,
	"eval_runtime": 56.1325,
	"eval_samples_per_second": 7.126,
	"eval_steps_per_second": 0.891,
	"step": 11000
	},
	{
	"epoch": 0.7922992811945435,
	"grad_norm": 5.218216896057129,
	"learning_rate": 2.3087954110898663e-05,
	"loss": 4.753,
	"mean_token_accuracy": 0.6765683805942535,
	"num_tokens": 139786084.0,
	"step": 11050
	},
	{
	"epoch": 0.7922992811945435,
	"eval_loss": 1.1838265657424927,
	"eval_mean_token_accuracy": 0.6768669807910919,
	"eval_num_tokens": 139786084.0,
	"eval_runtime": 57.9142,
	"eval_samples_per_second": 6.907,
	"eval_steps_per_second": 0.863,
	"step": 11050
	},
	{
	"epoch": 0.7958843458153333,
	"grad_norm": 4.109825134277344,
	"learning_rate": 2.2689611217335885e-05,
	"loss": 4.766,
	"mean_token_accuracy": 0.6766787865757942,
	"num_tokens": 140420913.0,
	"step": 11100
	},
	{
	"epoch": 0.7958843458153333,
	"eval_loss": 1.183830976486206,
	"eval_mean_token_accuracy": 0.6771005463600158,
	"eval_num_tokens": 140420913.0,
	"eval_runtime": 57.8895,
	"eval_samples_per_second": 6.91,
	"eval_steps_per_second": 0.864,
	"step": 11100
	},
	{
	"epoch": 0.7994694104361231,
	"grad_norm": 4.745416641235352,
	"learning_rate": 2.2291268323773103e-05,
	"loss": 4.7743,
	"mean_token_accuracy": 0.6760394325852395,
	"num_tokens": 141048743.0,
	"step": 11150
	},
	{
	"epoch": 0.7994694104361231,
	"eval_loss": 1.184319257736206,
	"eval_mean_token_accuracy": 0.6767275559902192,
	"eval_num_tokens": 141048743.0,
	"eval_runtime": 56.6971,
	"eval_samples_per_second": 7.055,
	"eval_steps_per_second": 0.882,
	"step": 11150
	},
	{
	"epoch": 0.8030544750569129,
	"grad_norm": 5.053956985473633,
	"learning_rate": 2.1892925430210324e-05,
	"loss": 4.7635,
	"mean_token_accuracy": 0.6785035586357117,
	"num_tokens": 141678181.0,
	"step": 11200
	},
	{
	"epoch": 0.8030544750569129,
	"eval_loss": 1.184045672416687,
	"eval_mean_token_accuracy": 0.6763345134258271,
	"eval_num_tokens": 141678181.0,
	"eval_runtime": 57.5357,
	"eval_samples_per_second": 6.952,
	"eval_steps_per_second": 0.869,
	"step": 11200
	},
	{
	"epoch": 0.8066395396777027,
	"grad_norm": 4.613523006439209,
	"learning_rate": 2.149458253664755e-05,
	"loss": 4.7037,
	"mean_token_accuracy": 0.6807671126723289,
	"num_tokens": 142312431.0,
	"step": 11250
	},
	{
	"epoch": 0.8066395396777027,
	"eval_loss": 1.1838032007217407,
	"eval_mean_token_accuracy": 0.6768004512786865,
	"eval_num_tokens": 142312431.0,
	"eval_runtime": 57.4032,
	"eval_samples_per_second": 6.968,
	"eval_steps_per_second": 0.871,
	"step": 11250
	},
	{
	"epoch": 0.8102246042984925,
	"grad_norm": 4.577108860015869,
	"learning_rate": 2.109623964308477e-05,
	"loss": 4.7398,
	"mean_token_accuracy": 0.6783872780203819,
	"num_tokens": 142944119.0,
	"step": 11300
	},
	{
	"epoch": 0.8102246042984925,
	"eval_loss": 1.1838161945343018,
	"eval_mean_token_accuracy": 0.676618036031723,
	"eval_num_tokens": 142944119.0,
	"eval_runtime": 57.4773,
	"eval_samples_per_second": 6.959,
	"eval_steps_per_second": 0.87,
	"step": 11300
	},
	{
	"epoch": 0.8138096689192823,
	"grad_norm": 4.523055553436279,
	"learning_rate": 2.069789674952199e-05,
	"loss": 4.7537,
	"mean_token_accuracy": 0.6783151313662529,
	"num_tokens": 143575945.0,
	"step": 11350
	},
	{
	"epoch": 0.8138096689192823,
	"eval_loss": 1.183152437210083,
	"eval_mean_token_accuracy": 0.6768651962280273,
	"eval_num_tokens": 143575945.0,
	"eval_runtime": 57.8648,
	"eval_samples_per_second": 6.913,
	"eval_steps_per_second": 0.864,
	"step": 11350
	},
	{
	"epoch": 0.8173947335400721,
	"grad_norm": 4.623985290527344,
	"learning_rate": 2.029955385595921e-05,
	"loss": 4.6946,
	"mean_token_accuracy": 0.6809823432564736,
	"num_tokens": 144207834.0,
	"step": 11400
	},
	{
	"epoch": 0.8173947335400721,
	"eval_loss": 1.1837332248687744,
	"eval_mean_token_accuracy": 0.6768518340587616,
	"eval_num_tokens": 144207834.0,
	"eval_runtime": 57.9156,
	"eval_samples_per_second": 6.907,
	"eval_steps_per_second": 0.863,
	"step": 11400
	},
	{
	"epoch": 0.8209797981608619,
	"grad_norm": 4.573394298553467,
	"learning_rate": 1.990121096239643e-05,
	"loss": 4.733,
	"mean_token_accuracy": 0.6784341213107109,
	"num_tokens": 144840226.0,
	"step": 11450
	},
	{
	"epoch": 0.8209797981608619,
	"eval_loss": 1.1838306188583374,
	"eval_mean_token_accuracy": 0.6770703101158142,
	"eval_num_tokens": 144840226.0,
	"eval_runtime": 57.6139,
	"eval_samples_per_second": 6.943,
	"eval_steps_per_second": 0.868,
	"step": 11450
	},
	{
	"epoch": 0.8245648627816516,
	"grad_norm": 4.6763458251953125,
	"learning_rate": 1.9502868068833653e-05,
	"loss": 4.7745,
	"mean_token_accuracy": 0.6781399786472321,
	"num_tokens": 145475463.0,
	"step": 11500
	},
	{
	"epoch": 0.8245648627816516,
	"eval_loss": 1.1832276582717896,
	"eval_mean_token_accuracy": 0.6768820834159851,
	"eval_num_tokens": 145475463.0,
	"eval_runtime": 56.936,
	"eval_samples_per_second": 7.025,
	"eval_steps_per_second": 0.878,
	"step": 11500
	},
	{
	"epoch": 0.8281499274024414,
	"grad_norm": 4.544640064239502,
	"learning_rate": 1.9104525175270875e-05,
	"loss": 4.6995,
	"mean_token_accuracy": 0.6816430819034577,
	"num_tokens": 146110411.0,
	"step": 11550
	},
	{
	"epoch": 0.8281499274024414,
	"eval_loss": 1.1833053827285767,
	"eval_mean_token_accuracy": 0.6773410534858704,
	"eval_num_tokens": 146110411.0,
	"eval_runtime": 57.0468,
	"eval_samples_per_second": 7.012,
	"eval_steps_per_second": 0.876,
	"step": 11550
	},
	{
	"epoch": 0.8317349920232312,
	"grad_norm": 4.831193923950195,
	"learning_rate": 1.8706182281708096e-05,
	"loss": 4.7265,
	"mean_token_accuracy": 0.6784323596954346,
	"num_tokens": 146744949.0,
	"step": 11600
	},
	{
	"epoch": 0.8317349920232312,
	"eval_loss": 1.1832283735275269,
	"eval_mean_token_accuracy": 0.6767588186264039,
	"eval_num_tokens": 146744949.0,
	"eval_runtime": 57.1574,
	"eval_samples_per_second": 6.998,
	"eval_steps_per_second": 0.875,
	"step": 11600
	},
	{
	"epoch": 0.835320056644021,
	"grad_norm": 4.2518086433410645,
	"learning_rate": 1.8307839388145317e-05,
	"loss": 4.7231,
	"mean_token_accuracy": 0.6789010632038116,
	"num_tokens": 147377879.0,
	"step": 11650
	},
	{
	"epoch": 0.835320056644021,
	"eval_loss": 1.1831552982330322,
	"eval_mean_token_accuracy": 0.6766877925395965,
	"eval_num_tokens": 147377879.0,
	"eval_runtime": 57.2174,
	"eval_samples_per_second": 6.991,
	"eval_steps_per_second": 0.874,
	"step": 11650
	},
	{
	"epoch": 0.8389051212648108,
	"grad_norm": 4.656574726104736,
	"learning_rate": 1.7909496494582535e-05,
	"loss": 4.7387,
	"mean_token_accuracy": 0.6785845035314559,
	"num_tokens": 148008340.0,
	"step": 11700
	},
	{
	"epoch": 0.8389051212648108,
	"eval_loss": 1.1829930543899536,
	"eval_mean_token_accuracy": 0.6767005050182342,
	"eval_num_tokens": 148008340.0,
	"eval_runtime": 56.5488,
	"eval_samples_per_second": 7.074,
	"eval_steps_per_second": 0.884,
	"step": 11700
	},
	{
	"epoch": 0.8424901858856005,
	"grad_norm": 5.07755184173584,
	"learning_rate": 1.7511153601019757e-05,
	"loss": 4.6949,
	"mean_token_accuracy": 0.6815642186999321,
	"num_tokens": 148637370.0,
	"step": 11750
	},
	{
	"epoch": 0.8424901858856005,
	"eval_loss": 1.1835424900054932,
	"eval_mean_token_accuracy": 0.6766264629364014,
	"eval_num_tokens": 148637370.0,
	"eval_runtime": 56.844,
	"eval_samples_per_second": 7.037,
	"eval_steps_per_second": 0.88,
	"step": 11750
	},
	{
	"epoch": 0.8460752505063904,
	"grad_norm": 4.937259674072266,
	"learning_rate": 1.7112810707456982e-05,
	"loss": 4.7547,
	"mean_token_accuracy": 0.6751632392406464,
	"num_tokens": 149266269.0,
	"step": 11800
	},
	{
	"epoch": 0.8460752505063904,
	"eval_loss": 1.1830496788024902,
	"eval_mean_token_accuracy": 0.6767467558383942,
	"eval_num_tokens": 149266269.0,
	"eval_runtime": 56.5429,
	"eval_samples_per_second": 7.074,
	"eval_steps_per_second": 0.884,
	"step": 11800
	},
	{
	"epoch": 0.8496603151271802,
	"grad_norm": 4.5733795166015625,
	"learning_rate": 1.67144678138942e-05,
	"loss": 4.7398,
	"mean_token_accuracy": 0.6781432759761811,
	"num_tokens": 149898007.0,
	"step": 11850
	},
	{
	"epoch": 0.8496603151271802,
	"eval_loss": 1.1832393407821655,
	"eval_mean_token_accuracy": 0.6769970893859864,
	"eval_num_tokens": 149898007.0,
	"eval_runtime": 55.172,
	"eval_samples_per_second": 7.25,
	"eval_steps_per_second": 0.906,
	"step": 11850
	},
	{
	"epoch": 0.85324537974797,
	"grad_norm": 4.531384468078613,
	"learning_rate": 1.631612492033142e-05,
	"loss": 4.7097,
	"mean_token_accuracy": 0.6787867891788483,
	"num_tokens": 150529318.0,
	"step": 11900
	},
	{
	"epoch": 0.85324537974797,
	"eval_loss": 1.1830426454544067,
	"eval_mean_token_accuracy": 0.6767821443080902,
	"eval_num_tokens": 150529318.0,
	"eval_runtime": 55.9298,
	"eval_samples_per_second": 7.152,
	"eval_steps_per_second": 0.894,
	"step": 11900
	},
	{
	"epoch": 0.8568304443687598,
	"grad_norm": 4.669693946838379,
	"learning_rate": 1.5917782026768643e-05,
	"loss": 4.7679,
	"mean_token_accuracy": 0.6752150565385818,
	"num_tokens": 151163202.0,
	"step": 11950
	},
	{
	"epoch": 0.8568304443687598,
	"eval_loss": 1.1831849813461304,
	"eval_mean_token_accuracy": 0.6765953767299652,
	"eval_num_tokens": 151163202.0,
	"eval_runtime": 56.6538,
	"eval_samples_per_second": 7.06,
	"eval_steps_per_second": 0.883,
	"step": 11950
	},
	{
	"epoch": 0.8604155089895495,
	"grad_norm": 4.184320449829102,
	"learning_rate": 1.5519439133205864e-05,
	"loss": 4.713,
	"mean_token_accuracy": 0.6797751143574715,
	"num_tokens": 151798569.0,
	"step": 12000
	},
	{
	"epoch": 0.8604155089895495,
	"eval_loss": 1.182477593421936,
	"eval_mean_token_accuracy": 0.6768123960494995,
	"eval_num_tokens": 151798569.0,
	"eval_runtime": 56.3382,
	"eval_samples_per_second": 7.1,
	"eval_steps_per_second": 0.887,
	"step": 12000
	},
	{
	"epoch": 0.8640005736103393,
	"grad_norm": 4.763125896453857,
	"learning_rate": 1.5121096239643084e-05,
	"loss": 4.7338,
	"mean_token_accuracy": 0.6781762626767158,
	"num_tokens": 152431951.0,
	"step": 12050
	},
	{
	"epoch": 0.8640005736103393,
	"eval_loss": 1.182124137878418,
	"eval_mean_token_accuracy": 0.6777550578117371,
	"eval_num_tokens": 152431951.0,
	"eval_runtime": 56.6371,
	"eval_samples_per_second": 7.063,
	"eval_steps_per_second": 0.883,
	"step": 12050
	},
	{
	"epoch": 0.8675856382311291,
	"grad_norm": 4.805209159851074,
	"learning_rate": 1.4722753346080307e-05,
	"loss": 4.7565,
	"mean_token_accuracy": 0.6775122970342636,
	"num_tokens": 153063882.0,
	"step": 12100
	},
	{
	"epoch": 0.8675856382311291,
	"eval_loss": 1.1821281909942627,
	"eval_mean_token_accuracy": 0.6782806706428528,
	"eval_num_tokens": 153063882.0,
	"eval_runtime": 56.6386,
	"eval_samples_per_second": 7.062,
	"eval_steps_per_second": 0.883,
	"step": 12100
	},
	{
	"epoch": 0.8711707028519189,
	"grad_norm": 4.224789142608643,
	"learning_rate": 1.4324410452517528e-05,
	"loss": 4.7722,
	"mean_token_accuracy": 0.6754378816485405,
	"num_tokens": 153698583.0,
	"step": 12150
	},
	{
	"epoch": 0.8711707028519189,
	"eval_loss": 1.182055950164795,
	"eval_mean_token_accuracy": 0.6773766386508941,
	"eval_num_tokens": 153698583.0,
	"eval_runtime": 56.2278,
	"eval_samples_per_second": 7.114,
	"eval_steps_per_second": 0.889,
	"step": 12150
	},
	{
	"epoch": 0.8747557674727087,
	"grad_norm": 4.622290134429932,
	"learning_rate": 1.392606755895475e-05,
	"loss": 4.7395,
	"mean_token_accuracy": 0.678723790049553,
	"num_tokens": 154330119.0,
	"step": 12200
	},
	{
	"epoch": 0.8747557674727087,
	"eval_loss": 1.1820727586746216,
	"eval_mean_token_accuracy": 0.6769333493709564,
	"eval_num_tokens": 154330119.0,
	"eval_runtime": 56.605,
	"eval_samples_per_second": 7.067,
	"eval_steps_per_second": 0.883,
	"step": 12200
	},
	{
	"epoch": 0.8783408320934984,
	"grad_norm": 4.508255481719971,
	"learning_rate": 1.352772466539197e-05,
	"loss": 4.6912,
	"mean_token_accuracy": 0.6804595556855202,
	"num_tokens": 154963205.0,
	"step": 12250
	},
	{
	"epoch": 0.8783408320934984,
	"eval_loss": 1.1818066835403442,
	"eval_mean_token_accuracy": 0.6772564661502838,
	"eval_num_tokens": 154963205.0,
	"eval_runtime": 55.5536,
	"eval_samples_per_second": 7.2,
	"eval_steps_per_second": 0.9,
	"step": 12250
	},
	{
	"epoch": 0.8819258967142882,
	"grad_norm": 4.340250492095947,
	"learning_rate": 1.3129381771829191e-05,
	"loss": 4.7228,
	"mean_token_accuracy": 0.6781974649429321,
	"num_tokens": 155595688.0,
	"step": 12300
	},
	{
	"epoch": 0.8819258967142882,
	"eval_loss": 1.1819037199020386,
	"eval_mean_token_accuracy": 0.677418692111969,
	"eval_num_tokens": 155595688.0,
	"eval_runtime": 55.5311,
	"eval_samples_per_second": 7.203,
	"eval_steps_per_second": 0.9,
	"step": 12300
	},
	{
	"epoch": 0.8855109613350781,
	"grad_norm": 4.752552032470703,
	"learning_rate": 1.2731038878266413e-05,
	"loss": 4.7694,
	"mean_token_accuracy": 0.6762826785445213,
	"num_tokens": 156228825.0,
	"step": 12350
	},
	{
	"epoch": 0.8855109613350781,
	"eval_loss": 1.1815353631973267,
	"eval_mean_token_accuracy": 0.6776353216171265,
	"eval_num_tokens": 156228825.0,
	"eval_runtime": 55.7037,
	"eval_samples_per_second": 7.181,
	"eval_steps_per_second": 0.898,
	"step": 12350
	},
	{
	"epoch": 0.8890960259558679,
	"grad_norm": 4.746983528137207,
	"learning_rate": 1.2332695984703634e-05,
	"loss": 4.7539,
	"mean_token_accuracy": 0.6774281883239746,
	"num_tokens": 156864867.0,
	"step": 12400
	},
	{
	"epoch": 0.8890960259558679,
	"eval_loss": 1.1814591884613037,
	"eval_mean_token_accuracy": 0.6772267067432404,
	"eval_num_tokens": 156864867.0,
	"eval_runtime": 55.2801,
	"eval_samples_per_second": 7.236,
	"eval_steps_per_second": 0.904,
	"step": 12400
	},
	{
	"epoch": 0.8926810905766577,
	"grad_norm": 4.964954376220703,
	"learning_rate": 1.1934353091140854e-05,
	"loss": 4.652,
	"mean_token_accuracy": 0.6832978922128677,
	"num_tokens": 157497835.0,
	"step": 12450
	},
	{
	"epoch": 0.8926810905766577,
	"eval_loss": 1.1815037727355957,
	"eval_mean_token_accuracy": 0.6775709521770478,
	"eval_num_tokens": 157497835.0,
	"eval_runtime": 55.4264,
	"eval_samples_per_second": 7.217,
	"eval_steps_per_second": 0.902,
	"step": 12450
	},
	{
	"epoch": 0.8962661551974475,
	"grad_norm": 4.32532262802124,
	"learning_rate": 1.1536010197578075e-05,
	"loss": 4.6811,
	"mean_token_accuracy": 0.6813494926691055,
	"num_tokens": 158131957.0,
	"step": 12500
	},
	{
	"epoch": 0.8962661551974475,
	"eval_loss": 1.181230902671814,
	"eval_mean_token_accuracy": 0.6782212293148041,
	"eval_num_tokens": 158131957.0,
	"eval_runtime": 55.638,
	"eval_samples_per_second": 7.189,
	"eval_steps_per_second": 0.899,
	"step": 12500
	},
	{
	"epoch": 0.8998512198182372,
	"grad_norm": 4.772362232208252,
	"learning_rate": 1.1137667304015297e-05,
	"loss": 4.6799,
	"mean_token_accuracy": 0.6808639001846314,
	"num_tokens": 158765520.0,
	"step": 12550
	},
	{
	"epoch": 0.8998512198182372,
	"eval_loss": 1.18119215965271,
	"eval_mean_token_accuracy": 0.6776848089694977,
	"eval_num_tokens": 158765520.0,
	"eval_runtime": 56.5407,
	"eval_samples_per_second": 7.075,
	"eval_steps_per_second": 0.884,
	"step": 12550
	},
	{
	"epoch": 0.903436284439027,
	"grad_norm": 4.406890869140625,
	"learning_rate": 1.0739324410452518e-05,
	"loss": 4.6572,
	"mean_token_accuracy": 0.6824618262052536,
	"num_tokens": 159396320.0,
	"step": 12600
	},
	{
	"epoch": 0.903436284439027,
	"eval_loss": 1.1813263893127441,
	"eval_mean_token_accuracy": 0.677431755065918,
	"eval_num_tokens": 159396320.0,
	"eval_runtime": 56.1014,
	"eval_samples_per_second": 7.13,
	"eval_steps_per_second": 0.891,
	"step": 12600
	},
	{
	"epoch": 0.9070213490598168,
	"grad_norm": 4.6225786209106445,
	"learning_rate": 1.034098151688974e-05,
	"loss": 4.7346,
	"mean_token_accuracy": 0.6780241671204567,
	"num_tokens": 160028813.0,
	"step": 12650
	},
	{
	"epoch": 0.9070213490598168,
	"eval_loss": 1.18108332157135,
	"eval_mean_token_accuracy": 0.6777166557312012,
	"eval_num_tokens": 160028813.0,
	"eval_runtime": 55.9817,
	"eval_samples_per_second": 7.145,
	"eval_steps_per_second": 0.893,
	"step": 12650
	},
	{
	"epoch": 0.9106064136806066,
	"grad_norm": 5.096744537353516,
	"learning_rate": 9.942638623326961e-06,
	"loss": 4.7072,
	"mean_token_accuracy": 0.6779900795221329,
	"num_tokens": 160660115.0,
	"step": 12700
	},
	{
	"epoch": 0.9106064136806066,
	"eval_loss": 1.1813737154006958,
	"eval_mean_token_accuracy": 0.6772573125362397,
	"eval_num_tokens": 160660115.0,
	"eval_runtime": 56.7004,
	"eval_samples_per_second": 7.055,
	"eval_steps_per_second": 0.882,
	"step": 12700
	},
	{
	"epoch": 0.9141914783013964,
	"grad_norm": 4.954991817474365,
	"learning_rate": 9.54429572976418e-06,
	"loss": 4.7609,
	"mean_token_accuracy": 0.6763640037178993,
	"num_tokens": 161295929.0,
	"step": 12750
	},
	{
	"epoch": 0.9141914783013964,
	"eval_loss": 1.1813360452651978,
	"eval_mean_token_accuracy": 0.6774272322654724,
	"eval_num_tokens": 161295929.0,
	"eval_runtime": 55.8406,
	"eval_samples_per_second": 7.163,
	"eval_steps_per_second": 0.895,
	"step": 12750
	},
	{
	"epoch": 0.9177765429221861,
	"grad_norm": 4.923917770385742,
	"learning_rate": 9.145952836201404e-06,
	"loss": 4.8154,
	"mean_token_accuracy": 0.6726123803853988,
	"num_tokens": 161927138.0,
	"step": 12800
	},
	{
	"epoch": 0.9177765429221861,
	"eval_loss": 1.1811388731002808,
	"eval_mean_token_accuracy": 0.6773995268344879,
	"eval_num_tokens": 161927138.0,
	"eval_runtime": 55.8065,
	"eval_samples_per_second": 7.168,
	"eval_steps_per_second": 0.896,
	"step": 12800
	},
	{
	"epoch": 0.9213616075429759,
	"grad_norm": 4.706872463226318,
	"learning_rate": 8.747609942638624e-06,
	"loss": 4.7658,
	"mean_token_accuracy": 0.6769201335310936,
	"num_tokens": 162553898.0,
	"step": 12850
	},
	{
	"epoch": 0.9213616075429759,
	"eval_loss": 1.1811527013778687,
	"eval_mean_token_accuracy": 0.6772512257099151,
	"eval_num_tokens": 162553898.0,
	"eval_runtime": 55.933,
	"eval_samples_per_second": 7.151,
	"eval_steps_per_second": 0.894,
	"step": 12850
	},
	{
	"epoch": 0.9249466721637658,
	"grad_norm": 4.29292106628418,
	"learning_rate": 8.349267049075845e-06,
	"loss": 4.7529,
	"mean_token_accuracy": 0.678237376511097,
	"num_tokens": 163187273.0,
	"step": 12900
	},
	{
	"epoch": 0.9249466721637658,
	"eval_loss": 1.1813446283340454,
	"eval_mean_token_accuracy": 0.6770773160457612,
	"eval_num_tokens": 163187273.0,
	"eval_runtime": 55.9165,
	"eval_samples_per_second": 7.154,
	"eval_steps_per_second": 0.894,
	"step": 12900
	},
	{
	"epoch": 0.9285317367845556,
	"grad_norm": 4.577188968658447,
	"learning_rate": 7.950924155513067e-06,
	"loss": 4.7151,
	"mean_token_accuracy": 0.6785858425498009,
	"num_tokens": 163816024.0,
	"step": 12950
	},
	{
	"epoch": 0.9285317367845556,
	"eval_loss": 1.181489109992981,
	"eval_mean_token_accuracy": 0.6775988221168519,
	"eval_num_tokens": 163816024.0,
	"eval_runtime": 55.8424,
	"eval_samples_per_second": 7.163,
	"eval_steps_per_second": 0.895,
	"step": 12950
	},
	{
	"epoch": 0.9321168014053454,
	"grad_norm": 4.593563556671143,
	"learning_rate": 7.552581261950287e-06,
	"loss": 4.7085,
	"mean_token_accuracy": 0.6803634178638458,
	"num_tokens": 164445021.0,
	"step": 13000
	},
	{
	"epoch": 0.9321168014053454,
	"eval_loss": 1.1816061735153198,
	"eval_mean_token_accuracy": 0.6776184713840485,
	"eval_num_tokens": 164445021.0,
	"eval_runtime": 55.8489,
	"eval_samples_per_second": 7.162,
	"eval_steps_per_second": 0.895,
	"step": 13000
	},
	{
	"epoch": 0.9357018660261351,
	"grad_norm": 4.309682846069336,
	"learning_rate": 7.1542383683875086e-06,
	"loss": 4.706,
	"mean_token_accuracy": 0.6809570705890655,
	"num_tokens": 165073944.0,
	"step": 13050
	},
	{
	"epoch": 0.9357018660261351,
	"eval_loss": 1.181320071220398,
	"eval_mean_token_accuracy": 0.6780745506286621,
	"eval_num_tokens": 165073944.0,
	"eval_runtime": 55.6478,
	"eval_samples_per_second": 7.188,
	"eval_steps_per_second": 0.899,
	"step": 13050
	},
	{
	"epoch": 0.9392869306469249,
	"grad_norm": 4.485646724700928,
	"learning_rate": 6.755895474824729e-06,
	"loss": 4.7568,
	"mean_token_accuracy": 0.677568726837635,
	"num_tokens": 165708351.0,
	"step": 13100
	},
	{
	"epoch": 0.9392869306469249,
	"eval_loss": 1.1809498071670532,
	"eval_mean_token_accuracy": 0.677814108133316,
	"eval_num_tokens": 165708351.0,
	"eval_runtime": 55.8268,
	"eval_samples_per_second": 7.165,
	"eval_steps_per_second": 0.896,
	"step": 13100
	},
	{
	"epoch": 0.9428719952677147,
	"grad_norm": 4.374978065490723,
	"learning_rate": 6.357552581261951e-06,
	"loss": 4.7056,
	"mean_token_accuracy": 0.6803146860003472,
	"num_tokens": 166342580.0,
	"step": 13150
	},
	{
	"epoch": 0.9428719952677147,
	"eval_loss": 1.1812047958374023,
	"eval_mean_token_accuracy": 0.6775732636451721,
	"eval_num_tokens": 166342580.0,
	"eval_runtime": 56.8808,
	"eval_samples_per_second": 7.032,
	"eval_steps_per_second": 0.879,
	"step": 13150
	},
	{
	"epoch": 0.9464570598885045,
	"grad_norm": 4.719696044921875,
	"learning_rate": 5.959209687699171e-06,
	"loss": 4.6996,
	"mean_token_accuracy": 0.6807303726673126,
	"num_tokens": 166972337.0,
	"step": 13200
	},
	{
	"epoch": 0.9464570598885045,
	"eval_loss": 1.1809191703796387,
	"eval_mean_token_accuracy": 0.6775369119644165,
	"eval_num_tokens": 166972337.0,
	"eval_runtime": 55.3898,
	"eval_samples_per_second": 7.222,
	"eval_steps_per_second": 0.903,
	"step": 13200
	},
	{
	"epoch": 0.9500421245092943,
	"grad_norm": 4.4557905197143555,
	"learning_rate": 5.560866794136393e-06,
	"loss": 4.6934,
	"mean_token_accuracy": 0.6803115239739418,
	"num_tokens": 167608984.0,
	"step": 13250
	},
	{
	"epoch": 0.9500421245092943,
	"eval_loss": 1.1811048984527588,
	"eval_mean_token_accuracy": 0.6776836955547333,
	"eval_num_tokens": 167608984.0,
	"eval_runtime": 56.7029,
	"eval_samples_per_second": 7.054,
	"eval_steps_per_second": 0.882,
	"step": 13250
	},
	{
	"epoch": 0.953627189130084,
	"grad_norm": 4.890408515930176,
	"learning_rate": 5.162523900573614e-06,
	"loss": 4.7407,
	"mean_token_accuracy": 0.6763252380490303,
	"num_tokens": 168240445.0,
	"step": 13300
	},
	{
	"epoch": 0.953627189130084,
	"eval_loss": 1.1808910369873047,
	"eval_mean_token_accuracy": 0.6770796060562134,
	"eval_num_tokens": 168240445.0,
	"eval_runtime": 56.5546,
	"eval_samples_per_second": 7.073,
	"eval_steps_per_second": 0.884,
	"step": 13300
	},
	{
	"epoch": 0.9572122537508738,
	"grad_norm": 5.145451545715332,
	"learning_rate": 4.7641810070108355e-06,
	"loss": 4.7417,
	"mean_token_accuracy": 0.6776255601644516,
	"num_tokens": 168871775.0,
	"step": 13350
	},
	{
	"epoch": 0.9572122537508738,
	"eval_loss": 1.1808017492294312,
	"eval_mean_token_accuracy": 0.6777704417705536,
	"eval_num_tokens": 168871775.0,
	"eval_runtime": 56.3719,
	"eval_samples_per_second": 7.096,
	"eval_steps_per_second": 0.887,
	"step": 13350
	},
	{
	"epoch": 0.9607973183716636,
	"grad_norm": 4.5986104011535645,
	"learning_rate": 4.365838113448056e-06,
	"loss": 4.742,
	"mean_token_accuracy": 0.678845791220665,
	"num_tokens": 169504277.0,
	"step": 13400
	},
	{
	"epoch": 0.9607973183716636,
	"eval_loss": 1.1809656620025635,
	"eval_mean_token_accuracy": 0.6775072228908539,
	"eval_num_tokens": 169504277.0,
	"eval_runtime": 55.886,
	"eval_samples_per_second": 7.157,
	"eval_steps_per_second": 0.895,
	"step": 13400
	},
	{
	"epoch": 0.9643823829924535,
	"grad_norm": 4.603204250335693,
	"learning_rate": 3.967495219885278e-06,
	"loss": 4.7013,
	"mean_token_accuracy": 0.6800284919142723,
	"num_tokens": 170139597.0,
	"step": 13450
	},
	{
	"epoch": 0.9643823829924535,
	"eval_loss": 1.1810020208358765,
	"eval_mean_token_accuracy": 0.6775026059150696,
	"eval_num_tokens": 170139597.0,
	"eval_runtime": 55.5754,
	"eval_samples_per_second": 7.197,
	"eval_steps_per_second": 0.9,
	"step": 13450
	},
	{
	"epoch": 0.9679674476132433,
	"grad_norm": 4.541078567504883,
	"learning_rate": 3.5691523263224986e-06,
	"loss": 4.6893,
	"mean_token_accuracy": 0.6810142487287522,
	"num_tokens": 170769337.0,
	"step": 13500
	},
	{
	"epoch": 0.9679674476132433,
	"eval_loss": 1.1807525157928467,
	"eval_mean_token_accuracy": 0.6778879475593567,
	"eval_num_tokens": 170769337.0,
	"eval_runtime": 55.7448,
	"eval_samples_per_second": 7.176,
	"eval_steps_per_second": 0.897,
	"step": 13500
	},
	{
	"epoch": 0.971552512234033,
	"grad_norm": 4.519087314605713,
	"learning_rate": 3.17080943275972e-06,
	"loss": 4.772,
	"mean_token_accuracy": 0.6758325353264809,
	"num_tokens": 171402451.0,
	"step": 13550
	},
	{
	"epoch": 0.971552512234033,
	"eval_loss": 1.180974006652832,
	"eval_mean_token_accuracy": 0.6771935153007508,
	"eval_num_tokens": 171402451.0,
	"eval_runtime": 55.9385,
	"eval_samples_per_second": 7.151,
	"eval_steps_per_second": 0.894,
	"step": 13550
	},
	{
	"epoch": 0.9751375768548228,
	"grad_norm": 4.388876914978027,
	"learning_rate": 2.772466539196941e-06,
	"loss": 4.7878,
	"mean_token_accuracy": 0.6759749925136567,
	"num_tokens": 172037593.0,
	"step": 13600
	},
	{
	"epoch": 0.9751375768548228,
	"eval_loss": 1.180649995803833,
	"eval_mean_token_accuracy": 0.6776048111915588,
	"eval_num_tokens": 172037593.0,
	"eval_runtime": 55.7077,
	"eval_samples_per_second": 7.18,
	"eval_steps_per_second": 0.898,
	"step": 13600
	},
	{
	"epoch": 0.9787226414756126,
	"grad_norm": 4.676353931427002,
	"learning_rate": 2.374123645634162e-06,
	"loss": 4.7004,
	"mean_token_accuracy": 0.6811859339475632,
	"num_tokens": 172671223.0,
	"step": 13650
	},
	{
	"epoch": 0.9787226414756126,
	"eval_loss": 1.1809673309326172,
	"eval_mean_token_accuracy": 0.6772890436649323,
	"eval_num_tokens": 172671223.0,
	"eval_runtime": 55.9611,
	"eval_samples_per_second": 7.148,
	"eval_steps_per_second": 0.893,
	"step": 13650
	},
	{
	"epoch": 0.9823077060964024,
	"grad_norm": 4.678284645080566,
	"learning_rate": 1.975780752071383e-06,
	"loss": 4.7903,
	"mean_token_accuracy": 0.676692801117897,
	"num_tokens": 173302207.0,
	"step": 13700
	},
	{
	"epoch": 0.9823077060964024,
	"eval_loss": 1.1809345483779907,
	"eval_mean_token_accuracy": 0.6775369548797607,
	"eval_num_tokens": 173302207.0,
	"eval_runtime": 55.9406,
	"eval_samples_per_second": 7.15,
	"eval_steps_per_second": 0.894,
	"step": 13700
	},
	{
	"epoch": 0.9858927707171922,
	"grad_norm": 4.409168243408203,
	"learning_rate": 1.5774378585086041e-06,
	"loss": 4.6684,
	"mean_token_accuracy": 0.6816425076127053,
	"num_tokens": 173935786.0,
	"step": 13750
	},
	{
	"epoch": 0.9858927707171922,
	"eval_loss": 1.1808542013168335,
	"eval_mean_token_accuracy": 0.6773917138576507,
	"eval_num_tokens": 173935786.0,
	"eval_runtime": 55.8468,
	"eval_samples_per_second": 7.162,
	"eval_steps_per_second": 0.895,
	"step": 13750
	},
	{
	"epoch": 0.989477835337982,
	"grad_norm": 4.55557107925415,
	"learning_rate": 1.1790949649458254e-06,
	"loss": 4.7765,
	"mean_token_accuracy": 0.6755864906311035,
	"num_tokens": 174569465.0,
	"step": 13800
	},
	{
	"epoch": 0.989477835337982,
	"eval_loss": 1.18069589138031,
	"eval_mean_token_accuracy": 0.6778388035297394,
	"eval_num_tokens": 174569465.0,
	"eval_runtime": 55.6007,
	"eval_samples_per_second": 7.194,
	"eval_steps_per_second": 0.899,
	"step": 13800
	},
	{
	"epoch": 0.9930628999587717,
	"grad_norm": 4.513246536254883,
	"learning_rate": 7.807520713830466e-07,
	"loss": 4.7511,
	"mean_token_accuracy": 0.6769631016254425,
	"num_tokens": 175203827.0,
	"step": 13850
	},
	{
	"epoch": 0.9930628999587717,
	"eval_loss": 1.1805609464645386,
	"eval_mean_token_accuracy": 0.6776606893539429,
	"eval_num_tokens": 175203827.0,
	"eval_runtime": 55.7815,
	"eval_samples_per_second": 7.171,
	"eval_steps_per_second": 0.896,
	"step": 13850
	},
	{
	"epoch": 0.9966479645795615,
	"grad_norm": 4.5654497146606445,
	"learning_rate": 3.824091778202677e-07,
	"loss": 4.7423,
	"mean_token_accuracy": 0.6774308422207832,
	"num_tokens": 175836938.0,
	"step": 13900
	},
	{
	"epoch": 0.9966479645795615,
	"eval_loss": 1.1805065870285034,
	"eval_mean_token_accuracy": 0.6777116668224334,
	"eval_num_tokens": 175836938.0,
	"eval_runtime": 55.8266,
	"eval_samples_per_second": 7.165,
	"eval_steps_per_second": 0.896,
	"step": 13900
	},
	{
	"epoch": 1.0,
	"mean_token_accuracy": 0.677863019991686,
	"num_tokens": 176425692.0,
	"step": 13947,
	"total_flos": 5.688174665250246e+18,
	"train_loss": 4.990768942446951,
	"train_runtime": 203046.5495,
	"train_samples_per_second": 2.198,
	"train_steps_per_second": 0.069
	}
	],
	"logging_steps": 50,
	"max_steps": 13947,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 5.688174665250246e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}